LLM हे पुढील JPEG आहे
मला एक गोष्ट सांगू द्या.
१९९० च्या दशकात, जर तुम्हाला कोणाला फोटो पाठवायचा असेल, तर तुम्हाला बर्याच गोष्टींचा विचार करावा लागत होता: फाइल फॉरमॅट, कॉम्प्रेशन अल्गोरिदम, कलर डेप्थ. प्रत्येक सॉफ्टवेअरचे स्वतःचे फॉरमॅट होते. मग JPEG आले.
अचानक, कोणालाही इमेज फॉरमॅटची पर्वा नव्हती. JPEG पायाभूत सुविधा बनले. तुम्ही असे म्हणणार नाही की 'मी JPEG वापरून एक चित्र बनवले', तुम्ही फक्त म्हणता 'मी एक चित्र पाठवले'.
LLM त्याच मार्गावर आहे.
जेव्हा तंत्रज्ञान हवा बनते
"LLM ही एक वस्तू आहे. ॲपल LLM कंपन्यांकडून टोकन खरेदी करण्यास उत्सुक आहे, पण ॲपल हे वेगळे उत्पादन विकणारी कंपनी आहे." — @deuteronormative
हे वाक्य स्पष्टपणे बोलले आहे. जर तुम्ही ॲपल असाल, तर तुम्ही स्वतः वीज निर्माण करणार नाही, तुम्ही ग्रीडमधून वीज खरेदी कराल. तुम्ही स्वतः टायर बनवणार नाही, तुम्ही मिशेलिनकडून टायर खरेदी कराल. आता, तुम्ही स्वतः LLM ला प्रशिक्षण देणार नाही, तुम्ही क्लाउडमधून टोकन खरेदी कराल.
याचा अर्थ असा नाही की LLM महत्त्वाचे नाही. वीज महत्त्वाची आहे. टायर महत्त्वाचे आहेत. पण त्या पायाभूत सुविधा आहेत, वेगळेपण दाखवणारे घटक नाहीत.
किंमत युद्धाचा विजेता
अलीबाबाने नुकतेच Qwen 3.5 जारी केले:
- ३९७० अब्ज पॅरामीटर्स, १७ अब्ज ॲक्टिव्हेशन
- Qwen 3 पेक्षा ६०% स्वस्त
- ८ पट वेगवान
- टोकनची किंमत Gemini 3 Pro च्या १/१८ आहे
हे तांत्रिक यश नाही, ही किंमत युद्ध आहे. पूर्वी LCD टीव्हीच्या किमतीही अशाच कमी झाल्या होत्या. १००० डॉलरच्या खाली किंमत आणणारी पहिली कंपनी तांत्रिकदृष्ट्या सर्वोत्तम नव्हती, पण ती विजेता ठरली.
उपयुक्ततावादी सल्ला
जर तुम्ही डेव्हलपर असाल, तर याचा अर्थ काय आहे?
-
स्वतः मॉडेलला प्रशिक्षण देऊ नका. जोपर्यंत तुम्ही OpenAI, Anthropic किंवा Alibaba नाही, तोपर्यंत मॉडेलला प्रशिक्षण देणे म्हणजे पैसे जाळणे आहे. API वापरा.
-
पॅरामीटर्सऐवजी किमतीवर लक्ष केंद्रित करा. ३९७० अब्ज पॅरामीटर्स ऐकायला छान वाटतात, पण तुमच्या युजर्सना त्याची पर्वा नाही. त्यांना प्रतिसाद गती आणि खर्चाची काळजी आहे.
-
स्थलांतर करण्यासाठी सज्ज राहा. LLM ही एक वस्तू आहे, याचा अर्थ ती बदलण्यायोग्य आहे. आज GPT वापरा, उद्या Claude वापरा, परवा Qwen वापरा. तुमच्या आर्किटेक्चरमध्ये हे बदलण्याची सोय असायला हवी.
मनोरंजक विरोधाभास
ज्यांना LLM बद्दल जास्त माहिती आहे, ते त्याबद्दल कमी बोलतात.
"Andrej Karpathy यांनी २४० ओळींच्या साध्या पायथनमध्ये मिनी GPT लिहिले. TensorFlow नाही. PyTorch नाही. फक्त गणित आहे. हे दर्शवते की LLM जादू नाही - ते फक्त पुढील टोकनचा अंदाज आहेत."</n जेव्हा तुम्हाला समजते की 'पुढील टोकनचा अंदाज' हेच या तंत्रज्ञानाचे सार आहे, तेव्हा बऱ्याच गप्पा शांत होतात. हे कमी लेखणे नाही. मायक्रोवेव्ह फक्त पाण्याचे रेणू गरम करतो, पण त्याने स्वयंपाकघर बदलले.
पुढील पाऊल
LLM हे JPEG सारखे काहीतरी बनेल: सर्वत्र, ज्याबद्दल कोणी बोलत नाही, पण ते आवश्यक आहे.
तोपर्यंत, हुशार लोक किंमत युद्धात सर्वात स्वस्त पुरवठादार निवडतील. कारण जेव्हा तंत्रज्ञान वस्तू बनते, तेव्हा फक्त खर्च महत्त्वाचा असतो.





