இயந்திர கற்றலின் உண்மையான பாதுகாப்பு அரண்
நாம் AI போட்டி பற்றி பேசும்போது, பொதுவாக மாதிரி கட்டமைப்பு, அளவுரு அளவு, கணக்கீட்டு சக்தி உள்ளீடு ஆகியவற்றில் கவனம் செலுத்துகிறோம். ஆனால் இவை உண்மையான தடைகள் அல்ல.
அல்காரிதம்களை நகலெடுக்க முடியும். கணக்கீட்டு சக்தியை வாடகைக்கு எடுக்கலாம். ஆனால் தனியுரிம நிஜ உலக தரவு குழாய்கள்? அதுதான் பாதுகாப்பு அரண்.
ML போட்டியின் மூன்று நிலைகள்
கடந்த பத்து ஆண்டுகளில், இயந்திர கற்றல் போட்டியின் கவனம் மூன்று முறை மாறியுள்ளது:
முதல் நிலை: அல்காரிதம் போட்டி (2012-2017)
- சிறந்த மாதிரி கட்டமைப்பு யாருக்கு உள்ளது
- CNN, RNN, Transformer ஐ கண்டுபிடித்தவர்கள் நன்மை பெறுகிறார்கள்
- ஆனால் ஆய்வறிக்கை வெளியிடப்பட்ட பிறகு, அனைவரும் பயன்படுத்தலாம்
இரண்டாம் நிலை: கணக்கீட்டு சக்தி போட்டி (2017-2022)
- அதிக GPU யாருக்கு உள்ளது
- GPT-3 ஐ பயிற்றுவிக்க 1000+ V100 தேவை
- ஆனால் கிளவுட் சேவைகள் கணக்கீட்டு சக்தியை வாங்கக்கூடிய பொருளாக ஆக்குகின்றன
மூன்றாம் நிலை: தரவு போட்டி (2022-இப்போது)
- தனித்துவமான தரவு சக்கரம் யாருக்கு உள்ளது
- செயற்கை தரவு நிஜ உலக தரவுக்கு மாற்றாக இருக்க முடியாது
- இதுவே நகலெடுக்க முடியாத தடை
தரவு ஏன் கடைசி பாதுகாப்பு அரண்?
மூன்று காரணங்கள்:
- பற்றாக்குறை: உயர்தர, நன்கு லேபிளிடப்பட்ட உண்மையான தரவு இயற்கையாகவே பற்றாக்குறையானது
- வர்த்தகம் செய்ய முடியாதது: பணம் கொடுக்க தயாராக இருந்தாலும், போட்டியாளரின் தரவு குழாய்களை வாங்க முடியாது
- கூட்டு விளைவு: சிறந்த தரவு → சிறந்த தயாரிப்பு → அதிக பயனர்கள் → அதிக தரவு
X இல் ஒரு ML பயிற்சியாளர் எழுதியது:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
இது பிரச்சினையின் சாரத்தை பிடித்துள்ளது. OpenAI வெளியீட்டாளர்களுடன் பிரத்யேக ஒப்பந்தங்களில் கையெழுத்திடுவதையும், Google Reddit தரவு அணுகலுக்கு பில்லியன் கணக்கில் செலவிடுவதையும் நீங்கள் பார்க்கும்போது, அவர்கள் உள்ளடக்கத்தை வாங்கவில்லை - அவர்கள் பயிற்சி தரவுக்கான பாதுகாப்பு அரணை வாங்குகிறார்கள்.

சார்பு-மாறுபாடு சமரசத்தின் பின்னடைவு
சுவாரஸ்யமாக, தரவு தரத்தைப் பற்றி நாம் பேசும்போது, இயந்திர கற்றலின் மிகவும் உன்னதமான கருத்துக்கள் திரும்புகின்றன: சார்பு-மாறுபாடு சமரசம்.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
LLM சகாப்தத்தில், இந்த கருத்து காலாவதியானது என்று நாங்கள் ஒருமுறை நினைத்தோம். ஆனால் தரவு தர சிக்கல்களின் சாரம் இன்னும் சார்பு மற்றும் மாறுபாட்டின் சமநிலை என்பதை நிரூபிக்கிறது - குப்பை தரவு சார்பை உருவாக்குகிறது, ஒரே மாதிரியான தரவு மாறுபாட்டை ஏற்படுத்துகிறது.
கணித கண்ணோட்டத்தின் மாற்றம்
கவனிக்க வேண்டிய மற்றொரு போக்கு என்னவென்றால்: ML கணித அடிப்படைகளின் புரிதல் ஆழமடைந்து வருகிறது.
ஒரு ஆராய்ச்சியாளர் சுட்டிக்காட்டினார்:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
இந்த கண்ணோட்ட மாற்றம் - "எண் கட்டத்திலிருந்து" "வரைபட அமைப்புக்கு" - ML அறிவாற்றல் மேம்பாட்டை அனுபவித்து வருவதை வெளிப்படுத்துகிறது. நேரியல் இயற்கணிதம், நிகழ்தகவு கோட்பாடு, தேர்வுமுறை கோட்பாடு ஆகியவை இந்த "மாயாஜாலத்தை" எவ்வாறு ஆதரிக்கின்றன என்பதை அதிகமான மக்கள் புரிந்துகொள்ளும்போது, தொழில் கருப்பு பெட்டி வழிபாட்டிலிருந்து வெள்ளை பெட்டி புரிதலுக்கு மாறும்.
சுற்றுச்சூழல் செலவு பிரச்சினை
ML இன் செழிப்பு உண்மையான சுற்றுச்சூழல் விலையுடன் வருகிறது என்பதை புறக்கணிக்க முடியாது:
- 74% தொழில்நுட்ப நிறுவனங்களின் "AI காலநிலை உதவி" அறிக்கைகளில் ஆதாரம் இல்லை
- Google உமிழ்வு 2019-2023 இல் 48% அதிகரித்துள்ளது
- Microsoft உமிழ்வு 2020 முதல் 29% அதிகரித்துள்ளது
இந்த எண்கள் தரவு மைய விரிவாக்கத்திலிருந்து வருகின்றன, மேலும் தரவு மைய விரிவாக்கத்தின் உந்து சக்தி ML பயிற்சி மற்றும் அனுமானம் ஆகும். இது வரம்பற்ற முறையில் நீட்டிக்கக்கூடிய வளைவு அல்ல.
பயிற்சியாளர்களுக்கான உத்வேகம்
நீங்கள் ML துறையில் நுழைகிறீர்கள் என்றால், கவனம் செலுத்த மூன்று திசைகள் உள்ளன:
- தரவு பொறியியல்: மாதிரி கட்டமைப்பை விட மாற்றீடு செய்வது கடினம்
- கள அறிவு: எந்த தரவு மதிப்புமிக்கது என்பதை அறிவது, எவ்வாறு பயிற்சி செய்வது என்பதை அறிவதை விட முக்கியமானது
- அமைப்பு சிந்தனை: ML ஒரு தனிமைப்படுத்தப்பட்ட மாதிரி அல்ல, ஆனால் தரவு-மாதிரி-தயாரிப்பு-பயனரின் மூடிய வளையம்
யாரோ சொன்னது போல்: கற்றல் இயந்திரமாக மாறுவது வாழ்க்கையின் மிக முக்கியமான மெட்டா திறன்.
ஆனால் மிகவும் துல்லியமான கூற்று என்னவென்றால்: தரவைப் புரிந்துகொள்ளும் கற்றல் இயந்திரமாக மாறுவதுதான் இந்த சகாப்தத்தின் உண்மையான போட்டித்தன்மை.





