الخندق الحقيقي للتعلم الآلي

عندما نتحدث عن المنافسة في مجال الذكاء الاصطناعي، فإننا نركز عادةً على بنية النموذج، وحجم المعلمات، واستثمار قوة الحوسبة. لكن هذه ليست الحواجز الحقيقية.

يمكن نسخ الخوارزميات. يمكن استئجار قوة الحوسبة. ولكن ماذا عن خطوط أنابيب البيانات الواقعية الحصرية؟ هذا هو الخندق الحقيقي.

المراحل الثلاث للمنافسة في التعلم الآلي

على مدى العقد الماضي، شهد تركيز المنافسة في التعلم الآلي ثلاثة تحولات:

المرحلة الأولى: المنافسة على الخوارزميات (2012-2017)

من لديه بنية نموذج أفضل
حصل مخترعو CNN و RNN و Transformer على ميزة
ولكن بعد نشر الأوراق، يمكن للجميع استخدامها

المرحلة الثانية: المنافسة على قوة الحوسبة (2017-2022)

من لديه المزيد من وحدات معالجة الرسومات GPU
يتطلب تدريب GPT-3 أكثر من 1000 وحدة V100
لكن الخدمات السحابية جعلت قوة الحوسبة سلعة قابلة للشراء

المرحلة الثالثة: المنافسة على البيانات (2022-حتى الآن)

من لديه دولاب بيانات فريد
لا يمكن للبيانات الاصطناعية أن تحل محل بيانات العالم الحقيقي
هذا هو الحاجز غير القابل للتكرار

لماذا البيانات هي الخندق الأخير؟

ثلاثة أسباب:

الندرة: البيانات الحقيقية عالية الجودة والمصنفة جيدًا نادرة بطبيعتها
عدم القابلية للتداول: حتى لو كنت على استعداد للدفع، لا يمكنك شراء خط أنابيب بيانات المنافس
تأثير الفائدة المركبة: بيانات أفضل ← منتجات أفضل ← المزيد من المستخدمين ← المزيد من البيانات

كتب أحد ممارسي التعلم الآلي على X:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

هذا يلتقط جوهر المشكلة. عندما ترى OpenAI توقع اتفاقيات حصرية مع الناشرين، وتنفق Google مليارات لشراء الوصول إلى بيانات Reddit، فإنهم لا يشترون المحتوى - إنهم يشترون خندقًا لبيانات التدريب.

رسم تخطيطي لخط أنابيب البيانات

عودة مفاضلة التحيز والتباين

من المثير للاهتمام أنه عندما نناقش جودة البيانات، فإن المفهوم الأكثر كلاسيكية في التعلم الآلي يعود: مفاضلة التحيز والتباين.

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

في عصر LLM، اعتقدنا ذات مرة أن هذا المفهوم قد عفا عليه الزمن. ولكن اتضح أن جوهر مشكلة جودة البيانات لا يزال توازنًا بين التحيز والتباين - فالبيانات غير المرغوب فيها تولد تحيزًا، والبيانات المتجانسة تؤدي إلى التباين.

تحول في المنظور الرياضي

هناك اتجاه آخر جدير بالملاحظة وهو: أن فهم الأسس الرياضية للتعلم الآلي يتعمق.

أشار أحد الباحثين إلى:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

هذا التحول في المنظور - من "شبكة أرقام" إلى "هيكل رسم بياني" - يكشف عن ترقية معرفية يمر بها التعلم الآلي. عندما يفهم المزيد والمزيد من الناس كيف تدعم الجبر الخطي ونظرية الاحتمالات ونظرية التحسين هذه "السحر"، سينتقل الصناعة من عبادة الصندوق الأسود إلى فهم الصندوق الأبيض.

مشكلة التكلفة البيئية

لا يمكن تجاهل أن ازدهار التعلم الآلي مصحوب بتكلفة بيئية حقيقية:

74٪ من تصريحات شركات التكنولوجيا "الذكاء الاصطناعي يساعد المناخ" تفتقر إلى الأدلة
زادت انبعاثات Google بنسبة 48٪ في الفترة من 2019 إلى 2023
زادت انبعاثات Microsoft بنسبة 29٪ منذ عام 2020

تأتي هذه الأرقام من توسع مراكز البيانات، والمحرك وراء توسع مراكز البيانات هو تدريب واستدلال التعلم الآلي. هذا ليس منحنى يمكن استقراءه إلى أجل غير مسمى.

الإلهام للممارسين

إذا كنت تدخل مجال التعلم الآلي، فهناك ثلاثة اتجاهات جديرة بالملاحظة:

هندسة البيانات: يصعب استبدالها أكثر من بنية النموذج
المعرفة بالمجال: معرفة البيانات ذات القيمة أهم من معرفة كيفية التدريب
التفكير المنهجي: التعلم الآلي ليس نموذجًا معزولًا، ولكنه حلقة مغلقة من البيانات - النموذج - المنتج - المستخدم

كما قال أحدهم: أن تصبح آلة تعلم بحد ذاتها هي أهم مهارة أساسية في الحياة.

ولكن القول الأكثر دقة هو: أن تصبح آلة تعلم تفهم البيانات هو القدرة التنافسية الحقيقية في هذا العصر.