ปราการที่แท้จริงของการเรียนรู้ของเครื่อง

เมื่อเราพูดถึงการแข่งขันด้าน AI มักจะมุ่งเน้นไปที่สถาปัตยกรรมของโมเดล ขนาดของพารามิเตอร์ และการลงทุนด้านพลังประมวลผล แต่สิ่งเหล่านี้ไม่ใช่กำแพงที่แท้จริง

อัลกอริทึมสามารถทำซ้ำได้ พลังประมวลผลสามารถเช่าได้ แต่ไปป์ไลน์ข้อมูลโลกแห่งความเป็นจริงที่เป็นกรรมสิทธิ์ล่ะ นั่นคือปราการ

สามขั้นตอนของการแข่งขัน ML

ในช่วงทศวรรษที่ผ่านมา จุดสนใจของการแข่งขันด้านการเรียนรู้ของเครื่องได้เปลี่ยนไปสามครั้ง:

ขั้นตอนที่ 1: การแข่งขันด้านอัลกอริทึม (2012-2017)

ใครมีสถาปัตยกรรมโมเดลที่ดีกว่า
ผู้คิดค้น CNN, RNN, Transformer ได้เปรียบ
แต่หลังจากตีพิมพ์บทความแล้ว ทุกคนก็สามารถใช้ได้

ขั้นตอนที่ 2: การแข่งขันด้านพลังประมวลผล (2017-2022)

ใครมี GPU มากกว่า
การฝึก GPT-3 ต้องใช้ V100 มากกว่า 1,000 ตัว
แต่บริการคลาวด์ทำให้พลังประมวลผลกลายเป็นสินค้าที่ซื้อได้

ขั้นตอนที่ 3: การแข่งขันด้านข้อมูล (2022-ปัจจุบัน)

ใครมีวงจรข้อมูลที่ไม่เหมือนใคร
ข้อมูลสังเคราะห์ไม่สามารถทดแทนข้อมูลโลกแห่งความเป็นจริงได้
นี่คือปราการที่ไม่สามารถทำซ้ำได้

ทำไมข้อมูลถึงเป็นปราการสุดท้าย

สามเหตุผล:

ความหายาก: ข้อมูลจริงที่มีคุณภาพสูงและมีป้ายกำกับที่ดีนั้นหายากโดยธรรมชาติ
ไม่สามารถซื้อขายได้: แม้ว่าคุณจะเต็มใจจ่ายเงิน คุณก็ไม่สามารถซื้อไปป์ไลน์ข้อมูลของคู่แข่งได้
ผลตอบแทนทบต้น: ข้อมูลที่ดีกว่า → ผลิตภัณฑ์ที่ดีกว่า → ผู้ใช้มากขึ้น → ข้อมูลมากขึ้น

ผู้ปฏิบัติงาน ML คนหนึ่งเขียนบน X ว่า:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

สิ่งนี้จับประเด็นสำคัญได้ เมื่อคุณเห็น OpenAI ลงนามในข้อตกลงพิเศษกับผู้เผยแพร่ และ Google ใช้เงินหลายพันล้านเพื่อซื้อสิทธิ์เข้าถึงข้อมูล Reddit สิ่งที่พวกเขาซื้อไม่ใช่เนื้อหา แต่เป็นปราการของข้อมูลการฝึกอบรม

แผนภาพไปป์ไลน์ข้อมูล

การกลับมาของการแลกเปลี่ยนอคติ-ความแปรปรวน

สิ่งที่น่าสนใจคือ เมื่อเราพูดถึงคุณภาพของข้อมูล แนวคิดที่คลาสสิกที่สุดของการเรียนรู้ของเครื่องกำลังกลับมา: การแลกเปลี่ยนอคติ-ความแปรปรวน

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

ในยุคของ LLM เราเคยคิดว่าแนวคิดนี้ล้าสมัยไปแล้ว แต่ปรากฎว่าสาระสำคัญของปัญหาคุณภาพข้อมูลยังคงเป็นการรักษาสมดุลระหว่างอคติและความแปรปรวน ขยะข้อมูลสร้างอคติ และข้อมูลที่เป็นเนื้อเดียวกันนำไปสู่ความแปรปรวน

การเปลี่ยนแปลงมุมมองทางคณิตศาสตร์

อีกแนวโน้มที่ควรให้ความสนใจคือ ความเข้าใจในพื้นฐานทางคณิตศาสตร์ของ ML กำลังลึกซึ้งยิ่งขึ้น

นักวิจัยคนหนึ่งชี้ให้เห็นว่า:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

การเปลี่ยนมุมมองนี้ จาก "ตารางตัวเลข" เป็น "โครงสร้างกราฟ" เผยให้เห็นถึงการอัปเกรดทางปัญญาที่ ML กำลังประสบ เมื่อผู้คนจำนวนมากขึ้นเข้าใจว่าพีชคณิตเชิงเส้น ทฤษฎีความน่าจะเป็น และทฤษฎีการเพิ่มประสิทธิภาพสนับสนุน "เวทมนตร์" เหล่านี้อย่างไร อุตสาหกรรมจะเปลี่ยนจากการบูชา Black Box ไปสู่ความเข้าใจ White Box

ปัญหาต้นทุนด้านสิ่งแวดล้อม

สิ่งที่ละเลยไม่ได้คือ ความเจริญรุ่งเรืองของ ML มาพร้อมกับต้นทุนด้านสิ่งแวดล้อมที่แท้จริง:

74% ของคำกล่าวอ้าง "AI ช่วยเหลือสภาพอากาศ" ของบริษัทเทคโนโลยีขาดหลักฐาน
การปล่อยมลพิษของ Google เพิ่มขึ้น 48% ในปี 2019-2023
การปล่อยมลพิษของ Microsoft เพิ่มขึ้น 29% ตั้งแต่ปี 2020

ตัวเลขเหล่านี้มาจากการขยายศูนย์ข้อมูล และแรงผลักดันในการขยายศูนย์ข้อมูลคือการฝึกอบรมและการอนุมาน ML นี่ไม่ใช่เส้นโค้งที่คุณสามารถคาดการณ์ได้อย่างไม่สิ้นสุด

ข้อคิดสำหรับผู้ปฏิบัติงาน

หากคุณกำลังเข้าสู่สาขา ML มีสามทิศทางที่ควรให้ความสนใจ:

วิศวกรรมข้อมูล: แทนที่ได้ยากกว่าสถาปัตยกรรมโมเดล
ความรู้เฉพาะทาง: การรู้ว่าข้อมูลใดมีค่า สำคัญกว่าการรู้วิธีการฝึกอบรม
การคิดเชิงระบบ: ML ไม่ใช่โมเดลที่โดดเดี่ยว แต่เป็นวงจรปิดของข้อมูล-โมเดล-ผลิตภัณฑ์-ผู้ใช้

ดังที่ใครบางคนกล่าวไว้ การเป็นเครื่องจักรแห่งการเรียนรู้ด้วยตัวคุณเองคือทักษะ Meta ที่สำคัญที่สุดในชีวิต

แต่สิ่งที่ถูกต้องกว่าคือ การเป็นเครื่องจักรแห่งการเรียนรู้ที่เข้าใจข้อมูล คือความสามารถในการแข่งขันที่แท้จริงในยุคนี้