ปราการที่แท้จริงของการเรียนรู้ของเครื่อง
เมื่อเราพูดถึงการแข่งขันด้าน AI มักจะมุ่งเน้นไปที่สถาปัตยกรรมของโมเดล ขนาดของพารามิเตอร์ และการลงทุนด้านพลังประมวลผล แต่สิ่งเหล่านี้ไม่ใช่กำแพงที่แท้จริง
อัลกอริทึมสามารถทำซ้ำได้ พลังประมวลผลสามารถเช่าได้ แต่ไปป์ไลน์ข้อมูลโลกแห่งความเป็นจริงที่เป็นกรรมสิทธิ์ล่ะ นั่นคือปราการ
สามขั้นตอนของการแข่งขัน ML
ในช่วงทศวรรษที่ผ่านมา จุดสนใจของการแข่งขันด้านการเรียนรู้ของเครื่องได้เปลี่ยนไปสามครั้ง:
ขั้นตอนที่ 1: การแข่งขันด้านอัลกอริทึม (2012-2017)
- ใครมีสถาปัตยกรรมโมเดลที่ดีกว่า
- ผู้คิดค้น CNN, RNN, Transformer ได้เปรียบ
- แต่หลังจากตีพิมพ์บทความแล้ว ทุกคนก็สามารถใช้ได้
ขั้นตอนที่ 2: การแข่งขันด้านพลังประมวลผล (2017-2022)
- ใครมี GPU มากกว่า
- การฝึก GPT-3 ต้องใช้ V100 มากกว่า 1,000 ตัว
- แต่บริการคลาวด์ทำให้พลังประมวลผลกลายเป็นสินค้าที่ซื้อได้
ขั้นตอนที่ 3: การแข่งขันด้านข้อมูล (2022-ปัจจุบัน)
- ใครมีวงจรข้อมูลที่ไม่เหมือนใคร
- ข้อมูลสังเคราะห์ไม่สามารถทดแทนข้อมูลโลกแห่งความเป็นจริงได้
- นี่คือปราการที่ไม่สามารถทำซ้ำได้
ทำไมข้อมูลถึงเป็นปราการสุดท้าย
สามเหตุผล:
- ความหายาก: ข้อมูลจริงที่มีคุณภาพสูงและมีป้ายกำกับที่ดีนั้นหายากโดยธรรมชาติ
- ไม่สามารถซื้อขายได้: แม้ว่าคุณจะเต็มใจจ่ายเงิน คุณก็ไม่สามารถซื้อไปป์ไลน์ข้อมูลของคู่แข่งได้
- ผลตอบแทนทบต้น: ข้อมูลที่ดีกว่า → ผลิตภัณฑ์ที่ดีกว่า → ผู้ใช้มากขึ้น → ข้อมูลมากขึ้น
ผู้ปฏิบัติงาน ML คนหนึ่งเขียนบน X ว่า:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
สิ่งนี้จับประเด็นสำคัญได้ เมื่อคุณเห็น OpenAI ลงนามในข้อตกลงพิเศษกับผู้เผยแพร่ และ Google ใช้เงินหลายพันล้านเพื่อซื้อสิทธิ์เข้าถึงข้อมูล Reddit สิ่งที่พวกเขาซื้อไม่ใช่เนื้อหา แต่เป็นปราการของข้อมูลการฝึกอบรม

การกลับมาของการแลกเปลี่ยนอคติ-ความแปรปรวน
สิ่งที่น่าสนใจคือ เมื่อเราพูดถึงคุณภาพของข้อมูล แนวคิดที่คลาสสิกที่สุดของการเรียนรู้ของเครื่องกำลังกลับมา: การแลกเปลี่ยนอคติ-ความแปรปรวน
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
ในยุคของ LLM เราเคยคิดว่าแนวคิดนี้ล้าสมัยไปแล้ว แต่ปรากฎว่าสาระสำคัญของปัญหาคุณภาพข้อมูลยังคงเป็นการรักษาสมดุลระหว่างอคติและความแปรปรวน ขยะข้อมูลสร้างอคติ และข้อมูลที่เป็นเนื้อเดียวกันนำไปสู่ความแปรปรวน
การเปลี่ยนแปลงมุมมองทางคณิตศาสตร์
อีกแนวโน้มที่ควรให้ความสนใจคือ ความเข้าใจในพื้นฐานทางคณิตศาสตร์ของ ML กำลังลึกซึ้งยิ่งขึ้น
นักวิจัยคนหนึ่งชี้ให้เห็นว่า:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
การเปลี่ยนมุมมองนี้ จาก "ตารางตัวเลข" เป็น "โครงสร้างกราฟ" เผยให้เห็นถึงการอัปเกรดทางปัญญาที่ ML กำลังประสบ เมื่อผู้คนจำนวนมากขึ้นเข้าใจว่าพีชคณิตเชิงเส้น ทฤษฎีความน่าจะเป็น และทฤษฎีการเพิ่มประสิทธิภาพสนับสนุน "เวทมนตร์" เหล่านี้อย่างไร อุตสาหกรรมจะเปลี่ยนจากการบูชา Black Box ไปสู่ความเข้าใจ White Box
ปัญหาต้นทุนด้านสิ่งแวดล้อม
สิ่งที่ละเลยไม่ได้คือ ความเจริญรุ่งเรืองของ ML มาพร้อมกับต้นทุนด้านสิ่งแวดล้อมที่แท้จริง:
- 74% ของคำกล่าวอ้าง "AI ช่วยเหลือสภาพอากาศ" ของบริษัทเทคโนโลยีขาดหลักฐาน
- การปล่อยมลพิษของ Google เพิ่มขึ้น 48% ในปี 2019-2023
- การปล่อยมลพิษของ Microsoft เพิ่มขึ้น 29% ตั้งแต่ปี 2020
ตัวเลขเหล่านี้มาจากการขยายศูนย์ข้อมูล และแรงผลักดันในการขยายศูนย์ข้อมูลคือการฝึกอบรมและการอนุมาน ML นี่ไม่ใช่เส้นโค้งที่คุณสามารถคาดการณ์ได้อย่างไม่สิ้นสุด
ข้อคิดสำหรับผู้ปฏิบัติงาน
หากคุณกำลังเข้าสู่สาขา ML มีสามทิศทางที่ควรให้ความสนใจ:
- วิศวกรรมข้อมูล: แทนที่ได้ยากกว่าสถาปัตยกรรมโมเดล
- ความรู้เฉพาะทาง: การรู้ว่าข้อมูลใดมีค่า สำคัญกว่าการรู้วิธีการฝึกอบรม
- การคิดเชิงระบบ: ML ไม่ใช่โมเดลที่โดดเดี่ยว แต่เป็นวงจรปิดของข้อมูล-โมเดล-ผลิตภัณฑ์-ผู้ใช้
ดังที่ใครบางคนกล่าวไว้ การเป็นเครื่องจักรแห่งการเรียนรู้ด้วยตัวคุณเองคือทักษะ Meta ที่สำคัญที่สุดในชีวิต
แต่สิ่งที่ถูกต้องกว่าคือ การเป็นเครื่องจักรแห่งการเรียนรู้ที่เข้าใจข้อมูล คือความสามารถในการแข่งขันที่แท้จริงในยุคนี้





