Ang Tunay na Moat ng Machine Learning
Kapag pinag-uusapan natin ang tungkol sa kompetisyon sa AI, karaniwang nakatuon tayo sa arkitektura ng modelo, laki ng parameter, at pamumuhunan sa computing power. Ngunit hindi ito ang tunay na mga hadlang.\n\nAng mga algorithm ay maaaring kopyahin. Ang computing power ay maaaring upahan. Ngunit ang mga proprietary na real-world data pipeline? Iyon ang moat.\n\n## Tatlong Yugto ng Kompetisyon sa ML\n\nSa nakalipas na dekada, ang pokus ng kompetisyon sa machine learning ay dumaan sa tatlong paglipat:\n\nUnang Yugto: Kompetisyon sa Algorithm (2012-2017)\n- Sino ang may mas mahusay na arkitektura ng modelo\n- Ang mga imbentor ng CNN, RNN, at Transformer ay nagkaroon ng kalamangan\n- Ngunit pagkatapos mailathala ang mga papel, lahat ay maaaring gumamit nito\n\nPangalawang Yugto: Kompetisyon sa Computing Power (2017-2022)\n- Sino ang may mas maraming GPU\n- Ang pagsasanay sa GPT-3 ay nangangailangan ng 1000+ V100\n- Ngunit ginawang nabibiling produkto ng cloud services ang computing power\n\nPangatlong Yugto: Kompetisyon sa Data (2022-Kasalukuyan)\n- Sino ang may natatanging data flywheel\n- Hindi mapapalitan ng synthetic data ang real-world data\n- Ito ang hindi makokopyang hadlang\n\n## Bakit ang Data ang Huling Moat?\n\nTatlong dahilan:\n\n1. Kakulangan: Ang mataas na kalidad, mahusay na na-annotate na tunay na data ay likas na kulang\n2. Hindi Nabibili: Kahit na handa kang magbayad, hindi mo maaaring bilhin ang data pipeline ng iyong katunggali\n3. Compound Effect: Mas mahusay na data → Mas mahusay na produkto → Mas maraming user → Mas maraming data\n\nIsang ML practitioner ang sumulat sa X:\n\n> \





