內容目錄
Toggle前言
OpenAI 透過 ChatGPT 掀起生成式 AI 革命,Waymo 利用自動駕駛技術遍佈北美街頭,NVIDIA 因其 GPU 圖像處理技術一度成為市值第二大公司 …….
這些公司除了使用大量 AI 以外,還有一個共同點,就是都與新創公司 Scale AI 合作訓練 AI 。
其實,無論是哪個產業,每間成功的 AI 公司背後,都有一群人替它們完成無趣但又不可或缺的訓練任務-資料標記(data labeling)。
而美國新創獨角獸Scale AI,就是其中翹楚。
19 歲時就輟學成立 Scale AI,Alexandr 説,Scale AI 提供資料標記服務,就像在這股生成式 AI 淘金熱中賣鏟子(這個描述有沒有似曾相識呢😆)。
在許多 AI 新創公司還沒有賺到一毛錢時,Scale AI 去年營收已達 2.5 億美元,估值達到73億美元,客戶從 OpenAI , Tesla 到美國空軍、陸軍、中央情報局等多個領域。
那麼資料標記究竟是什麼?為何可以那麼賺錢?Scale AI 是如何在競爭激烈的 AI 領域找到自己的利基 (niche)市場,順利長成獨角獸呢?
今天就來跟大家分享 Scale AI 的故事!
如果你只有1分鐘,可以帶走的 3 Takeaways
- AI 世代下,數據帶來的成長動能:
不斷進步的人工智慧除了需要好的模型與算力,資料與數據的精確度常常是被忽略但極為重要的一環。Scale AI 就是在幫助其他公司標記、處理大量資料,讓餵進 AI 模型的數據品質更高。
- Scale AI 的產品與市場:
Scale AI 的產品面向 AI 三個層級提供服務,分別為:資料層級,提供 AI 模型所需的訓練數據;模型層級,利用數據來訓練和優化 AI 模型;應用程式層級,將訓練好的 AI 模型應用到具體的業務場景中,解決實際問題。同時客戶也遍佈 OpenAI、NVIDIA、Waymo 等科技巨頭到美國政府等。
- Scale AI 的挑戰與風險:
Scale AI 雖然牢牢抓住數據標記的風口,但高度依賴低薪勞工進行資料標記,引發血汗勞工爭議仍然是待解決的問題。同時,隨著更多科技公司自建數據標記環境和人工智慧的進步,未來可能會減少對人工標記的需求,這些都對 Scale AI 的發展構成威脅。
創立背景
Scale AI 的起源可以從一個 「誰偷吃了優格」的故事說起。
抓出優格賊
2016 年,創辦人 Alexandr Wang 懷疑他在 MIT 的一位大學室友偷了他的優格,但又不想冤枉無辜,所以想打造一個「智慧冰箱攝影機」來抓小偷。
他當時參考了 Google TensorFlow (一個開源的機器學習平台)的教學,來學習怎麼製作這種相機。
剛開始,他幾乎直接把 Google TensorFlow 上訓練影像辨識的程式碼全部複製下來,但他面臨一個最大的問題:
電腦的學習能力已經很強沒錯,但還需要大量已標記好的食物照片來訓練電腦辨識。
沒有這些照片,電腦再聰明都還是不知道食物長怎樣,更無法幫 Alexandr 抓出到底是誰偷吃他的優格。
當時,他只能手動標記 (labeling) 數萬張含有食物的照片:
用標記工具在每張照片中框出食物,並新增標籤,例如「蘋果」、「優格」,如此反覆操作,直到所有照片都標記完成。
在煞費苦心地標記了數萬張圖像後,Alexandr 終於訓練出一個精準的辨識模型。
在如此勞心勞力的過程 ,Alexandr 突然意識到:要讓 AI 模型變得聰明,不但需要好的程式碼,更需要大量高質量的標記數據。
抓到優格賊後:資料標記在冰箱外的廣大市場
在優格賊故事之後,實務經驗讓 Alexandr Wang 和共同創辦人 Lucy Kuo 更確信資料標記的市場商機。
創辦團隊 Alexandr Wang 和 Lucy Kuo 兩位電腦天才 20 歲時就分別在 Quora 和 Snapchat 工作。他們觀察到這兩個社群平台每天都需要審核與標記大量的圖片和貼文,標記過程非常重複且繁瑣,到後期都必須依賴外包團隊來手動完成。
他們於是發現,「資料標記」這個無趣卻極為重要的任務是有被自動化、模組化甚至商品化的潛力的。
這個 Ah-hah moment 讓他們在 2016 年創立 Scale AI,專門幫助其他公司做資料標記 (labeling) ,讓 Scale AI 的客戶只需一行程式碼就能完成標記任務。
Scale AI 解決了什麼痛點?
在分享 Scale AI 是如何加速資料標記前,先來簡單科普一下資料標記究竟是什麼。
資料標記:在 AI 旅程中無趣卻極為重要的工作
一句話解釋資料標記:幫數據貼標籤,方便機器學習模型理解這些數據。
回到一開始的比喻:
要訓練出一個會考試的學生,除了學生本身的腦袋要夠聰明,還需要內容正確的教材、題本。
正確的教材搭配好腦袋,學生就可以快速學習,答對考試中每道題。
而訓練 AI 也一樣,除了機器學習模型本身程式碼夠厲害,還需要搭配精準標記的資料來訓練。
好的學習模型搭配精準標記的資料, AI 就可以正確學習餵進來的資訊,在實際應用表現得更出色。
怎樣的公司需要資料標記?
資料標記聽起來可能很陌生,但其實無所不在,你想得到的公司天天都在用!
簡單來說任何需要依賴數據來改進產品或服務的公司,都可能需要資料標記!
這邊簡單分享 3 種常見的資料標記應用場景:
- 科技公司如 Google、Apple、Amazon:
使用資料標記來優化 Google Photos 的圖像識別能力、Apple Siri 的語音識別準確性,以及 Amazon 的個人化商品推薦系統。 - 醫療公司如 Zebra Medical Vision、GE Healthcare:
利用標記好的醫療影像訓練 AI 模型,幫助醫生更快、更準確地診斷 X 光片或 MRI 圖片,判斷可能的疾病。 - 金融公司如 JPMorgan Chase、Lemonade、Stripe:
使用資料標記偵測信用卡交易中可能的犯罪行為、評估保險申請的風險、優化電子支付系統的安全性等。
為什麼要外包給標記公司?
舉個資料標記的實際例子就可以理解了!
如果今天 GE Healthcare 要訓練一個可以辨識醫療影像的模型,會需要以下幾個步驟:
- 收集數據:GE Healthcare 收集了大量的醫療影像資料,例如 X 光片和 MRI 圖
- 資料標記:專業醫生標記這些影像為「陰性」或「陽性」,確定哪些影像顯示疾病
- 訓練模型:用大量標記好的數據訓練 AI 模型,使其學會辨識陰性和陽性的醫療影像
- 應用模型:模型應用於醫療診斷中,幫助醫生更快速地識別疾病。
Scale AI 主要參與的是「添加標籤」這個階段,幫助 GE Healthcare 快速、準確地標記大量數據。
畢竟要叫醫生犧牲看診時間,拿來標注上萬張照片是陰性還是陽性實在不太經濟。
透過 Scale AI 的幫忙,GE Healthcare 就可以用標記好的數據訓練模型,在未來面對新圖片時也能正確辨識。
看到這裡你可能會想問:
Scale AI 聽起來好像只是一間大型人力外包公司,競爭者肯定很多,那 Scale AI 到底贏在哪?為何可以年營收已達 2.5 億美元,又跟這麼多大型公司、甚至美國政府合作?
Scale AI 的核心競爭力
Scale AI 確實需要將人力外包,但 Scale AI 將資料標注任務外包給非洲和東南亞等人力成本較低的地區後,會使用各種內部開發的軟體來盡量精簡人力、加速標注流程,同時在資料標記產業鏈上進行垂直整合,提供 Total Solution。
Scale AI 的核心技術
Scale AI 能夠在競爭激烈的 AI 領域中站穩腳跟,可以歸功於有效的人機協作模式,
以下整理 4 個關鍵點:
- 自動化平台與人工結合:
通過機器學習和人工智慧技術來輔助數據標記過程,有效地分配和管理數據標記工作,減少了對人力的依賴。 - 子公司 Remotasks 管理多元化勞動力團隊:
通過眾包方式讓來自世界各地的標記員參與到數據標記工作中,在短時間內完成大量的標記任務,同時靈活應對不同語言和文化的標記需求。 - 標記品質管理系統:
Scale AI 擁有嚴格的標記品質控制系統,確保人力標記的品質和準確度。例如多重標記(多個標記員標記同一數據)和算法檢查(機器檢查標記結果),確保每一條數據都經過仔細驗證。 - 不斷迭代的標記工具,人機協作更順利:
透過技術創新和不斷改進標記工具,Scale AI 保持在資料標記技術上的領先地位,滿足市場不斷變化的需求。
通過這些方式,Scale AI 能夠高效地處理大量的數據標記需求,為包括 OpenAI、NVIDIA、Waymo 等知名公司在內的客戶提供高質量的數據標記服務。
這種結合自動化技術和全球人力資源的方式,使得 Scale AI 在競爭激烈的 AI 領域中找到了自己的利基點,並迅速成長為獨角獸企業。
但 Scale AI 估值仍不斷上升,除了提供資料標記服務,是不是也經歷了很多次公司產品線的迭代?
這時候就要提到雖然僅短短 8 年創立歷史,仍然經歷三次產品線軸轉 (pivot) 的故事。
創立時間軸
第一階段:資料處理引擎(2016-2019)
在創立初期,Scale AI 專注於建立簡單的數據處理 API,迅速成為 Lyft、Uber 和 Waymo 等自駕汽車公司的首選數據供應商。
舉例,自動駕駛汽車公司透過 Scale AI 的 API,可以輕鬆地上傳他們的道路影像數據,並使用 Scale AI 的工具來快速標記這些數據,然後用於訓練他們的自動駕駛模型。
Scale AI 在自駕領域站穩了腳跟後開始擴展服務範圍,進攻自然語言處理、電商、AR / VR 等多種應用。
第二階段:人工智慧引擎(2020-2022)
在站穩訓練資料提供者的市場地位後,Scale AI 將注意力轉向 AI 領域,把觸角伸向客戶人工智慧開發的整個生命週期。
Scale AI 開始推出完全託管的模型即服務,與客戶合作,確保他們擁有交付高效能模型 (如大型語言模型、自駕車模型、如大型語言模型、自駕車模型、生成式 AI 模型等)所需的基礎設施。
此次市場擴張讓 Scale AI 的發展不僅限於提供標記好的數據,還可以管理模型,擴大了市場機會。
第三階段:生成式 AI 和應用程式引擎(2022 年至今)
Scale AI 從 Chat GPT 開發初期就與 OpenAI 密切合作,使他們能夠以開發者視角抓住生成式 AI 浪潮的先機。
Scale AI 隨後推出了為生成式 AI 量身打造的新產品:
例如用於調整提示 (Prompt)的工具 Spellbook、幫助國防和情報專業人員做出決策的 Donovan 應用程式等。
看到這邊如果你覺得這篇文章不錯,
歡迎訂閱我的電子報【Roxanne’s Tech Talk】
我將會在上面分享更多有趣的科技科普故事喔!🥳
加入 500 人行列,一起學習最新科技新知 Subscribe Roxanne’s Tech Talk
Scale AI 產品
Scale 的產品可以按 AI 層級(應用程式/模型/資料)和類型(服務/軟體)進行細分。
白話文小教室:
AI 層級(應用程式/模型/資料) 分別代表什麼?
- 資料層級:提供 AI 模型所需的訓練數據。
- 模型層級:利用數據來訓練和優化 AI 模型。
- 應用程式層級:將訓練好的 AI 模型應用到具體的業務場景中,解決實際問題。
AI 層級 | 類型 | 產品名稱 | 產品描述 | 成功案例 |
針對資料 | 服務 | 自助資料註釋平台,幫助用戶快速上傳和標記資料。 | OpenAI | |
通過 API 啟動標記,與專業經理合作,處理大量和複雜數據。 | Waymo | |||
軟體 | 綜合性標籤平台,提高內部標記團隊效率,提供管理、監控和追蹤工具。 | Tesla | ||
機器學習資料管理工具,幫助視覺化資料、提升模型效能,進行主動學習和邊緣情況識別。 | NVIDIA | |||
針對模型 | 服務 | 幫助建立、管理和部署大型語言模型,專注於微調模型以提高特定用途的效能。 | Google | |
軟體 | 幫助團隊快速部署大型語言模型應用,創建和比較提示,進行評估。 | OpenAI | ||
全端解決方案,允許企業自訂、建置、測試和部署生成式人工智慧應用。 | Anthropic | |||
針對應用程式 | 軟體 | 幫助行銷人員和品牌創建人工智慧生成的產品圖像,用於廣告和社交媒體。 | Coca-Cola 用於廣告圖像生成 | |
支持國防和情報部門的決策,分析數據,快速識別趨勢和異常,提供摘要和翻譯功能。 | 美國國防部 |
Scale 從一開始專門做資料標記的公司,到現在提供的服務和軟體涵蓋了從數據標記和管理、模型訓練和評估,到 AI 應用開發和部署的全流程解決方案,承包更多 AI 垂直訓練過程需要用到的工具,使他們能持續屹立不搖,與競爭者做出差異化。
那這間公司如此多元的產品線,到底是面向怎樣的市場呢?
Scale AI 面對的市場
Scale AI 的市場機會可以分為兩個部分:
核心的 AI 即服務(AI-as-a-Service, AIaaS)市場,
和新興的生成式 AI 市場。
1. AI 即服務(AI-as-a-Service, AIaaS)市場
最初,Scale AI 專注於資料標記,但隨著產品線的擴張,Scale AI 逐漸發展成全面的 AI IT 服務供應商,幫助公司建立模型。
(如同前面提到的,從數據延伸到模型,再延伸到終端應用程式)
根據研究, 2023 年 AI 即服務(AI-as-a-Service, AIaaS) 市場價值已達到 270 億美元,增長率超過 20%。
根據投資研究平台 Tegus,一位投資人表示:
「你知道我為什麼喜歡 Scale AI嗎?因為它讓我只需與一家公司合作,而不需要分別和 15 間公司合作。Scale AI 整合了許多功能,包括資料標記、數據管理與合成數據等。其他公司只專注單一功能,而 Scale AI則涵蓋了所有功能,使得合作外包更加方便和高效。」
2. 生成式 AI 市場
隨著生成式 AI 的興起,Scale AI 的市場機會也大幅增加。
Scale AI 一直是科技巨頭在訓練自家 AI 時的首選資料標記合作夥伴。
如OpenAI 開發 GPT-4 和 DALL-E、Google DeepMind 開發 Gemini 、Amazon Web Services (AWS) 開發 Claude 時,Scale AI 都曾幫助這些公司建立客製化的生成式 AI 人工智慧模型。預計到 2027 年前,生成式 AI 市場將年年翻倍,達到 550 億美元。
看完 Scale AI 潛在市場的成長潛力,應該不難猜到近期亮眼的募資成果!
Scale AI 營運現況
根據熱騰騰的新聞, Alexandr 在 5/21 宣布 Scale AI 在 F 輪融資中籌集了 10 億美元,估值達 138 億美元,幾乎是上輪募資估值的兩倍。
最新一輪融資由頂尖 VC Accel 領投,參與投資者還包括各種科技巨頭如 Cisco Investments、Intel Capital、AMD Ventures、WCM、Amazon 和 Meta 等新投資者, 以及 Y Combinator (YC)、Index Ventures 和 Nvidia 等現有投資者。
同時 Scale AI 也入選 2024 CNBC Disruptor 50 ,在全球50大創新破壞公司中排名第 12,Scale AI 的創辦人兼 CEO Alexandr Wang 表示:
「我們的使命是打造人工智慧的數據鑄造廠,這筆資金將加速我們實現這一目標,鋪平通往 AGI (通用人工智慧)的道路。」
看完 Scale AI 在媒體上的光鮮亮麗,最後來平衡報導一下,在Scale AI 這間公司的爭議和潛在風險
Scale AI 的爭議與潛在風險
血汗勞工爭議
Scale AI 的成功很大程度上依賴於在肯亞、菲律賓、委內瑞拉等地的 24 萬工人,這些工人透過 Scale AI 旗下的子公司 Remotasks 工作,但時薪卻不到1美元。
這些工人為 AI 訓練數據進行標記,但因為沒有法定簽約保障,突然被解僱、工作帳戶突然被凍結、甚至部分在菲律賓的工人表示遇到延遲或扣留付款的情況。https://www.gvm.com.tw/article/104424
潛在營運風險
2023年,宏觀經濟影響導致 Scale AI 裁員 20%,資料標注的競爭也日益激烈,科技公司如 Google 和 Amazon 開始自行建立數據標記環境,減少對外包服務的依賴。
同時,使用人工智慧來標記資料的趨勢也正在增長,像 GPT-4 這樣的模型在許多任務中表現已經優於人類。
蘇黎世大學最近就做出研究,發現 ChatGPT 在零樣本(zero-shot)條件下進行的標記任務,甚至優於訓練有素的個人。
儘管人類標記仍被認為資料標記的是黃金準則,未來的多模態 GPT-5 或其他模型很可能會取代人類的標記工作。
結語
亮眼的募資表現、創辦人 Alexandr 的天才形象、數據資源在這波 AI 浪潮日益重要的角色,都讓 Scale AI 成為眾人注目的焦點。數據該如何賦能 AI?如何在處理上更高效且人道?相信這些問題未來能在 Scale AI 找到答案。
3 Takeaways
- AI 世代下,數據帶來的成長動能:
不斷進步的人工智慧除了需要好的模型與算力,資料與數據的精確度常常是被忽略但極為重要的一環。Scale AI 就是在幫助其他公司標記、處理大量資料,讓餵進 AI 模型的數據品質更高。
- Scale AI 的產品與市場:
Scale AI 的產品面向 AI 三個層級提供服務,分別為:資料層級,提供 AI 模型所需的訓練數據;模型層級,利用數據來訓練和優化 AI 模型;應用程式層級,將訓練好的 AI 模型應用到具體的業務場景中,解決實際問題。同時客戶也遍佈 OpenAI、NVIDIA、Waymo 等科技巨頭到美國政府等。
- Scale AI 的挑戰與風險:
Scale AI 雖然牢牢抓住數據標記的風口,但高度依賴低薪勞工進行資料標記,引發血汗勞工爭議仍然是待解決的問題。同時,隨著更多科技公司自建數據標記環境和人工智慧的進步,未來可能會減少對人工標記的需求,這些都對 Scale AI 的發展構成威脅。
謝謝你看完這篇文章!
如果你覺得意猶未盡,歡迎訂閱我的電子報【Roxanne’s Tech Talk】
我將會在上面分享更多有趣的科技科普故事喔!🥳
加入 500 人行列,一起學習最新科技新知 Subscribe Roxanne’s Tech Talk
也歡迎透過 Linkedin 交流 👩🏻💻 Roxanne Chen