解密Scale AI:人工智慧背后的「工人」智慧?资料标记独角兽8 年达73 亿美元估值背后的秘辛

ScaleAI

序言

OpenAI 透过ChatGPT 掀起生成式AI 革命,Waymo 利用自动驾驶技术遍布北美街头,NVIDIA 因其GPU 图像处理技术一度成为市值第二大公司…….
这些公司除了使用大量AI 以外,还有一个共同点,就是都与新创公司Scale AI 合作训练AI 。

其实,无论是哪个产业,每间成功的AI 公司背后,都有一群人替它们完成无趣但又不可或缺的训练任务-资料标记(data labeling)。

 

而美国新创独角兽Scale AI,就是其中翘楚。

ScaleAI-4

19 岁时就辍学成立Scale AI,Alexandr 说,Scale AI 提供资料标记服务,就像在这股生成式AI 淘金热中卖铲子(这个描述有没有似曾相识呢😆)。

在许多AI 新创公司还没有赚到一毛钱时,Scale AI 去年营收已达2.5 亿美元,估值达到73亿美元,客户从OpenAI , Tesla 到美国空军、陆军、中央情报局等多个领域。

那么资料标记究竟是什么?为何可以那么赚钱? Scale AI 是如何在竞争激烈的AI 领域找到自己的利基(niche)市场,顺利长成独角兽呢?

今天就来跟大家分享Scale AI 的故事!

如果你只有1分钟,可以带走的3 Takeaways

  1. AI 世代下,数据带来的成长动能:

 不断进步的人工智慧除了需要好的模型与算力,资料与数据的精确度常常是被忽略但极为重要的一环。 Scale AI 就是在帮助其他公司标记、处理大量资料,让喂进AI 模型的数据品质更高。

  1. Scale AI 的产品与市场:

Scale AI 的产品面向AI 三个层级提供服务,分别为:资料层级,提供AI 模型所需的训练数据;模型层级,利用数据来训练和优化AI 模型;应用程式层级,将训练好的AI 模型应用到具体的业务场景中,解决实际问题。同时客户也遍布OpenAI、NVIDIA、Waymo 等科技巨头到美国政府等。

  1. Scale AI 的挑战与风险:

Scale AI 虽然牢牢抓住数据标记的风口,但高度依赖低薪劳工进行资料标记,引发血汗劳工争议仍然是待解决的问题。同时,随着更多科技公司自建数据标记环境和人工智慧的进步,未来可能会减少对人工标记的需求,这些都对Scale AI 的发展构成威胁。

创立背景

Scale AI 的起源可以从一个「谁偷吃了优格」的故事说起。

ScaleAI-9

抓出优格贼

2016 年,创办人Alexandr Wang 怀疑他在MIT 的一位大学室友偷了他的优格,但又不想冤枉无辜,所以想打造一个「智慧冰箱摄影机」来抓小偷。

他当时参考了Google TensorFlow (一个开源的机器学习平台)的教学,来学习怎么制作这种相机。

刚开始,他几乎直接把 Google TensorFlow 上训练影像辨识的程式码全部复制下来,但他面临一个最大的问题:
电脑的学习能力已经很强没错,但还需要大量已标记好的食物照片来训练电脑辨识。

没有这些照片,电脑再聪明都还是不知道食物长怎样,更无法帮Alexandr 抓出到底是谁偷吃他的优格。

当时,他只能手动标记(labeling) 数万张含有食物的照片:
用标记工具在每张照片中框出食物,并新增标签,例如「苹果」、「优格」,如此反覆操作,直到所有照片都标记完成。

在煞费苦心地标记了数万张图像后,Alexandr 终于训练出一个精准的辨识模型。

在如此劳心劳力的过程,Alexandr 突然意识到:要让AI 模型变得聪明,不但需要好的程式码,更需要大量高质量的标记数据。

抓到优格贼后:资料标记在冰箱外的广大市场

在优格贼故事之后,实务经验让Alexandr Wang 和共同创办人Lucy Kuo 更确信资料标记的市场商机。

创办团队Alexandr Wang 和Lucy Kuo 两位电脑天才20 岁时就分别在Quora 和Snapchat 工作。他们观察到这两个社群平台每天都需要审核与标记大量的图片和贴文,标记过程非常重复且繁琐,到后期都必须依赖外包团队来手动完成。

他们于是发现,「资料标记」这个无趣却极为重要的任务是有被自动化、模组化甚至商品化的潜力的。

这个Ah-hah moment 让他们在2016 年创立Scale AI,专门帮助其他公司做资料标记(labeling) ,让Scale AI 的客户只需一行程式码就能完成标记任务。



Scale AI 解决了什么痛点?

在分享Scale AI 是如何加速资料标记前,先来简单科普一下资料标记究竟是什么。

资料标记:在AI 旅程中无趣却极为重要的工作

一句话解释资料标记:帮数据贴标签,方便机器学习模型理解这些数据。

回到一开始的比喻:
要训练出一个会考试的学生,除了学生本身的脑袋要够聪明,还需要内容正确的教材、题本。
正确的教材搭配好脑袋,学生就可以快速学习,答对考试中每道题。

而训练AI 也一样,除了机器学习模型本身程式码够厉害,还需要搭配精准标记的资料来训练。
好的学习模型搭配精准标记的资料, AI 就可以正确学习喂进来的资讯,在实际应用表现得更出色。

怎样的公司需要资料标记?

资料标记听起来可能很陌生,但其实无所不在,你想得到的公司天天都在用!

简单来说任何需要依赖数据来改进产品或服务的公司,都可能需要资料标记!
这边简单分享3 种常见的资料标记应用场景:

  1. 科技公司如Google、Apple、Amazon:
    使用资料标记来优化Google Photos 的图像识别能力、Apple Siri 的语音识别准确性,以及Amazon 的个人化商品推荐系统。

  2. 医疗公司如Zebra Medical Vision、GE Healthcare:
    利用标记好的医疗影像训练AI 模型,帮助医生更快、更准确地诊断X 光片或MRI 图片,判断可能的疾病。

  3. 金融公司如JPMorgan Chase、Lemonade、Stripe:

使用资料标记侦测信用卡交易中可能的犯罪行为、评估保险申请的风险、优化电子支付系统的安全性等。

为什么要外包给标记公司?

 

举个资料标记的实际例子就可以理解了!
如果今天GE Healthcare 要训练一个可以辨识医疗影像的模型,会需要以下几个步骤:

  1. 收集数据:GE Healthcare 收集了大量的医疗影像资料,例如X 光片和MRI 图
  2. 资料标记:专业医生标记这些影像为「阴性」或「阳性」,确定哪些影像显示疾病
  3. 训练模型:用大量标记好的数据训练AI 模型,使其学会辨识阴性和阳性的医疗影像
  4. 应用模型:模型应用于医疗诊断中,帮助医生更快速地识别疾病。

Scale AI 主要参与的是「添加标签」这个阶段,帮助GE Healthcare 快速、准确地标记大量数据。
毕竟要叫医生牺牲看诊时间,拿来标注上万张照片是阴性还是阳性实在不太经济。

透过Scale AI 的帮忙,GE Healthcare 就可以用标记好的数据训练模型,在未来面对新图片时也能正确辨识。

看到这里你可能会想问:

Scale AI 听起来好像只是一间大型人力外包公司,竞争者肯定很多,那Scale AI 到底赢在哪?为何可以年营收已达2.5 亿美元,又跟这么多大型公司、甚至美国政府合作?

Scale AI 的核心竞争力 

Scale AI 确实需要将人力外包,但Scale AI 将资料标注任务外包给非洲和东南亚等人力成本较低的地区后,会使用各种内部开发的软体来尽量精简人力、加速标注流程,同时在资料标记产业链上进行垂直整合,提供Total Solution。

Scale AI 的核心技术

Scale AI 能够在竞争激烈的AI 领域中站稳脚跟,可以归功于有效的人机协作模式,
以下整理4 个关键点:

  1. 自动化平台与人工结合
    通过机器学习和人工智慧技术来辅助数据标记过程,有效地分配和管理数据标记工作,减少了对人力的依赖​。

  2. 子公司Remotasks 管理多元化劳动力团队:
    通过众包方式让来自世界各地的标记员参与到数据标记工作中,在短时间内完成大量的标记任务​,同时灵活应对不同语言和文化的标记需求。

  3. 标记品质管理系统:
    Scale AI 拥有严格的标记品质控制系统,确保人力标记的品质和准确度。例如多重标记(多个标记员标记同一数据)和算法检查(机器检查标记结果),确保每一条数据都经过仔细验证。

  4. 不断迭代的标记工具,人机协作更顺利
    透过技术创新和不断改进标记工具,Scale AI 保持在资料标记技术上的领先地位,满足市场不断变化的需求。

通过这些方式,Scale AI 能够高效地处理大量的数据标记需求,为包括OpenAI、NVIDIA、Waymo 等知名公司在内的客户提供高质量的数据标记服务。
这种结合自动化技术和全球人力资源的方式,使得Scale AI 在竞争激烈的AI 领域中找到了自己的利基点,并迅速成长为独角兽企业。

但Scale AI 估值仍不断上升,除了提供资料标记服务,是不是也经历了很多次公司产品线的迭代?
这时候就要提到虽然仅短短8 年创立历史,仍然经历三次产品线轴转 (pivot) 的故事。

创立时间轴

第一阶段:资料处理引擎(2016-2019)

在创立初期,Scale AI 专注于建立简单的数据处理API,迅速成为Lyft、Uber 和Waymo 等自驾汽车公司的首选数据供应商。
举例,自动驾驶汽车公司透过Scale AI 的API,可以轻松地上传他们的道路影像数据,并使用Scale AI 的工具来快速标记这些数据,然后用于训练他们的自动驾驶模型。

Scale AI 在自驾领域站稳了脚跟后开始扩展服务范围,进攻自然语言处理、电商、AR / VR 等多种应用。

ScaleAI-8

第二阶段:人工智慧引擎(2020-2022)

在站稳训练资料提供者的市场地位后,Scale AI 将注意力转向AI 领域,把触角伸向客户人工智慧开发的整个生命周期。

Scale AI 开始推出完全托管的模型即服务,与客户合作,确保他们拥有交付高效能模型(如大型语言模型、自驾车模型、如大型语言模型、自驾车模型、生成式AI 模型等)所需的基础设施。
此次市场扩张让Scale AI 的发展不仅限于提供标记好的数据,还可以管理模型,扩大了市场机会。

第三阶段:生成式AI 和应用程式引擎(2022 年至今)

Scale AI 从Chat GPT 开发初期就与OpenAI 密切合作,使他们能够以开发者视角抓住生成式AI 浪潮的先机。
Scale AI 随后推出了为生成式AI 量身打造的新产品:
例如用于调整提示(Prompt)的工具Spellbook、帮助国防和情报专业人员做出决策的Donovan 应用程式等。

看到这边如果你觉得这篇文章不错,
欢迎订阅我的电子报【Roxanne's Tech Talk】 
我将会在上面分享更多有趣的科技科普故事喔! 🥳
加入500 人行列,一起学习最新科技新知 👉 Subscribe Roxanne's Tech Talk

Scale AI 产品

 

Scale 的产品可以按AI 层级(应用程式/模型/资料)和类型(服务/软体)进行细分。

白话文小教室:

AI 层级(应用程式/模型/资料) 分别代表什么?

  • 资料层级:提供AI 模型所需的训练数据。
  • 模型层级:利用数据来训练和优化AI 模型。
  • 应用程式层级:将训练好的AI 模型应用到具体的业务场景中,解决实际问题。

AI 层级

类型

产品名称

产品描述

成功案例

针对资料
(Data)

服务

Rapid

自助资料注释平台,帮助用户快速上传和标记资料。

OpenAI
用于标记训练数据

Pro

通过API 启动标记,与专业经理合作,处理大量和复杂数据。

Waymo
用于自动驾驶数据标记

软件

Studio

综合性标签平台,提高内部标记团队效率,提供管理、监控和追踪工具。

Tesla
用于内部数据标记

Nucleus

机器学习资料管理工具,帮助视觉化资料、提升模型效能,进行主动学习和边缘情况识别。

NVIDIA
用于模型训练数据管理

针对模型
(Model)

服务

Custom Model Products

帮助建立、管理和部署大型语言模型,专注于微调模型以提高特定用途的效能。

谷歌
用于语言模型微调

软件

Spellbook

帮助团队快速部署大型语言模型应用,创建和比较提示,进行评估。

OpenAI
用于提示创建和比较

Generative AI Platform

全端解决方案,允许企业自订、建置、测试和部署生成式人工智慧应用。

Anthropic
用于生成式AI 应用开发

针对应用程式
(Application)

软件

Forge

帮助行销人员和品牌创建人工智慧生成的产品图像,用于广告和社交媒体。

Coca-Cola 

用于广告图像生成

Donovan

支持国防和情报部门的决策,分析数据,快速识别趋势和异常,提供摘要和翻译功能。

美国国防部
用于情报分析



Scale 从一开始专门做资料标记的公司,到现在提供的服务和软体涵盖了从数据标记和管理、模型训练和评估,到AI 应用开发和部署的全流程解决方案,承包更多AI 垂直训练过程需要用到的工具,使他们能持续屹立不摇,与竞争者做出差异化。

那这间公司如此多元的产品线,到底是面向怎样的市场呢?

Scale AI 面对的市场

Scale AI 的市场机会可以分为两个部分:
核心的 AI 即服务(AI-as-a-Service, AIaaS)市场,
和新兴的生成式AI 市场。

ScaleAI-5

1. AI 即服务(AI-as-a-Service, AIaaS)市场

最初,Scale AI 专注于资料标记,但随着产品线的扩张,Scale AI 逐渐发展成全面的AI IT 服务供应商,帮助公司建立模型。
(如同前面提到的,从数据延伸到模型,再延伸到终端应用程式)

根据研究, 2023 年 AI 即服务(AI-as-a-Service, AIaaS) 市场价值已达到 270 亿美元,增长率超过20%。

根据投资研究平台 Tegus,一位投资人表示:

「你知道我为什么喜欢Scale AI吗?因为它让我只需与一家公司合作,而不需要分别和15 间公司合作。Scale AI 整合了许多功能,包括资料标记、数据管理与合成数据等。其他公司只专注单一功能,而Scale AI则涵盖了所有功能,使得合作外包更加方便和高效。」

 

2. 生成式AI 市场

随着生成式AI 的兴起,Scale AI 的市场机会也大幅增加。
Scale AI 一直是科技巨头在训练自家AI 时的首选资料标记合作伙伴。
如OpenAI 开发GPT-4 和DALL-E、Google DeepMind 开发Gemini 、Amazon Web Services (AWS) 开发Claude 时,Scale AI 都曾帮助这些公司建立客制化的生成式AI 人工智慧模型。预计到2027 年前,生成式AI 市场将年年翻倍,达到 550 亿美元

看完Scale AI 潜在市场的成长潜力,应该不难猜到近期亮眼的募资成果!

Scale AI 营运现况

根据热腾腾的新闻, Alexandr 在5/21 宣布Scale AI 在F 轮融资中筹集了10 亿美元,估值达138 亿美元,几乎是上轮募资估值的两倍。

最新一轮融资由顶尖VC Accel 领投,参与投资者还包括各种科技巨头如Cisco Investments、Intel Capital、AMD Ventures、WCM、Amazon 和Meta 等新投资者, 以及Y Combinator (YC)、Index Ventures 和Nvidia 等现有投资者。

同时Scale AI 也入选2024 CNBC Disruptor 50 ,在全球50大创新破坏公司中排名第12,Scale AI 的创办人兼CEO Alexandr Wang 表示:

「我们的使命是打造人工智慧的数据铸造厂,这笔资金将加速我们实现这一目标,铺平通往AGI (通用人工智慧)的道路。」

看完Scale AI 在媒体上的光鲜亮丽,最后来平衡报导一下,在Scale AI 这间公司的争议和潜在风险

Scale AI 的争议与潜在风险

血汗劳工争议

Scale AI 的成功很大程度上依赖于在肯亚、菲律宾、委内瑞拉等地的24 万工人,这些工人透过Scale AI 旗下的子公司Remotasks 工作,但时薪却不到1美元。
这些工人为AI 训练数据进行标记,但因为没有法定签约保障,突然被解雇、工作帐户突然被冻结、甚至部分在菲律宾的工人表示遇到延迟或扣留付款的情况。https://www.gvm.com.tw/article/104424

潜在营运风险

2023年,宏观经济影响导致Scale AI 裁员20%,资料标注的竞争也日益激烈,科技公司如Google 和Amazon 开始自行建立数据标记环境,减少对外包服务的依赖。

同时,使用人工智慧来标记资料的趋势也正在增长,像GPT-4 这样的模型在许多任务中表现已经优于人类。

苏黎世大学最近就做出研究,发现ChatGPT 在零样本(zero-shot)条件下进行的标记任务,甚至优于训练有素的个人。
尽管人类标记仍被认为资料标记的是黄金准则,未来的多模态GPT-5 或其他模型很可能会取代人类的标记工作。

结论

亮眼的募资表现、创办人Alexandr 的天才形象、数据资源在这波AI 浪潮日益重要的角色,都让Scale AI 成为众人注目的焦点。数据该如何赋能AI?如何在处理上更高效且人道?相信这些问题未来能在Scale AI 找到答案。

3 Takeaways

 

  1. AI 世代下,数据带来的成长动能:

 不断进步的人工智慧除了需要好的模型与算力,资料与数据的精确度常常是被忽略但极为重要的一环。 Scale AI 就是在帮助其他公司标记、处理大量资料,让喂进AI 模型的数据品质更高。

 

  1. Scale AI 的产品与市场:

Scale AI 的产品面向AI 三个层级提供服务,分别为:资料层级,提供AI 模型所需的训练数据;模型层级,利用数据来训练和优化AI 模型;应用程式层级,将训练好的AI 模型应用到具体的业务场景中,解决实际问题。同时客户也遍布OpenAI、NVIDIA、Waymo 等科技巨头到美国政府等。

 

  1. Scale AI 的挑战与风险:

Scale AI 虽然牢牢抓住数据标记的风口,但高度依赖低薪劳工进行资料标记,引发血汗劳工争议仍然是待解决的问题。同时,随着更多科技公司自建数据标记环境和人工智慧的进步,未来可能会减少对人工标记的需求,这些都对Scale AI 的发展构成威胁。

谢谢你看完这篇文章!
如果你觉得意犹未尽,欢迎订阅我的电子报【Roxanne's Tech Talk】 
我将会在上面分享更多有趣的科技科普故事喔! 🥳

加入500 人行列,一起学习最新科技新知 👉 Subscribe Roxanne's Tech Talk
也欢迎透过Linkedin 交流👩🏻‍💻 Roxanne Chen

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

zh_CN简体中文