スケール AI を解読する: 人工知能の背後にある「労働者」の知恵?情報: ユニコーン企業の評価額が 8 年間で 73 億米ドルに達した秘密

スケールAI

序文

OpenAI は ChatGPT を通じて生成 AI 革命を起こし、Waymo は自動運転技術を使用して北米の路上に普及し、NVIDIA は GPU 画像処理技術により一時時価総額第 2 位の企業になりました...
これらの企業には大量のAIを活用していることに加えて、スタートアップのScale AIと協力してAIを訓練しているという共通点がある。

実際、どの業界であっても、成功している AI 企業の背後には、データのラベル付けという、退屈だが不可欠なトレーニング タスクを完了する人々のグループが存在します。

 

米国の新たなユニコーンであるスケール AI は、そのリーダーの 1 つです。

スケールAI-4

彼は 19 歳のときに学校を中退して Scale AI を設立しました。Alexandr は、Scale AI がデータのラベル付けサービスを提供していると言いました。これは、この生成 AI のゴールド ラッシュでシャベルを売るようなものです (この説明に聞き覚えはありますか 😆)。

多くの AI スタートアップ企業はまだ一銭も稼いでいませんが、Scale AI の昨年の収益は 2 億 5,000 万米ドルに達し、その顧客は OpenAI や Tesla から米国空軍、陸軍、CIA などの分野まで多岐にわたります。

では、データタグとは一体何なのでしょうか?なぜこれほど儲かることができるのでしょうか? Scale AI はどのようにして競争の激しい AI 分野でニッチ市場を見つけ、ユニコーン企業に成長することに成功したのでしょうか?

今日は Scale AI のストーリーを皆さんと共有したいと思います。

1 分しかない場合の 3 つのポイント

  1. AI時代、データがもたらす成長の勢い:

 優れたモデルとコンピューティング能力に加えて、進化し続ける人工知能にはデータとデータの精度が必要です。これは見落とされがちですが非常に重要です。 Scale AI は、AI モデルに供給されるデータの品質が高くなるように、他の企業が大量のデータにラベルを付けて処理するのに役立ちます。

  1. AI の製品と市場を拡大する:

Scale AI の製品は、次の 3 つのレベルの AI にサービスを提供します。データ階層、AI モデルに必要なトレーニング データを提供します。モデル階層、データを使用して AI モデルをトレーニングおよび最適化します。アプリケーションレベル、トレーニングされた AI モデルを特定のビジネス シナリオに適用して、実際的な問題を解決します。同時に、顧客も OpenAI、NVIDIA、Waymo などのテクノロジー大手から米国政府まで多岐にわたります。

  1. スケール AI の課題とリスク:

Scale AIはデータラベリングのトレンドをしっかりと捉えているものの、データラベリングは低賃金労働に大きく依存しており、汗水たらし労働紛争を引き起こしており、依然として解決が必要な課題となっている。同時に、より多くのテクノロジー企業が独自のデータラベル付け環境を構築し、人工知能が進歩するにつれ、将来的には手動ラベル付けの必要性が減少する可能性があり、これらすべてが Scale AI の開発に対する脅威となります。

創業の背景

Scale AIの起源は、「ヨーグルトを盗んだのは誰?」の物語から語られます。

スケールAI-9

ヨーグルト泥棒を捕まえる

2016年、創設者のアレクサンドル・ワン氏は、MITの大学のルームメイトの一人がヨーグルトを盗んだのではないかと疑ったが、無実の人を告発したくなかったので、泥棒を捕まえる「スマート冷蔵庫カメラ」を作りたいと考えた。

彼は、そのようなカメラの作り方を学ぶために、Google TensorFlow (オープンソースの機械学習プラットフォーム) の教えを参照しました。

最初は、Google TensorFlow で画像認識をトレーニングするためのコードをすべてほぼ直接コピーしていましたが、最大の問題に直面しました。
コンピューターの学習能力が非常に強力であることは事実ですが、コンピューターが認識できるようにするには、ラベル付きの食品の写真が大量に必要になります。

これらの写真がなければ、コンピューターがどれほど賢くても、食べ物がどのようなものであるかはまだ分からず、アレクサンダーがヨーグルトを盗んだ人物を捕まえるのには役立ちません。

当時、彼は食べ物を含む数万枚の写真に手動でラベルを付けることしかできませんでした。
マーキング ツールを使用して各写真の食べ物を囲み、「リンゴ」や「ヨーグルト」などのタグを追加します。すべての写真にタグが付けられるまで、このプロセスを繰り返します。

何万枚もの画像に苦労してラベルを付けた後、Alexandr は最終的に正確な認識モデルをトレーニングしました。

このような骨の折れるプロセス中に、Alexandr は突然気づきました。AI モデルをスマートにするには、優れたプログラミングだけでなく、大量の高品質のラベル付きデータも必要です。

ヨーグルト泥棒を捕まえた後:広大な市場の冷蔵庫の外にマークされた情報

ヨーグルト泥棒の話の後、実際の経験により、Alexandr Wang 氏と共同創設者の Lucy Kuo 氏はデータタグ付けの市場機会をより確信するようになりました。

創設チームの Alexandr Wang と Lucy Kuo は、それぞれ 20 歳のときに Quora と Snapchat で働き始めた 2 人のコンピューターの天才です。彼らは、これら 2 つのソーシャル プラットフォームでは、毎日大量の画像と投稿を確認してタグ付けする必要があることを観察しました。タグ付けプロセスは非常に反復的で面倒で、後の段階では外部委託チームに手動で完了させる必要があります。

そして、「データのラベル付け」という退屈だが非常に重要なタスクが自動化され、モジュール化され、さらにはコモディティ化される可能性があることを発見しました。

この「ああ、なるほど」という瞬間が、彼らを 2016 年に Scale AI を設立するきっかけにしました。同社は、他社のデータ ラベル付けを支援することに特化しており、Scale AI の顧客はわずか 1 行のコードでラベル付けタスクを完了できます。



Scale AI はどのような問題点を解決しますか?

Scale AI がデータのラベル付けをどのように高速化するかを共有する前に、データのラベル付けとは何かを簡単に紹介しましょう。

ファイルタグ: 面白くないが、AI の旅において非常に重要な研究

データのラベル付けを一文で説明する: 機械学習モデルがデータを理解しやすくするために、データにラベルを付けます。

冒頭の比喩に戻ります。
受験できる生徒を育てるには、生徒の頭の良さだけでなく、正しい内容の教科書や問題集も必要です。
適切な教材と優れた頭脳があれば、生徒はすぐに学習し、試験のすべての問題に正しく答えることができます。

AI のトレーニングにも同じことが当てはまります。機械学習モデル自体の強力なコードに加えて、正確にラベル付けされたデータを使用してトレーニングする必要もあります。
優れた学習モデルと正確にラベル付けされたデータがあれば、AI は入力された情報を正しく学習し、実際のアプリケーションでより優れたパフォーマンスを発揮できます。

データのタグ付けが必要なのはどのような企業ですか?

プロフィールのタグ付けは聞きなれないように聞こえるかもしれませんが、実際にはどこにでもあり、思いつく限りのすべての企業で毎日使用されています。

簡単に言うと、製品やサービスを改善するためにデータに依存している企業は、データのタグ付けが必要になる可能性があります。
ここでは、3 つの一般的なデータタグ付けアプリケーションのシナリオを簡単に説明します。

  1. Google、Apple、Amazon などのテクノロジー企業:
    プロフィールのタグ付けを使用して、Google フォトの画像認識、Apple Siri の音声認識精度、Amazon でのパーソナライズされた製品の推奨を最適化します。

  2. Zebra Medical Vision、GE Healthcare などの医療企業:
    ラベル付けされた医療画像を使用して AI モデルをトレーニングし、医師が X 線または MRI 画像をより迅速かつ正確に診断し、病気の可能性を判断できるようにします。

  3. JPモルガン・チェース、レモネード、ストライプなどの金融会社:

データ マーカーを使用して、クレジット カード取引における犯罪行為の可能性を検出し、保険申請のリスクを評価し、電子決済システムのセキュリティを最適化します。

マーキング会社に外注する理由

 

データタグ付けの実践例でわかる!
今なら GE ヘルスケア 医療画像を認識できるモデルをトレーニングするには、次の手順が必要です。

  1. データ収集: GE ヘルスケアは、X 線や MRI などの医療画像データを大量に収集しています。
  2. データタグ: 専門の医師は、どの画像が病気を示しているかを判断するために、これらの画像を「陰性」または「陽性」としてマークします。
  3. トレーニングモデル: 大量のラベル付きデータを使用して AI モデルをトレーニングし、ネガティブな医療画像とポジティブな医療画像を識別できるようにします。
  4. アプリケーションモデル: モデルは、医師が病気をより迅速に特定するのに役立つ医療診断に使用されます。

Scale AI は主に「ラベル付け」段階に関与し、GE ヘルスケアが大量のデータを迅速かつ正確にラベル付けするのを支援します。
結局のところ、医師に診察時間を犠牲にして何万枚もの写真に陰性か陽性かのラベルを付けるよう求めるのは経済的ではありません。

GE Healthcare は、Scale AI の助けを借りて、ラベル付きデータを使用してモデルをトレーニングし、将来新しい画像を正しく識別できるようにします。

これを見たときは、次のことを尋ねたくなるかもしれません。

Scale AI は単なる大規模な人間のアウトソーシング会社のように聞こえますが、多くの競合他社が存在するはずです。では、Scale AI はどこで勝てるでしょうか?なぜ、年間収益が 2 億 5,000 万ドルにも達し、これほど多くの大企業や米国政府とさえ協力できるのでしょうか?

AI のコア コンピテンシーを拡張する 

Scale AI は人的資源をアウトソーシングする必要がありますが、Scale AI はデータのラベル付けタスクをアフリカや東南アジアなどの人件費の低い地域にアウトソーシングした後、社内で開発されたさまざまなソフトウェアを使用して人的資源を合理化し、ラベル付けプロセスの垂直統合を加速します。業界チェーンとしてトータルソリューションを提供します。

AIのコアテクノロジーをスケールする

競争の激しい AI 分野で足場を築く Scale AI の能力は、その効果的な人間とマシンのコラボレーション モデルに起因すると考えられます。
重要なポイントは次の 4 つです。

  1. 自動化プラットフォームと手作業の組み合わせ:
    機械学習と人工知能テクノロジーは、データのラベル付けプロセスを支援し、データのラベル付け作業を効果的に割り当てて管理し、人的資源への依存を軽減するために使用されます。

  2. 子会社の Remotasks は、多様な従業員を管理しています。
    クラウドソーシングを通じて、世界中のタグ付け担当者がデータのタグ付け作業に参加し、さまざまな言語や文化のタグ付けニーズに柔軟に対応しながら、短期間で大量のタグ付けタスクを完了できます。

  3. マークの品質管理システム:
    Scale AI には、人間によるマーキングの品質と正確性を保証するための厳格なマーキング品質管理システムがあります。例には、すべてのデータが注意深く検証されていることを確認するためのマルチタグ付け (複数のタグ付け機能が同じデータにタグ付けする) やアルゴリズムチェック (タグ付け結果の機械チェック) が含まれます。

  4. 継続的に反復可能なマーキング ツールにより、人間とマシンのコラボレーションがよりスムーズになります:
    Scale AI は、技術革新とラベリング ツールの継続的な改善を通じて、市場の変化するニーズに対応するデータ ラベリング テクノロジーにおける主導的地位を維持しています。

これらの方法を通じて、Scale AI は多数のデータ ラベル付けのニーズを効率的に処理し、OpenAI、NVIDIA、Waymo、その他の有名企業を含む顧客に高品質のデータ ラベル付けサービスを提供できます。
この自動化テクノロジーとグローバル人材の組み合わせにより、Scale AI は競争の激しい AI 分野で独自のニッチ市場を見つけ、急速にユニコーン企業に成長することができました。

しかし、Scale AI の評価は依然として上昇しており、データ ラベリング サービスを提供するだけでなく、同社の製品ラインも何度も改良されてきました。
このタイミングで触れておきたいのは、8年という短い歴史にもかかわらず、3つのプロダクトピボットのストーリーです。

タイムラインの作成

フェーズ 1: データ処理エンジン (2016 ~ 2019)

Scale AI は初期の頃、シンプルなデータ処理 API の構築に重点を置き、すぐに Lyft、Uber、Waymo などの自動運転車会社に好まれるデータ プロバイダーになりました。
たとえば、自動運転車会社は、Scale AI の API を通じて道路画像データを簡単にアップロードし、Scale AI のツールを使用してデータに迅速にラベルを付け、それを自動運転モデルのトレーニングに使用できます。

Scale AI は自動運転分野で確固たる足場を築いた後、サービス範囲を拡大し、自然言語処理、電子商取引、AR/VR などのさまざまなアプリケーションを攻撃し始めました。

スケールAI-8

フェーズ 2: 人工知能エンジン (2020-2022)

Scale AI は、トレーニング教材プロバイダーとして市場での地位を確立した後、AI の分野に注目し、顧客の人工知能開発のライフサイクル全体に範囲を広げました。

Scale AI は、フルマネージド モデルをサービスとして展開し始め、顧客と協力して、大規模な言語モデル、自動運転モデル、生成 AI モデル、その他のインフラストラクチャなどの高性能モデルを提供するために必要なものを確実に提供できるようにします。
この市場拡大により、Scale AI の開発はラベル付きデータを提供するだけでなく、モデルの管理も可能になり、市場機会が拡大します。

フェーズ 3: 生成 AI およびアプリケーション エンジン (2022 ~現在)

Scale AI は、Chat GPT 開発の初期段階から OpenAI と緊密に連携し、開発者の観点から生成 AI の波の機会を捉えることができました。
Scale AI はその後、生成 AI に合わせた新製品を発売しました。
例としては、プロンプトを調整するツールである Spellbook や、防衛および諜報の専門家の意思決定を支援する Donovan アプリケーションが挙げられます。

これを読んで、この記事が良いと思ったら、
私のニュースレター [Roxanne の Tech Talk] の購読へようこそ 
もっと面白い科学技術の話を共有します! 🥳
500人が参加して最新の技術と知識を一緒に学びましょう 👉 Roxanne の Tech Talk を購読する

AI 製品をスケールする

 

Scale の製品は、AI レベル (アプリケーション/モデル/データ) とタイプ (サービス/ソフトウェア) によってセグメント化できます。

郷土文学の小さな教室:

AI レベル (アプリケーション/モデル/データ) は何を表しますか?

  • データ階層:AIモデルに必要なトレーニングデータを提供します。
  • モデル階層: データを使用して AI モデルをトレーニングおよび最適化します。
  • アプリケーションレベル: トレーニングされた AI モデルを特定のビジネス シナリオに適用して、実際的な問題を解決します。

AIレベル

タイプ

商品名

製品説明

成功事例

対象データ
(データ)

仕える

急速な

ユーザーがデータを迅速にアップロードしてマークするのに役立つセルフサービスのデータ注釈プラットフォーム。

OpenAI
トレーニング データのラベル付けに使用されます

プロ

API 経由でタグ付けを有効にし、専門のマネージャーと協力して大規模で複雑なデータ量を処理します。

ウェイモ
自動運転データのラベリング用

ソフトウェア

スタジオ

内部ラベル作成チームの効率を向上させ、管理、監視、追跡ツールを提供する包括的なラベル作成プラットフォーム。

テスラ
内部データのタグ付け用

機械学習データ管理ツールは、データの視覚化、モデルのパフォーマンスの向上、アクティブ ラーニングとエッジ ケースの特定の実行に役立ちます。

エヌビディア
モデル学習データ管理用

モデル用
(モデル)

仕える

カスタムモデル製品

特定の目的のパフォーマンスを向上させるためのモデルの微調整に重点を置き、大規模な言語モデルの構築、管理、デプロイを支援します。

グーグル
言語モデルの微調整に使用されます

ソフトウェア

魔導書

チームが大規模な言語モデル アプリケーションを迅速に展開し、ヒントを作成および比較し、評価を実行できるようにします。

OpenAI
迅速な作成と比較のために

生成AIプラットフォーム

企業が生成型人工知能アプリケーションをカスタマイズ、構築、テスト、展開できるようにするフルエンド ソリューションです。

人間的
生成AIアプリケーション開発向け

アプリケーション用
(応用)

ソフトウェア

フォージ

マーケティング担当者やブランドが、広告やソーシャル メディアで使用する AI 生成の製品画像を作成できるようにします。

コカコーラ 

広告画像の生成に使用されます

ドノバン

データを分析し、傾向と異常を迅速に特定し、要約と翻訳機能を提供することで、防衛および情報コミュニティの意思決定をサポートします。

米国国防総省
知能分析用



Scale はデータ ラベリングを専門とする会社としてスタートし、現在ではデータのラベリングと管理、モデルのトレーニングと評価、AI アプリケーションの開発と展開に至るまで、あらゆるサービスとソフトウェアを提供しています。フルプロセスソリューション、AI の垂直トレーニング プロセスに必要なツールをさらに契約し、引き続き確固たる立場を維持し、競合他社との差別化を図ることができます。

では、この企業はこれほど多様な製品ラインでどのような市場をターゲットにしているのでしょうか?

スケール AI が直面する市場

Scale AI の市場機会は 2 つの部分に分けられます。
コアの AI-as-a-Service (AIaaS) 市場、
そして新興の生成AI市場。

スケールAI-5

1. AI-as-a-Service (AIaaS) 市場

当初、Scale AI はデータのラベル付けに重点を置いていましたが、製品ラインが拡大するにつれて、Scale AI は徐々に企業のモデル構築を支援する包括的な AI IT サービス プロバイダーに発展しました。
(前述したように、データからモデル、そして最終アプリケーションまで拡張されます)

調査によると、2023 年の AI-as-a-Service (AIaaS) の市場価値は 270億ドル、成長率は20%を超えています。

投資調査プラットフォームによると テグスある投資家はこう語った。

「私が Scale AI を気に入っている理由はご存知ですか? Scale AI では、データのラベル付け、データ管理、合成データなどの多くの機能が統合されているためです。一方、Scale AI はすべての機能をカバーし、共同アウトソーシングをより便利かつ効率的にします。」

 

2. 生成AI市場

生成 AI の台頭により、スケール AI の市場機会も大幅に増加しました。
Scale AI は、大手テクノロジー企業が自社の AI をトレーニングする際に選択するデータラベル付けパートナーです。
たとえば、OpenAI が GPT-4 と DALL-E、Google DeepMind が Gemini を開発、アマゾン ウェブ サービス (AWS) が Claude を開発したとき、Scale AI は、これらの企業がカスタマイズされた生成 AI 人工知能モデルを構築するのに役立ちました。生成 AI 市場は 2027 年までに毎年 2 倍となり、 550億ドル

Scale AI の潜在的な市場の成長の可能性を検討した後、最近の目覚ましい資金調達結果を推測するのは難しくないはずです。

AIの稼働状況をスケールする

ホットニュースによると、Alexandrは5月21日、Scale AIがシリーズF資金調達で10億米ドルを調達し、その評価額は138億米ドルで、前回の資金調達ラウンドの評価額のほぼ2倍であると発表した。

最新の資金調達ラウンドはトップVCのAccelが主導し、参加投資家にはCisco Investments、Intel Capital、AMD Ventures、WCM、Amazon、Metaなどのさまざまなテクノロジー大手やY Combinator(YC)などの新規投資家も含まれている。ベンチャー企業と Nvidia などの既存投資家をインデックスします。

同時に、Scale AIも2024年に選定されました CNBC ディスラプター 50 、世界のイノベーションを破壊する最大の企業50社の中で12位にランクされているScale AIの創設者兼最高経営責任者(CEO)のアレクサンドル・ワン氏は次のように述べています。

「私たちの使命は、人工知能のためのデータファウンドリを構築することです。今回の資金提供により、この目標の達成が加速され、AGI(汎用人工知能)への道が開かれるでしょう。」

メディアでの Scale AI の魅力を見た後は、最後に Scale AI という会社の論争と潜在的なリスクに関するレポートのバランスを見てみましょう。

AI 論争と潜在的なリスクを拡大する

汗だく労働争議

Scale AI の成功は、Scale AI の子会社である Remotasks を通じて働くケニア、フィリピン、ベネズエラなどの 24 万人の労働者に大きく依存していますが、時給は 1 ドル未満です。
これらの作業者は AI トレーニング データにラベルを付けますが、法的な契約上の保証がないため、突然の解雇、突然の仕事アカウント凍結、そしてフィリピンの一部の労働者さえも、支払いの遅延や保留を経験していると報告しました。https://www.gvm.com.tw/article/104424

潜在的な運用リスク

2023 年、マクロ経済の影響により Scale AI 20% では人員削減が発生し、Google や Amazon などのテクノロジー企業はアウトソーシング サービスへの依存を減らすために独自のデータ ラベリング環境を構築し始めました。

同時に、人工知能を使用してデータにラベルを付ける傾向も高まっており、GPT-4 のようなモデルはすでに多くのタスクで人間を上回っています。

チューリッヒ大学は最近調査を実施し、ゼロショット条件下での ChatGPT のラベル付けタスクが訓練を受けた個人のラベル付けタスクよりもさらに優れていることを発見しました。
人間によるラベル付けは依然としてデータ ラベリングのゴールド スタンダードと考えられていますが、将来的にはマルチモーダル GPT-5 またはその他のモデルが人間によるラベル付けの取り組みに取って代わられる可能性があります。

結語

傑出した資金調達実績、創設者 Alexandr の天才的なイメージ、そしてこの AI の波におけるデータ リソースのますます重要な役割により、Scale AI はすべての人の注目の的となっています。データはどのようにして AI を強化できるのでしょうか?どうすればより効率的かつ人道的に対処できるでしょうか?これらの質問に対する答えは、将来的には Scale AI で見つかると私は信じています。

3 要点

 

  1. AI時代、データがもたらす成長の勢い:

 優れたモデルとコンピューティング能力に加えて、進化し続ける人工知能にはデータとデータの精度が必要です。これは見落とされがちですが非常に重要です。 Scale AI は、AI モデルに供給されるデータの品質が高くなるように、他の企業が大量のデータにラベルを付けて処理するのに役立ちます。

 

  1. AI の製品と市場を拡大する:

Scale AI の製品は、次の 3 つのレベルの AI にサービスを提供します。データ階層、AI モデルに必要なトレーニング データを提供します。モデル階層、データを使用して AI モデルをトレーニングおよび最適化します。アプリケーションレベル、トレーニングされた AI モデルを特定のビジネス シナリオに適用して、実際的な問題を解決します。同時に、顧客も OpenAI、NVIDIA、Waymo などのテクノロジー大手から米国政府まで多岐にわたります。

 

  1. スケール AI の課題とリスク:

Scale AIはデータラベリングのトレンドをしっかりと捉えているものの、データラベリングは低賃金労働に大きく依存しており、汗水たらし労働紛争を引き起こしており、依然として解決が必要な課題となっている。同時に、より多くのテクノロジー企業が独自のデータラベル付け環境を構築し、人工知能が進歩するにつれ、将来的には手動ラベル付けの必要性が減少する可能性があり、これらすべてが Scale AI の開発に対する脅威となります。

この記事を読んでいただきありがとうございます!
まだまだ学ぶべきことがあると思われる場合は、私のニュースレター [Roxanne's Tech Talk] を購読してください。 
もっと面白い科学技術の話を共有します! 🥳

500人が参加して最新の技術と知識を一緒に学びましょう 👉 Roxanne の Tech Talk を購読する
Linkedin を通じてコミュニケーションをとることも歓迎です👩🏻‍💻 ロクサーヌ・チェン

ja日本語