目次
トグル序文:AIは誰もが思い描く「模範的な研修生」なのか?
中小企業が事業を拡大し始めるとき、最初に直面する問題は通常、市場や製品ではなく、人材不足です。あなたが今日この会社の責任者であると想像してください。顧客への返信、コピーの作成、顧客レビューの処理という 3 つの業務を同時に実行する必要がある場合があります。
そして、これらの退屈だが重要なタスクの最中に、仕事のやり方を変える可能性のある新しいヘルパー、つまり人工知能、より具体的には大規模言語モデル (LLM) について耳にするようになります。
これらの AI ツールは、コピーの作成、言語の翻訳、顧客からのフィードバックの要約、さらには顧客サービスの問題へのリアルタイムでの対応まで支援できると主張しており、夢のようなツールとして描かれています。休む必要がなく、素晴らしい記憶力を持ち、複数の言語を話し、常にオンラインで呼び出しに応じられるバーチャルインターンのようです。このような役割は上司にとっては非常に魅力的に聞こえるはずですが、同時に次のような疑問も生じます。「この「AI インターン」は本当に会社の実際の業務に参加する準備ができているのだろうか?」
この疑問に答えるため、英国のハル大学とブラッドフォード大学の3人の研究者、ジュリアス・セチャン・ムボリ氏、ジョン・GO・マルコ氏、ローズ・アナジン・イェムソン氏が実験を行うことにしました。彼らは、Google の会話型 AI「Gemini」(旧称 BARD) に、ディズニーランドの顧客レビューを簡素化するという、一見単純だが実際には非常に重要なタスクを割り当てるよう依頼しました。
これらのコメントは世界中のさまざまな地域から寄せられたもので、言語スタイルも感情も多様です。これは、AIが本当に意味を「理解」し、重要なポイントを選択して、より明確で有用なコンテンツに変換できるかどうかをテストするのに適した方法です。これが基本的に普通のインターン生が行うことです。
表面的には、このタスクはインターン生に顧客サービス記録の整理と重要なポイントの強調を手伝ってもらうように求めているように見えますが、実際には自然言語処理 (NLP) テクノロジの強さをテストするものです。この実験は、意味の理解や文章の再構成から誤解や誤訳の回避まで、AIが企業コミュニケーションにおける重要なタスクを処理できるかどうかを検証するための「実践的承認」を与えました。
今日の記事では、この研究の観点を紹介し、この AI インターンが実際にどのような成果をあげたかを見ていきます。企業の視点から、AIが本当にテキスト作業の優れたアシスタントになり得るのかを再検証し、その利点と限界を深く探ります。準備はできたか?ジェミニの初出勤日に何が起こったか見てみましょう。
この記事で参照されている研究リンク: 大規模言語モデルはビジネス統合の準備ができていますか?生成型AIの導入に関する調査
大規模言語モデルとは何ですか?図書館の助手と即興作家のように
大規模言語モデル (LLM) という名前は少し遠いように聞こえますが、比喩的に言えば、図書館で常に呼び出され、あなたが言ったすべての文章を記憶し、いつでも新しいコンテンツの作成を手伝ってくれるアシスタントのようなものです。
もっと具体的に言うと、このアシスタントはあなたが何を言っているのかを実際に「理解」するのではなく、多数の言語の発生確率を数えることで、次に何を言うか、何を聞きたいかを「予測」します。 「このコメントを簡略化してください」と言ったときと同じように、これまでに見た簡略化された文章をすべて脳内で検索し、文脈を組み合わせて一見合理的と思われる回答を組み立てます。
より直感的な例を挙げると、人間の文章が「内面化された理解の後に出力されるもの」だとすると、LLM の作成は「連鎖ゲーム」に似ており、干し草の山から可能なコンポーネントを見つけて並べ替え、テキストの段落を形成します。この能力は、トレーニング段階で大量のオンライン情報を吸収したこと(Wikipedia 全体、ニュース、Reddit、製品レビューを読むなど)から生まれたものですが、実際の常識的な判断は備えていません。
実験開始:AIにディズニーランドの顧客レビュー4万件の簡素化を依頼
この研究は、AIインターンの最初の課題のようなもので、ディズニーランドの利用者が残した42,000件以上のレビューを処理し、簡素化するというものでした。これらのレビューは世界中のさまざまな地域の顧客から寄せられたものであり、使用されている言語は大きく異なり、興奮したもの、感情的なもの、まとまりのないものもあります。企業がこれらのコメントを簡潔で有用な洞察に変換できれば、マーケティング、顧客サービス、製品設計に大いに役立つでしょう。
実験方法は非常に実用的です。研究者らは、ロボティック・プロセス・オートメーション (RPA) のフローチャートを設計しました。
まず、Python プログラムを使用して各元のレビューを読み取り、Google Gemini が提供する API を通じて固定プロンプト「Simplify: review text」を送信し、AI によって返された簡略化されたバージョンを受信します。また、一度に処理するリクエストが多すぎると不正使用と誤解される可能性があるため、各リクエスト間に 60 秒の遅延を設定しました。
一見すると、このプロセスは単純に見えます。コマンドを送信すると、AI がメッセージの簡略化されたバージョンを返します。
しかし、実際には、すべての API リクエストは、会社について何も知らない新しいインターンを会議室に呼び出し、顧客メッセージを手渡し、背景知識なしに、よりシンプルだが要点を押さえたバージョンをすぐに言うように要求するようなものです。
AIは単に言語を「翻訳」するのではなく、より複雑な3段階のプロセスを必要とします。
まず、元の意味を理解できなければなりません(意味理解)。 2 番目に、どの情報を保持し、どの情報を省略するかを決定する必要があります (情報の再編成)。最終的には、自然で流暢な文章に書き直す必要があります(文章生成)。
つまり、これはAIに逐語的な変換を依頼するのではなく、言葉と感情を理解するコミュニケーションの専門家のようには、顧客からの話の一部を「消化・吸収」し、より明確で理解しやすいバージョンに変換するのに役立ちます。これは実は AI にとってはまったく簡単なことではありません。
AI 分野のインターンシップはどのように機能していますか? 70%の確率で、30%の確率で間違いを犯し、彼らは「愚か者」を演じます
最終結果として、42,000 件のレコードのうち、AI は約 3,324 件のレビュー、つまり 8% 未満を簡素化することに成功しました。このうち約4分の3は妥当と思われるが、残りは間違っていたり「回答を拒否」したりした。
AIインターンは、顧客の苦情を聞いてその概要を上司に報告するなどのレビューを処理していると想像できます。理想的には、「では、簡単に片付けをお手伝いしましょう。このお客様は会場がきれいだと思ったのですが、混雑しすぎていました。」と言うでしょう。これが大抵の場合成功します。口調は安定していて、意味は明確で、時には「これがお役に立てれば幸いです」という一文が追加されます。
しかし、うまくいかないときは、勤務時間中に突然ぼんやりしたり、何か知っているふりをしたり、「これをどうやってやればいいのか分からない」と言ったりするインターン生のようなものです。エラー応答の中にはわかりにくい形式のものもあれば、「私は単なる言語モデルなので、お手伝いできません」とだけ表示されるものもあります。さらに興味深いのは、同じ構造のコメントでも状況によって結果が変わることです。あるケースでは役立つと書かれていますが、次のケースでは役に立たないと書かれています。この矛盾から、機嫌が悪いのではないかと疑われます。笑笑
これらの状況は、LLM が必ずしも安定した計算ツールではないことを反映しています。常に数式に従う Excel のようなものではなく、「詩を書くことができるロボット」のようなものです。時にはインスピレーションに満ち溢れ、時には間違いを犯します。次回はどれになるかは予測が難しい。
上司は AI が良い仕事をしたかどうかをどうやって知るのでしょうか?意味的類似性が鍵
では、これらの単純化された結果は実際に「逆」なのでしょうか?研究者らは評価に「意味的類似性」と呼ばれる技術ツールを使用した。このツールの原理は、単に単語が同じかどうかを比較するのではなく、2 人のスピーチの「意味の角度」が一貫しているかどうかを比較するようなものです。
彼らは、テキストの一部を数学的な座標点である「ベクトル」に変換できる Sentence-BERT (SBERT) と呼ばれるモデルを使用しました。次に、「コサイン類似度」を使用して、2 つの段落間の角度を計算します。 2 つの段落の角度が近い場合、意味が一貫していることを意味します。角度がずれると意味が違ってきます。
「この映画にはとても感動しました」と言ったら、AIが「映画はよかったです。涙が出ました」と答えるようなものです。意味は近いです。しかし、「ポップコーンは甘すぎるから好きじゃない」と書いてあるとしたら、それは完全に的外れです。
こうした比較を通じて、研究では、AIの返答の多くは意味の核心を保っているものの、一部の簡略化されたバージョンは「過度に単純化」されており、元の感情や詳細が削除され、中身がなく意味をなさないものになっていることが判明した。
では、企業は AI に仕事を任せることができるのでしょうか?使い方次第です。
この実験は、AI がパフォーマンスがまだ不安定な新人研修生のようなものだということを示しています。彼がうまく機能すれば、多くの時間を節約し、顧客のフィードバックを具体的な洞察に素早く変換するのに役立ちます。しかし、パフォーマンスが悪いと、顧客の口調を誤解したり、要点を外したり、意味不明なことを言ったりすることもあります。
経営者が将来的に AI を自社のプロセスに本格的に統合したいと考えている場合は、「人間と機械の共同レビュー」メカニズムを構築することをお勧めします。つまり、AI に予備編集を担当させ、人間が最終レビューを担当させます。このような協力を通じてのみ、AI の効率性と人間の判断力を組み合わせて最良の結果を達成することができます。
企業は、インターン生に単独で契約書に署名させないのと同じように、AI が 100% すべてを正しく実行することを期待することはできません。本当に賢いアプローチは、まず 80% の反復作業を AI に任せ、次に最も重要な 20% にエネルギーを集中させることです。
結論: AI は教師ではなく生徒です。どのように誘導するかを知る必要があります。
この研究から得られた教訓は、AIは強力ではあるが、まだ全能ではないということだ。技術的な制限と LLM の性質により、LLM は、すべてを自分で管理できる教師や指導者ではなく、成長中の学生のようなものです。プロセスをスピードアップし、インスピレーションを得るのに役立ちますが、人間の判断力やコミュニケーションの洗練度に取って代わることはできません。
「AIはビジネスの世界に参入する準備ができているか?」と議論する場合、実際に考えるべきことは、「AIを正しく使用する準備ができているか?」ということです。これが AI 導入の成功を促進する鍵となります。
AI はツールであり、パートナーであり、さらにはチームのメンバーでもあります。正しく使用すれば、中小企業でも大企業と同等の効率性を実現できます。しかし、誤って使用すると、情報の霧に陥ったり、顧客を誤解したり、機会を逃したりする可能性もあります。
「AIは私に取って代わることができるか?」と問うのではなく、「AIを使って私は以前よりも強くなることができるか?」と問うべきです。
関連レポート
5分でわかる米国株》NVIDIAって何をやっているの?グラフィックス カードで世界ナンバーワンになるにはどうすればよいですか?
労働搾取の工場を使っていると批判されている Scale AI が、どのようにしてデータ注釈業界のユニコーン企業になったのでしょうか?
関連記事
NVIDIAを解読する:AI王の株価高騰の秘密240%を理解するための6つの重要なポイント(前編)
台湾初の AI ユニコーン: 市場価値 13 億 8,000 万米ドルの Appier は何をしているのでしょうか?
Notion の起業家ストーリーを解読する: 小さなノーコードのアイデアが、どのようにして世界の 600 億の生産性市場を覆すことができるのでしょうか?
DNSとは何ですか?ドメインネームシステム入門 – システム設計 06
システム設計コンポーネントの構成要素の概要 – システム設計 05