AI脳の秘密の花園を解き放つ:Anthropicを通してClaude 3.5を分析し、AIがどのように考えるかを見る

AI脳の秘密の花園を解き明かす:クロード3.5の人類学的分析を通してAIの思考を理解する

序文:AIが賢くなりすぎると、ブラックボックスはもはや安心できない

2024年以降、AIツールは私たちの生活の隅々まで浸透しています。 LINEのメッセージに自動返信してくれる小型ロボットから、企業がレポートを生成したりプログラムを書いたりするのに使うスマートアシスタントまで、AIは私たちの仕事や生活の一部になっているようです。毎日少なくとも 5 種類の AI ツールを使用している私としては、その流暢さと知性に驚かされることがよくあります。時には、私自身よりも彼らの方が私のことを理解してくれていると感じることさえあります。

しかし、このことから、不安感が生まれ始めます。これらの AI がどのようにして結論に達するのかを私たちは本当に理解しているのでしょうか? AI がほぼ完璧なレポートを完成させるのを見るたびに、私の心には必ず疑問が湧いてきます。AI はこれらの結果を本当に理解しているのだろうか、それとも単なる偶然なのだろうか?

今日の AI を絵で表現するなら、それはおそらく、自ら成長できる不思議な植物のようなものでしょう。私たちは植物が美しい花を咲かせ、魅力的な果実を実らせているのを見ますが、虫眼鏡で見ると、植物の根、茎、葉がどのように相互作用しているか全く分からないことに気づきます。

アントロピックが最近発表した研究、このブラックボックスを開けようとしています。彼らは、ほぼ生物学者のようなアプローチを使用して、Claude 3.5 などの大規模な言語モデルの内部動作メカニズムを分析しました。入力と出力だけを見るのではなく、細胞を観察してニューロンを追跡し、「この奇妙な植物の各細胞は何をしているのか?」という疑問に答えようとすることができます。

将来、AI が医療、法律、金融などの機密性の高い分野に本格的に参入する場合には、パフォーマンス結果を見るだけでなく、その推論プロセスが信頼性が高く、安全で、制御可能であるかどうかを真に理解する必要があります。今日は、Anthropicの研究を通してAI脳がどのように機能するかを探ってみましょう!

AI モデルの「生物学的構造」: なぜ生物学を比喩として使うのか?

Claude 3.5 のような大規模言語モデル (LLM) の内部を理解するにあたって、Anthropic チームは、モデルを生物として考えるという斬新な比喩を選択しました。

このアイデアは最初は少し奇妙に聞こえるかもしれません。結局のところ、LLM は実際の生物ではなく、人間によって設計されたニューラル ネットワーク アーキテクチャです。しかし、モデルが内部的にどのように機能するかを詳しく見てみると、生物の中で進化してきた構造と驚くほど似ていることがわかります。

生物は DNA の複製と突然変異を通じて繁殖しますが、各個体の内部では細胞が心臓、肺、脳などの複雑なシステムに自己組織化され、それぞれが異なる機能を担っています。 LLM は膨大な量のデータに基づいて自分自身を調整し、何千もの特徴を形成します。そして、これらの特徴は相互に接続され、回路システムとみなせる高レベルの構造を形成します。

言い換えれば、機能は細胞のようなもので、回路は器官系のようなものです。モデルが巨大になると、その内部の自己組織化の複雑さは、単純な人間の設計によって完全に制御できる範囲を超えてしまいます。

アトリビューショングラフ:AIを顕微鏡で観察する技術

LLM の内部構造を真に理解するために、Anthropic は Attribution Graphs と呼ばれる新しいテクノロジーを開発しました。これは AI の脳に顕微鏡を設置するようなもので、各機能が最終出力の形成にどのように関与しているかを追跡できます。

モデルを理解する従来の方法は、主に入力と出力の関係を観察することに重点を置いています。しかし、Attribution Graph はそれ以上のことを行います。生物学者が蛍光標識技術を使用して生きた細胞に印を付け、それらの分化と移動を追跡するのと同じように、コンピューティングプロセス中に各機能の「出力」を正確にマークできます。

さらに一歩進んで、Anthropic ではいわゆる Circuit Tracing 方式を採用しています。これは、脳内にコネクトーム マップを描くようなもので、各機能が他の機能にどのように影響するかの完全なパス マップを描こうとしているようなものです。

私は AI のヘビーユーザーとして、これまでさまざまな LLM を使用した際に、瞬間的にひらめきを感じることがありましたが、この推論の飛躍がどこから来たのかは説明できませんでした。 Attribution Graph の出現により、こうした「思考の発火点」の形成メカニズムを内部から理解する初めての機会が生まれました。

症例分析:クロード3.5の「脳内の小さなドラマ」の背後にある真実

2段階推論:「ダラスはどこですか」から「テキサス → オースティン」まで

モデルに「ダラスはどの州にありますか?」と質問すると、答えを直接記憶するのではなく、少なくとも 2 つの推論ステップを経ました。まず、ダラスはテキサス州にあると認識し、次に、テキサス州の州都はオースティンであると推論しました。

この推論の連鎖の存在は、アトリビューション グラフを通じて明確に視覚化されます。各中間推論ステップには、対応する機能のアクティベーションと相互作用があります。

高校生が多肢選択問題に答えるときと同じように、彼らはまず頭の中で「テキサス」の地理的情報を素早くフィルタリングし、次に「オースティン」をテキサスと関連付けて、最終的に答えを導き出します。

これは実際、台湾の教育制度において、生徒が幼少のころから訓練されて身につけてきた解答能力に含まれる暗黙の推論の連鎖に例えることができます。 AIも同様の連鎖推論能力を開発できれば、将来的には教育や試験支援の分野で大きな可能性を秘めているだろう。しかし、その推論プロセスが健全であるかどうかについても注意が必要です。そうでないと、「答えは正しいが考え方が間違っている」という危険があります。

詩作:韻を事前に計画する秘訣

クロード3.5は詩を作るとき、即興で文章を一つ一つ書き留めることはありません。むしろ、実際に書き始める前に、彼の内部システムはすでに韻を踏む可能性のある単語のリストをリストアップしているのです。

この現象は、Attribution Graph を通じて直感的に視覚化されます。詩人が詩を書くときと同じように、詩人はまずどの単語が韻を踏めるかを頭の中で素早く調べ、次に状況に最も適した単語を選択して書き続けます。この構造的な事前計画により、AI は単にランダムに派手な単語を並べるのではなく、言語の流暢さと美しさの間のより良いバランスを見つけることができます。

これは、多くのコンテンツ作成者が抱く AI ライティングに関する懸念にも対応しています。AI は単に美しい文章を積み重ねるだけでなく、「事前設計」もできるようになりつつあり、将来的にはコピーライティング、ブランド ナラティブ、さらにはポップ カルチャーの生成にも応用できる可能性が高まっています。

多言語パターン:言語特有の回路と言語横断的な一般回路

アントロピックはまた、クロード3.5の脳には、さまざまな言語(英語、フランス語、スペイン語など)に最適化された専用回路と、言語間で普遍的な高レベルの論理システムが含まれていることを発見しました。

これは人間の学習方法にも当てはまります。子供の頃に中国語を学ぶとき、私たちの脳は中国語の音節と文法の練習に特化します。しかし、成長するにつれて、私たちはさまざまな言語で問題を解決するために抽象的な論理を使うことも学びます。

中国語話者として、私はある事実を深く認識しました。それは、中国の法学修士課程が将来世界レベルのレベルに到達するためには、翻訳だけに頼るのではなく、中国語の文脈に特有の「母語機能」回路も開発しなければならないということです。そうでなければ、繊細な表現や暗黙の意味の理解という点でネイティブに追いつくことは決してないでしょう。

診断推論:AIが病気の可能性を「事前設定」する方法

医療関連の質問に直面したとき、クロード 3.5 は臨床医の思考パターンの特徴を示しました。症状に基づいて答えを強制するのではなく、脳内に「候補診断リスト」を作成します。

例えば、「喉の痛み+発熱」という記述に遭遇すると、「風邪」「インフルエンザ」「連鎖球菌感染症」など複数の可能性を同時に起動し、詳細に基づいてフィルタリングします。この思考プロセスの可視化は、AI医療応用市場にも応用可能であり、今後AI支援診断が実用化されるには、AIが単に教科書を暗唱するだけでなく、真に「候補となる仮説を形成し、選別する」能力を備えていることが必要です。

拒否と誤判断: モデルが何を回答し、何を拒否するかをどのように決定するか

最後に、Anthropic は、Claude 3.5 で「有害なリクエストの検出」機能がどのように確立されたかについても明らかにしました。たとえば、デリケートな質問に遭遇した場合、拒否ロジックが自動的に起動し、安全な口調で応答します。

しかし、このシステムは完璧ではありません。時には過度に慎重になり、無害な問題を誤って分類してしまうこともあります。時には間違いを犯し、有害な問題を見逃してしまうこともあります。

限界と未解決の謎: AI には他にどのような「ブラックボックスの盲点」があるのでしょうか?

Attribution Graphs テクノロジーによって LLM の詳細を初めて垣間見ることができましたが、それはまだ氷山の一角にすぎません。 Anthropic 自身も論文の中で、現在のツールではすべての機能間の詳細な相互作用を完全に再構築することはできないと認めています。いくつかの暗黙的な推論と文脈統合のメカニズムは、深海の生物のように私たちの目にまだ隠れています。

AI を真に理解するには、現代の神経科学者が人間の脳のコネクトームを解読しようとしているのと同じように、より詳細な説明、より多くのデータ、そしてより持続的な投資が必要になります。

テクノロジーを積極的に取り入れている台湾のような社会にとって、今こそ考え直す良い機会だと思います。
将来、私たちは AI ツールを使用するだけの消費者になるのでしょうか、それとも AI システムを分析、理解し、積極的に設計できる専門家になるのでしょうか。

この選択は、次のテクノロジーの波における私たちの役割も決定するでしょう。

結論: AIを理解することは、自分の脳を理解することと同じである

この人類学的研究は、間違いなく AI の内なる世界を垣間見せてくれました。 AI はもはや純粋なブラックボックスではないことに私たちは気づき始めています。独自の「細胞」、「器官系」、「推論ネットワーク」、さらには原始的な「小さな劇場」さえも持っています。しかし同時に、真の理解はまだ始まったばかりであり、まだ明らかにされていない部分や完全に習得されていないメカニズムが数多くあることも私たちに思い出させます。

日々 AI と共に生活し、仕事の効率化のために AI に頼っている私にとって、AI の発展に対する見方は矛盾しています。一方では驚きと希望があり、他方では警戒と内省があります。

将来、AI を理解することは、自分の脳を理解することに似ているかもしれません。それは時間とエネルギーを必要とする長い旅です。
今後、台湾がこの道のユーザーになるだけでなく、クリエーターやガイドにもなっていってくれることを期待しています!

 

関連レポート

5分でわかる米国株》NVIDIAって何をやっているの?グラフィックス カードで世界ナンバーワンになるにはどうすればよいですか?

労働搾取の工場を使っていると批判されている Scale AI が、どのようにしてデータ注釈業界のユニコーン企業になったのでしょうか?

関連記事

NVIDIAを解読する:AI王の株価高騰の秘密240%を理解するための6つの重要なポイント(前編) 

台湾初の AI ユニコーン: 市場価値 13 億 8,000 万米ドルの Appier は何をしているのでしょうか?

Notion の起業家ストーリーを解読する: 小さなノーコードのアイデアが、どのようにして世界の 600 億の生産性市場を覆すことができるのでしょうか?

 

DNSとは何ですか?ドメインネームシステム入門 – システム設計 06

システム設計コンポーネントの構成要素の概要 – システム設計 05

封筒の裏の計算 – システム設計 04

ソフトウェア設計の非機能的特徴 – システム設計 03

システム設計における抽象化の適用 – システム設計 02

最新システム設計入門 - システム設計 01

ja日本語