打開 AI 大腦的秘密花園:透過 Anthropic 解析 Claude 3.5,看見 AI 如何思考

打開 AI 大腦的秘密花園: 透過 Anthropic 解析 Claude 3.5 看見 AI 如何思考

前言:當 AI 變得太聰明,黑盒子不再令人安心

2024 年後,AI 工具已經滲透進我們生活的各個角落。從在 LINE 上自動回覆訊息的小機器人,到企業用來生成報告、編寫程式的智慧助手,AI 彷彿成了我們工作和生活的一部分夥伴。作為一個每天至少使用五種不同 AI 工具的使用者,我常常驚訝於它們的流暢與聰明,甚至在某些時刻,感覺它們懂我勝過我自己!

但也正因如此,不安感開始浮現——我們真的了解這些 AI 是如何得出結論的嗎?每當看到 AI 完成一篇幾乎無懈可擊的報告時,心中不免都會浮現一個疑問:這些結果,是它真正理解了,還是只是湊巧猜對?

如果要用一個畫面來形容現在的 AI,那大概就是:它像是一棵會自己長大的奇異植物。我們看到它開出美麗的花,結出誘人的果,但當我們拿起放大鏡,卻發現自己完全不知道它的根、莖、葉是如何交互作用。

Anthropic 近日發表的研究,正是試圖打開這個黑盒子。他們用近乎生物學家的方式,解析 Claude 3.5 這種大型語言模型內部的運作機制。不是只看輸入與輸出,而是像觀察細胞、追蹤神經元一樣,試著回答:「這棵奇異植物的每一個細胞 到底在做什麼?」

如果未來 AI 真的進入醫療、法律、金融等敏感領域,我們不能只看結果表現,而必須真正了解它的推理過程是否可靠、安全、可控,今天就來透過 Anthropic 的研究來一探 AI 大腦的運作方式吧!

AI 模型的「生物結構」:為什麼要用生物學來比喻?

在理解大型語言模型(LLM)如 Claude 3.5 的內部結構時,Anthropic 團隊選擇了一個令人耳目一新的比喻:把模型當作一個生物體。

這個想法一開始聽起來有點奇怪,畢竟 LLM 是人類設計出來的神經網路架構,不是真正的生命體。但當我們細看模型內部的運作方式,就會發現它和生物演化出的結構有驚人的相似。

生物靠 DNA 複製與突變進行繁衍,但在每個個體內,細胞之間會自我組織成心臟、肺臟、大腦這樣複雜的系統,各自負責不同功能。LLM 則是在巨量資料中進行自我調整,形成成千上萬個 Feature(特徵單位),並且這些 Feature 會互相連結,組成我們可以視為 Circuit(迴路系統)的高階結構。

換句話說,Features 就像細胞,Circuits 就像器官系統。當模型規模變得巨大,內部自我組織出來的複雜程度,已經超越了單純人為設計可以完全掌控的範圍。

Attribution Graphs:幫 AI 裝上顯微鏡的技術

為了真正看到 LLM 的內部結構,Anthropic 開發了 Attribution Graphs 這套新技術:這就像給 AI 大腦裝上了顯微鏡,讓我們能追蹤每一個 Feature 如何參與了最終輸出的形成。

傳統理解模型的方法,大多集中在觀察輸入和輸出之間的關係。但 Attribution Graph 不止於此。它能精確標記每個 Feature 在計算過程中「出力」的情況,就像生物學家用螢光標記技術標記活細胞,追蹤它們如何分化、如何移動。

更進一步,Anthropic 結合了所謂 Circuit Tracing 的方法。這就像是描繪大腦中神經連結地圖(connectome),試圖畫出每一條 Feature 如何影響其他 Feature 的完整路徑圖。

身為 AI 重度使用者,過去在使用各種 LLM 時,感受到它們有一種瞬間靈光乍現的感覺,但無法解釋這種跳躍式推理從何而來。Attribution Graph 的出現,讓我們第一次有機會從內部去理解這些「思考閃光點」的形成機制。

案例解析:Claude 3.5「腦內小劇場」的真相

兩步推理:從「達拉斯在哪」推到「德州 → 奧斯汀」

當模型被問到「達拉斯在哪個州」時,它並不是直接記憶答案,而是經過了至少兩步推理:首先辨認達拉斯在德州,其次推論德州的首府是奧斯汀。

這種推理鏈的存在,透過 Attribution Graph 被清楚地可視化出來。每一個中間推論步驟,都有對應的 Feature 活化與互動。

就像高中生做選擇題時,先腦內快速過濾出「德州」這個地理資訊,再將「奧斯汀」與德州建立聯想,最後得出答案。

這其實可以類比台灣教育體系下,學生從小訓練出的答題技巧裡隱含的隱性推理鏈。AI 如果也能形成類似的鏈式推論能力,未來在教育、考試輔助上將有巨大潛力,但同時也必須警惕其推理過程是否健全,否則會出現「答對了但想錯了」的危險。

詩歌創作:提前規劃押韻的秘密

在創作詩歌的過程中,Claude 3.5 不是即興隨手寫下每一句話,而是在真正動筆前,內部系統已經先列出了一個可能押韻的單字清單。

這個現象通過 Attribution Graph 被直觀地具象化。就像詩人寫詩時,會在腦海中先快速瀏覽哪些詞能押韻,再挑選其中最符合情境的字詞接續創作。這種結構性的前置規劃,讓 AI 能夠在語言流暢性與美感之間找到更好的平衡,而不只是隨機排列華麗詞彙。

這也回應了不少內容創作者對 AI 寫作的疑慮:AI 不是只會堆疊漂亮句子,它開始能「預先設計」,這意味著未來在文案、品牌敘事、甚至流行文化生成上的應用潛力更大。

多語言模式:語言專用電路與跨語言通用電路

Anthropic 也發現,Claude 3.5 的大腦裡,同時存在針對不同語言(如英文、法文、西班牙文)優化的專用電路,以及一套跨語言通用的高階邏輯系統。

這也可以對應到人類的學習方式:小時候學中文時,大腦會專門練習中文音節、語法;但隨著成長,我們也學會用抽象邏輯解決不同語言的問題。

作為中文使用者,我深刻體會到一個事實:如果未來中文 LLM 想做到世界級水平,不能只靠翻譯,也必須發展出屬於中文語境特有的「母語特徵」電路,否則在細膩表達、隱含語義的理解上,永遠追不上 native。

診斷推理:AI 如何「腦內預設」可能的疾病

在面對醫療相關提問時,Claude 3.5 展現了類似臨床醫師思考模式的特徵。它不是看到症狀就硬套一個答案,而是會腦內展開一份「候選診斷列表」。

比方說,遇到「喉嚨痛+發燒」的描述時,它同時激活了「感冒」、「流感」、「鏈球菌感染」等多個可能性,並依據細節進行篩選。這種思考過程的可視化也能應用於 AI 醫療應用市場:未來若要讓 AI 輔助診斷在地化落地,必須確保 AI 不只是背誦教科書,而是真正具備這種 “候選假說形成與篩選” 的能力。

拒絕與誤判:模型如何判斷什麼該回答、什麼該拒絕

最後,Anthropic 也揭示了 Claude 3.5 如何建立起「有害請求偵測」的 Feature。例如在遇到敏感問題時,自動啟動拒答邏輯,並以安全語氣回應。

不過這套系統也不是完美的。有時候它會過度小心、把無害問題錯誤歸類;有時候又會失誤,讓有害問題溜過去!

局限與未解之謎:AI 還有哪些「黑盒子死角」?

即便 Attribution Graphs 技術讓我們第一次得以窺見 LLM 內部的細節,但這仍然只是冰山一角。Anthropic 自己也在論文中坦承,目前的工具無法完整重建所有 Feature 之間的細緻互動。有些隱性推論、上下文整合機制,仍像深海生物一樣潛藏在我們看不見的地方。

要真正理解 AI,就像現代神經科學家試圖解讀人腦連接體(connectome)一樣,需要更精細的描繪、更大量的資料、更持久的投入。

對台灣這樣一個積極擁抱科技的社會來說,我認為現在正是我們重新思考的好時機:
未來,我們是要做只使用 AI 工具的消費者,還是成為能解剖、理解、甚至主動設計 AI 系統的專家?

這個選擇也將決定我們在下一波科技浪潮中的角色。

結語:理解 AI 如同理解自己的大腦

這次 Anthropic 的研究無疑為我們揭開了 AI 內部世界的一角。我們開始意識到 AI 不再是純粹的黑盒子;它有自己的 “細胞”、”器官系統”、”推理網絡”,甚至有了原始的「小劇場」。但同時它也提醒我們,真正的理解只是剛剛開始,我們還有許多角落未曾照亮、許多機制未曾完全掌握。

作為一個每天與 AI 共處、依賴它加速工作效率的人,對 AI 發展的看法是矛盾的:一方面是驚艷與希望、一方面是謹慎與自省。

也許未來理解 AI 就像理解自己的大腦一樣,是一條漫長、但必須投注時間與精力走下去路。
也期待台灣未來能在這條路上,不只是使用者,更是創造者與引路人!

 

相關報導

5 分鐘學美股》輝達NVIDIA是做什麼的?靠顯卡怎麼成為世界第一?

用血汗勞工被批,Scale AI憑什麼成資料標註界獨角獸?

相關文章

解密輝達 NVIDIA: 6個重點帶你搞懂 AI 之王股價翻漲 240% 的秘密 (上) 

台灣第一隻 AI 獨角獸: 市值 13.8 億美元的 Appier 沛星到底在做什麼?

解密 Notion 創業故事: 一個 No code 的小創意,如何顛覆全球600億生產力市場?

 

DNS 是什麼?網域名稱系統介紹 – 系統設計 06

系統設計元件介紹 Building Block – 系統設計 05

Back-of-the-envelope 封底計算 – 系統設計 04

軟體設計非功能性特性 – 系統設計 03

抽象在系統設計中的應用 – 系統設計 02

現代系統設計介紹 – 系統設計 01

zh_TW繁體中文