內容目錄
Toggle前言:當 AI 變得太聰明,黑盒子不再令人安心
2024 年後,AI 工具已經滲透進我們生活的各個角落。從在 LINE 上自動回覆訊息的小機器人,到企業用來生成報告、編寫程式的智慧助手,AI 彷彿成了我們工作和生活的一部分夥伴。作為一個每天至少使用五種不同 AI 工具的使用者,我常常驚訝於它們的流暢與聰明,甚至在某些時刻,感覺它們懂我勝過我自己!
但也正因如此,不安感開始浮現——我們真的了解這些 AI 是如何得出結論的嗎?每當看到 AI 完成一篇幾乎無懈可擊的報告時,心中不免都會浮現一個疑問:這些結果,是它真正理解了,還是只是湊巧猜對?
如果要用一個畫面來形容現在的 AI,那大概就是:它像是一棵會自己長大的奇異植物。我們看到它開出美麗的花,結出誘人的果,但當我們拿起放大鏡,卻發現自己完全不知道它的根、莖、葉是如何交互作用。
Anthropic 近日發表的研究,正是試圖打開這個黑盒子。他們用近乎生物學家的方式,解析 Claude 3.5 這種大型語言模型內部的運作機制。不是只看輸入與輸出,而是像觀察細胞、追蹤神經元一樣,試著回答:「這棵奇異植物的每一個細胞 到底在做什麼?」
如果未來 AI 真的進入醫療、法律、金融等敏感領域,我們不能只看結果表現,而必須真正了解它的推理過程是否可靠、安全、可控,今天就來透過 Anthropic 的研究來一探 AI 大腦的運作方式吧!
AI 模型的「生物結構」:為什麼要用生物學來比喻?
在理解大型語言模型(LLM)如 Claude 3.5 的內部結構時,Anthropic 團隊選擇了一個令人耳目一新的比喻:把模型當作一個生物體。
這個想法一開始聽起來有點奇怪,畢竟 LLM 是人類設計出來的神經網路架構,不是真正的生命體。但當我們細看模型內部的運作方式,就會發現它和生物演化出的結構有驚人的相似。
生物靠 DNA 複製與突變進行繁衍,但在每個個體內,細胞之間會自我組織成心臟、肺臟、大腦這樣複雜的系統,各自負責不同功能。LLM 則是在巨量資料中進行自我調整,形成成千上萬個 Feature(特徵單位),並且這些 Feature 會互相連結,組成我們可以視為 Circuit(迴路系統)的高階結構。
換句話說,Features 就像細胞,Circuits 就像器官系統。當模型規模變得巨大,內部自我組織出來的複雜程度,已經超越了單純人為設計可以完全掌控的範圍。
Attribution Graphs:幫 AI 裝上顯微鏡的技術
為了真正看到 LLM 的內部結構,Anthropic 開發了 Attribution Graphs 這套新技術:這就像給 AI 大腦裝上了顯微鏡,讓我們能追蹤每一個 Feature 如何參與了最終輸出的形成。
傳統理解模型的方法,大多集中在觀察輸入和輸出之間的關係。但 Attribution Graph 不止於此。它能精確標記每個 Feature 在計算過程中「出力」的情況,就像生物學家用螢光標記技術標記活細胞,追蹤它們如何分化、如何移動。
更進一步,Anthropic 結合了所謂 Circuit Tracing 的方法。這就像是描繪大腦中神經連結地圖(connectome),試圖畫出每一條 Feature 如何影響其他 Feature 的完整路徑圖。
身為 AI 重度使用者,過去在使用各種 LLM 時,感受到它們有一種瞬間靈光乍現的感覺,但無法解釋這種跳躍式推理從何而來。Attribution Graph 的出現,讓我們第一次有機會從內部去理解這些「思考閃光點」的形成機制。
案例解析:Claude 3.5「腦內小劇場」的真相
兩步推理:從「達拉斯在哪」推到「德州 → 奧斯汀」
當模型被問到「達拉斯在哪個州」時,它並不是直接記憶答案,而是經過了至少兩步推理:首先辨認達拉斯在德州,其次推論德州的首府是奧斯汀。
這種推理鏈的存在,透過 Attribution Graph 被清楚地可視化出來。每一個中間推論步驟,都有對應的 Feature 活化與互動。
就像高中生做選擇題時,先腦內快速過濾出「德州」這個地理資訊,再將「奧斯汀」與德州建立聯想,最後得出答案。
這其實可以類比台灣教育體系下,學生從小訓練出的答題技巧裡隱含的隱性推理鏈。AI 如果也能形成類似的鏈式推論能力,未來在教育、考試輔助上將有巨大潛力,但同時也必須警惕其推理過程是否健全,否則會出現「答對了但想錯了」的危險。
詩歌創作:提前規劃押韻的秘密
在創作詩歌的過程中,Claude 3.5 不是即興隨手寫下每一句話,而是在真正動筆前,內部系統已經先列出了一個可能押韻的單字清單。
這個現象通過 Attribution Graph 被直觀地具象化。就像詩人寫詩時,會在腦海中先快速瀏覽哪些詞能押韻,再挑選其中最符合情境的字詞接續創作。這種結構性的前置規劃,讓 AI 能夠在語言流暢性與美感之間找到更好的平衡,而不只是隨機排列華麗詞彙。
這也回應了不少內容創作者對 AI 寫作的疑慮:AI 不是只會堆疊漂亮句子,它開始能「預先設計」,這意味著未來在文案、品牌敘事、甚至流行文化生成上的應用潛力更大。
多語言模式:語言專用電路與跨語言通用電路
Anthropic 也發現,Claude 3.5 的大腦裡,同時存在針對不同語言(如英文、法文、西班牙文)優化的專用電路,以及一套跨語言通用的高階邏輯系統。
這也可以對應到人類的學習方式:小時候學中文時,大腦會專門練習中文音節、語法;但隨著成長,我們也學會用抽象邏輯解決不同語言的問題。
作為中文使用者,我深刻體會到一個事實:如果未來中文 LLM 想做到世界級水平,不能只靠翻譯,也必須發展出屬於中文語境特有的「母語特徵」電路,否則在細膩表達、隱含語義的理解上,永遠追不上 native。
診斷推理:AI 如何「腦內預設」可能的疾病
在面對醫療相關提問時,Claude 3.5 展現了類似臨床醫師思考模式的特徵。它不是看到症狀就硬套一個答案,而是會腦內展開一份「候選診斷列表」。
比方說,遇到「喉嚨痛+發燒」的描述時,它同時激活了「感冒」、「流感」、「鏈球菌感染」等多個可能性,並依據細節進行篩選。這種思考過程的可視化也能應用於 AI 醫療應用市場:未來若要讓 AI 輔助診斷在地化落地,必須確保 AI 不只是背誦教科書,而是真正具備這種 “候選假說形成與篩選” 的能力。
拒絕與誤判:模型如何判斷什麼該回答、什麼該拒絕
最後,Anthropic 也揭示了 Claude 3.5 如何建立起「有害請求偵測」的 Feature。例如在遇到敏感問題時,自動啟動拒答邏輯,並以安全語氣回應。
不過這套系統也不是完美的。有時候它會過度小心、把無害問題錯誤歸類;有時候又會失誤,讓有害問題溜過去!
局限與未解之謎:AI 還有哪些「黑盒子死角」?
即便 Attribution Graphs 技術讓我們第一次得以窺見 LLM 內部的細節,但這仍然只是冰山一角。Anthropic 自己也在論文中坦承,目前的工具無法完整重建所有 Feature 之間的細緻互動。有些隱性推論、上下文整合機制,仍像深海生物一樣潛藏在我們看不見的地方。
要真正理解 AI,就像現代神經科學家試圖解讀人腦連接體(connectome)一樣,需要更精細的描繪、更大量的資料、更持久的投入。
對台灣這樣一個積極擁抱科技的社會來說,我認為現在正是我們重新思考的好時機:
未來,我們是要做只使用 AI 工具的消費者,還是成為能解剖、理解、甚至主動設計 AI 系統的專家?
這個選擇也將決定我們在下一波科技浪潮中的角色。
結語:理解 AI 如同理解自己的大腦
這次 Anthropic 的研究無疑為我們揭開了 AI 內部世界的一角。我們開始意識到 AI 不再是純粹的黑盒子;它有自己的 “細胞”、”器官系統”、”推理網絡”,甚至有了原始的「小劇場」。但同時它也提醒我們,真正的理解只是剛剛開始,我們還有許多角落未曾照亮、許多機制未曾完全掌握。
作為一個每天與 AI 共處、依賴它加速工作效率的人,對 AI 發展的看法是矛盾的:一方面是驚艷與希望、一方面是謹慎與自省。
也許未來理解 AI 就像理解自己的大腦一樣,是一條漫長、但必須投注時間與精力走下去路。
也期待台灣未來能在這條路上,不只是使用者,更是創造者與引路人!
相關報導
5 分鐘學美股》輝達NVIDIA是做什麼的?靠顯卡怎麼成為世界第一?
相關文章
解密輝達 NVIDIA: 6個重點帶你搞懂 AI 之王股價翻漲 240% 的秘密 (上)
台灣第一隻 AI 獨角獸: 市值 13.8 億美元的 Appier 沛星到底在做什麼?
解密 Notion 創業故事: 一個 No code 的小創意,如何顛覆全球600億生產力市場?
系統設計元件介紹 Building Block – 系統設計 05