打开AI 大脑的秘密花园:透过Anthropic 解析Claude 3.5,看见AI 如何思考

打开AI 大脑的秘密花园: 透过Anthropic 解析Claude 3.5 看见AI 如何思考

前言:当AI 变得太聪明,黑盒子不再令人安心

2024 年后,AI 工具已经渗透进我们生活的各个角落。从在LINE 上自动回覆讯息的小机器人,到企业用来生成报告、编写程式的智慧助手,AI 仿佛成了我们工作和生活的一部分伙伴。作为一个每天至少使用五种不同AI 工具的使用者,我常常惊讶于它们的流畅与聪明,甚至在某些时刻,感觉它们懂我胜过我自己!

但也正因如此,不安感开始浮现——我们真的了解这些AI 是如何得出结论的吗?每当看到AI 完成一篇几乎无懈可击的报告时,心中不免都会浮现一个疑问:这些结果,是它真正理解了,还是只是凑巧猜对?

如果要用一个画面来形容现在的AI,那大概就是:它像是一棵会自己长大的奇异植物。我们看到它开出美丽的花,结出诱人的果,但当我们拿起放大镜,却发现自己完全不知道它的根、茎、叶是如何交互作用。

Anthropic 近日发表的研究,正是试图打开这个黑盒子。他们用近乎生物学家的方式,解析Claude 3.5 这种大型语言模型内部的运作机制。不是只看输入与输出,而是像观察细胞、追踪神经元一样,试着回答:「这棵奇异植物的每一个细胞到底在做什么?」

如果未来AI 真的进入医疗、法律、金融等敏感领域,我们不能只看结果表现,而必须真正了解它的推理过程是否可靠、安全、可控,今天就来透过Anthropic 的研究来一探AI 大脑的运作方式吧!

AI 模型的「生物结构」:为什么要用生物学来比喻?

在理解大型语言模型(LLM)如Claude 3.5 的内部结构时,Anthropic 团队选择了一个令人耳目一新的比喻:把模型当作一个生物体。

这个想法一开始听起来有点奇怪,毕竟LLM 是人类设计出来的神经网路架构,不是真正的生命体。但当我们细看模型内部的运作方式,就会发现它和生物演化出的结构有惊人的相似。

生物靠DNA 复制与突变进行繁衍,但在每个个体内,细胞之间会自我组织成心脏、肺脏、大脑这样复杂的系统,各自负责不同功能。 LLM 则是在巨量资料中进行自我调整,形成成千上万个Feature(特征单位),并且这些Feature 会互相连结,组成我们可以视为Circuit(回路系统)的高阶结构。

换句话说,Features 就像细胞,Circuits 就像器官系统。当模型规模变得巨大,内部自我组织出来的复杂程度,已经超越了单纯人为设计可以完全掌控的范围。

Attribution Graphs:帮AI 装上显微镜的技术

为了真正看到LLM 的内部结构,Anthropic 开发了Attribution Graphs 这套新技术:这就像给AI 大脑装上了显微镜,让我们能追踪每一个Feature 如何参与了最终输出的形成。

传统理解模型的方法,大多集中在观察输入和输出之间的关系。但Attribution Graph 不止于此。它能精确标记每个Feature 在计算过程中「出力」的情况,就像生物学家用萤光标记技术标记活细胞,追踪它们如何分化、如何移动。

更进一步,Anthropic 结合了所谓Circuit Tracing 的方法。这就像是描绘大脑中神经连结地图(connectome),试图画出每一条Feature 如何影响其他Feature 的完整路径图。

身为AI 重度使用者,过去在使用各种LLM 时,感受到它们有一种瞬间灵光乍现的感觉,但无法解释这种跳跃式推理从何而来。 Attribution Graph 的出现,让我们第一次有机会从内部去理解这些「思考闪光点」的形成机制。

案例解析:Claude 3.5「脑内小剧场」的真相

两步推理:从「达拉斯在哪」推到「德州→ 奥斯汀」

当模型被问到「达拉斯在哪个州」时,它并不是直接记忆答案,而是经过了至少两步推理:首先辨认达拉斯在德州,其次推论德州的首府是奥斯汀。

这种推理链的存在,透过Attribution Graph 被清楚地可视化出来。每一个中间推论步骤,都有对应的Feature 活化与互动。

就像高中生做选择题时,先脑内快速过滤出「德州」这个地理资讯,再将「奥斯汀」与德州建立联想,最后得出答案。

这其实可以类比台湾教育体系下,学生从小训练出的答题技巧里隐含的隐性推理链。 AI 如果也能形成类似的链式推论能力,未来在教育、考试辅助上将有巨大潜力,但同时也必须警惕其推理过程是否健全,否则会出现「答对了但想错了」的危险。

诗歌创作:提前规划押韵的秘密

在创作诗歌的过程中,Claude 3.5 不是即兴随手写下每一句话,而是在真正动笔前,内部系统已经先列出了一个可能押韵的单字清单。

这个现象通过Attribution Graph 被直观地具象化。就像诗人写诗时,会在脑海中先快速浏览哪些词能押韵,再挑选其中最符合情境的字词接续创作。这种结构性的前置规划,让AI 能够在语言流畅性与美感之间找到更好的平衡,而不只是随机排列华丽词汇。

这也回应了不少内容创作者对AI 写作的疑虑:AI 不是只会堆叠漂亮句子,它开始能「预先设计」,这意味着未来在文案、品牌叙事、甚至流行文化生成上的应用潜力更大。

多语言模式:语言专用电路与跨语言通用电路

Anthropic 也发现,Claude 3.5 的大脑里,同时存在针对不同语言(如英文、法文、西班牙文)优化的专用电路,以及一套跨语言通用的高阶逻辑系统。

这也可以对应到人类的学习方式:小时候学中文时,大脑会专门练习中文音节、语法;但随著成长,我们也学会用抽象逻辑解决不同语言的问题。

作为中文使用者,我深刻体会到一个事实:如果未来中文LLM 想做到世界级水平,不能只靠翻译,也必须发展出属于中文语境特有的「母语特征」电路,否则在细腻表达、隐含语义的理解上,永远追不上native。

诊断推理:AI 如何「脑内预设」可能的疾病

在面对医疗相关提问时,Claude 3.5 展现了类似临床医师思考模式的特征。它不是看到症状就硬套一个答案,而是会脑内展开一份「候选诊断列表」。

比方说,遇到「喉咙痛+发烧」的描述时,它同时激活了「感冒」、「流感」、「链球菌感染」等多个可能性,并依据细节进行筛选。这种思考过程的可视化也能应用于AI 医疗应用市场:未来若要让AI 辅助诊断在地化落地,必须确保AI 不只是背诵教科书,而是真正具备这种“候选假说形成与筛选” 的能力。

拒绝与误判:模型如何判断什么该回答、什么该拒绝

最后,Anthropic 也揭示了Claude 3.5 如何建立起「有害请求侦测」的Feature。例如在遇到敏感问题时,自动启动拒答逻辑,并以安全语气回应。

不过这套系统也不是完美的。有时候它会过度小心、把无害问题错误归类;有时候又会失误,让有害问题溜过去!

局限与未解之谜:AI 还有哪些「黑盒子死角」?

即便Attribution Graphs 技术让我们第一次得以窥见LLM 内部的细节,但这仍然只是冰山一角。 Anthropic 自己也在论文中坦承,目前的工具无法完整重建所有Feature 之间的细致互动。有些隐性推论、上下文整合机制,仍像深海生物一样潜藏在我们看不见的地方。

要真正理解AI,就像现代神经科学家试图解读人脑连接体(connectome)一样,需要更精细的描绘、更大量的资料、更持久的投入。

对台湾这样一个积极拥抱科技的社会来说,我认为现在正是我们重新思考的好时机:
未来,我们是要做只使用AI 工具的消费者,还是成为能解剖、理解、甚至主动设计AI 系统的专家?

这个选择也将决定我们在下一波科技浪潮中的角色。

结语:理解AI 如同理解自己的大脑

这次Anthropic 的研究无疑为我们揭开了AI 内部世界的一角。我们开始意识到AI 不再是纯粹的黑盒子;它有自己的“细胞”、”器官系统”、”推理网络”,甚至有了原始的「小剧场」。但同时它也提醒我们,真正的理解只是刚刚开始,我们还有许多角落未曾照亮、许多机制未曾完全掌握。

作为一个每天与AI 共处、依赖它加速工作效率的人,对AI 发展的看法是矛盾的:一方面是惊艳与希望、一方面是谨慎与自省。

也许未来理解AI 就像理解自己的大脑一样,是一条漫长、但必须投注时间与精力走下去路。
也期待台湾未来能在这条路上,不只是使用者,更是创造者与引路人!

 

相关报导

5 分钟学美股》辉达NVIDIA是做什么的?靠显卡怎么成为世界第一?

用血汗劳工被批,Scale AI凭什么成资料标注界独角兽?

相关文章

解密辉达NVIDIA: 6个重点带你搞懂AI 之王股价翻涨240% 的秘密(上) 

台湾第一只AI 独角兽: 市值13.8 亿美元的Appier 沛星到底在做什么?

解密Notion 创业故事: 一个No code 的小创意,如何颠覆全球600亿生产力市场?

 

DNS 是什么?网域名称系统介绍– 系统设计06

系统设计元件介绍Building Block – 系统设计05

Back-of-the-envelope 封底计算– 系统设计04

软体设计非功能性特性– 系统设计03

抽象在系统设计中的应用– 系统设计02

现代系统设计入门 - 系统设计 01

zh_CN简体中文