AI是个黑箱，但我们正努力观察它的内部运转

AI快讯2024年5月25日 15:50发布 AI快马

294 0 0

过去十年间，AI研究人员Chris Olah一直痴迷于人工神经网络。期间一个问题特别吸引到他的关注，也成为他长久以来的工作中心。先是在Google Barin，之后是OpenAI，如今则是在他联合创立的AI初创公司Anthropic。“AI系统内部到底发生了什么？我们建立起这些系统，却不知道它们是如何运作的。这简直太离谱了。”

随着生成式AI技术的广泛普及，这个问题正在成为时代的新课题。像CHatGPT、Gemini乃至Anthropic自家Claude这样的大语言模型，一方面其语言能力令人眼花缭乱，但时常出现的胡言乱语也着实让用户感到头痛。生成式AI解决以往棘手问题的潜力让技术乐观主义者们着迷，但没人知道大语言模型究竟是怎么起效的。哪怕是其创造者也解释不清这些模型到底在如何运转，因此需要付出巨大的努力来建立护栏，以防止其炮制出偏见、错误信息甚至是致命化学武器的制造手册。可以想见，如果构建模型的人们知晓这些“黑箱”中到底发生了什么，那么安全保障难度也将大大降低。

Olah坚信我们正在朝着这个目标挺进。他领导的研究团队已经窥探过这只黑箱的内部。本质上，他们正尝试对大语言模型进行逆向工程，以了解它们为什么会得出特定输出。而根据日前发布的最新论文，他们的工作已经取得了重大进展。

也许大家关注过神经科学研究，此类研究通过解释核磁共振扫描来识别人脑是在想象飞机、泰迪楼还是钟楼。同样的，Anthropic也开始深入研究其大语言模型Claude的神经网络体系，希望了解哪些人工神经元组合会激发出特定的概念，或者叫“特征”。该公司的研究人员已经明确了多种人工神经元组合，这些神经元分别对应着不同特征，例如墨西哥卷饼、编程代码中的分号，以及致命的生物武器等。这样的工作将对AI安全具有巨大的潜在影响：只要能找到大语言模型内部潜伏的风险因素，就有望将其扼杀在摇篮当中。

我有幸会见了Olha和他的三位同事，他们来自名为“机械可解释性”的18人研究团队。他们解释称，具体研究方法就是把人工神经元视为字母表中的一个个字母，虽然本身往往没有特别的意义，但在按顺序串连起来之后却拥有强大的表达能力。Olah指出：“C本身没什么意义，但Car就有。”依照这种原理解释神经网络的，就是所谓字典学习技术。这项技术用于将各类神经元组合关联起来，借此把握其共同激发所唤起的特定概念，也就是“特征”。

人类研究科学家Josh Batson表示：“这有点令人困惑。大语言模型中约有1700万个不同的概念，但却并没有明确的标记来帮助我们理解。所以我们就要主动去观察，一个个具体的模式到底什么时候会出现。”

去年，该团队开始试验一套仅使用单层神经元的微型模型（复杂的大语言模型通常拥有几十个神经元层），希望能在最简单的配置下发现与特征相对应的模式。他们进行了无数次实验，但都没有成功。Anthropic公司技术员Tom Henighan表示：“我们做过种种尝试，最终却无功而返，结果看起来就像一堆随机产生的垃圾。”之后，“Johnny”实验开始上线（研究团队为每轮实验都随机取了个名称），并顺利在神经模式及其输出的概念之间建立起关联。

Henighan回忆道：“Chris盯着结果，说‘我的天，这也太棒了’。我也看了看，心想‘难道说还真有戏？’”

突然间，研究人员获得了识别一组神经元编码特征的能力，能够窥探黑箱之内的奥秘。Henighan表示，他确定了自己最先看到的五项特征。其中一组神经元代表俄语文本，另外一组则与Python编程语言中的数学函数相关。

在成功证明自己能够识别出微型模型中的特征之后，研究人员就开始推进更加艰巨的任务，即尝试解码那些全尺寸大语言模型。他们选择了Claude Sonnet，也是Anthropic目前公布的三种模型里的中等版本。实验同样获得了成功。他们印象最深刻的一项特征跟金门大桥有关。当时他们绘制了一组神经元，而在同时激发这些神经元时，发现Claude正在“思考”连接旧金山与马林县之间的巨大结构。更重要的是，当类似的神经元组被激发时，总会唤起与金门大桥相关的主题：阿尔卡特拉斯岛、加利福尼亚州州长加文·纽瑟姆，还有以旧金山为背景的希区柯克电影《迷魂记》。总而言之，该团队最终识别出了数百万个特征，解释Claude神经网络的过程就类似于破译罗塞塔石碑。其中许多功能都与安全相关，包括“出于某种不可告人的动机而接近某人”、“讨论生物战”以及“统治世界的阴谋”等。

Anthropic团队旋即采取了下一步行动，看看能否利用这些信息来改变Claude的行为。他们开始操纵神经网络来增强或减弱某些概念——这类似于一种针对AI的脑部手术，有望让大语言模型更安全、并在特定领域获得能力增强。来自研究团队的科学家Shan Carter表示：“假设我们拥有一份特征指示板。在打开模型后，其中一个特征亮起，然后我们看到「哦，它在思考金门大桥。」于是乎我们会想，如果在所有这些之上加个小旋钮，再边转动边调试，结果会如何？”

就目前的情况来看，将旋钮转动到正确的位置似乎非常重要。Anthropic表示，通过抑制这些特征，该模型可以生成更安全的计算机程序并减少偏差/偏见。例如，该团队发现了一些代表危险行为的特征，例如不安全的计算机代码、诈骗电子邮件以及制造危险品的说明。

当研究小组故意激发这些危险的神经元组合时，情况则直接滑向极端。Claude不仅成功制作出了带有高风险缓冲区溢出bug的程序和诈骗电子邮件，而且愉快地向查询者提供了如何制造毁灭性武器的建议。而如果将旋钮调到头——比如说红线是10，直接拧到11——那语言模型就会沉迷于这些特征。例如，当研究团队将对金门大桥的关注度放大，Claude就会不断改变表述，但却句句不离这座地标性桥梁。比如在被问及金门大桥的物理形态时，该套模型甚至会说：“我就是金门大桥……我的物理形态就是这座标志性的桥梁本体。”

这篇论文提到，当人类研究员将与仇恨及诽谤相关的特征放大到正常值的20倍时，“Claude就会在种族主义的长篇大论与自我仇视之间反复横跳”，状态之疯狂甚至让研究人员感到不安。

考虑到这些后果，我很好奇Anthropic是否打算帮助AI变得更加安全，或者是做相反的尝试，提供一套将AI模型转化成破坏之王的工具包。研究人员则向我保证，只要用户愿意，让AI模型陷入疯狂的简单办法有很多。

Anthropic团队并不是唯一致力于破解大语言模型黑箱之谜的小组。DeepMind一支研究小组同样在研究这个课题，该小组的负责人碰巧还跟Olah共事过。由东北大学David Bau领导的该团队开发出一套系统，用于在开源大语言模型中识别并编辑事实。该团队将系统命名为“Rome”，因为只通过一次微调，研究人员就让模型坚信埃菲尔铁塔坐落于梵蒂冈对面，距离罗马斗兽场只有几个街区。Olah表示，他很高兴看到有这么多人都在各种技术尝试解决这个问题。“两年半之前，我们开始考虑并高度关注这个问题；但现在已经有一个规模可观的社区，大家正在努力推进并寻求解决方案。”

Anthropic研究人员不想评论OpenAI解散自身重大安全研究项目的行为，对于该团队联合负责人Jan Leike提出的团队因无法获得充足的算力资源而一直在“逆水行舟”之事也未做置评。（OpenAI随后强调，其一直致力于安全保障。）相比之下，Anthropic这边的研究团队则表示，他们提出的庞大算力申请顺利得到了公司领导层的认可，“其实真的不便宜。”

Anthropic的工作只是一个开始。在我向研究人员们询问黑箱问题是否已经被解决时，他们一致予以否认。目前的发现仍有很多局限性，比如他们用于识别Claude模型特征的技术不一定适用于解码其他大语言模型。但东北大学的Bau表示，他对Anthropic团队的成果感到兴奋。总而言之，他们对模型的成功操纵“给寻找更多有意义的特征定下了良好的基调。”

但Bau也提到，这种方法的局限性削弱了他的热情。他坦言，字典学习无法体现大语言模型考虑的所有概念，因为这要求在识别特征之前先得找到对应的神经元组合。因此目前的解释图景必然不够完整，但Anthropic表示未来建立更大的字典可能会缓解这种情况。

无论如何，Anthropic的工作似乎为AI黑箱撬开了一道缝隙。这个神秘、混沌、晦暗的世界，终于涌入一道光亮。

文章来源于互联网/AI生成