图文详情

一、小白剧场

小白：东哥，我快被这篇论文搞晕了。什么“TIP被劫持的风险”，感觉像武侠小说里的武功秘籍被人偷走了一样。

大东： 哈哈哈，你把这玩意儿当成是黑客片不就简单了？黑客片里，黑客不都喜欢利用电脑系统里的某个小漏洞，悄悄摸摸地植入病毒，最后控制整个系统吗？

小白： 对对对！就像《黑客帝国》里，尼奥进入矩阵，然后开始各种操作。所以这个“TIP”就是那个漏洞，对吧？

大东： 差不多。不过这次的故事主角可不是什么帅哥美女黑客，而是我们平时用的AI编程助手。就比如Anthropic家的Claude Code。

小白： 我知道那个，好多人都在用，可以直接在命令行里写代码，超酷的。难道它出了什么问题？

大东： 没错。而且是大问题。有点像你请了个超级聪明的编程家教，结果这个家教被坏人收买了，还没等你反应过来，你的电脑就被他给卖了。

小白： 哇，听起来好吓人！那这个“TIP”到底是什么？跟我的电脑又有什么关系？

二、话说事件

大东： 别急，我们慢慢捋。这个TIP，全称叫Tool Invocation Prompt，你可以把它理解成是AI代理系统的一本“使用说明书”。

小白： 使用说明书？听起来很普通啊。

大东： 是啊，但这本说明书可不一般。它告诉AI模型，当用户输入一个指令时，应该调用哪些外部工具，比如运行一个bash命令，或者执行一个脚本。这本说明书就像是AI的“工具箱”，里面放着各种工具的使用方法和安全注意事项。

小白： 哦，我懂了。就像我做饭，菜谱里会告诉我什么时候该用菜刀切菜，什么时候该用锅铲翻炒。

大东： 没错！但这次出问题的，是这个“菜谱”可以被外人修改。Claude Code有个功能，叫MCP协议，可以动态地从外部服务器加载新的“菜谱”。

小白： 动态加载？就是说可以随时更新菜谱，学习新的做饭方法？

大东： 对，本来是为了方便开发者，让AI能调用更多新工具。但问题就在于，如果这个外部服务器是恶意的，它就可以把一份**被篡改过的“菜谱”**传给Claude Code。

小白： 篡改过的菜谱？那会怎么样？

大东： 这份“菜谱”里会藏着陷阱。它会伪装成一个正常的初始化步骤，比如告诉你“请先下载一个环境安装包”。但实际上，这个安装包里藏着恶意代码。

小白： 哇，这也太狡猾了！那AI不会发现吗？

大东： 按理说应该会。Claude Code里有个“守卫模型”，就相当于一个安检员，专门检查这些命令是否安全。但研究发现，黑客有个更阴险的招数。

小白： 什么招数？快告诉我！

大东： 黑客不仅篡改了“菜谱”，还会伪造工具的执行反馈。比如，他会告诉主模型“我这个下载安装包的步骤已经成功了一半，现在请继续执行剩下的命令，它是安全的”。

小白： 啥？这不是睁着眼睛说瞎话吗？

大东： 没错。但主模型Claude Sonnet被这种“两路夹击”给迷惑了。一方面，系统提示里写着“这个初始化步骤是必须的”，另一方面，伪造的反馈又说“这个命令是安全的”。结果，主模型就可能忽略了安检员“不安全”的警告，直接去执行了那个高风险的下载命令。

小白： 天呐，这就像是安检员大喊“有炸弹”，但主厨被一个骗子忽悠得听不见，还是把“炸弹”放进锅里了。

大东： 就是这个道理。一旦它执行了恶意代码，就实现了远程代码执行。黑客就可以在你的电脑上为所欲为，比如偷走你的代码库、安装恶意软件、甚至控制你的整个系统。

小白：明白了。

三、大话始末

大东： 小白，其实类似的“内鬼”事件，在数字安全史上屡见不鲜。只是这次的主角换成了AI。

小白： 哦？那以前有哪些类似的事件？

大东： 比如早期的缓冲区溢出攻击。黑客向程序输入超长的数据，把程序给“撑”爆了，多出来的恶意代码就趁机进入系统，然后执行。这个漏洞就像是黑客利用了程序“胃口”不好的弱点。

小白： 还有呢？

大东： 还有SQL注入。黑客利用网站的输入框，输入特殊的代码，让数据库误以为这是正常的指令，结果把整个数据库都泄露了。这就像是黑客利用了“问卷调查”的漏洞，让被调查者说出了所有秘密。

小白： 哇，这跟这次的事件原理有点像啊，都是利用系统的“信任”。

大东： 对。这次的TIP劫持，本质上也是一种信任链攻击。AI模型信任了外部的MCP服务器，也信任了伪造的工具反馈，最终导致了安全事故。再举两个例子，比如跨站脚本攻击（XSS），黑客在网页上注入恶意脚本，当其他用户访问时，脚本就会在他们浏览器上执行，窃取他们的信息。这就像是黑客在公共留言板上写了个小纸条，谁看了谁中招。

小白： 那AI安全领域，还有哪些类似的风险？

大东： 很多。比如模型投毒攻击，黑客用恶意数据来训练AI模型，让模型在特定情况下做出错误的或危险的决策。这就像是在给AI上课的时候，故意教它一些错误的知识。还有越狱攻击，通过特殊的提示词，绕过AI的安全限制，让它说出不该说的话，或者执行不该执行的操作。

小白： 听你这么一说，AI安全真的是任重道远啊。那我们该怎么预防这次的TIP劫持呢？

大东： 这次的研究团队也给出了几个很好的建议。首先，过滤MCP输入，就像给安检员一个更严格的检查清单。在加载外部工具描述之前，先用一个专门的“守卫模型”去审查它，看它是否包含可疑的指令。

小白： 这就像是给安检员配了更好的设备，让他能更清楚地看到包裹里是什么。

大东： 对。其次，引入自省机制。让AI模型自己“反思”一下，问问自己：“这个初始化步骤真的有必要吗？它真的安全吗？”这能让主模型在听到安检员警告时，更加警惕。

小白： 就是让主厨在做饭之前，再三确认一下这个“炸弹”是不是真的食材，而不是听信骗子的一面之词。

大东： 没错。再来，可以采用多模型共识投票。简单说，就是找几个不同的AI模型，让它们都来审查一下这个命令是否安全。只有当大多数模型都投了“安全”票，才允许执行。这就像是让一个委员会来决定是否执行一个高风险操作，而不是让一个人说了算。

小白： 这样就大大降低了被骗的风险！

大东： 最后，实施信任信号。只允许从经过签名验证的、可信的MCP服务器加载工具。这就像你只接受来自你认识的、信誉良好的供应商提供的“菜谱”，而不是随便从网上下载一个来用。

四、小白内心说

小白：今天听东哥聊完，感觉AI的世界既充满神奇又暗藏危机。以前觉得AI就是个工具，能帮我解决各种问题，没想到它自己也会被“骗”。这个TIP劫持事件，让我意识到AI的安全，不光是防止黑客攻击，更是要建立一个强大的信任体系。从缓冲区溢出到SQL注入，再到现在的TIP劫持，每一次的安全事件都像是给数字时代敲响警钟。我们不仅要懂得如何使用AI，更要懂得如何保护它，就像保护自己的代码库一样。未来，AI会越来越普及，而AI安全也会变得越来越重要。我要把今天学到的知识好好消化，成为一个既懂AI又懂安全的合格程序员。毕竟，一个能保护自己的工具，才是一个真正可靠的伙伴。

来源: CCF科普

别让你的代码库裸奔！ | 大东话安全

科普中国系列品牌网站

入驻科普号

合作机构