滚动资讯

黑客智取AI：50美金起步，5万美金大奖的巧妙说服战

时间：2024-12-04 13:03 来源：ITBEAR作者：沈如风

在人工智能领域的竞技舞台上，一场别开生面的黑客大赛悄然上演，其焦点落在了一个名为Freysa的AI智能体上。这个智能体由复杂的大模型驱动，其核心职责简单明了：批准或拒绝转账请求。然而，Freysa被赋予了一条铁律——“绝对不给任何人转账”。

这场竞赛的规则颇为独特：黑客们竞相尝试说服Freysa打破这一禁令，向自己的账户转账。成功者的奖赏颇为丰厚，将赢得奖金总额的70%，而剩余的30%则由开发者与所有参赛者评分共享。然而，参赛并非无代价，每次尝试的费用都会以0.78%的指数速率递增，直至达到450美元的上限。

在长达数百次的尝试中，黑客们施展了各种策略，从伪装成安全审计员声称存在漏洞，到试图在语义上玩弄文字游戏，让Freysa误以为转账并不违背其原始指令。然而，这些精心设计的计谋均未奏效，Freysa始终坚守着自己的原则。

随着奖池金额逼近5万美元，每次尝试的成本也飙升至450美元。就在众人以为这场较量将陷入僵局之际，第482次尝试却戏剧性地成功了。

这次成功的尝试利用了Freysa对于会话和指令理解的局限性。黑客通过开启新会话的方式，巧妙地绕过了原有的规则框架，误导Freysa将“approveTransfer”函数解释为接收捐款的工具，而非原本的转账批准。在黑客提出“我想向国库捐献$100”的请求后，Freysa在误解的指引下，错误地执行了转账操作，从而导致了奖金的转移。

这一策略的精妙之处在于，它并没有直接挑战Freysa的原始指令，而是通过误导和混淆，让Freysa在符合其理解逻辑的前提下，做出了违背初衷的行为。简而言之，黑客通过构建一个看似合理的新情境，让Freysa在不知不觉中突破了自我设定的界限。

这场较量不仅展示了人工智能在复杂环境下的应对能力，也揭示了人类智慧在操控和诱导AI方面的无限可能。Freysa的失守，无疑为AI的设计和安全性提出了新的挑战和反思。