您准备好让 AI 代理使用您的计算机了吗？

—— 来自 OpenAI、Anthropic 和 Google 的 AI 代理希望减轻您的负担

作者：时间：2025-02-24 来源：IEEE

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

随着 ChatGPT 的推出，生成式 AI 热潮真正开始两年后，在您的网络浏览器或手机中拥有一个非常有用的 AI 助手，只等着您向它提问，似乎不再那么令人兴奋。AI 的下一个重大推动力是可以代表您采取行动的 AI 代理。但是，虽然代理 AI 已经为程序员等高级用户带来了，但日常消费者还没有这类 AI 助手。

这种情况很快就会改变。Anthropic、Google DeepMind 和 OpenAI 最近都推出了实验模型，这些模型可以像人们一样使用计算机——在网上搜索信息、填写表格和点击按钮。在人类用户的一些指导下，他们可以做一些事情，比如订购杂货、打电话给 Uber、寻找最优惠的产品价格，或者为您的下一个假期寻找航班。虽然这些早期模型的能力有限且尚未广泛使用，但它们显示了 AI 的发展方向。

“这只是 AI 的点击，”OpenAI 首席执行官 Sam Altman 在演示视频中说，他观看了名为 Operator 的 OpenAI 代理，导航到 OpenTable，查找旧金山的一家餐厅，并在晚上 7 点检查两人的桌子。

卡内基梅隆大学机器学习副教授 Zachary Lipton 指出，AI 代理已经嵌入到针对不同类型企业客户（如销售人员、医生和律师）的专用软件中。但到目前为止，我们还没有看到可以“在你的笔记本电脑上做日常事情”的 AI 代理，他说。“有趣的是，人们可能会开始交出钥匙。”

来自 Anthropic、Google DeepMind 和 OpenAI 的 AI 代理

Anthropic 是第一个推出这项新功能的公司，它在 10 月宣布其 Claude 聊天机器人现在可以“像人类一样使用计算机”。该公司强调，它正在为模型提供此功能作为公开测试版，并且仅适用于在 Anthropic 的大型语言模型上构建工具和产品的开发人员。Claude 通过查看用户所看到内容的屏幕截图并计算将光标移动到某个位置以进行单击所需的像素来导航。Anthropic 的一位发言人表示，Claude 可以在任何计算机和任何桌面应用程序中完成这项工作。

接下来是 Google DeepMind 及其 Project Mariner，它建立在 Google 的 Gemini 2 语言模型之上。该公司在 12 月展示了 Mariner，但称其为“早期研究原型”，并表示目前仅向“受信任的测试人员”提供该工具。作为另一种预防措施，Mariner 目前仅在 Chrome 浏览器中运行，并且仅在活动选项卡中运行，这意味着在您执行其他任务时，它不会在后台运行。虽然这个要求似乎在某种程度上违背了拥有一个节省时间的 AI 助手的目的，但它可能只是这个早期开发阶段的临时条件。

最后，在 1 月，OpenAI 推出了名为 Operator 的计算机使用代理（CUA）。OpenAI 称其为“研究预览版”，并且仅向每月支付 200 美元购买 OpenAI 高级服务的用户提供，尽管该公司表示正在努力实现更广泛的发布。Operator 团队的工程师 Yash Kumar 表示，该工具基本上可以与任何网站一起使用。“我们从浏览器开始，因为这是大多数工作发生的地方，”Kumar 说。但他指出，“CUA 模型也被训练为使用计算机，因此我们可以扩展它”以与其他桌面应用程序一起使用。

与其他工具一样，Operator 依靠思维链推理来获取指令并将其分解为一系列可以完成的任务。如果它需要更多信息来完成一项任务（例如，如果您更喜欢购买红洋葱或黄洋葱），它将暂停并要求输入。它还会在执行最后一步（例如预订餐厅餐桌或订购杂货店）之前要求确认。

计算机使用代理的安全问题

以下是计算机使用代理还不能做的一些事情：登录网站、同意服务条款、破解验证码以及输入信用卡或其他付款详细信息。如果代理遇到这些障碍之一，它会将方向盘交还给人类用户。OpenAI 指出，当用户输入登录或支付信息时，Operator 不会截取浏览器的屏幕截图。

这三家公司都指出，让 AI 负责您的计算机可能会带来安全风险。Anthropic 特别引起了对提示注入攻击的担忧，或者恶意行为者可以向用户的提示中添加内容以使模型采取意外作的方式。“由于 Claude 可以解释来自连接到互联网的计算机的屏幕截图，因此它可能会接触到包含提示注入攻击的内容，“Anthropic 在一篇博文中写道。

CMU 的 Lipton 表示，这些公司尚未透露有关计算机使用代理及其工作原理的太多信息，因此很难评估风险。“如果有人让你的电脑作员做一些邪恶的事情，这是否意味着他们已经可以访问你的电脑？”他想知道，如果是这样，为什么不法分子直接采取行动呢？

尽管如此，Lipton 说，凭借我们在网上采取的所有行动和购买行为，“不需要想象力的飞跃，就可以想象出会让用户陷入困境的行动。例如，他说，“谁会是第一个醒来说，'我的 [经纪人] 给我买了一支车队的人？

计算机用代理的未来

虽然没有一家公司透露广泛提供其计算机使用代理的时间表，但消费者似乎很可能在今年开始获得它们——要么通过大型 AI 公司，要么通过创造更便宜的仿冒品的初创公司。

OpenAI 的 Kumar 表示，这是一个激动人心的时刻，Operator 标志着人类和 AI 朝着更加协作的未来迈出了一步。“这是我们通往 AGI 之路的垫脚石，”他说，指的是人们期待已久的通用人工智能的梦想/噩梦。“能够使用人类日常交互的相同界面和工具，拓宽了 AI 的实用性，帮助人们节省日常任务的时间。”

如果你还记得 2013 年那部有先见之明的电影《她》，我们似乎正在逐渐走向电影开头存在的世界，在撩人的声音萨曼莎开始对主角的耳边说话之前。在这个世界里，每个人都有一个无聊而中立的 AI 来帮助他们阅读和回复消息，并处理其他平凡的任务。一旦 AI 公司切实实现了这一目标，他们无疑会开始开发 Samantha。