当NPC开始独立思考，这世界还是草台班子吗？

当NPC开始独立思考，这世界还是草台班子吗？

据说，很多人小时候都幻想过这样的场景：

全中国 14 亿人，每人给我一块钱，我就能成为亿万富翁。

长大之后，我们读书工作、成家立业，生活按部就班，大富翁的梦想画上句号，人生更像是游戏世界的 NPC，主打一个 " 不努力、不造反、热情开朗、一问三不知 "。

当碳基生物组成了世界这个巨大的草台班子，硅基生物却开始——

独立思考了！

是的，在 ChatGPT 狂飙一年之后，AI 已经可以主动学习、思考、判断，并自主完成任务了。

这种像贾维斯一样 AI 智能体，也叫 AI Agent。

一年前，ChatGPT 横空出世，有一大批人工智能专家出来呼吁，收手吧，阿祖，再这么开发下去，AI 就强大到人类无法控制了。

而 AI Agent，就是那个令人类 " 颤抖 " 的 AI 智能体。

什么是 AI Agent？

2023 年上半年，斯坦福大学人工智能实验室（SAIL）和谷歌联合发表了一篇论文《Generative Agents: Interactive Simulacra of Human Behavior》。

在文章中，研究人员创造了一个虚拟小镇 "Smallville"，里面有商场、公园、酒吧、学校、咖啡馆等建筑，还有 25 位完全由 AI 控制的居民。

每位 AI 居民都有自己独特的身份和个性，它们在小镇里生活、工作，可以一起聊天、谈八卦，也可以办 Party、交朋友，甚至还拥有记忆，会根据自己见过的人、说过的话，做出判断和决策。

具体来说，它们看到早餐起火，会走过去关掉炉子；如果看到卫生间有人，知道在外面等待；街头看到一个人，还会停下来聊两句 ……

而这一切行为，不是系统设置的，而是 AI 居民根据具体问题做出的具体反应。

虽然这个研究目前没有开源，咱们并不清楚 AI 居民是如何做出具体响应的，但试想一下，你在路上碰到一个认识的人，大概会出现四种情况：

A：不喜欢，假装没看到

B：不熟，点头打招呼

C：有点熟，聊两句天气如何，今天吃什么

D：熟悉，聊聊各自生活，甚至还会一起约饭

而 AI 居民的反应，就像人类思考一样，结合了两个个体之间的 " 交往历史 "，做出了相应的决策。

这里的 AI 居民，具有语言、决策、记忆的综合功能，能够通过独立的思考完成接受的任务，也就是最近风光无限的 AI Agent。

通俗来说，AI Agent 就是 AI 助理。

在大模型时代，AI 只能和你聊天，谈心，帮你查资料、写文章、写代码、搞创作，而且要想让 AI 输出你想要的结果，关键在于 " 提示词 "，即你得学会引导 AI，才能让它给出理想答案。

如果提示词给的不好，AI 就会答非所问，宛如一个智障。

而在 AI Agent 时代，你只要说出结果，它会帮你理清过程，并下达指令。

打个比方，你正在打游戏，突然感觉饿了。这个时候，AI 可能会告诉你喝点水缓解饥饿，或者建议你尽快吃饭，以免头晕、乏力；但 AI Agent 则可能会调取你的外卖 app，分析你爱吃的菜系，还能调用支付 app，直接帮你点个外卖到家。

在这个过程中，AI Agent 经历了 " 感知（Perception）——规划（Planning）——行动（Action）" 三个步骤。

感知，就是收集信息并提取相关信息。

当 AI Agent 接收到你说 " 饿了 "，它会首先从一堆 " 饱汉不知饿汉饥 ""Stay hungry，Stay foolish" 等与饿了相关的信息中，提取出饿了应该怎么办的关键信息。

其次是规划，也就是综合各种情况，寻找可能的解决办法。

饿了，可以出去吃，可以叫外卖，可以自己做饭，也可以喊朋友来家里吃。此时，AI Agent 首先会检索记忆流，即它会根据你在这个时间点通常在干什么，你和最近的联系人聊了些什么，是否聊到了美食，又或者你的日程表上这个点有没有其他安排等等，来综合判断你是要出去和朋友吃，还是要在家做饭，又或者点个外卖凑活一顿。

而且在规划过程中，AI Agent 还需要考虑到 " 近期性 " 和 " 重要性 "，比如你最近消费减少，可能是月底工资不够花了，又或者你第二天要给女朋友送礼物，这个时候需要勒紧裤腰带，一切从简。

最后，再根据规划做出行动——在综合了你的个人习惯、消费情况、聊天记录、日程安排等等情况后，AI Agent 决定，你应该点个外卖。

于是，它打开外卖 app，帮你叫了一份你最爱的炸鸡和可乐，并帮你完成了付款。

也就是说，当你在游戏世界岁月静好的时候，是 AI Agent 在替你负重前行。

AI Agent 这么强大

人类可以洗洗睡了？

电影《钢铁侠》里，每次史塔克要去冒险，贾维斯都会问一句，要不要给他的妻子打个电话。

这种超越工具性的时刻，是 AI agent 的终极形态。

但 " 很多市面上的 Agent 产品，其实并不 Agent。" 一位 AI 行业连续创业者这样评价道。

目前，市面上的 Agent，包括 OpenAI 推出的 GPTs，其实只是构建了一个基于特定知识库或专业数据的 Chatbot，这些智能体主要用于进行问答交互，如获取行业资讯、报告等。

其主要进化路径，有两个方向——

一种是自动化。即给 Agent 一个目标之后，它可以自己通过目标来模拟一个思考路径，然后创建任务、完成任务，并且根据用户的目标不断重复地完成任务。

以 GitHub 上大受好评的 Auto GPT 为例，你让 Auto GPT 写一份某地区 TOP 5 鞋厂的研究报告，这是终极目标。

为完成这个任务，Auto GPT 会先去网页搜索该地区五大鞋厂分别是哪些，然后再去看他们的营收数据、市场份额、产品情况等，依据搜索信息，最后以分析形式形成一份报告。

在整个过程中，Auto GPT 自主将任务拆解为检索信息、提出问题和回答问题等阶段，最终完成了任务。

目前，市面上的自动化 AI 助理，主要集中在办公场景。

比如会议纪要，一个人做起来可能要耗费好几天的时间，但交给 AI agent，它可以在全部的录音素材中，提取会议内容的重点，总结成 bullet point，然后自动生成待办事项添加在 To-do List 中；

再比如，AI Agent 可以帮助销售人员收集客户信息，分析客户喜好，拟定销售机会、自动跟进销售进度，等等。

另外一种路径，则是拟人化。

不同于自主智能体的发展路径，拟人化（智能模拟体）的发展路径更多遵循开发者设定的内部目标，强调的是拟人化的情感与交互。

现在，这种拟人化的 AI agent 大多出现在游戏中。像前文提到的虚拟小镇里的 AI 居民，以及由英伟达首席科学家 Jim Fan 等人发布的 Voyager，都是由大模型驱动并且可以终身自主学习的智能体。

好消息是，大模型的学习能力，有时会出现智能涌现。

比如把 Voyager 接入游戏《我的世界》后，Voyager 不是一个推动剧情的 NPC，而是一个能够主动创造内容的 " 玩家 " ——通过不断自我进化，Voyager 在游戏中获得的独特物品增加了 3.3 倍，行进距离增加了 2.3 倍，解锁关键科技树里程碑的速度比之前的方法快了 15.3 倍。

坏消息是，这种智能体充分进化而导致的 " 不确定性 "，会让很多玩家在尝试过后，丧失进一步玩下去的热情——我玩游戏，不就是想获得掌控感吗？角色稍微不听话可以，完全不听话，还玩个啥啊。

当然，自动化和拟人化并不是 Agent 发展过程中全无交集的两条河流。

相反，自动化和拟人化是现在 Agent 发展的两大核心能力，围绕着这两个能力，AI Agent 会在不断进化、不断成熟的过程中，探索出更多的使用场景。

人类距离终极智能体

还有多远？

AI Agent，相当于一个硅基生物拥有一个碳基大脑。

尽管听起来遥不可及，但毋庸置疑的是，这将是 AI 产业的下一个风口。

比尔 · 盖茨在一篇文章中表示，AI Agent 将颠覆个人与计算机交互的方式，并将在五年内彻底改变我们的生活。

英伟达高级研究员 Jim Fan 也预言，Agent 将 " 推动整个文明的进化 "。

那么，人类距离终极 AI Agent，还有多少困难需要克服？

第一个问题，是开发成本高昂。

拿斯坦福大学的虚拟小镇 "Smallville" 来说，其中每个 Agent 的成本高达 20 美元 / 时，比大多数人的时薪都要高。

第二个问题，是产品的标准化。

" 和 GPT 从免费到收费的过程一样，Agent 商业化的普及也要经历产品标准化的过程。" 科技行业投资人申林宇（化名）这样评价道。

比如你用 AI Agent 办公，考量指标应该是，它到底有没有提高生产效率。" 各式各样的大语言模型类产品出现后，免费试用的阶段大家会有新鲜感，会去玩、会去尝试，但是如果你说这个东西开始收费，大家的态度立刻会从猎奇转换成审视。没有人会为科技类的猎奇产品持续买单，科技类的产品必须切实地提高生产力才能持续商业化。"

如果 Agent 没有成熟的产品标准，那么商业化落地便遥遥无期。