经验 2356 分贝 0 家园分 4713 在线时间: 0 小时 最后登录: 2015-11-14 帖子: 1178 精华: 0 注册时间: 2015-11-14 UID: 1170224
注册:2015-11-14 8
发表于 2025-3-26 09:08:11
| 显示全部楼层
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点先容国外的新技术、新观点、新风向。 编者按:2025年是AI智能体元年。本系列文章旨在先容AI智能体的概念、类型、原理、架构、开发等,为进一步了解AI智能体提供入门常识。本文为系列文章的第一篇,文章来自编译。
大语言模型(LLM)的出现让人工智能有了巨大飞跃。这些强大系统革新了自然语言处理,但其真正潜力在于与“智能体能力”(自主推理、规划和行动)的结合。这正是LLM智能体的用武之地,标志着大家与AI交互以及利用AI的方式出现了范式转变。
AI智能体技术栈
本文旨在全面解析AI智能体,探讨其特性、组成与类型,并分析其发展历程、挑战及未来方向。
大家先了解从LLM到AI智能体的演进之路。
1. 从LLM到AI智能体
LLM应用形态的演变是现代应用的最快发展之一。
1.1 从传统聊天机器人到LLM驱动的聊天机器人
聊天机器人并非新事物,在生成式AI(gen AI)概念出现前,你可能已经跟网上的聊天机器人互动过了。
前生成式AI时代的传统聊天机器人与当今AI驱动的对话智能体有本质区别,那种机器人一般是这样子的:
基于规则的响应:
传统聊天机器人依赖基于规则的逻辑(“if-then”语句)。
仅能处理预定义规则,无法应对复杂或模糊的查询。
固定回复:
回复为静态且预先设定的。
通过检测特定关键词或短语触发。
缺乏灵活性和对话深度。
人工接管:
搞不定的查询会提供一个“转人工”按钮。
复杂问题仍需人工干预。
1.2 LLM驱动的聊天机器人的诞生
ChatGPT的发布: 2022年11月30日,OpenAI推出基于GPT-3.5的ChatGPT,成为首个主流LLM应用。
ChatGPT沿用了传统的聊天界面,但背后是经海量互联网语料训练而成的先进LLM技术。
Transformer架构: GPT(Generative Pre-trained Transformer)的基础是GOOGLE2017年提出的Transformer架构。
其通过自注意力机制分析输入序列,深入理解上下文。
LLM的能力: 与传统聊天机器人不同,LLM能生成类人的、上下文相关且新颖的文本。
用例包括代码生成、内容创作、客户服务增强等。
局限性:
个性化:难以在长对话中保持一致的个性化互动。
幻觉问题:可能会生成事实错误但逻辑通顺的回复,因输出依赖概率而非验证过的常识。
应对措施:
探索检索增强生成(RAG)等技术,让输出基于可靠的外部数据。
这些进展旨在减少错误并提升LLM系统的健壮性。
1.3 从LLM聊天机器人到RAG聊天机器人与AI智能体
RAG聊天机器人:检索增强生成(RAG)将外部数据检索与LLM能力结合,生成准确且情境化的回复。
常识来源:
非参数化常识:从互联网或专有数据库等外部来源检索到的实时数据。
参数化常识:LLM训练中内嵌的常识。
优点: 减少幻觉、提供最新信息并确保可验证的回复。
提示工程: 通过上下文学习(单样本、少样本)、思维链(CoT)和ReAct(推理+行动)等技术,引导LLM推理与输出生成,提升回复质量。
AI智能体: AI智能体由配备了工具、多步规划与推理能力的LLM演进而来。
工具使用: LLM可通过结构化模式(如JSON)分析任务并分配参数,调用编程定义好的函数或API。
环境: AI智能体在迭代实行环境中运行,支撑基于反馈的动态决策与持续适配。
智能体系统: 由自主智能体组成的计算架构,可整合多系统组件、做出决策并实现目标。
智能体式RAG:
将LLM的推理、工具使用和规划能力与语义信息检索结合。
构建动态系统,可分解任务、实行复杂查询并利用工具解决问题。
从LLM聊天机器人到RAG聊天机器人再到AI智能体的转型,标志着向更智能、自适应且集成工具的系统转变,这样的系统能实时解决复杂问题。
2. 什么是AI智能体?
AI智能体是通过传感器感知环境、处理信息,并通过实行器作用于环境以实现特定目标的系统。可将其视为能观察、思考与行动的数字实体,跟人类与环境的互动类似,不同的是以编程化和目标驱动的方式进行。
AI智能体的概念基于理性行为:智能体应采取实现目标可能性最大的行动。这种理性是AI智能体有别于简单的响应程序的核心特征。
2.1 AI智能体的特性
AI智能体具备以下关键特性:
<ol>
自主性:无需人类干预,独立决策。
发射性与主动性:响应环境变化并主动采取措施实现目标。
适应性:通过处理新信息与经验进行学习与进化。
目标导向:以实现预定义目标或优化结果为方向。
交互性:与其他智能体或人类沟通协作。
持续性:持续运行,监控并响应动态环境。
</ol>
3. AI智能体的核心组件
AI智能体的核心组件包括:
<ol>
感知
推理
行动
常识库
学习
通信接口
</ol>
3.1 感知(传感器)
传感器令智能体感知环境,包括物理传感器(摄像头、麦克风)或数字输入(数据流、用户交互)。
3.2 推理(处理器)
智能体的“大脑”,处理传感器信息并决定适当行动。
该组件实现智能体的决策算法并维护必要的内部状态。
AI智能体利用基于规则的系统、专家系统和神经网络等决策机制,做出明智决策并高效实行任务。
3.3 行动(实行器)
智能体影响环境或采取行动的手段。
可能是物理实行器(机械臂、扬声器)或数字实行器(数据库更新、显示输出)。
3.4 常识库
智能体用于决策的信息库,包含预编程常识与学习获得的信息。
3.5 学习
使智能体通过数据与经验学习,随时间提升性能。
利用强化学习、监督学习与无监督学习等技术持续优化智能体表现。
3.6 通信接口
让智能体可以与其他智能体、系统或人类交互。
在更大环境下的智能体
下文将详述各组件及智能体的运作方式。
4. AI智能体如何与环境交互
交互周期通常叫做“感知-规划-行动”循环。下面以自动驾驶汽车为例解析各阶段:
4.1 感知阶段
智能体的“感知”阶段可看作:
智能体通过传感器接收输入
信息被处理与解析
基于新信息更新当前状态
4.2 决策阶段
智能体的“思考”阶段:
当前状态 + 目标 → 评估选项 → 选择最优行动
智能体评估可能的行动
权衡目标与约束
基于可用信息选择最优行动
4.3 行动阶段
智能体的“实行”阶段:
通过实行器实行选定行动
环境因此改变
智能体通过传感器观察结果,启动新循环
该循环持续重复,每秒可能实行多次。其强大之处在于:
<ol>
适应性:若发生意外,智能体可在下一个感知阶段检测出来并调整行动。
学习机会:智能体可对比预测结果与实际结果,优化未来决策。
目标导向行为:每一循环均推动智能体在约束下趋近目标。
</ol>
为了从编程的角度去理解,以恒温器为例对比三种复杂度:
1.简单程序
# Simple program
if temperature > desired_temperature:
turn_on_cooling()
2.响应式程序
# Responsive program
if temperature > desired_temperature:
if time_of_day == "peak_hours":
turn_on_cooling_eco_mode()
else:
turn_on_cooling_normal()
3.AI智能体
class SmartThermostat:
def perceive(self):
current_temp = get_temperature()
time = get_time()
electricity_price = get_current_price()
weather_forecast = get_forecast()
user_preferences = get_preferences()
return Environment(current_temp, time, electricity_price,
weather_forecast, user_preferences)
def think(self, environment):
possible_actions = [
NoAction(),
CoolNormal(),
CoolEco(),
PreCool(),
WaitForOffPeak()
]
# Evaluate each action's expected outcome
best_action = None
best_utility = float('-inf')
for action in possible_actions:
predicted_state = predict_future_state(environment, action)
utility = calculate_utility(predicted_state)
if utility > best_utility:
best_action = action
best_utility = utility
return best_action
def act(self, action):
action.execute()
monitor_results()
update_learning_model()
考虑多因素
预测结果
从经验中学习
优化长期目标
平衡竞争性目标
这个循环对所有AI智能体均适用:
聊天机器人感知文本输入,考虑适当的回复并生成文本。
交易机器人感知市场数据,制定策略并实行交易。
扫地机器人感知房间布局与污垢,决定进入清洁模式并实行移动。
5. AI智能体如何运作?
假设你的智能冰箱不仅能在牛奶喝完时补货,还能根据你的浏览记录建议改喝杏仁奶。这算贴心还是有点吓人?你说了算!
这便是AI智能体的缩影。
AI智能体能理解人类语言(要归功于LLM)、对信息进行推理、规划行动,且无需持续的人工输入即可实行任务。
它们解决复杂问题的能力远胜简单自动化工具。
与基础脚本不同,AI智能体集成到App系统之中,支撑与环境的复杂交互。
AI智能体与简单自动化的区别
区别源于两大能力:
你或许见过ChatGPT连基础的数学题也会做错,那是因为它只靠训练数据做出响应。
同理,若要求你计算85×65,作为人类,你需直接知道答案或使用计算器工具。
AI智能体同理,需赋予其工具访问权限。
第二项能力是规划。
以同一道数学题为例,你需懂得乘法或知道向计算器传入参数85、65及乘法指令。
这便是规划与推理。
以下是向AI智能体发起查询时的流程:
AI智能体架构
5.1 编排层(控制中心)
假设我要创建一个AI会议智能体,我会跟调度器说“我想为学生举办一场网络研讨会”。
该查询将触发AI智能体。
编排层
查询可以是文本、音频、视频或图像(数据最终会转换为机器可处理的数值)。
查询由编排层(即智能体控制中心)处理。
编排层的四大职责:
记忆:维护完整交互记录。
状态:存储进程的当前状态。
推理:引导智能体的推理过程。
规划:确定步骤及下一步行动。
编排层会与模型(LLM)进行交互。
5.2 模型(大脑)
模型是整个智能体的中央决策者。
AI模型通常为大语言模型(LLM)。
AI智能体的模型
为了理解查询、制定计划并决定行动,模型采用以下推理与逻辑框架:
(推理+行动)确保审慎行动
通过中间步骤推理
探索多路径以寻找最优解
模型决定采取何种行动,并利用工具实行。
5.3 工具(手)
工具让智能体得以跟外部世界交互。
如计算器、API、网络搜索、外部数据库等都属于工具。
工具让智能体能实行模型无法独立完成的任务、获取实时信息或处理现实世界的任务。
6. 何时使用智能体 / 何时应避免使用
当你需要LLM来决定应用的工作流时,智能体是有用的,但常被滥用。关键在于:你是否真的需要灵活工作流来高效解决任务?如果预设工作流经常失效的话,就需更高的灵活性。
以冲浪旅行网站客服应用为例:
若用户请求一般只有预设的两类(基于用户选择),且两类均有预设工作流:
<ol>
用户需旅行信息 提供搜索栏访问常识库
用户需联系销售 提供联系表单
</ol>
如果这种确定型工作流已覆盖所有查询,直接编码即可!这样的系统是100%可靠的,避免了LLM的不可预测。
出于简单性与健壮性的考虑,不建议优先采用智能体。
但如果工作流无法预先确定呢?
比方说,用户问:“我原计划周一到达,但忘带护照可能延迟至周三。能否在周二上午带上我和装备去冲浪?费用需包含取消险。”
这个问题涉及到多种因素,预设标准无法覆盖。
如果预设工作流经常覆盖不到的话,则需更高灵活性。
此时智能体架构便可派上用场。
上述案例中,可构建多步骤智能体,访问天气API获取预报、GOOGLE地图API计算距离、员工空闲情况面板及常识库RAG系统。
此前,计算机程序受限于预设工作流,试图通过堆叠if/else处理复杂性,仅能处理“数字求和”或“寻找最短路径”等范围狭窄的任务。但预设流程通常无法匹配上现实世界的任务(如上述旅行案例)。智能体系统为程序开启了处理现实任务的大门!
7. 应用领域
AI智能体是通用工具,可提升多领域生产力、效率与智能,正日益应用于日常场景与高影响领域。
8. 总结
AI智能体正改变大家与技术的互动方式,提供空前的自主性、智能与适应性。
从简单反射型智能体到复杂学习系统,AI智能体正应用到多个行业来解决复杂问题并增强人类能力。但构建高效智能体面临伦理关切、数据依赖与可扩展性等挑战。
随着AI技术的不断进步,AI智能体潜力巨大。通过关注通用AI、