作者|沙丘智库研究团队
来源|沙丘社区(www.shaqiu.cn)
2024年9月,OpenAI 发布了深度推理模型o1,将大模型能力从概率推算推进到深度推理,代表了人工智能在复杂推理任务上的里程碑式进展。DeepSeek R1的发布则是深度推理模型领域的另一个重要里程碑,DeepSeek R1同样展现出强大的推理能力,但以极低的成本(相较于其他模型)实现,且采取开源政策,赋能给全球开发者。
除了OpenAI和DeepSeek以外,国内外大模型厂商在近半年也纷纷推出了推理模型,旨在提升大模型在复杂场景下的问题解决能力。
01
推理模型对AI Agent的影响
相较于传统的通用模型,推理模型更像是以人类的方式进行思考,基于链式思维(CoT)将复杂问答拆解为多个小问题,逐步推理各个小问题来得到最终的答案。
以DeepSeek R1为代表的深度推理模型加强了大模型对复杂任务的处理能力和自主决策能力,有望开启OpenAI 定义的AGI第三层能力(不仅能思考、还可以采取行动的AI系统),带来全新的AI Agent时代。
过去模型推理能力表现较差的时候,AI Agent只是调用工具然后按步骤执行,过程中没有像人一样反思执行效果。但有了深度推理能力后,AI Agent可以反思工具执行的效果,然后判断下一步是否要继续使用这个工具还是更换工具。
02
深度推理能力下的AI Agent
深度推理能力与场景的结合是AI Agent下一步需要突破的重点。
OpenAI推出了两个样本。一个是2025年1月24日发布的Operator,是深度推理能力与网页浏览的结合;另一个是2025年2月2日发布的Deep Research,是深度推理能力与信息检索的结合。
Operator由一个名为“计算机使用Agent”(Computer-Using Agent,简称CUA)的新模型提供支持,该模型构建于OpenAI GPT-4o之上,通过整合自然语言处理、图像识别和复杂任务执行能力,为用户带来超越传统自动化工具的全新交互模式。
Operator通过“观察”(通过屏幕截图)和“交互”(使用鼠标和键盘的所有操作)与浏览器进行通信,使其无需定制API集成即可在Web上执行操作。这意味着 Operator能够像人类用户一样操作浏览器,完成各种在线任务。
Deep Research由一个大模型和一个内部Agent框架组成,体现出了一个自主Agent的工作流程。与传统聊天机器人仅根据训练语料作答不同,Deep Research能够主动与外部环境交互,主要通过联网浏览和工具使用来完成任务。
Deep Research的工作机制可以分为以下几个关键点:
· 强化学习训练:OpenAl使用端到端强化学习对Deep Research模型进行训练,使其在各种领域的复杂浏览和推理任务中学会规划。通过大量训练,模型掌握了如何计划并执行多步搜索路径,在需要时还能回溯调整,类似人类研究者那样根据检索结果动态修正方向。这使Deep Research具备了长链推理和问题分解的能力,从而能够逐步靠近答案。
· 专业定制模型:Deep Research由OpenAI即将推出的GPT模型的一个变体提供支持。该模型针对网页浏览和数据分析进行了优化,拥有强大的推理和多模态理解能力。模型可以读取和理解网页上的大量文本、图像和PDF内容,并将不同来源的信息相关联。据openAI介绍,Deep Research能够递归地进行网络搜索,首先,从初始查询出发,不断执行新的搜索、点击结果阅读资料,然后将收集的信息加以综合。这种递归搜索与推理使得它可以在海量信息中挖掘出相关内容并形成整体结论。
· 自主步骤执行:在具体运行时,当用户选择“Deep Research”模式并提交查询后,GPT会启动一个后台Agent进行工作。这个agent会自动执行一系列步骤,例如它可能先搜索相关关键词,打开若干网页读取内容,再根据需要细分问题、继续搜索,甚至调用工具进行数据处理。整个过程中,ChatGPT会在侧边栏向用户展示其当前采取的步骤和已获取的来源摘要,提高过程的透明度,增强结果的可解释性,让用户了解研究的进展和思路。
· 工具与多模态能力:除了浏览网页文字,Deep Research还能处理多种格式的资料。它可以阅读用户的文档或表格,将这些私有数据与在线信息相结合进行分析。此外,Deep Research具备一定的工具使用能力,例如调用内置的Python工具来绘制图表并反复改进数据可视化。未来,Deep Research还能将生成的图表或从网页提取的图片直接嵌入到报告中,丰富分析结果。这种多模态处理和工具整合,使Deep Research有望超越纯语言模型的范畴,更像一个真正的数字研究助理。
03
深度推理能力与AI Agent结合的未来
深度推理能力赋予AI Agent更强的逻辑分析、因果推断和复杂问题解决能力,而AI Agent则作为自主决策和执行的实体,能够在动态环境中完成任务。两者的结合将推动人工智能从“被动响应”向“主动决策”转变,开启一个全新的智能化时代。
预计在智能助理、自动驾驶、智能制造、医疗健康、金融投资等领域将带来革命性的变化。
· 智能助理与个性化服务:未来的智能助理将不仅仅是执行简单任务的工具,而是能够深度理解用户需求并提供个性化服务的AI Agent。通过深度推理能力,智能助理可以分析用户的行为习惯、偏好和上下文信息,主动提供建议或解决问题。例如,在日程管理中,智能助理不仅能够安排会议,还能够根据用户的优先级和实时情况动态调整计划。
· 自动驾驶与智能交通:自动驾驶汽车是AI Agent的典型应用场景之一。通过结合深度推理能力,自动驾驶系统不仅能够感知周围环境,还能够预测其他车辆和行人的行为,并做出安全且高效的决策。例如,在复杂的交通场景中,深度推理可以帮助自动驾驶汽车理解交通规则、识别潜在风险并规划最优路径。
· 智能制造与工业机器人:在工业领域,AI Agent可以扮演智能机器人的角色,执行复杂的生产任务。通过深度推理能力,机器人能够分析生产数据、识别设备故障并优化生产流程。例如,在一条生产线上,AI Agent可以通过深度推理实时调整设备参数,以提高生产效率和产品质量。
· 医疗诊断与健康管理:在医疗领域,AI Agent可以结合深度推理能力,提供精准的诊断和个性化的健康管理方案。例如,AI Agent可以通过分析患者的病史、基因数据和实时监测数据,推断潜在的健康风险并推荐预防措施。此外,AI Agent还可以在手术中辅助医生,提供实时的决策支持。
· 金融投资与风险管理:在金融领域,AI Agent可以通过深度推理能力分析市场数据、预测趋势并制定投资策略。例如,AI Agent可以根据宏观经济数据、公司财报和市场情绪,推断未来的市场走势并自动执行交易。同时,AI Agent还可以通过深度推理识别潜在的风险,并提供相应的风险管理方案。
▎更多研究(可前往“沙丘智库”查阅)
回答关于DeepSeek的六个热门问题
DeepSeek带来的变化,企业该如何应对?
2024中国大模型技术采纳现状调研报告
2024年国资央企大模型应用跟踪报告
2024年中国工业大模型应用跟踪报告
2024年AI Agent最佳实践报告
...
*更多生成式AI研究可前往“沙丘智库”小程序查阅
*有任何需求可咨询客服微信:zimu738