沙丘社区Logo
发布
登录
注册
沙丘社区Logo

DeepSeek R1发布后,企业如何抢占大模型先机?

作者:沙丘社区香料间2025年2月17日
994
数字化转型IT与云服务大数据人工智能AIGC大模型

作者|沙丘智库研究团队

来源|沙丘社区(www.shaqiu.cn)

本文节选自沙丘智库:《DeepSeek R1发布后,企业如何调整大模型策略?》

过去几年,AI领域的竞争主要由OpenAI、Google、Meta等国外科技巨头所主导。然而,DeepSeek最近的出现打破了这种观念,证明了小型或新兴公司也可以通过创新方法在AI领域取得突破。

DeepSeek发布了一系列开源模型,包括DeepSeek R1(2025年1月发布)、Janus Pro(2025年1月发布)、DeepSeek V3(2024年12月发布),这些模型声称在性能上可以与当前最先进的商业模型和开源模型相媲美。

DeepSeek采用了多种创新的技术方法来训练模型,包括强化学习(Reinforcement Learning, RL)、多头潜在注意力机制(Multihead Latent Attention, MLA)、混合专家系统(Mixture of Experts, MoE),这些方法使得DeepSeek能够以更低的成本训练模型,并实现更高的推理效率,表明了高性能AI模型的开发不一定需要巨额资金和资源,而是可以通过技术创新实现。

DeepSeek最新的开源模型具有如下关键特点:

· DeepSeek R1是专注于推理能力的开源大语言模型,基于DeepSeek V3基础模型开发。DeepSeek R1采用大语言模型训练的标准三步训练法,但专注于提升模型的推理能力。训练过程包括通过大规模数据训练模型的基本语言能力、在特定任务上对模型进行监督微调、根据用户偏好进一步优化模型输出。基于DeepSeek发布的基准测试结果,DeepSeek R1在问题解决和推理任务上表现优异,但在通用知识和编程任务上略逊于OpenAI的o1模型。这意味着DeepSeek R1存在一定的局限性,并非在所有领域都是最优的。

· DeepSeek-R1-Zero是一个中间模型,完全通过强化学习训练,而没有使用监督微调(SFT)。DeepSeek-R1-Zero证明了纯强化学习可以在某些领域(如数学和编程)显著提升模型能力,为模型厂商提供了一种新的训练范式,减少对监督数据的依赖。

DeepSeek的成功依赖于其高质量基础模型,这些模型为后续优化提供了坚实的基础。在推理任务中,DeepSeek通过自动化验证机制确保模型输出的准确性和可靠性。DeepSeek将模型、框架和底层基础设施有机结合,更高效地利用资源,从而降低成本并提高效率。

作为一款低成本的开源推理模型,DeepSeek R1当前尚未在商业场景中产生颠覆性创新应用,但其技术特性与潜力将重塑行业对AI落地的想象空间。

受益于强化学习所带来的探索、反思和规划能力,DeepSeek R1在科学研究、数学和编码等领域的潜力尤为明显。

DeepSeek R1的蒸馏模型可以在资源有限的情况下有效地开发出一个能力较强的推理模型。

此外,R1为未来在其他领域实现由基础模型驱动的AI Agent奠定了基础,例如在DeepSeek R1发布后,OpenAI发布了Deep Research,这是一款基于o3超强推理模型的深度研究工具,能自主执行多步骤联网搜索、跨源数据整合及专业报告生成。

面对DeepSeek带来的市场新变化,沙丘智库给企业的建议如下:

第一,成本下降趋势与业务规划。在规划业务应用场景和优先级时,企业应预期训练和推理成本会持续下降。在过去的6-12个月中,大模型的价格已经呈现下降趋势,DeepSeek的定价策略更是推动了这一变化。尽管成本下降,企业不应仅仅因为价格变化而突然改变方向。除非有明确的业务需求或能够显著改变业务模式,否则避免盲目构建自有大模型。投资AI应确保与企业的战略目标一致,并能够带来显著的竞争优势。

第二,部署大模型的总成本。在计算大模型应用的ROI时,总成本不仅限于模型本身,还包括:应用开发和维护的初始及持续成本,数据及其管理成本,安全、治理和风险管理成本,业务转型和变革管理成本。虽然技术创新可能降低部分成本,但这些成本不会完全消失。

第三,利用DeepSeek带来的新机遇。借助DeepSeek的发布,积极探索更可行、负担得起且透明的AI创新机会,吸引更多参与者进入AI行业。大模型成本的下降可能催生以前不可行的新产品,将昂贵的POC项目转化为可行的产品。

第四,评估效率提升和使用率之间的关系。不要假设效率提升必然会带来更高的使用率,这种结果并非必然。需要判断DeepSeek的突破是否会进一步推动AI技术的进步,还是会导致尖端技术的商业化,从而削弱创新动力。可能存在中间情况,即技术进步和商业化同时发生。

第五,加速员工技能的培养与发展。随着大模型成本下降,AI将更深度地融入产品和服务,对AI产品经理的需求将显著增长。一些工程师可能会承担更多产品管理的任务。企业应加速员工在AI技术、用户设计和市场分析方面的技能培养,以应对未来的需求。

更多研究(可前往“沙丘智库”查阅)

回答关于DeepSeek的六个热门问题

DeepSeek带来的变化,企业该如何应对?

2024中国大模型技术采纳现状调研报告

2024年国资央企大模型应用跟踪报告

2024年中国工业大模型应用跟踪报告

2024年AI Agent最佳实践报告

...

*更多生成式AI研究可前往“沙丘智库”小程序查阅

*有任何需求可咨询客服微信:zimu738

沙丘社区官方账号。

362篇原创内容
阅读 994
收藏
沙丘社区Logo专注人工智能和大数据的数字技术社区
联系我们
  • 客服微信: zimu738
  • 加入我们: hr@shaqiu.cn
  • 业务合作: miao_tim
  • 内容投稿: service@shaqiu.cn
公众号
智库小程序
客服微信