月之暗面因DeepSeek调整工作重心?内部人士:强化学习或许会是个方向

来源:新浪科技  2025-02-17 10:24

2月15日下午消息,据媒体报道,月之暗面内部已经将“持续拿到SOTA结果”确定为当下最重要的工作目标。2025年,月之暗面围绕模型能力的关键方向除了继续强化多模态部分外,还会继续强化长文本推理能力。

报道分析称,DeepSeek爆火后,DeepSeek与月之暗面存在的路线差异,让外界面临重新审视月之暗面技术模式、用户增长模式的情况。其中,月之暗面闭源,坚持预训练(需要大量卡和算力资源),且不把蒸馏技术作为关键,在C端市场通过大量投流实现拉新;而DeepSeek则是开源,虽然也采取预训练,但把蒸馏技术作为关键手段大幅度节省成本,在C端市场并未投流。

而今,DeepSeek采用区别与月之暗面的路线,也取得了现阶段更为出色的效果。业内人士认为,月之暗面如果想守住生态位,“需要做一些改变或者尝试,比如开源,比如调整引流策略等。”不过目前,月之暗面尚未明确是否“接入”DeepSeek,对于接下来是否“开源”,公司也未置评媒体问询。

对于月之暗面是否会因DeepSeek而调整工作重心一事,新浪科技向月之暗面方面求证,截止发稿公司暂无回应。不过有内部人士透露称,“RL(强化学习)大概率会是一个(工作重点)方向”。

作为此次DeepSeek出圈后最受关注的热门技术话题,DeepSeek通过大规模强化学习技术得到比肩OpenAI o1能力的DeepSeek-R1-Zero,令业界倍感兴奋。新浪科技了解到,去年11月份月之暗面宣布推出新一代数学推理模型k0-math之际,Kimi探索版便通过运用强化学习技术创新了搜索体验,在意图增强、信源分析和链式思考三大推理能力上实现突破。彼时,月之暗面Kimi创始人杨植麟便对强化学习这一技术路线带来的模型能力提升给予了高度评价。

而在近日OpenAI发布关于推理模型在竞技编程中应用的研究论文报告《Competitive Programming with Large Reasoning Models》中,论文也特别提到,“中国的DeepSeek-R1和Kimi k1.5通过独立研究显示,利用思维链学习(COT)方法,可显著提升模型在数学解题与编程挑战中的综合表现。其中k1.5便是DeepSeek和Kimi在1月20日同时发布的新型推理模型。”

编辑:易婷
  • 热门排行
  • 大家喜欢