【DeepSeek 震惊世界一个月后专注于 AGI 突破,而非快速获利】
(南华早报)据消息人士和媒体报道,中国人工智能初创企业DeepSeek在其推理模型发布并在全球引起震动之后的一个月内,一直将研究置于快速的财务收益之上。
自从其 R1 推理模型登上硅谷和华尔街的头条新闻以来,这家由梁文峰创立、从对冲基金业务中分离出来的杭州初创企业一直保持低调,与开发者社区以外的公众极少交流。
这位 40 岁的创始人在过去一个月里没有发表任何公开评论或接受媒体采访。梁最近唯一公开露面的是作为一篇论文的合著者,论文题为“原生稀疏注意力:与硬件对齐且原生可训练的稀疏注意力”,论文作者还有另外 14 人。该论文的 15 位作者中至少有 12 位也为 R1 的论文做出了贡献,这表明梁与 DeepSeek 的年轻科学家一起直接参与了这项研究。
一位不愿透露姓名的接近该公司的消息人士表示,DeepSeek 并不急于进一步筹集资金或开展新的商业活动。相反,梁专注于通过以最少的资源提高模型效率和能力来推进通用人工智能 (AGI)。AGI 指的是一种达到或超越人类认知能力的人工智能。
“这是否是一个明智的选择,以及这项研究能持续多久,只有时间才能告诉我们,”这位人士在谈到 DeepSeek 的主要优先事项时说道。“一个关键问题是,缩放定律仍然存在,仅靠算法改进很难保持领先地位。”
DeepSeek 周三没有回应置评请求。
尽管 DeepSeek 已成为中国最知名、最受尊敬的企业之一,但该公司将自己定位为一家低调的初创公司,拒绝访客和潜在投资者的敲门。该公司已澄清,其只有三个官方社交媒体账号:X、微信和RedNote。
该公司对其团队、内部结构和研究计划保持沉默。路透社本周报道称,DeepSeek 正在加速推出其 R1 模型的后续版本。据报道,该公司原计划于 5 月初发布 R2,但希望尽早推出。DeepSeek 之前的记录是,其 V2 大型语言模型 (LLM) 于 2024 年 5 月发布,而更新后的 V3 于 12 月发布,间隔 7 个月。基于 V3 的推理模型 R1 于 1 月发布。
梁的团队继续与开发者社区分享其研究成果。该公司本周兑现了分享其 AI 基础设施技术细节的承诺,发布了三个开源代码库,揭示了 DeepSeek 如何构建其低成本、高性能的 AI 模型。
开发人员对 DeepSeek 的举措表示赞赏,认为它促进了该领域的改进。据当地媒体报道,上周末, DeepSeek 的一个小型研究人员团队参加了在上海举行的全球开发者大会的“闭门”会议。
在之前接受中国科技新闻出版物 36Kr 的两次采访中,梁表示 DeepSeek 的最终目标是实现 AGI,该公司专注于开源技术,似乎将这一使命置于商业利益之上。
“我们的目标是通用人工智能(AGI),”梁在去年7月接受该刊物采访时说。“大语言模型(LLM)可能是通往通用人工智能的必经之路。”
当被问及通用人工智能(AGI)何时能够实现时,梁当时表示:“可能需要两年、五年,甚至十年,但最终在我们有生之年会实现。”