Deepseek何以一鸣惊人？

这一突破性的进展背后，究竟隐藏着哪些技术创新与战略布局？是否可以解决大家的成本困境？

2025年01月17日 08时 · 微信公众号：亿欧网　不寒　　收藏

随着模型参数的急剧膨胀，训练成本水涨船高，成为行业内多数企业亟待解决的难题，也频频传出有创业团队折戟沉沙的“谣言”。

2024年的尾声，12月26日晚，Deepseek V3的上线曾给这一困境带来过新的希望。

拥有惊人的6710亿参数、14.8万亿高质量token的Deepseek V3，不仅在性能上令人瞩目，更以仅557.6万美元的训练成本和280万个GPU小时的计算需求，成功实现了与现有*模型的竞争，甚至在能效上遥遥*。

据悉，12月，DeepSeek惊人增长164%，访问量达1180万次。

这一突破性的进展背后，究竟隐藏着哪些技术创新与战略布局？是否可以解决大家的成本困境？

其中的主角DeepSeek，曾一举打破token价格池，又再次展现出低成本高效能的双重奏，是一家什么样的公司？

1、从草根到明星：Deepseek的起源

要理解Deepseek 的崛起，必须从其“母体”幻方量化说起。

2012年，幻方量化正式成立，一头扎进了量化投资蓝海。

它擅长用海量数据来“捕捉”资本市场的波动，通过机器学习与高频交易策略的结合，在市场里如鱼得水。

量化公司的核心优势之一，在于处理海量数据与高效运算的能力。

与普通投资机构相比，幻方量化对硬件的需求更加严苛：为保障从海量数据中迅速挖掘市场机会，他们不仅要与时间赛跑，更要与算力“掰手腕”。

也正是在这一点上，幻方量化展现出了“不差钱”的一面：先后投资超2亿元打造了“萤火一号”深度学习训练平台，搭载了1100 块 GPU；随后又斥资10 亿元升级到“萤火二号”，让GPU数量飙升至1万张英伟达 A100。

这台“算力巨兽”不仅用于量化交易，也为幻方量化向 AI 领域进一步渗透提供了坚实后盾。

雄厚的硬件投入不但在金融圈显示出惊人效益，也为后来的大模型研发埋下了关键伏笔。

也是除了互联网大厂外，举止可数的富裕“玩家”，强支撑了幻方量化以及后来的Deepseek在人工智能领域大规模研究与创新。

2、初始模型发布：Deepseek的诞生

有了底层硬件做支撑，幻方量化在内部孵化出一个小而精的AI部门。

这个团队由核心技术骨干梁文锋带领，他在量化金融与机器学习领域耕耘多年，在同僚眼中是个“既懂金融又懂AI”的全才。

2020年，为了更集中地研发AI大模型，梁文锋决定将这支团队独立出来，正式创办了Deepseek，标志着梁文锋和他的团队正式踏上了探索 AI 基础技术的新征程。

一切从零开始时，总是带着几分懵懂与热血。

彼时，AI 大模型尚处于“算力为王”的阶段，许多巨头都在加速“参数内卷”。

Deepseek 则没有盲目跟风：他们的*款产品 DeepSeekCoder（2023年11月2日发布），主要定位于开发者工具和基础的商业应用。

尽管没有引起特别大的轰动，但它为Deepseek在数据收集、算法打磨及团队磨合上埋下了“更进一步”的潜能。

就这样，Deepseek以一种“慢火煲汤”的方式，稳扎稳打地走到了台前。

这个阶段，最关键的策略在于：把底层数据和算法路线夯实，再利用幻方量化的资源搭建算力基础，为后续升级迭代打下牢固根基。

3、开源策略：孤注一掷or先人一步？

2024年，对于 Deepseek 来说是一个“高光之年”。

这一年，许多大模型厂商都在紧锣密鼓地进行商业化布局，生怕错过风口。而Deepseek却选择了一条近乎“叛逆”的道路——坚定地走开源路线。

在很多投资人眼里，开源意味着失去对模型的完全掌控，也意味着短期盈利不明朗。

Deepseek的团队认为，AI大模型的竞争并非只在“封闭花园”里厮杀；相反，开源可以吸引更多优秀的研究者、开发者参与进来，形成一种“你中有我、我中有你”的社区氛围。

在他们看来，“先把模型开放给社区，形成口碑与技术生态，再进一步构建商业场景”才是更适合Deepseek的成长模式。

后来的事实证明了它的价值：得社区者得天下。

许多技术博主与开发者默契地成为Deepseek的“自来水”。

社交网络、技术沙龙以及各种论坛上热情分享自己的测试体验与二次开发心得，也为Deepseek 贡献了大量实用的改进意见。

单从这一点看，Deepseek 的品牌影响力已悄然攀升。

4、Deepseek-R1-Lite

点燃舆论热度的“预演”

时间回到2024年11月20日，Deepseek 发布了Deepseek-R1-Lite预览版。

这个模型在强化学习方面的技术突破相当引人注目，尤其在复杂的数学、代码生成和逻辑推理场景中，表现出堪比国际*模型的水平。

不少开发者惊呼：“没想到一支相对‘默默无闻’的团队，能在大模型里杀出一条‘奇兵路’。”

“R1-Lite”的成功，让更多人把目光聚焦到Deepseek身上。借助社区的热情与口口相传，这家年轻公司在短短一个月里访问量飙升至1180万次，环比增长164%。

同时，也酝酿出Deepseek 的下一次“王炸”——DeepseekV3。

5、“大而不贵”：6710亿参数的震撼

2024年12月26日，Deepseek 正式发布了 Deepseek V3。当大家打开其技术报告时，*被吸引的便是那“惊人的数字”：6710亿模型参数，同时训练数据规模更是达到14.8万亿tokens。

仅看参数量，DeepseekV3的体量已逼近或超越主流巨头的同级别大模型。

最令业界震动的还不是庞大的参数规模，而是其“低成本”。

在公认算力紧缺、训练动辄花费数千万美元的当下，DeepseekV3仅以557.6万美元完成训练，总计280万个GPU小时。

这一份在业内看来颇具“性价比”的数据，迅速在技术圈与社交媒体上成为热门话题。

“他们是怎么做到的？”很多人难掩惊诧。

6、架构创新：稀疏MoE与FP8混合精度的协奏

不靠砸钱取胜，很多路其实可以走得更巧妙。

在DeepseekV3的技术白皮书中，提到的关键架构创新是采用了稀疏的Mixture of Experts(MoE)。

简单来说，MoE并非让所有参数在每次前向传播和后向传播都“全员出动”，而是只激活5%～10%的“专家网络”，大幅降低大模型训练的算力需求。

对于Deepseek V3这样高达 6710 亿参数级别的庞然大物而言，你可以把MoE架构想象成一个“隐形刹车”，需要加速的地方精准发力，在可以省电的地方灵活收敛，从而提高整体效率。

其次，DeepseekV3大胆采用了FP8混合精度训练。

FP8虽然在数值稳定性上存在一定挑战，但也显著减少了模型训练时的计算量与显存占用，让单位GPU小时“发挥更大价值”。

有技术专家评价道：“这是在工程实现上难度相当高的一步，但一旦突破，就能使训练速度和能效同时上一个台阶。”

7、数据质量与算力调度：多重优化的结果

大模型训练的要素通常归纳为三大方面：算力、架构和数据。

Deepseek既然不打“重金堆算力”牌，就必须在“架构”和“数据”上发挥*效能。

数据层面：DeepseekV3的训练数据规模达到14.8万亿tokens，同时对数据的重复度和质量控制进行了更严格的筛选。

更值得一提的是，Deepseek通过后训练与蒸馏策略，大幅减少了对RLHF（人类反馈强化学习）的依赖，既节省了人工成本，也优化了数据处理流程。

算力层面：幻方量化的硬件平台为Deepseek 提供了坚实后盾，但Deepseek 并不满足于单纯地“排队烧卡”，他们开发了高效的软件栈、集群管理与数据管线，令资源调度与集群利用率有了量级提升。

“当你能让GPU‘满负荷’又不浪费时，省下来的都是白花花的银子。”

8、质疑与对比——何以在“百模乱世”立足？

所谓“树大招风”，当DeepseekV3在技术指标上获得一片赞誉时，也迎来了不少质疑声。

有专家指出，Deepseek V3 的成本核算存在“未尽事宜”：比如最初使用 R1 模型来生成和清洗数据的费用，是否也包含在557.6万美元的数字里？

此外，大模型虽然训练阶段成本降低，但推理和运维依旧需要大量的GPU来支撑，后续费用能否继续保持“亲民”水准，仍需观望。

对此，Deepseek并没有大规模的公开辩驳。

除此之外，在技术圈，最喜欢的莫过于横向对比。

有人把Deepseek V3和GPT-4o、Claude-3.5-Sonnet-1022 等放在同一水平线上进行测试，结论各有侧重：

在代码场景与复杂数学任务中，Deepseek V3 表现突出，尤其在算法设计或程序生成方面，甚至逼近或超越了国际一线模型。

在知识问答及长文本处理中，GPT-4o依旧稳居*，在一些特别冗长、复杂的上下文检索与推理环节，DeepseekV3还需进一步打磨。

价格层面，Deepseek V3在百万tokens级别的推理费用只需要几元到十几元不等，远低于业内推测的 GPT-4o（往往在数十美元或更高）。

若企业对于成本极其敏感，Deepseek 无疑是一匹黑马。

可见，DeepseekV3的优势和短板都很鲜明：它以“低成本+在特定任务上的强表现”吸睛，却在通用性与稳定性方面尚未证明自己能全面赶超*选手。

总的来说，DeepseekV3采取了稀疏MoE、FP8 混合精度等颇具创新的架构，在特定的数学、编码场景中展现了极高性能。

但要拓展到各种自然语言理解、多语种对话、内容审核等场景，仍需更多的领域训练与适配。

此外，大模型在长文本上下文保持、逻辑推断一致性以及安全合规性方面，往往是一道“难啃的骨头”。

对初创AI企业来说，这是个并不意外的过程。

9、结语：商业化与开源的交汇还需更多思考

当下，也有企业在逐步选择开源的道路，这里又不得不提昨天也同样开源的六小虎之一的Minimax，昨天推出的模型之一MiniMax-Text-01，以400万上下文窗口能力强势出圈，也应用MOE架构训练，很难不让人拿来做对比。

单从开源的角度来看，“开源”是一条赢得技术社区与口碑的捷径，但要想在商业化上站稳脚跟，还需要思考如何与企业应用有效结合。

模型仅仅“便宜+好用”还不够，企业更看重数据安全、稳定性以及深度定制化服务。

在金融领域，Deepseek与其“老东家”幻方量化能形成天然协同，或可顺势为一些金融科技、保险、投资机构提供定制化的AI解决方案。

毕竟，量化投资与大数据分析对大模型的实时性与稳定性都有极高要求，而这恰恰是Deepseek擅长的地方。

若能以此为突破口，在行业里形成良好示范效应，Deepseek即有可能从“开源社区的人气王”跃升为“行业级别的高端服务提供商”。

但在未来的行业落地中，也面临着不可回避的难题，模型通用性与推理成本。

尽管DeepseekV3强调了低训练成本，但未来最为棘手的还包括“推理成本”。

大模型投入商用后，每天海量的用户查询将带来巨大的计算需求，不仅需要强大的GPU集群，更要有一整套分布式调用和负载均衡机制。

若推理价格太高，用户可能“望而却步”；太低，企业又难以维持健康的营收。

如何在这两者间找到平衡，考验着 Deepseek的资源管理和商业策略。

另一个层面，通用性永远是大模型的“*考验”。

如何解决“幻方量化”这种纯技术背景出身团队在多场景下的瓶颈，是Deepseek能否迈向“通用化”大模型的关键。

在不同文化背景、不同行业领域提出的问题能否自如应对、保持高准确度和自然度，是大模型走向大规模商用的门槛之一。

Deepseek若想扛起国产大模型的大旗，在通用性与“精专性”之间，还需找到独特的平衡点。

值得欣慰的是，Deepseek提升了训练速度与生成效率，其TPS（Tokens Per Second）从之前的20提升到60，达到了3倍增长。

可见，这个团队在工程实现与硬件利用率上功力深厚，也说明他们具备快速迭代的能力。

如果能将这种“硬核能力”继续延伸到更多任务场景和跨语言支持，Deepseek 便有机会在AI大模型的热潮中取得更广泛的应用。

【本文由投资界合作伙伴微信公众号：亿欧网授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。

DeepSeek AI 大模型

本文涉及

企业
海量数据

看了这篇文章的用户还看了

AI教父黄仁勋低调现身深圳
2025/01/17$tags$
2025年，「大模型价格战」不怕亏钱了？
2025/01/16$tags$
1秒低至“4分钱”！国产视频大模型Vidu 2.0正式发布，将视频生成带向普及
2025/01/15$tags$
AI 公司是真「饿了」，开始砸钱买你拍的「废片」
2025/01/15$tags$
为旌科技完成新一轮近亿元融资，加速端侧AI芯片布局
2025/01/15$tags$
DeepSeek是一支怎样的团队？
2025/01/15$tags$

网友评论

共条评论

2372篇收录文章

科技与产业创新服务平台

Deepseek何以一鸣惊人？

本文涉及

看了这篇文章的用户还看了

AI教父黄仁勋低调现身深圳

2025年，「大模型价格战」不怕亏钱了？

1秒低至“4分钱”！国产视频大模型Vidu 2.0正式发布，将视频生成带向普及

AI 公司是真「饿了」，开始砸钱买你拍的「废片」

为旌科技完成新一轮近亿元融资，加速端侧AI芯片布局

DeepSeek是一支怎样的团队？

网友评论

热榜

创投号

more投资界99个发现

关于我们

对外合作

投稿邮箱

联系我们

投资界微信

投资界APP