旗下矩阵

  • 投资界
  • 天天IPO
  • 解码LP
  • 并购
  • 前哨
  • 投资界AI

实测DeepSeek V4,为国产化而生

今日DeepSeek V4发布,其跑分各方面有加强,参数量近两倍半,价格或下调,为国产卡设计,目前非多模态,与Claude Code适配有问题。
·微信公众号:数字生命卡兹克数字生命卡兹克

AI投资人解读

· DeepSeek V4各方面有明显加强,在知识推理类跑分逼近Gemini 3.1 Pro,代码类排第三,Agent能力较强,总参数量达1.6T。价格比海外模型便宜约60%,未来或因芯片产能跟上而降价。其在设计上为适配国产卡做了准备。
· 多模态能力缺失与Claude Code适配有问题,开发速度缓慢,还存在约束失效情况。
总结:DeepSeek V4虽未大幅领先,但在国产化进程中有重要意义。其性能有亮点,价格有优势,适配国产卡的设计值得关注。不过多模态缺失和适配问题带来一定风险,后续版本若能改进,投资潜力将进一步提升。内容由AI生成,仅供参考

今天,等了一年的DeepSeek V4,终于发布了。

本来每天都很期待,但是发布的这一刻,突然感觉进入到了一种贤者模式。

人有点麻了,这一周发了7、8个新模型,最近24小时就发了4个,昨天下午刚开始测MiMo,然后HY3发了,刚写完MiMo,然后GPT-5.5发了,今天刚发完MiMO,然后DeepSeek v4发了。

我现在就仿佛鸡排哥,写完你的写你的,写完你的写你的。

我也*时间把DeepSeek V4接到了我的Claude Code里。

然后很多朋友问为啥没有R2了,这块我简单的科普一下下,就是在去年这个阶段,推理模型和非推理模型还是分开的,也就是DeepSeek R1是推理模型,DeepSeek V3是非推理模型。

然后到了后面,基本Claude和GPT都还开始使用混合模型了,也就是用思考强度去控制模型是否进行推理。

所以DeepSeek V3.1的时候,也改成了混合模型的架构,这些V4同样的,也是混合模型。

所以R2存在的意义现在就有点不明确了,就像OpenAI o3,就成了OpenAI的最后一代推理模型,被并到了GPT-5里面。

再简单说一下DeepSeek V4这次的一些特性。

先看跑分。

这是DeepSeek V4自己的。

各方面都有明显加强。

然后这段时间,模型又太多太杂太乱了,于是我又自己整理了一下,因为大家的数据和口径总是经常不一样,所以这个表能看个大概,但是不能深究。。。

先是知识推理类的。

没有数据的就是没放这块的跑分。

可以看到DeepSeek最强的还是SimpleQA这两个知识类的,逼近Gemini 3.1 Pro,在其他的地方只能说中庸。

然后代码类的。

可以非常明显的看到走的也是Gemini那一卦的,在竞赛、算法类比较强,但是真实代码工程能力上,只能说从分数上看,也没啥大幅*,*梯队水平。

代码这块我觉得也可以把Arena最新的评分放出来,目前DeepSeek V4排第三,*还是GLM-5.1,MiMo没上榜是因为还没开源出来,目前只有API,开源估计下周了。

图像

Agent能力这一卦上。

这个确实比较强。

跑分大概就是这样,其实可以看到比较正常,在现在一众诸神混战的年代里,可以给到人上人,但是如果大家是夯爆了的预期的话,可能就会失望了。

然后还有一个非常直观的数据,V4-Pro的总参数量是1.6T,也就是1.6万亿。

V3.2是671B,也就是6710亿,V4的参数量,翻了将近两倍半。

所以其实你可以看到,在如今这个时代,依然还是大就好,大就牛逼,大就是聪明。

但是因为大带来的提升,也变向带来了Token的涨价,算力就那么多,模型参数越来越大,Agent推理所用的Token又越来越多,不涨价都不可能了。

V4-Pro是输入12元,输出24元每百万token,V4-Flash是输入1元,输出2元。

图片

换算成美元的话,输入1.74美元每百万token,输出3.48美元。V4-Flash,输入0.14美元每百万token,输出0.28美元。

作为对比,Claude Opus 4.7是输入5美元,输出25美元,GPT-5.5是输入5美元,输出30美元。

MimM-V2.5-Pro在0到256k token内,是¥7/¥21每百万token(输入/输出),在256k到1M token内是¥14/¥42每百万token(输入/输出)。

平均下来国产模型价格定价都差不多,虽然有点对不起DeepSeek一直以来的价格屠夫的称称号,但还是大概比海外模型平均便宜60%左右。

不过这里面有个细节很多人可能没注意到。

DeepSeek在定价页面底部有一行小字,大意是说,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。

也就是说,V4-Pro现在的价格还不是最终态,等芯片产能跟上了,价格还会往下降,这一点我觉得还是挺重要的。

然后这个事,加上DeepSeek V4的报告里,其实能透露出非常多国产化的细节,明显是为了给国产芯片做准备的。

有几个小细节,我也不知道我理解的对不对,有大佬可以来拍砖一下。

1. V4在后训练和推理体系里引入了MXFP4。

虽然训练还是用的英伟达体系,但是在后训练和推理上用这个基本上就意味着,DeepSeek在往开放低精度格式和多硬件适配方向走,可以适配国产卡比如华为昇腾、寒武纪、壁仞等等,会降低对NVIDIA的FP8生态的绑定,特别是推理的时候,那这就是正儿八经的国产生态国产模型了,可惜的就是现在价格还没下来。

2. V4的底层内核不再完全靠CUDA写,用了一个叫TileLang的DSL。DeepSeek希望底层算子开发不要完全锁死在CUDA上,而是用更高一层的语言描述计算,再尽量编译到不同硬件上,这个非常牛逼,可以大大降低迁移成本。

3. V4专门搞了一个叫MegaMoE的融合内核,设计目标是减少专家并行中的通信等待,目前已经在华为昇腾上跑通。

这三条放一起,方向就非常清楚了,V4是完完全全的,为了国产卡而设计的模型。

这真的不是啥爱国故事,所有人都知道,未来算力有多缺,算力生产有多慢,但是Agent加速之下,Token带来的消耗有多恐怖。

算力被卡脖子,所有人都没有办法,君不见GLM-5.1这么好的模型,有多受限于算力推理吗?

算力博弈,很多时候,就是顶层博弈。

DeepSeek v4,就是算力博弈逼出来的现实。

未来一年,国产大模型跑国产卡这件事,感觉会逐渐成熟了。

然后多模态的事,我知道大家很关心。

因为现在,多模态几乎是标配了,比如Opus 4.7大幅强化的就是多模态能力,K2.6、MiMo-V2.5-Pro也都标配了多模态,更别提GPT-5.5了。

因为没有多模态,你读不了图,你没有视觉能力,审美上也必然差一截,同时什么Computer Use之类的Agent能力,更是想都别想。

但是非常非常可惜的是,DeepSeek V4,不是多模态。

还是一个纯文本模型,没有多模态能力。

一声长叹,其实很早以前就在传V4有多模态了,我也知道他们内部肯定做了多模态的工作,但是最后,还是没有放出来,看来适配国产卡的压力,还是太大太大了。

多模态,可能只能等到v4.5或者v5.0了,希望这两个版本,没有了适配国产卡的压力,不要再让我们等一年了。

目前V4 Pro我也接到Claude Code里面了。

我们在自己紧锣密鼓的测试了3个小时之后,有了一些自己粗糙的结论。

我个人感觉,跟Claude Code的适配,是有一些问题的,我现在不知道到底是适配的问题,还是模型的问题。

举个最简单的例子,我的本地skill,是有一个直接管理我服务器的skill的。

我至今没有见到任何一个模型,在我说出明确带有服务器的词语的时候,不去调用我的服务器skill去服务器查询。

GLM-5.1、MiniMax M2.7、Kimi K2.6、MiMo-V2.5-Pro,没有一个有问题,但是,DeepSeek V4,出了问题。

我需要把Prompt说的如此明确才可以。

非常的奇怪。

我们小伙伴也是,之前他做了一个社群运营系统,已经做完了,在桌面留了个PRD,用来测试的,但,理解力也有点问题,虽然是为了测试,在根目录进行启动的,但一般还是会进行全局搜索一下的,而不是直接拒绝。

然后开发这块,我自己之前测试Opus 4.7的Case扔给了他,这个需求其实就是给我们开发一个招聘网站,要使用女神异闻录5的风格,同时还要部署到我的服务器上,但是我的需求说的非常的乱,也会比较考验模型需求的理解能力。

在给DeepSeek V4 Pro开发的时候,速度非常的缓慢。

大概花了24分钟做完的。

UI其实还好了,但是出了蛮大的问题,就是没有跟我进行任何的确认。

因为我的约束给的是非常多的,比如CLAUDE.md里面,还有我的skill里面,最基本的一个问题,就是比如没有遵守skill的描述。

任何新项目,部署到服务器上,都是一定要跟用户确认域名是否OK的,但是没有做任何确认,直接自己选了careers.virxact.com干上去了,24分钟结束之后,给了我一个域名,让我确认。

这个其实蛮奇怪的,我的约束好像很多也都失效了。

而模型的写作能力上,反而是让我觉得比较开心的点。

相比于其他模型,几乎不说人话不看写作了,DeepSeek是为数不多的还关注这一块的。

*个是强行调用我的skill,去写一篇关于Token涨价的文章。

花了大概8分钟,不知道开了多少个网页,然后写了一篇,在几层检测上,自己完成了。

效果大概是这样的。

还让他对我昨天GPT-image-2的黑暗森林那篇进行了中段续写的测试。

整体效果达不到Opus 4.6那种润物细无声的级别,但是比Opus 4.7要好,如果你用修改度来区分,那大概Opus 4.6直出的我的修改度是30%,Opus 4.7我的修改度是60%,那DeepSeek V4 Pro的修改读大概在45%左右。

并且因为上下文增加,在输出长文档上,效果会好的多的多。

对DeepSeek V4的测试大概就是这样。

有好有坏。

我昨天在GPT-5.5的文章里修正过一次推荐,早上我也写过MiMo-V2.5-Pro,说它是我现在觉得搭配Claude Code的*模型之一。

现在,我再更改一下推荐:

1. 如果你更偏好海外模型,且愿意花20~200刀会员订阅费:

在内容创作(文章、策划案、脚本等)这种需要创意的场景上,我至今依然推荐使用Claude Code + Claude Opus 4.6。

而在通用开发、数据分析、文档处理等所有其他场景下,我更推荐你用Codex + GPT-5.5。

2. 如果你更偏好国内模型:

在内容创作场景上,我推荐你使用DeepSeek官网,没有必要用Claude Code。

而在其他所有场景下,我依然推荐你使用Claude Code + GLM-5.1或MiMo-V2.5-Pro的组合。

DeepSeek V4,身上背负的东西太多,承载的东西也太多。

大家给的期望也足够的大。

虽然非常坦诚的讲,这次的模型,并没有大幅度的*和巨型的惊艳。

但,对于模型的国产化、乃至AI的国产化,都是浓墨重彩的一笔。

希望这一次,完成了所有的底层积累,厚积薄发。

在V4.5或者V5的时候。

让世界,继续听到DeepSeek的声音。

【本文由投资界合作伙伴微信公众号:数字生命卡兹克授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。