今天,等了一年的DeepSeek V4,终于发布了。

本来每天都很期待,但是发布的这一刻,突然感觉进入到了一种贤者模式。
人有点麻了,这一周发了7、8个新模型,最近24小时就发了4个,昨天下午刚开始测MiMo,然后HY3发了,刚写完MiMo,然后GPT-5.5发了,今天刚发完MiMO,然后DeepSeek v4发了。
我现在就仿佛鸡排哥,写完你的写你的,写完你的写你的。
我也*时间把DeepSeek V4接到了我的Claude Code里。

然后很多朋友问为啥没有R2了,这块我简单的科普一下下,就是在去年这个阶段,推理模型和非推理模型还是分开的,也就是DeepSeek R1是推理模型,DeepSeek V3是非推理模型。
然后到了后面,基本Claude和GPT都还开始使用混合模型了,也就是用思考强度去控制模型是否进行推理。
所以DeepSeek V3.1的时候,也改成了混合模型的架构,这些V4同样的,也是混合模型。
所以R2存在的意义现在就有点不明确了,就像OpenAI o3,就成了OpenAI的最后一代推理模型,被并到了GPT-5里面。
再简单说一下DeepSeek V4这次的一些特性。
先看跑分。
这是DeepSeek V4自己的。


各方面都有明显加强。
然后这段时间,模型又太多太杂太乱了,于是我又自己整理了一下,因为大家的数据和口径总是经常不一样,所以这个表能看个大概,但是不能深究。。。
先是知识推理类的。

没有数据的就是没放这块的跑分。
可以看到DeepSeek最强的还是SimpleQA这两个知识类的,逼近Gemini 3.1 Pro,在其他的地方只能说中庸。
然后代码类的。

可以非常明显的看到走的也是Gemini那一卦的,在竞赛、算法类比较强,但是真实代码工程能力上,只能说从分数上看,也没啥大幅*,*梯队水平。
代码这块我觉得也可以把Arena最新的评分放出来,目前DeepSeek V4排第三,*还是GLM-5.1,MiMo没上榜是因为还没开源出来,目前只有API,开源估计下周了。

Agent能力这一卦上。

这个确实比较强。
跑分大概就是这样,其实可以看到比较正常,在现在一众诸神混战的年代里,可以给到人上人,但是如果大家是夯爆了的预期的话,可能就会失望了。
然后还有一个非常直观的数据,V4-Pro的总参数量是1.6T,也就是1.6万亿。

V3.2是671B,也就是6710亿,V4的参数量,翻了将近两倍半。
所以其实你可以看到,在如今这个时代,依然还是大就好,大就牛逼,大就是聪明。
但是因为大带来的提升,也变向带来了Token的涨价,算力就那么多,模型参数越来越大,Agent推理所用的Token又越来越多,不涨价都不可能了。
V4-Pro是输入12元,输出24元每百万token,V4-Flash是输入1元,输出2元。

换算成美元的话,输入1.74美元每百万token,输出3.48美元。V4-Flash,输入0.14美元每百万token,输出0.28美元。
作为对比,Claude Opus 4.7是输入5美元,输出25美元,GPT-5.5是输入5美元,输出30美元。
MimM-V2.5-Pro在0到256k token内,是¥7/¥21每百万token(输入/输出),在256k到1M token内是¥14/¥42每百万token(输入/输出)。
平均下来国产模型价格定价都差不多,虽然有点对不起DeepSeek一直以来的价格屠夫的称称号,但还是大概比海外模型平均便宜60%左右。
不过这里面有个细节很多人可能没注意到。
DeepSeek在定价页面底部有一行小字,大意是说,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
也就是说,V4-Pro现在的价格还不是最终态,等芯片产能跟上了,价格还会往下降,这一点我觉得还是挺重要的。
然后这个事,加上DeepSeek V4的报告里,其实能透露出非常多国产化的细节,明显是为了给国产芯片做准备的。
有几个小细节,我也不知道我理解的对不对,有大佬可以来拍砖一下。
1. V4在后训练和推理体系里引入了MXFP4。

虽然训练还是用的英伟达体系,但是在后训练和推理上用这个基本上就意味着,DeepSeek在往开放低精度格式和多硬件适配方向走,可以适配国产卡比如华为昇腾、寒武纪、壁仞等等,会降低对NVIDIA的FP8生态的绑定,特别是推理的时候,那这就是正儿八经的国产生态国产模型了,可惜的就是现在价格还没下来。
2. V4的底层内核不再完全靠CUDA写,用了一个叫TileLang的DSL。DeepSeek希望底层算子开发不要完全锁死在CUDA上,而是用更高一层的语言描述计算,再尽量编译到不同硬件上,这个非常牛逼,可以大大降低迁移成本。
3. V4专门搞了一个叫MegaMoE的融合内核,设计目标是减少专家并行中的通信等待,目前已经在华为昇腾上跑通。

这三条放一起,方向就非常清楚了,V4是完完全全的,为了国产卡而设计的模型。
这真的不是啥爱国故事,所有人都知道,未来算力有多缺,算力生产有多慢,但是Agent加速之下,Token带来的消耗有多恐怖。
算力被卡脖子,所有人都没有办法,君不见GLM-5.1这么好的模型,有多受限于算力推理吗?
算力博弈,很多时候,就是顶层博弈。
DeepSeek v4,就是算力博弈逼出来的现实。
未来一年,国产大模型跑国产卡这件事,感觉会逐渐成熟了。
然后多模态的事,我知道大家很关心。
因为现在,多模态几乎是标配了,比如Opus 4.7大幅强化的就是多模态能力,K2.6、MiMo-V2.5-Pro也都标配了多模态,更别提GPT-5.5了。
因为没有多模态,你读不了图,你没有视觉能力,审美上也必然差一截,同时什么Computer Use之类的Agent能力,更是想都别想。
但是非常非常可惜的是,DeepSeek V4,不是多模态。
还是一个纯文本模型,没有多模态能力。
一声长叹,其实很早以前就在传V4有多模态了,我也知道他们内部肯定做了多模态的工作,但是最后,还是没有放出来,看来适配国产卡的压力,还是太大太大了。
多模态,可能只能等到v4.5或者v5.0了,希望这两个版本,没有了适配国产卡的压力,不要再让我们等一年了。
目前V4 Pro我也接到Claude Code里面了。

我们在自己紧锣密鼓的测试了3个小时之后,有了一些自己粗糙的结论。
我个人感觉,跟Claude Code的适配,是有一些问题的,我现在不知道到底是适配的问题,还是模型的问题。
举个最简单的例子,我的本地skill,是有一个直接管理我服务器的skill的。
我至今没有见到任何一个模型,在我说出明确带有服务器的词语的时候,不去调用我的服务器skill去服务器查询。
GLM-5.1、MiniMax M2.7、Kimi K2.6、MiMo-V2.5-Pro,没有一个有问题,但是,DeepSeek V4,出了问题。

我需要把Prompt说的如此明确才可以。

非常的奇怪。
我们小伙伴也是,之前他做了一个社群运营系统,已经做完了,在桌面留了个PRD,用来测试的,但,理解力也有点问题,虽然是为了测试,在根目录进行启动的,但一般还是会进行全局搜索一下的,而不是直接拒绝。

然后开发这块,我自己之前测试Opus 4.7的Case扔给了他,这个需求其实就是给我们开发一个招聘网站,要使用女神异闻录5的风格,同时还要部署到我的服务器上,但是我的需求说的非常的乱,也会比较考验模型需求的理解能力。
在给DeepSeek V4 Pro开发的时候,速度非常的缓慢。
大概花了24分钟做完的。

UI其实还好了,但是出了蛮大的问题,就是没有跟我进行任何的确认。
因为我的约束给的是非常多的,比如CLAUDE.md里面,还有我的skill里面,最基本的一个问题,就是比如没有遵守skill的描述。
任何新项目,部署到服务器上,都是一定要跟用户确认域名是否OK的,但是没有做任何确认,直接自己选了careers.virxact.com干上去了,24分钟结束之后,给了我一个域名,让我确认。
这个其实蛮奇怪的,我的约束好像很多也都失效了。
而模型的写作能力上,反而是让我觉得比较开心的点。
相比于其他模型,几乎不说人话不看写作了,DeepSeek是为数不多的还关注这一块的。
*个是强行调用我的skill,去写一篇关于Token涨价的文章。

花了大概8分钟,不知道开了多少个网页,然后写了一篇,在几层检测上,自己完成了。

效果大概是这样的。


还让他对我昨天GPT-image-2的黑暗森林那篇进行了中段续写的测试。

整体效果达不到Opus 4.6那种润物细无声的级别,但是比Opus 4.7要好,如果你用修改度来区分,那大概Opus 4.6直出的我的修改度是30%,Opus 4.7我的修改度是60%,那DeepSeek V4 Pro的修改读大概在45%左右。
并且因为上下文增加,在输出长文档上,效果会好的多的多。
对DeepSeek V4的测试大概就是这样。
有好有坏。
我昨天在GPT-5.5的文章里修正过一次推荐,早上我也写过MiMo-V2.5-Pro,说它是我现在觉得搭配Claude Code的*模型之一。
现在,我再更改一下推荐:
1. 如果你更偏好海外模型,且愿意花20~200刀会员订阅费:
在内容创作(文章、策划案、脚本等)这种需要创意的场景上,我至今依然推荐使用Claude Code + Claude Opus 4.6。
而在通用开发、数据分析、文档处理等所有其他场景下,我更推荐你用Codex + GPT-5.5。
2. 如果你更偏好国内模型:
在内容创作场景上,我推荐你使用DeepSeek官网,没有必要用Claude Code。
而在其他所有场景下,我依然推荐你使用Claude Code + GLM-5.1或MiMo-V2.5-Pro的组合。
DeepSeek V4,身上背负的东西太多,承载的东西也太多。
大家给的期望也足够的大。
虽然非常坦诚的讲,这次的模型,并没有大幅度的*和巨型的惊艳。
但,对于模型的国产化、乃至AI的国产化,都是浓墨重彩的一笔。
希望这一次,完成了所有的底层积累,厚积薄发。
在V4.5或者V5的时候。
让世界,继续听到DeepSeek的声音。
【本文由投资界合作伙伴微信公众号:数字生命卡兹克授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。



