实测DeepSeek V4，为国产化而生

今天，等了一年的DeepSeek V4，终于发布了。

本来每天都很期待，但是发布的这一刻，突然感觉进入到了一种贤者模式。

人有点麻了，这一周发了7、8个新模型，最近24小时就发了4个，昨天下午刚开始测MiMo，然后HY3发了，刚写完MiMo，然后GPT-5.5发了，今天刚发完MiMO，然后DeepSeek v4发了。

我现在就仿佛鸡排哥，写完你的写你的，写完你的写你的。

我也*时间把DeepSeek V4接到了我的Claude Code里。

然后很多朋友问为啥没有R2了，这块我简单的科普一下下，就是在去年这个阶段，推理模型和非推理模型还是分开的，也就是DeepSeek R1是推理模型，DeepSeek V3是非推理模型。

然后到了后面，基本Claude和GPT都还开始使用混合模型了，也就是用思考强度去控制模型是否进行推理。

所以DeepSeek V3.1的时候，也改成了混合模型的架构，这些V4同样的，也是混合模型。

所以R2存在的意义现在就有点不明确了，就像OpenAI o3，就成了OpenAI的最后一代推理模型，被并到了GPT-5里面。

再简单说一下DeepSeek V4这次的一些特性。

先看跑分。

这是DeepSeek V4自己的。

各方面都有明显加强。

然后这段时间，模型又太多太杂太乱了，于是我又自己整理了一下，因为大家的数据和口径总是经常不一样，所以这个表能看个大概，但是不能深究。。。

先是知识推理类的。

没有数据的就是没放这块的跑分。

可以看到DeepSeek最强的还是SimpleQA这两个知识类的，逼近Gemini 3.1 Pro，在其他的地方只能说中庸。

然后代码类的。

可以非常明显的看到走的也是Gemini那一卦的，在竞赛、算法类比较强，但是真实代码工程能力上，只能说从分数上看，也没啥大幅*，*梯队水平。

代码这块我觉得也可以把Arena最新的评分放出来，目前DeepSeek V4排第三，*还是GLM-5.1，MiMo没上榜是因为还没开源出来，目前只有API，开源估计下周了。

Agent能力这一卦上。

这个确实比较强。

跑分大概就是这样，其实可以看到比较正常，在现在一众诸神混战的年代里，可以给到人上人，但是如果大家是夯爆了的预期的话，可能就会失望了。

然后还有一个非常直观的数据，V4-Pro的总参数量是1.6T，也就是1.6万亿。

V3.2是671B，也就是6710亿，V4的参数量，翻了将近两倍半。

所以其实你可以看到，在如今这个时代，依然还是大就好，大就牛逼，大就是聪明。

但是因为大带来的提升，也变向带来了Token的涨价，算力就那么多，模型参数越来越大，Agent推理所用的Token又越来越多，不涨价都不可能了。

V4-Pro是输入12元，输出24元每百万token，V4-Flash是输入1元，输出2元。

换算成美元的话，输入1.74美元每百万token，输出3.48美元。V4-Flash，输入0.14美元每百万token，输出0.28美元。

作为对比，Claude Opus 4.7是输入5美元，输出25美元，GPT-5.5是输入5美元，输出30美元。

MimM-V2.5-Pro在0到256k token内，是¥7/¥21每百万token（输入/输出），在256k到1M token内是¥14/¥42每百万token（输入/输出）。

平均下来国产模型价格定价都差不多，虽然有点对不起DeepSeek一直以来的价格屠夫的称称号，但还是大概比海外模型平均便宜60%左右。

不过这里面有个细节很多人可能没注意到。

DeepSeek在定价页面底部有一行小字，大意是说，受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。

也就是说，V4-Pro现在的价格还不是最终态，等芯片产能跟上了，价格还会往下降，这一点我觉得还是挺重要的。

然后这个事，加上DeepSeek V4的报告里，其实能透露出非常多国产化的细节，明显是为了给国产芯片做准备的。

有几个小细节，我也不知道我理解的对不对，有大佬可以来拍砖一下。

1. V4在后训练和推理体系里引入了MXFP4。

虽然训练还是用的英伟达体系，但是在后训练和推理上用这个基本上就意味着，DeepSeek在往开放低精度格式和多硬件适配方向走，可以适配国产卡比如华为昇腾、寒武纪、壁仞等等，会降低对NVIDIA的FP8生态的绑定，特别是推理的时候，那这就是正儿八经的国产生态国产模型了，可惜的就是现在价格还没下来。

2. V4的底层内核不再完全靠CUDA写，用了一个叫TileLang的DSL。DeepSeek希望底层算子开发不要完全锁死在CUDA上，而是用更高一层的语言描述计算，再尽量编译到不同硬件上，这个非常牛逼，可以大大降低迁移成本。

3. V4专门搞了一个叫MegaMoE的融合内核，设计目标是减少专家并行中的通信等待，目前已经在华为昇腾上跑通。

这三条放一起，方向就非常清楚了，V4是完完全全的，为了国产卡而设计的模型。

这真的不是啥爱国故事，所有人都知道，未来算力有多缺，算力生产有多慢，但是Agent加速之下，Token带来的消耗有多恐怖。

算力被卡脖子，所有人都没有办法，君不见GLM-5.1这么好的模型，有多受限于算力推理吗？

算力博弈，很多时候，就是顶层博弈。

DeepSeek v4，就是算力博弈逼出来的现实。

未来一年，国产大模型跑国产卡这件事，感觉会逐渐成熟了。

然后多模态的事，我知道大家很关心。

因为现在，多模态几乎是标配了，比如Opus 4.7大幅强化的就是多模态能力，K2.6、MiMo-V2.5-Pro也都标配了多模态，更别提GPT-5.5了。

因为没有多模态，你读不了图，你没有视觉能力，审美上也必然差一截，同时什么Computer Use之类的Agent能力，更是想都别想。

但是非常非常可惜的是，DeepSeek V4，不是多模态。

还是一个纯文本模型，没有多模态能力。

一声长叹，其实很早以前就在传V4有多模态了，我也知道他们内部肯定做了多模态的工作，但是最后，还是没有放出来，看来适配国产卡的压力，还是太大太大了。

多模态，可能只能等到v4.5或者v5.0了，希望这两个版本，没有了适配国产卡的压力，不要再让我们等一年了。

目前V4 Pro我也接到Claude Code里面了。

我们在自己紧锣密鼓的测试了3个小时之后，有了一些自己粗糙的结论。

我个人感觉，跟Claude Code的适配，是有一些问题的，我现在不知道到底是适配的问题，还是模型的问题。

举个最简单的例子，我的本地skill，是有一个直接管理我服务器的skill的。

我至今没有见到任何一个模型，在我说出明确带有服务器的词语的时候，不去调用我的服务器skill去服务器查询。

GLM-5.1、MiniMax M2.7、Kimi K2.6、MiMo-V2.5-Pro，没有一个有问题，但是，DeepSeek V4，出了问题。

我需要把Prompt说的如此明确才可以。

非常的奇怪。

我们小伙伴也是，之前他做了一个社群运营系统，已经做完了，在桌面留了个PRD，用来测试的，但，理解力也有点问题，虽然是为了测试，在根目录进行启动的，但一般还是会进行全局搜索一下的，而不是直接拒绝。

然后开发这块，我自己之前测试Opus 4.7的Case扔给了他，这个需求其实就是给我们开发一个招聘网站，要使用女神异闻录5的风格，同时还要部署到我的服务器上，但是我的需求说的非常的乱，也会比较考验模型需求的理解能力。

在给DeepSeek V4 Pro开发的时候，速度非常的缓慢。

大概花了24分钟做完的。

UI其实还好了，但是出了蛮大的问题，就是没有跟我进行任何的确认。

因为我的约束给的是非常多的，比如CLAUDE.md里面，还有我的skill里面，最基本的一个问题，就是比如没有遵守skill的描述。

任何新项目，部署到服务器上，都是一定要跟用户确认域名是否OK的，但是没有做任何确认，直接自己选了careers.virxact.com干上去了，24分钟结束之后，给了我一个域名，让我确认。

这个其实蛮奇怪的，我的约束好像很多也都失效了。

而模型的写作能力上，反而是让我觉得比较开心的点。

相比于其他模型，几乎不说人话不看写作了，DeepSeek是为数不多的还关注这一块的。

*个是强行调用我的skill，去写一篇关于Token涨价的文章。

花了大概8分钟，不知道开了多少个网页，然后写了一篇，在几层检测上，自己完成了。

效果大概是这样的。

还让他对我昨天GPT-image-2的黑暗森林那篇进行了中段续写的测试。

整体效果达不到Opus 4.6那种润物细无声的级别，但是比Opus 4.7要好，如果你用修改度来区分，那大概Opus 4.6直出的我的修改度是30%，Opus 4.7我的修改度是60%，那DeepSeek V4 Pro的修改读大概在45%左右。

并且因为上下文增加，在输出长文档上，效果会好的多的多。

对DeepSeek V4的测试大概就是这样。

有好有坏。

我昨天在GPT-5.5的文章里修正过一次推荐，早上我也写过MiMo-V2.5-Pro，说它是我现在觉得搭配Claude Code的*模型之一。

现在，我再更改一下推荐：

1. 如果你更偏好海外模型，且愿意花20～200刀会员订阅费：

在内容创作（文章、策划案、脚本等）这种需要创意的场景上，我至今依然推荐使用Claude Code + Claude Opus 4.6。

而在通用开发、数据分析、文档处理等所有其他场景下，我更推荐你用Codex + GPT-5.5。

2. 如果你更偏好国内模型：

在内容创作场景上，我推荐你使用DeepSeek官网，没有必要用Claude Code。

而在其他所有场景下，我依然推荐你使用Claude Code + GLM-5.1或MiMo-V2.5-Pro的组合。

DeepSeek V4，身上背负的东西太多，承载的东西也太多。

大家给的期望也足够的大。

虽然非常坦诚的讲，这次的模型，并没有大幅度的*和巨型的惊艳。

但，对于模型的国产化、乃至AI的国产化，都是浓墨重彩的一笔。

希望这一次，完成了所有的底层积累，厚积薄发。

在V4.5或者V5的时候。

让世界，继续听到DeepSeek的声音。

【本文由投资界合作伙伴微信公众号：数字生命卡兹克授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。

实测DeepSeek V4，为国产化而生

AI投资人解读

本文涉及

相关资讯

DeepSeek再放大招，国产大模型坐不住了

DeepSeek V4的五个关键信号

DeepSeek V4还是神，接下来和华为一起让token大降价

DeepSeek 正式发布 V4，API：Flash/Pro 双版本齐发

刚刚，DeepSeek V4 双版本正式上线！

DeepSeek V4终于发布

关于我们

对外合作

投稿邮箱

联系我们

投资界微信

投资界APP