实测出炉！昇腾 910B 部署 DeepSeek-V4 性能表现

分类：企业动态

发布时间：2026年05月28日

在企业级大模型落地实践中，硬件平台的算力、稳定性与适配性直接决定业务体验。数聚红芯基于昇腾 910B、NVIDIA RTX PRO 6000D、RTX 5090 三大方案，完成 DeepSeek-V4-Flash-w8a8-mtp 的实机性能对比测试，用真实数据验证国产算力方案的落地实力。

本次测试以并发数、输出吞吐量、首 token 延迟（TTFT）、单 token 生成耗时（TPOT）为核心指标，覆盖 512/1024 序列长度、1-500 并发的全场景负载，所有数据均源自实测报告，可追溯验证。

核心性能对比：昇腾 910B 方案优势显著

吞吐量表现：在高并发场景下，昇腾 910B 方案展现出强劲的持续输出能力。512 序列长度、500 并发时，输出吞吐量达 334.59 tokens/s；1024 序列长度、500 并发时，吞吐量为 374.06 tokens/s，整体表现优于同测试条件下的 PRO 6000D 方案，接近 RTX 5090 的峰值表现。

延迟控制：在中低并发场景下，昇腾 910B 方案的 TTFT 与 TPOT 表现稳定。512 序列长度、1 并发时，首 token 延迟仅 0.437 秒，单 token 生成耗时 0.0239 秒，可满足轻量级对话业务的实时性需求；高并发场景下，延迟增长趋势平缓，未出现明显性能跳水，稳定性表现突出。

场景适配：昇腾 910B 方案在离线推理、批量任务处理、国产化信创场景中优势明显，尤其适合政务、科研、企业内部知识库等对数据安全与自主可控有高要求的场景，而 PRO 6000D 方案在高并发下的延迟波动更大，RTX 5090 则受限于消费级硬件的长期负载稳定性。

技术解读：昇腾生态适配带来的落地优势

本次测试基于数聚红芯 HG9680 昇腾 AI 一体机完成，搭载鲲鹏 920 处理器 + 8 卡昇腾 910B 算力模组，预装 openEuler 系统，实现了硬件与大模型的深度适配。昇腾 910B 凭借高效的算力调度机制与国产生态优化，在高并发负载下的算力利用率更高，同时避免了消费级硬件的降频、过热问题，更适配企业级 7×24 小时稳定运行需求。

数聚红芯作为专注于智能计算解决方案的生产与服务商，已完成多款国产算力平台与主流大模型的适配测试，可为企业提供从算力规划、模型部署到业务落地的全流程服务。无论是信创改造、批量推理任务，还是实时对话业务，我们都能基于实测数据为您匹配最优部署方案，助力企业高效落地 AI 应用。

专注于智能计算解决方案