AI训练和推理

专业AI解决方案,实现AI高效办公

金融高频交易

融合解决方案,建筑高频交易算力基座

设计和仿真

解决不同计算场景,不同数据形态的设计渲染、仿真问题

高性能计算

提供高性能、高算力集群方案

存储

解决I/O性能读写瓶颈,高可靠数据安全

数据中心和云计算

从整机柜到数据中心,提供全面的液冷解决方案

实测出炉!昇腾 910B 部署 DeepSeek-V4 性能表现

分类:企业动态

发布时间:2026年05月28日



在企业级大模型落地实践中,硬件平台的算力、稳定性与适配性直接决定业务体验。数聚红芯基于昇腾 910B、NVIDIA RTX PRO 6000D、RTX 5090 三大方案,完成 DeepSeek-V4-Flash-w8a8-mtp 的实机性能对比测试,用真实数据验证国产算力方案的落地实力。


本次测试以并发数、输出吞吐量、首 token 延迟(TTFT)、单 token 生成耗时(TPOT)为核心指标,覆盖 512/1024 序列长度、1-500 并发的全场景负载,所有数据均源自实测报告,可追溯验证。























核心性能对比:昇腾 910B 方案优势显著



吞吐量表现在高并发场景下,昇腾 910B 方案展现出强劲的持续输出能力。512 序列长度、500 并发时,输出吞吐量达 334.59 tokens/s;1024 序列长度、500 并发时,吞吐量为 374.06 tokens/s,整体表现优于同测试条件下的 PRO 6000D 方案,接近 RTX 5090 的峰值表现。


延迟控制在中低并发场景下,昇腾 910B 方案的 TTFT 与 TPOT 表现稳定。512 序列长度、1 并发时,首 token 延迟仅 0.437 秒,单 token 生成耗时 0.0239 秒,可满足轻量级对话业务的实时性需求;高并发场景下,延迟增长趋势平缓,未出现明显性能跳水,稳定性表现突出。


场景适配昇腾 910B 方案在离线推理、批量任务处理、国产化信创场景中优势明显,尤其适合政务、科研、企业内部知识库等对数据安全与自主可控有高要求的场景,而 PRO 6000D 方案在高并发下的延迟波动更大,RTX 5090 则受限于消费级硬件的长期负载稳定性。




技术解读:昇腾生态适配带来的落地优势

本次测试基于数聚红芯 HG9680 昇腾 AI 一体机完成,搭载鲲鹏 920 处理器 + 8 卡昇腾 910B 算力模组,预装 openEuler 系统,实现了硬件与大模型的深度适配。昇腾 910B 凭借高效的算力调度机制与国产生态优化,在高并发负载下的算力利用率更高,同时避免了消费级硬件的降频、过热问题,更适配企业级 7×24 小时稳定运行需求。

数聚红芯作为专注于智能计算解决方案的生产与服务商,已完成多款国产算力平台与主流大模型的适配测试,可为企业提供从算力规划、模型部署到业务落地的全流程服务。无论是信创改造、批量推理任务,还是实时对话业务,我们都能基于实测数据为您匹配最优部署方案,助力企业高效落地 AI 应用。

lizixuabal1.jpg

专注于智能计算解决方案

专业的顾问服务

耐心的答疑解惑

全国统一服务热线:400-869-9865

邮箱:business@linkupai.cn

立即咨询

我们欢迎任何人联系我们,请描述您的问题,我们的团队将在3个工作日内与您取得联系。或拨打我们的热线 400-869-9865 立即咨询。

*

*

*

我们承诺收集您的这些信息仅用于与您取得联系,帮助您更好的了解我们的合作计划。
发送即代表您同意我们的《隐私政策》