春节假期,DeepSeek-R1 横空出世,成为全球热议焦点。2023年11月,DeepSeek 发布首个大模型 DeepSeek LLM;2024年5月开源 DeepSeek-V2,因性能出色、价格优势收获 “AI 届拼多多” 称号。12月26日上线并开源 DeepSeek-V3,凭借低训练成本和出色性能引发全球热议。2025年1月20日,DeepSeek 发布的 DeepSeek-R1 推理大模型逻辑推理能力出色,接近甚至超越OpenAI的o1,引发全球轰动,被硅谷科技媒体称为新时代的 “斯普特尼克时刻”。
DeepSeek-R1 凭借其创新和高效的训练方法、强大的推理能力、大幅下降的使用成本和开源等出色表现迅速在 AI 大模型领域脱颖而出,其技术的深度整合已在多个行业中带来了显著的变革与推动。7天完成1亿用户增长,移动端上线26天,日活突破4000万,目前已成为众多用户寻求智能帮助的首选。用户暴增,大量用户同时发送请求,服务器的算力资源、存储资源和网络带宽等被快速占满,处理能力达到极限,无法及时响应所有请求,从而导致频繁报错,关于其服务器繁忙的吐槽纷至沓来。
由于 DeepSeek 官方提供的R1服务频繁报错,各类替代服务方案也开始出现,除了私有化部署方案,各大云服务商、芯片厂商等第三方服务商陆续上线 DeepSeek-R1 服务,为用户提供了更多选择。与此同时,越来越多的国内厂商接入 DeepSeek-R1 大模型服务,如:阿里云、华为云、腾讯云、华为、荣耀、OPPO、科大讯飞、顺丰等,涵盖云服务、软件与应用服务商、手机厂商、酒店、物流供应链、汽车、医药、媒体等行业。
为了更好地服务开发者和终端用户,国内领先的可观测与应用安全厂商基调听云对多家提供 DeepSeek-R1 API 服务的厂商开展了全面评测,并发布了《大模型服务性能评测 DeepSeek-R1 API版》第一期。
此次测评利用基调听云拨测工具,模拟真实用户的主动监控,从网络性能、接口响应时间、推理速度、内容生成速度等多个关键指标对主流云服务厂商的API接口进行了深入测试。同时,测评还结合了来自多个城市、运营商、主机和时间维度的数据分析,旨在为各行业开发者和终端用户提供更具针对性和参考价值的建议,帮助大家选择更快、更稳定的 DeepSeek-R1 服务。
TL;NR(太长不看版):
(1)经过对多家主流云服务厂商API接口的深度评测,火山引擎在 API 响应性能上全面领先,各项指标均显著优于其他服务商。DeepSeek 官方虽推理速度较好,但首 Token 延迟过长且可用性低,成为显著短板。
(2)其他服务商表现分化:硅基流动可用性较高,腾讯云与阿里云百炼速度表现不是太理想。
(3)如果你不是开发者,只关心哪里能用 DeepSeek-R1,直接拉到文章结尾看我们的推荐网页版服务。
评测结果及解读
数据分析:
1. 火山引擎在平均速度、推理速度、生成速度上表现最优,且可用性高达 99.83%,在API接入上首选推荐。
2. DeepSeek 官方推理速度较快,但首 Token 延迟显著(7.753s),可用性最低(42.21%)。
3. 硅基流动首 Token 响应快(0.714s)且可用性稳定(98.83%),但平均速度较弱(12.426 tokens/s)。
4. 腾讯云整体性能较低,其中总性能最差(47.584s)且可用性一般(71.24%)。
5. 阿里云百炼表现不理想,平均速度最慢(3.684 tokens/s),首包时间也最长(1.091s),可用性尚可(87.98%)。
总体性能影响因素分析
1、服务端推理性能是主要影响因素
•在整体测试中,推理速度和生成速度的差异在厂商间表现较为显著,尤其是火山引擎在推理和生成速度上表现优秀,而其他厂商的性能则较为逊色。服务端推理的性能显然是影响API整体性能的关键因素。
2、网络因素的影响较小
•虽然网络延迟(DNS 时间、连接时间等)存在一定的差异,但从测试结果来看,除非网络层的延迟异常高,否则不会对整体的 API 性能产生根本性影响。例如,DeepSeek 官方和火山引擎的网络层延迟较低,但推理和生成速度的差异更多源自服务端的处理能力,而非网络本身。
因此,服务端推理性能是影响整体性能的主要因素,网络层的影响相对较小,基本可以忽略不计,尤其当网络延迟不超过合理范围时。
城市维度
城市维度分析:
1. 火山引擎在以上城市均保持最高性能,且可用性全达 100%。
2. DeepSeek 官方在重庆的首 Token 时间最长12.675 秒,其他城市均在9秒内。
3. 硅基流动的可用性在广州的表现的最差93.75%,其他城市在98%以上。
4. 其他服务商与其他指标未见明显差异,整体与前面的结论一致。
运营商维度
运营商维度分析:
1. DeepSeek 官方在中国移动的网络下建连时间0.152秒,其他运营商均在0.05秒以内。
2. 其他服务商指标对比未见明显差异,整体与前面结论一致。
主机维度
主机维度分析:该维度从各服务商提供 API 服务的目标主机 IP 地址维度分析各家服务的分布和性能。
主机数量:腾讯云主机数量最多,DeepSeek 官方主机数量最少。
主机城市:腾讯云的主机城市分布最广,其次是火山引擎。
主机运营商分布:腾讯云的主机运营商分布最广,其次是火山引擎。
时间维度(1小时粒度)
各时间段分析:
时段(2025/2/17 8:00 - 15:00)
● 特点:DeepSeek 官方和阿里云百炼可用性波动较大,腾讯云可用性不高,但是可用性比较稳定,其它服务商可用性相对优秀,稳定。
● 原因:可能此时用户流量较大,服务器负载也比较大,腾讯云服务商可能受到限流影响。
时段(2025/2/17 15:00 - 2025/2/18 0:00)
● 特点:DeepSeek 官方在2025/2/17 15:00 - 17:00 服务出现不可用的情况,腾讯云可用性不高,但是可用性比较稳定,其它服务商可用性相对优秀,稳定。
● 原因:可能此时 DeepSeek 官方用户流量较大,服务器负载也比较大,腾讯云服务商可能受到限流影响。
时段(2025/2/18 0:00 - 8:00)
● 特点:多数服务商 API 的可用性较高,甚至达到100%。性能时长也相对较短。
● 原因:可能此时用户流量较少,服务器负载较低,能够为每个请求分配更多资源。
各服务商 API 整体性能分析:
火山引擎
● 可用性:整体非常稳定,未出现明显波动。
● 性能:整体表现良好,未出现显著问题。
DeepSeek 官方
● 可用性:
2025-02-17 08:00 - 2025-02-18 01:00:可用性波动较大,从较差逐渐改善至良好。
2025-02-18 01:00 - 2025-02-18 08:00:可用性保持100%,表现稳定。
● 整体性能:在可用性提升的同时,性能表现也逐渐优化,整体时间指标表现优秀。
硅基流动
● 可用性:整体波动较小,表现稳定,大部分时间维持在95%以上。
● 性能:在各时间段内有波动,但整体表现较为平稳。
腾讯云
● 可用性:总体较低,但各时间段内的波动较小。在测评过程中,腾讯云可能受到限流影响,导致可用性表现不佳。
● 性能:在各时间段内有波动,但整体表现较为平稳。
阿里云百炼
● 可用性:
2025-02-17 08:00 - 2025-02-17 13:00:波动明显,之后大部分时间维持在90%以上,表现较为稳定。
● 性能:2025-02-17 08:00 - 2025-02-17 13:00:波动明显,在其它各个时间段内表现较为稳定。
本次评测的测试工具、指标采集、测试厂商、测试参数等详情如下:
测试工具及指标采集
1. 测试工具:基调听云拨测平台
2. 采集指标:
● 通过API返回的数据计算出来的指标包含:平均速度(tokens/s)、首 Token 时间(s)、推理速度(tokens/s)、生成速度(tokens/s)
● 通过听云拨测客户端计算的指标包含:DNS 时间(s)、建连时间(s)、握手时间(s)、发出请求时间(s)、首包时间(s)、剩余包时间(s)、性能(s) 和可用性(%)
3. 测试节点:北京/上海/广州/深圳/重庆/苏州/成都/杭州/武汉九地移动/电信/联通三大运营商,模拟27个终端用户
4. 任务属性:任务绑定(相同频率,相同监测点)
5. 大模型相关的测试指标和计算方式参考了公众号“赛博禅心”文章“务实测试:DeepSeek 各家 API 真实速度”中提到的测试脚本。
测试厂商
腾讯云、阿里云、火山引擎、DeepSeek 官方和硅基流动
测试参数
●测试频率:1小时
●测试周期:2025/02/17 08:00 - 2025/02/18 08:00
●测试 Prompt:9.9和9.11这两个数哪个更大?请在结果中只输出比较大的那个数,并放在两个"#"符号之间。
●期望响应格式:#9.9#
指标定义
(1)模型性能指标
● 首 Token 时间:从请求发起至模型返回第一个有效 Token 的时间间隔 (单位:s)
● 推理速度:模型推理阶段的平均速度 (单位:tokens/s)
● 生成速度:模型生成阶段的平均速度 (单位:tokens/s)
● 平均速度:模型推理和生成两个阶段的整体平均速度 (单位:tokens/s)
(2)网络指标
● DNS:通过域名解析服务,将指定的域名解析成 IP 地址的消耗时间。
● 建连:浏览器和 Web 服务器建立 TCP/IP 连接的消耗时间。
● SSL:浏览器和 Web 服务器建立安全套接层 (SSL) 连接的消耗时间。
● 首包:浏览器发送 HTTP 请求结束开始,到收到 Web 服务器返回的第一个数据包的消耗时间。
● 剩余包:浏览器接收 Web 服务器返回的第一个数据包到元素数据接收结束的消耗时间。
● 性能(总下载时间):监测一个页面总的消耗时间,即从开始监测到监测结束的时间。
● 可用性:时间范围内,目标服务能够被正常访问的次数与总访问次数的比值。
(3)分析维度
● 运营商:移动/电信/联通
● 城市:北京/上海/广州/深圳/重庆/苏州/成都/杭州/武汉
● 目标主机(基于 API 服务的暴露的 IP 地址)
本次测评旨在为开发者提供深度数据支撑,助力其精准洞察各服务商 API 接口的性能表现,从而有针对性地优化产品体验。对于开发者和企业用户而言,这些数据可以作为服务商选择的决策依据,可以依托本次测评数据,更科学地甄别适配自身需求的技术方案,有效提升调用效率,大幅降低响应延迟,全方位增强整体服务质量。
最后,提前预告一下,基调听云正在对各家网页版本的 DeepSeek-R1 服务进行评测,将在近期发布网页版的评测结果。敬请期待
-
基调听云首发 《大模型服务性能评测 DeepSeek-R1 API 版》第一期春节假期,DeepSeek-R1 横空出世,成为全球热议焦点。2023年11月,DeepSeek 发布首个大模型 DeepSeek LLM;2024年5月开源 DeepSeek-V2,因性能出色、价格优势收获 “AI 届2025-02-22
-
工业源烟气脱硫脱硝氨逃逸AI精准控制:开启智能环保新纪元传统脱硫脱硝的困境 在当今环保要求日益严格的背景下,工业烟气的脱硫脱硝处理已成为企业环保治理的关键环节。传统脱硫脱硝工艺主要依赖人工操作和简单的2025-02-22
-
AB Set to Launch on BitMart Exchange, Expanding Global Trading ChannelsAB DAO has announced that the AB token will soon be listed on BitMart Exchange, further expanding its global trading network, enhancing liquidity,2025-02-21
-
AB 即将上线 BitMart 交易所,全球交易渠道再拓展AB DAO 宣布,AB 代币即将上线 BitMart 交易所,进一步拓展全球交易渠道,提升流动性,并加速 AB 生态的全球化发展。这一里程碑将为更多用户提供便捷、安全的交易体2025-02-21
-
AB 即将上线 BitMart 交易所 ,全球交易渠道再拓展AB DAO 宣布,AB 代币即将上线 BitMart 交易所,进一步拓展全球交易渠道,提升流动性,并加速 AB 生态的全球化发展。这一里程碑将为更多用户提供便捷、安全的交易体2025-02-21