2024年12月26日,DeepSeek 发布了其全新系列模型 DeepSeek-V3 的首个版本,并同步开源。
用户可以通过访问官网 chat.deepseek.com 与最新版 V3 模型进行互动。API 服务已更新,用户的接口配置无需改动。当前版本 DeepSeek-V3 尚不支持多模态输入输出。
性能对齐海外领军闭源模型
DeepSeek-V3 是一款自研的 MoE 模型,具有 671B 参数和激活 37B,并在 14.8T token 上进行预训练。根据评测,DeepSeek-V3 的多项指标超越了其他开源模型如 Qwen2.5-72B 和 Llama-3.1-405B,并且在性能上与顶尖闭源模型 GPT-4o 和 Claude-3.5-Sonnet 相当。
- 百科知识: 在知识类任务(MMLU、MMLU-Pro、GPQA、SimpleQA)上,相较于前代 DeepSeek-V2.5,DeepSeek-V3 的表现显著提升,接近 Claude-3.5-Sonnet-1022。
- 长文本: 在长文本测评中,包括 DROP、FRAMES 和 LongBench v2,DeepSeek-V3 的表现优于其他模型。
- 代码: 在算法类代码场景(Codeforces),DeepSeek-V3 显示出领先的优势;而在工程类代码场景(SWE-Bench Verified)中,表现接近 Claude-3.5-Sonnet-1022。
- 数学: 在重要的美国数学竞赛(AIME 2024、MATH)和全国高中数学联赛(CNMO 2024)中,DeepSeek-V3 的表现超越了所有开源及闭源模型。
- 中文能力: DeepSeek-V3 在教育类测评 C-Eval 和代词消歧等评测中与 Qwen2.5-72B 表现相近,但在事实知识 C-SimpleQA 上更具优势。
生成速度提升至 3 倍
经过算法和工程创新,DeepSeek-V3 的生成吐字速度从 20 TPS 提升至 60 TPS,相较于 V2.5 模型实现了 3 倍的提升,优化了用户体验。
API 服务价格调整
随着 DeepSeek-V3 的发布,模型 API 服务定价也进行了调整,新的定价为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。此外,DeepSeek 设立了为期 45 天 的优惠价格体验期,从即日起至 2025 年 2 月 8 日,API 服务价格将保持在用户熟悉的每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元,已注册的老用户以及在此期间内注册的新用户均可享受此优惠。
开源权重和本地部署
DeepSeek-V3 使用 FP8 训练,并已开源原生 FP8 权重。得益于开源社区的支持,SGLang 和 LMDeploy 第一时间支持了 V3 模型的 FP8 推理。同时,TensorRT-LLM 和 MindIE 则实现了 BF16 推理。为方便社区的适配与拓展应用场景,还提供了从 FP8 到 BF16 的转换脚本。
下载模型权重和获取更多关于本地部署的信息可参考: Hugging Face 页面。
DeepSeek 坚持“以开源精神和长期主义追求普惠 AGI”的信念,该公司希望与社区分享模型预训练的最新进展,并期待进一步缩小开源与闭源模型之间的能力差距。
这是一个全新的开始,未来 DeepSeek 将在 DeepSeek-V3 的基础上继续开发更丰富的功能,包括深度思考和多模态能力,并与社区分享最新探索成果。