奥特曼阴阳国产之光DeepSeek把训练成本打下来99表现还优于GPT4o国产开源大模
DeepSeek-V3:中国AI初创公司发布的开源大模型
来自公众号:InfoQ
整理 | 华卫、核子可乐
一家中国AI初创公司DeepSeek发布了被用户称为“真正的‘Open’AI”的人工智能模型——DeepSeek-V3。该模型于12月26日发布,首个版本同步开源,能够处理文本工作负载和任务,如编码、翻译、撰写论文和电子邮件等。
性能表现
根据DeepSeek的内部基准测试,DeepSeek-V3在编程竞赛平台Codeforces的编码竞赛子集中,表现优于Meta的Llama 3.1 405B、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5 72B等模型。此外,DeepSeek-V3在Aider Polyglot测试中也击败了竞争对手,该测试旨在衡量模型是否能成功编写新代码并将其整合到现有代码中。
DeepSeek表示:“综合评估表明,DeepSeek-V3已成为目前可用的最强大的开源模型,其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。”
技术细节
DeepSeek-V3的参数规模达到6710亿,采用混合专家架构,仅激活选定参数以高效处理任务。模型代码可通过GitHub基于MIT许可获取,企业也可通过DeepSeek Chat平台测试该模型并访问API以供商业使用。
- 模型权重下载和更多本地部署信息:Hugging Face
- GitHub链接:DeepSeek-V3
DeepSeek-V3采用多头潜在注意力(MLA)与DeepSeekMoE架构,确保高效的训练与推理能力。模型还引入了辅助无损负载均衡策略和多token预测(MTP)等创新技术,进一步提升了性能。
训练成本
DeepSeek-V3的训练任务在约278.8万个H800 GPU小时内完成,假设每GPU每小时租金为2美元,总成本约为557万美元,远低于其他大语言模型的训练成本。例如,Llama-3.1模型的训练投入估计超过5亿美元。
AI科学家Andrej Karpathy对DeepSeek-V3的超低训练成本表示震惊,称其为“非常令人印象深刻的研究和工程展示”。
市场反响
尽管训练成本低廉,DeepSeek-V3仍成为当前市面上最强的开源大模型。在多项基准测试中,DeepSeek-V3的表现优于其他领先开放模型,甚至在某些测试中优于闭源GPT-4o模型。
DeepSeek-V3的API价格与上一代DeepSeek-V2相同,但将在明年2月8日后调整。用户对DeepSeek-V3的性价比给予了高度评价,称其为“国产之光”,并表示其价格合理,适合广泛使用。
用户实测
第一波实测DeepSeek-V3的用户对其表现感到难以置信。一位用户表示:“DeepSeek-V3在我不需要解释任何事情的情况下就理解了正在发生的事情。”另一位用户将一道“史上最难的高考数学题”抛给DeepSeek-V3,模型不仅正确回答,还提供了更简单的解决方案。
图片来源:
end
暂无匹配数据