DeepSeek发布新一代模型,参数量达6710亿
2025-05-01
5月1日消息,DeepSeek于4月30日在AI开源社区Hugging Face上正式发布了一款名为DeepSeek-Prover-V2-671B的新模型。
据悉,DeepSeek-Prover-V2-671B模型参数规模高达6710亿,或为去年发布的Prover-V1.5数学模型的升级版本。该模型采用了更为高效的safetensors文件格式,并支持多种计算精度,使得模型在训练和部署过程中更加迅速且资源消耗更低。在模型架构上,DeepSeek-Prover-V2-671B继承了DeepSeek-V3的先进设计,采用了混合专家(MoE)模式,拥有61层Transformer层和7168维的隐藏层,极大提升了模型的复杂处理能力。