训练方法

万字长文带你读懂强化学习，去中心化强化学习又能否实现？
现在，我们已经了解了监督微调（SFT）以及 PPO 和 GRPO 之间的区别，可以更清晰地看到 DeepSeek 的 R1-Zero训练过程实际上是多么简单。我们已经强调 DeepSeek 展示了模型可以…
推理数据时间Law训练方法
fjmyhfvclm1月前
580
2025大语言模型（LLM）上手指南-Microsoft
LLM的“大”体现在参数数量多、需大量训练数据和计算资源，其发展经历多个阶段，基于Transformer架构的预训练语言模型推动了技术进步。微软通过Azure AI平台支持AI创新，Copilot系列产品提升…
语言技术训练方法模型上手
fjmyhfvclm1月前
360
贵州工匠行申请轻量化自然语言处理大模型训练方法专利，降低计算的复杂程度
金融界2025年4月26日消息，国家知识产权局信息显示，贵州师范大学;贵州工匠行科技有限公司申请一项名为“轻量化自然语言处理大模型训练方法”的专利，公开号CN119862925A，申请日期为2025年3月。 …
进行动态降低训练方法量化
fjmyhfvclm1月前
440
《DeepSeek实战指南：从数据到财富》出版发行
《DeepSeek实战指南：从数据到财富》通过三个战略维度构建认知坐标：其一，以全球技术演进为经线，回顾从GPT技术革命到中国大模型“自主可控”攻坚的产业脉络；其二，以DeepSeek技术体系为纬线，深入解…
实战技术DeepSeek训练方法医疗
fjmyhfvclm2月前
390
水滴智店：团队运动数据云端集成,智能手环手表检测高精度
随着大数据、云计算、物联网等技术的不断发展，团队运动数据云端集成和智能手环手表检测高精度成为了现实。在团队运动数据云端集成和智能手环手表检测高精度的道路上，我们也面临着诸多挑战。展望未来，随着我国…
科技手表数据技术训练方法
fjmyhfvclm3月前
700
4500美元验证强化学习「魔力」，1.5B模型也能超越o1预览版，模型、数据、代码全开源
但研究团队并未退缩，他们提出了一种巧妙的策略，让 RL 的训练成本降低至常规方法的 5%，最终只用了 3800 A100 GPU 小时和4500 美元，就在 1.5B 的模型上训练出了一个超越 OpenAI…
数据代码训练方法超越魔力
fjmyhfvclm4月前
860
TeleAI复杂推理大模型达竞赛级数学表现，评分超o1-preview
TeleAI-t1-preview使用了强化学习训练方法，通过引入探索、反思等思考范式，大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。针对TeleAI-t1-preview训练的不同阶段，TeleAI…
推理数据竞赛评分训练方法
fjmyhfvclm4月前
970

万字长文带你读懂强化学习，去中心化强化学习又能否实现？

2025大语言模型（LLM）上手指南-Microsoft

贵州工匠行申请轻量化自然语言处理大模型训练方法专利，降低计算的复杂程度

《DeepSeek实战指南：从数据到财富》出版发行

水滴智店：团队运动数据云端集成,智能手环手表检测高精度

4500美元验证强化学习「魔力」，1.5B模型也能超越o1预览版，模型、数据、代码全开源

TeleAI复杂推理大模型达竞赛级数学表现，评分超o1-preview