Posted 2025-12-01Updated 2025-12-08 Jaco Liu Algorithm / AI15 minutes read (About 2282 words)

基于Golang模拟实现一个简化的DeepSeek AI模型 GRPO算法推理

它的核心特点是不需要训练价值函数，而是通过从同一问题的多个输出中计算平均奖励来替代这一过程，显著减少了内存和计算资源的消耗。

简化版GRPO推理模型：