基于Golang模拟实现一个简化的DeepSeek AI模型 GRPO算法推理
模拟实现一个简化的GRPO (Group Relative Policy Optimization) 推理模型。GRPO是由DeepSeek提出的强化学习算法,用于训练大型语言模型
它的核心特点是不需要训练价值函数,而是通过从同一问题的多个输出中计算平均奖励来替代这一过程,显著减少了内存和计算资源的消耗 。
简化版GRPO推理模型:
它的核心特点是不需要训练价值函数,而是通过从同一问题的多个输出中计算平均奖励来替代这一过程,显著减少了内存和计算资源的消耗 。
简化版GRPO推理模型:
