PPO训练完，模型的答案和训练之前的结果一模一样？ #8105

yaya159456 · 2025-05-19T11:58:37Z

yaya159456
May 19, 2025

奖励模型的类型我选择的API的形式给出得分，然后微调类型选的lora，PPO训练后发现损失是下降的，就与基座模型做了合并，然后基于合并后的模型推理，为啥返回的答案和基座模型一样啊？

配置文件如下：

奖励模型的类型我选择的API的形式给出得分，然后微调类型选的lora，PPO训练后发现损失是下降的，就与基座模型做了合并，然后基于合并后的模型推理，为啥返回的答案和基座模型一样啊？