(资料图)

·OpenAI对抗AI“幻觉”的新策略是:奖励大模型每个正确的推理步骤,而不是简单地奖励正确的最终答案。研究人员表示,这种方法被称为“过程监督”,而不是“结果监督”。

推荐内容