人間による評価をシミュレートすることで高速＆安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

ガジェット総合

2023.05.25

大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし