「推論モデルがユーザーにバレないように不正する現象」の検出手法をOpenAIが開発

2017-08-24_00h03_35 ガジェット総合
強化学習をしていると、「報酬ハッキング」と呼ばれる、意図しない抜け穴を利用する動作がみられます。複雑なAIほど複雑な報酬ハッキングを行うため、「複雑な報酬ハッキングで引き起こされた誤動作」を見つけるの

リンク元

コメント

タイトルとURLをコピーしました