GPTやLlamaなどの大規模言語モデルはファインチューニングで簡単に脱獄可能だという研究結果

2017-08-24_00h03_35 ガジェット総合
大規模言語モデルには、有害なコンテンツを出力しないようなセーフガードが設けられています。プリンストン大学、バージニア工科大学、IBMリサーチ、スタンフォード大学の研究チームがOpenAIのGPT-3.

リンク元

コメント

タイトルとURLをコピーしました