大規模言語モデルの出力スピードを最大24倍に高めるライブラリ「vLLM」が登場、メモリ効率を高める新たな仕組み「PagedAttention」とは?

2017-08-24_00h03_35 ガジェット総合
大規模言語モデルを利用する際には、モデルそのものだけでなく、モデルを扱うためのライブラリが必要になってきます。多くの場合Transformersというライブラリが使用されていますが、「PagedAtt

リンク元

コメント

タイトルとURLをコピーしました