GPT-ossをollamaで試してみた

以下OllamaのデフォルトのGUIで動かいてみたときのシステムの状態

アイドル時

20B実行時

120B実行時

120BはVRAMに乗らないのは当然だけど一応動いためちゃくちゃ遅かったけど。
20BもVRAMに乗らなかった。ollamaでは4bit量子化の恩恵は受けられないのかもしれない。それとも何か設定があるのか?