以下OllamaのデフォルトのGUIで動かいてみたときのシステムの状態
アイドル時

20B実行時

120B実行時

120BはVRAMに乗らないのは当然だけど一応動いためちゃくちゃ遅かったけど。
20BもVRAMに乗らなかった。ollamaでは4bit量子化の恩恵は受けられないのかもしれない。それとも何か設定があるのか?
以下OllamaのデフォルトのGUIで動かいてみたときのシステムの状態
アイドル時

20B実行時

120B実行時

120BはVRAMに乗らないのは当然だけど一応動いためちゃくちゃ遅かったけど。
20BもVRAMに乗らなかった。ollamaでは4bit量子化の恩恵は受けられないのかもしれない。それとも何か設定があるのか?