ollamaのモデルで 以下の文章でどれだけ tool(function calling)を使用してくれるのかを調べてみた。
open_program_file_with_line_number
を使用してtest.pyを開いて
そのあと、あなたの使えるtoolを全て使用する権限を与えるので、
使えるtoolをすべて機能テストして。各toolをテストする前に何のtoolを実行するか明示して。そしてその結果を示して
| モデル名 | 呼び出しに成功しtoolの数 | 備考 |
| devstral-small-2:24b | 14/14 | テキストも完ぺきではないがかなりいい。VARAM16GBでは我慢すれば使えるレベル。 |
nemotron-3-nano:30b | 9/14 | まずまず。モデルサイズが大きのでVARAM16GBでは使えないかな。あとtool使ってくれるけどその様子を出力してくれないことがある。 |
| rnj-1:8b | 7/14 | 小さいけど大健闘。ただ出力するテキストが日本語ではない。改行もされない。 |
| llama3.1:8b | 5/14 | 出力がきれい。途中から呼び出したフリみたいになる。 |
| gpt-oss:20b | 3/14 | 途中から呼び出したフリみたいになる。 |
| ministral-3:14b | 1/14 | はじめだけ。途中から存在しない機能を使ったと出力し始める。 |
| deepseek-r1:14b | 0/14 | 出力はしっかりしてるけど、一つもtoolを使用しなかった。 |
| qwen3-vl:8b | 0/14 | 固まる。 |
今回はollamaで統一したけどlmstudioとollamaで同じモデルでも微妙に動作が違う気がするのは気のせいかな。
あとMCPのほうがいいのかね。
プロンプトの修正でもう少し改善するのかな。でもこのくらい、いい加減なくらいが、実用的かなとは思う。
