toolをあまりに呼び出してくれないからテストしてみた。

ollamaのモデルで　以下の文章でどれだけ tool(function calling)を使用してくれるのかを調べてみた。

open_program_file_with_line_number
を使用してtest.pyを開いて
そのあと、あなたの使えるtoolを全て使用する権限を与えるので、
使えるtoolをすべて機能テストして。各toolをテストする前に何のtoolを実行するか明示して。そしてその結果を示して

モデル名	呼び出しに成功しtoolの数	備考
devstral-small-2:24b	14/14	テキストも完ぺきではないがかなりいい。VARAM16GBでは我慢すれば使えるレベル。
nemotron-3-nano:30b	9/14	まずまず。モデルサイズが大きのでVARAM16GBでは使えないかな。あとtool使ってくれるけどその様子を出力してくれないことがある。
rnj-1:8b	7/14	小さいけど大健闘。ただ出力するテキストが日本語ではない。改行もされない。
llama3.1:8b	5/14	出力がきれい。途中から呼び出したフリみたいになる。
gpt-oss:20b	3/14	途中から呼び出したフリみたいになる。
ministral-3:14b	1/14	はじめだけ。途中から存在しない機能を使ったと出力し始める。
deepseek-r1:14b	0/14	出力はしっかりしてるけど、一つもtoolを使用しなかった。
qwen3-vl:8b	0/14	固まる。

今回はollamaで統一したけどlmstudioとollamaで同じモデルでも微妙に動作が違う気がするのは気のせいかな。

あとMCPのほうがいいのかね。

プロンプトの修正でもう少し改善するのかな。でもこのくらい、いい加減なくらいが、実用的かなとは思う。