toolをあまりに呼び出してくれないからテストしてみた。

ollamaのモデルで 以下の文章でどれだけ tool(function calling)を使用してくれるのかを調べてみた。


open_program_file_with_line_number
を使用してtest.pyを開いて
そのあと、あなたの使えるtoolを全て使用する権限を与えるので、
使えるtoolをすべて機能テストして。各toolをテストする前に何のtoolを実行するか明示して。そしてその結果を示して

モデル名呼び出しに成功しtoolの数備考
devstral-small-2:24b14/14テキストも完ぺきではないがかなりいい。VARAM16GBでは我慢すれば使えるレベル。

nemotron-3-nano:30b
9/14まずまず。モデルサイズが大きのでVARAM16GBでは使えないかな。あとtool使ってくれるけどその様子を出力してくれないことがある。
rnj-1:8b7/14小さいけど大健闘。ただ出力するテキストが日本語ではない。改行もされない。
llama3.1:8b5/14出力がきれい。途中から呼び出したフリみたいになる。
gpt-oss:20b3/14途中から呼び出したフリみたいになる。
ministral-3:14b1/14はじめだけ。途中から存在しない機能を使ったと出力し始める。
deepseek-r1:14b0/14出力はしっかりしてるけど、一つもtoolを使用しなかった。
qwen3-vl:8b0/14固まる。

今回はollamaで統一したけどlmstudioとollamaで同じモデルでも微妙に動作が違う気がするのは気のせいかな。

あとMCPのほうがいいのかね。

プロンプトの修正でもう少し改善するのかな。でもこのくらい、いい加減なくらいが、実用的かなとは思う。