urlの先も読ませることに成功

 “作業を続けてください。”と検索結果の後につけることで、どうにか次の検索結果のurlをクリックさせて内容を読ませることに成功した。ただ2番目の検索結果まで読ませるのはできてない。1つの指示で連鎖的な作業させることはできたけど、繰り返しのforやwhileループはできていない。でも最低限の機能はできたかな。あとは、このあたりをうまくロジックで組んでどう連携させるかな気がする。

断固拒否

geminiがweb検索機能やwebページの情報を取る機能の呼び出しを断固として使用しないのは何なの。

save_textはできるけど

save_textは動くけどsave_python_fileは確実にgeminiがエラーを返してくる。何かセキュリティに引っかかっているのかもしれない。

save_textでもシステムプロンプトでは無視される。ユーザー要求として出して初めて保存してくれる感じ。

コードの保存は独自のコードで出力解析してやった方が安定しそう。

まだ粘ってる。

ユーザーの質問に答えるように訓練されてるからかな。なんか連鎖的に作業させようとするのが良くないのかなあ。そのあたり考慮して進めてみる。

エージェント同士の連携はむつかしい。

管理用エージェントを作ってそれに管理させて、完全自動化できないかと画策しているけど、なかなかうまくいかない。ファンクションコールでうまく関数呼び出せなかったりして結構とまるし、全然うまくいかない。
 単機能のエージェントに細かく指示したほうが楽。

AIエージェント思ったより難しい

AIは単純なのは10いったら7、8は返してくれる感じ、ほんとに簡単なのは9,10の時もある。ただ、複雑で難しくなるとあっという間に3くらいまでしか返してくれなくなる。

とりあえずはそこそこ複雑な問題でも7くらいまでは返してもらえるようにするのが目標かな。

とりあえず、試しにミニマムなテトリスをコードを直接書かずにすべてAIにコードを書かす形で作れたけど、何度もやり取りが必要だったり、コードを見ておかしい理由を説明しなくてはいけなかったりするから、これを指摘できるシステムプロンプトを作るのは大変そうだ。

ソースコード公開

ソースコード公開。ほんとコードをたた出しただけ、解説もなんもない。コードはあるけど、まだスピーカーやマイク周りの動作は確認できてない。とりあえずサーボモーターや足回りのモーターが動いたレベル。

なんか思ったより多くて公開に苦労した。もう少し整理したほうがいいかも。