モデル選択周りの手回し完了。ただまだ細かいところで気になることがあるので、修正が必要。
だいぶできてきた。

データ管理ができたのでモデル選択の手直しと、テキストエディット機能を追加でアップロードできるかも。最低限使えるツールになるのではと期待。
なんでわざわざ、チャットソフトを自作しているかというと、このメモリ管理機能がエージェントでどうしても必要になるからというのがある。
thinking
ollamaのthinkingの取得はできた。lmstudioもapiを直接たたいて、thinkingデータが来ているのは確認できた。
メモリを外に
履歴管理のため、llmbaseにあったメモリ管理を外に出した。甘利美和巣くなったとは思えないが、それでもまとまっていたころよりはまし。
どうもこれまで使えない感じだったが、使えるソフトのイメージがわきつつある。
他の機材を検討するも
今ローカルllmの速度に不満があるので、他のDgx sparkとか、AI max pro 395とかのベンチマーク調べて見たけど、oss-gpt120Bはかなり伸びるみたいだけど、一番伸びてほしいサイズ24-30Bであまり伸びてないからなんかいいや、となった。
ここまでのところでアップロードしようとしたけど相対importに変えてまとめ直してみる。
ここまでのところでアップロードしようとしたけど相対importに変えてまとめ直してみる。
oss-gptが早い
oss-gpt20bがたの同サイズのモデルと比べて2-3倍速い。カスタマイズで優遇されているのか?構造の問題か。
あとNvidiaのドライバ更新でAIの速度上がったきがする。
実際確認してみて
KVキャッシュはとってこれなかった。まあ重くなりすぎるからかな。あとはwebserch付けたらいったんアップロードかな。そしたらそのあとでテキストデータの履歴管理つけて、そのあとoperation強化かな。
thinkingがうまく取れない。
いったんほりゅにしようと思う。
AIにミニマムのllmのAPIラップ作らせてみたらollamaではうまくthinkingもとれた。しばらくしたら、langchainから変更も考えたほうがいいかも。あと、kvキャッシュとってこれるのがollamaだけと知って、履歴管理どうしようかと思っている。<- なんかAIごとにこの辺り言っていることが違う。
現状

だいぶまとまってきた。thinking対応やwebserch付けたらいったん上げようかな。
そのあと履歴機能つけたり、音声入力付ければ基本機能は完成かな。
Applicationsというフォルダを作ったので、特化機能アプリも管理しやすくなった。
