どこで打ち切るか。

どこで打ち切るかは大切だよね。
langchainがイメージを履歴で保存してくれない。

もともと履歴表示の際に、テキストファイルが履歴に表示されるのに、送信直後は表示されないため、挙動としておかしいのでテキストだけども表示されるようにしようと思っていたのに、いつの間にか「イメージも」、となっていた。

イメージが保存されないのは、あとで対策が必要。履歴表示の際に実際画像が見えていないのは確認済み。

この流れだとワードデータなんかは再現不可になる。

ーーーー

ある程度形になった。いったんこれでアップロードしようかな。AIによるテキスト編集機能を持たせたいけど、それまで入れると、あらにGUI追加で永遠と耕起できなさそうだし。

今の段階でも複数のpythonファイルを与えてアドバイスを受けるとかの使い道があるんだよね。無課金だと長めのコードエラーになったりするから、ローカルで心置きなく長めののコードをドロップして実際使い始めてる。

だいぶできてきた。

データ管理ができたのでモデル選択の手直しと、テキストエディット機能を追加でアップロードできるかも。最低限使えるツールになるのではと期待。

なんでわざわざ、チャットソフトを自作しているかというと、このメモリ管理機能がエージェントでどうしても必要になるからというのがある。

thinking

ollamaのthinkingの取得はできた。lmstudioもapiを直接たたいて、thinkingデータが来ているのは確認できた。

メモリを外に

履歴管理のため、llmbaseにあったメモリ管理を外に出した。甘利美和巣くなったとは思えないが、それでもまとまっていたころよりはまし。

どうもこれまで使えない感じだったが、使えるソフトのイメージがわきつつある。

他の機材を検討するも

今ローカルllmの速度に不満があるので、他のDgx sparkとか、AI max pro 395とかのベンチマーク調べて見たけど、oss-gpt120Bはかなり伸びるみたいだけど、一番伸びてほしいサイズ24-30Bであまり伸びてないからなんかいいや、となった。

oss-gptが早い

oss-gpt20bがたの同サイズのモデルと比べて2-3倍速い。カスタマイズで優遇されているのか?構造の問題か。

あとNvidiaのドライバ更新でAIの速度上がったきがする。

実際確認してみて

KVキャッシュはとってこれなかった。まあ重くなりすぎるからかな。あとはwebserch付けたらいったんアップロードかな。そしたらそのあとでテキストデータの履歴管理つけて、そのあとoperation強化かな。

thinkingがうまく取れない。

いったんほりゅにしようと思う。
AIにミニマムのllmのAPIラップ作らせてみたらollamaではうまくthinkingもとれた。しばらくしたら、langchainから変更も考えたほうがいいかも。あと、kvキャッシュとってこれるのがollamaだけと知って、履歴管理どうしようかと思っている。<- なんかAIごとにこの辺り言っていることが違う。