AIエージェントを本格運用すると、APIコストが想像以上にかかることがある。プロンプトキャッシュ・モデル選択・RAGという3つの手法を組み合わせると、コストを最大70〜90%削減できる。
Anthropicが提供するキャッシュ機能。同じシステムプロンプトを繰り返し使う場合、最初の処理後にキャッシュが作成され、2回目以降は読み取りコストが約10%になる。
bosuke.aiでは連続タスク実行時にキャッシュが自動的に効く。複数タスクをまとめて実行するほど節約幅が大きくなる。
すべてに高性能モデルを使う必要はない。タスクの複雑さに合わせてモデルを使い分けるだけで、品質を保ちながらコストを大幅削減できる。
bosuke.aiは article タイプにHaiku、presentation と design タイプにSonnetを自動で使い分けている。設定ファイルを変更するだけでカスタマイズできる。
RAG(Retrieval-Augmented Generation)を使うと、毎回長い情報をプロンプトに含めなくて済む。必要な情報だけをベクターDBから検索して渡すため、入力トークン数を大幅に削減できる。
3つすべてを実装すると、理論上のコスト削減率は90%超になる。大量のコンテンツを生成するほど、節約効果は大きくなる。
まずプロンプトキャッシュを導入し、次にモデルの使い分けを実装する。この順番で進めると即座に効果を実感できる。