BOSUKE.AI // KNOWLEDGE BASE

AIエージェントのコスト削減術

// 2026.06.20  |  COST OPTIMIZATION //

AIエージェントを本格運用すると、APIコストが想像以上にかかることがある。プロンプトキャッシュ・モデル選択・RAGという3つの手法を組み合わせると、コストを最大70〜90%削減できる。

01. プロンプトキャッシュ

Anthropicが提供するキャッシュ機能。同じシステムプロンプトを繰り返し使う場合、最初の処理後にキャッシュが作成され、2回目以降は読み取りコストが約10%になる。

設定方法

SYSTEM_PROMPT = {
  "type": "text",
  "text": "あなたはAIエージェントです...",
  "cache_control": {"type": "ephemeral"} # ← これだけ追加
}

bosuke.aiでは連続タスク実行時にキャッシュが自動的に効く。複数タスクをまとめて実行するほど節約幅が大きくなる。

02. タスク別モデル選択

すべてに高性能モデルを使う必要はない。タスクの複雑さに合わせてモデルを使い分けるだけで、品質を保ちながらコストを大幅削減できる。

モデル比較

Haiku記事・要約に使用
Sonnetデザイン・プレゼンに使用
Opus複雑な分析のみ

bosuke.aiは article タイプにHaiku、presentationdesign タイプにSonnetを自動で使い分けている。設定ファイルを変更するだけでカスタマイズできる。

03. RAGでコンテキストを最小化

RAG(Retrieval-Augmented Generation)を使うと、毎回長い情報をプロンプトに含めなくて済む。必要な情報だけをベクターDBから検索して渡すため、入力トークン数を大幅に削減できる。

3つを組み合わせた効果

プロンプトキャッシュ
-90%
モデル最適化
-70%
RAGによる削減
-50%
プロンプトキャッシュ
-90%
モデル最適化
-70%
RAGによる削減
-50%
-90%キャッシュ効果
-70%モデル最適化
-50%RAG削減

3つすべてを実装すると、理論上のコスト削減率は90%超になる。大量のコンテンツを生成するほど、節約効果は大きくなる。

まずプロンプトキャッシュを導入し、次にモデルの使い分けを実装する。この順番で進めると即座に効果を実感できる。