BOSUKE.AI // KNOWLEDGE BASE

AIエージェントのコスト削減術

// 2026.06.20 | COST OPTIMIZATION //

AIエージェントを本格運用すると、APIコストが想像以上にかかることがある。プロンプトキャッシュ・モデル選択・RAGという3つの手法を組み合わせると、コストを最大70〜90%削減できる。

01. プロンプトキャッシュ

Anthropicが提供するキャッシュ機能。同じシステムプロンプトを繰り返し使う場合、最初の処理後にキャッシュが作成され、2回目以降は読み取りコストが約10%になる。

設定方法

SYSTEM_PROMPT = {
  "type": "text",
  "text": "あなたはAIエージェントです...",
  "cache_control": {"type": "ephemeral"} # ← これだけ追加
}

TTL（有効期間）：5分間。この間に次のリクエストを送るとキャッシュが効く
削減率：キャッシュトークンの読み取りは通常の約10%のコスト
効果が高い場面：長いシステムプロンプトを使い回す連続処理

bosuke.aiでは連続タスク実行時にキャッシュが自動的に効く。複数タスクをまとめて実行するほど節約幅が大きくなる。

02. タスク別モデル選択

すべてに高性能モデルを使う必要はない。タスクの複雑さに合わせてモデルを使い分けるだけで、品質を保ちながらコストを大幅削減できる。

モデル比較

claude-haiku-4-5 — 最安値。短い記事・要約・シンプルなHTML生成に最適
claude-sonnet-4-6 — バランス型。デザイン・プレゼン・複雑なコンテンツに使用
claude-opus-4-8 — 最高品質。戦略分析・高度な推論が必要な場合のみ

Haiku記事・要約に使用

Sonnetデザイン・プレゼンに使用

Opus複雑な分析のみ

bosuke.aiは article タイプにHaiku、presentation と design タイプにSonnetを自動で使い分けている。設定ファイルを変更するだけでカスタマイズできる。

03. RAGでコンテキストを最小化

RAG（Retrieval-Augmented Generation）を使うと、毎回長い情報をプロンプトに含めなくて済む。必要な情報だけをベクターDBから検索して渡すため、入力トークン数を大幅に削減できる。

過去のコンテンツを埋め込み（embedding）でインデックス化
新しいタスクに関連する情報のみ取得してプロンプトに含める
コンテキストウィンドウの無駄を排除し、応答速度も向上する

3つを組み合わせた効果

プロンプトキャッシュ

-90%

モデル最適化

-70%

RAGによる削減

-50%

プロンプトキャッシュ

-90%

モデル最適化

-70%

RAGによる削減

-50%

-90%キャッシュ効果

-70%モデル最適化

-50%RAG削減

3つすべてを実装すると、理論上のコスト削減率は90%超になる。大量のコンテンツを生成するほど、節約効果は大きくなる。

まずプロンプトキャッシュを導入し、次にモデルの使い分けを実装する。この順番で進めると即座に効果を実感できる。