Amazon Bedrock Prompt Caching で推論コストを最大 90% 削減する方法 - Yukishi log.

生成 AI を本番システムに載せると、推論コストとレイテンシがすぐに壁になります。
2025 年 4 月に正式リリースされた Amazon Bedrock の新機能「Prompt Caching」は、同じプロンプトを繰り返し呼び出すワークロードで最大 90 % のコスト削減と最大 85 % の待ち時間短縮を実現できる強力な武器です。

本記事では、Prompt Caching のしくみをかみ砕いて解説しながら、

コンソールからワンクリックで有効化する手順
boto3 スクリプトで API 経由の呼び出し方を確認
CloudWatch メトリクスとCost Explorerを使った効果測定
本番運用でヒット率を引き上げるベストプラクティス & FAQ

「Bedrock を既に使っている」「生成 AI のランニングコストを抑えたい」という方は、ぜひ 5 分だけ試してみてください。

目次閉じる

Prompt Caching とは？
事前準備
コンソールから有効化する（最短手順）
SDK（boto3）から使うサンプル
効果を測定する。
1. ベストプラクティス
2. 検証時に生じた疑問と確認結果
まとめ

Prompt Caching とは？

Amazon Bedrock が問い合わせ内容（コンテキスト）をキャッシュし、「同一プロンプト＋同一モデル＋同一パラメータ」 で再リクエストが来たときに計算をスキップしてくれる機能です。
プレビュー発表時点から “最大 90% コスト削減／最大 85% レイテンシ短縮” が謳われており、2025 年 4 月に正式リリースされました。(aws.amazon.com)

項目	キャッシュのヒット時	キャッシュのミス時
課金単位	`CacheRead`（割引単価）	`CacheWrite`（通常単価）
レイテンシ	最大 85% 短縮	通常推論

対応モデル は Claude 3 ファミリー、Titan Text/GPT-4o など主要テキスト系モデル（2025-05 時点）。最新リストは公式ドキュメントを参照。(docs.aws.amazon.com)

事前準備

AWS アカウント（Bedrock 利用が有効化済み）
対応リージョン：us-east-1, us-west-2, ap-northeast-1 など（GA 時点）。
AWS CLI v2.15 以上 / boto3 v1.34 以上

コンソールから有効化する（最短手順）

設定画面へ移動

Bedrock コンソール → クエリエクスプローラ を開く。

キャッシュをONにする

右ペインの Advanced settings で Prompt caching をオンにする。

動作確認

同一プロンプトを 2 回送って、2 回目は “Cache hit” と表示されることを確認する。

CloudWatch メトリクス InvocationCacheHit が 1 以上になれば成功です。

SDK（boto3）から使うサンプル

python

import boto3, json
bedrock = boto3.client("bedrock-runtime", region_name="us-east-1")
request = { "modelId": "anthropic.claude-3-sonnet-20240229-v1:0", "content": [{"type": "text", "text": "Explain Einstein's theory of relativity in one sentence."}], "cacheConfig": {"ttlSeconds": 300} # TTL を明示（省略するとデフォルト 300 秒）
}
response = bedrock.invoke_model_with_response_stream( body=json.dumps(request) )
print(response["usage"]) # cacheHit:true/false が分かる

主要ポイント