import { ArticleImage } from "@/components/ArticleImage";
【2026年最新】OpenAI Responses API完全ガイド|使い方・料金・Assistants API廃止前の移行手順
「Assistants APIが2026年8月に廃止される」「新しいResponses APIって結局何が変わったの?」——そう感じている開発者は多いはずです。
OpenAIは2025年3月にResponses APIを正式リリースし、Chat Completions APIの使いやすさとAssistants APIのツール実行機能を一本化しました。これからAIエージェントを作るなら、Responses APIを使わない理由はありません。この記事では、Responses APIの全機能・最新料金・実装コード・移行手順を一気に解説します。
この記事でわかること
- Responses API・Chat Completions API・Assistants APIの三者比較
- 2026年4月時点のGPT-5.4シリーズ全モデルの料金
- PythonでのResponses API基本実装(最初の呼び出し〜会話履歴管理まで)
- Web検索・ファイル検索・Computer Useなど組み込みツールの活用法
- Assistants APIからの移行チェックリスト(2026年8月26日廃止)
- Batch APIとキャッシュを使ったコスト50%削減の方法
30秒で結論
- 新規プロジェクトはResponses API一択。 Chat Completions APIも使えるが、エージェント機能はResponses APIが圧倒的に充実している
- Assistants APIを使っているなら今すぐ移行計画を立てること。 2026年8月26日廃止。残り約4ヶ月
- コスパ最強モデルはGPT-5.4 nano(入力$0.20/1Mトークン)。 大量処理ならBatch APIで50%オフ
- 会話履歴管理が劇的にシンプルに。
store: trueを設定するだけでOpenAIがサーバー側で会話状態を保持してくれる - Web検索・MCP・Computer UseをAPIひとつで呼び出せる。 複数APIを組み合わせる必要がなくなった
Responses APIとは?——3つのAPIの違いを整理する
OpenAIは現在、主に3種類のAPIを提供しています。それぞれの特徴と使い分けを整理します。
| 項目 | Chat Completions API | Responses API | Assistants API |
|---|---|---|---|
| リリース | 2023年〜 | 2025年3月〜 | 2023年〜 |
| 現在の状態 | 提供中(継続) | 新標準・推奨 | 2026年8月26日廃止 |
| 会話状態管理 | クライアント側で手動 | サーバー側で自動(store: true) | スレッド管理あり |
| 組み込みツール | 限定的 | ✅ フル対応 | ✅ 対応 |
| マルチモーダル | テキスト・画像 | テキスト・画像・音声 | テキスト・画像 |
| 実装の複雑さ | 低 | 低〜中 | 高 |
| エージェント適性 | △ | ◎ | ○(廃止予定) |
Responses APIが「次世代スタンダード」と呼ばれる理由
正直なところ、Chat Completions APIで困っていない開発者も多いでしょう。でもResponses APIを使ってみると、その差は歴然です。
1. 会話状態の管理が激減する
従来のChat Completions APIでは、会話の文脈を維持するために毎回すべてのメッセージ履歴をリクエストに含める必要がありました。会話が長くなるとトークン消費が増え、コストも膨らみます。
Responses APIではstore: trueを設定するだけで、OpenAIのサーバーが会話状態を保持します。次のリクエストではprevious_response_idを指定するだけで文脈を引き継げます。
2. 組み込みツールが最初から使える
Web検索、ファイル検索、コードインタープリター、Computer Use、リモートMCP——これらすべてが単一エンドポイントで利用できます。従来は複数のAPIを組み合わせる必要がありましたが、Responses APIなら一本化できます。
3. 推論モデルのパフォーマンスが向上
o3やGPT-5.4 Thinkingなどの推論モデルも、Responses APIを通じて呼び出すとキャッシュ効率が最適化され、同じコストでより高い性能を発揮します。
2026年4月最新料金:GPT-5.4シリーズと組み込みツールのコスト
GPT-5.4シリーズ料金(2026年4月時点)
Responses APIは従量課金制で、使用するモデルとトークン数によって料金が決まります。月額固定費はありません。
| モデル | 入力 | キャッシュ済み入力 | 出力 | 適した用途 |
|---|---|---|---|---|
| GPT-5.4 | $2.50/1Mトークン | $0.25/1Mトークン | $15.00/1Mトークン | 複雑な推論・プロフェッショナル用途 |
| GPT-5.4 mini | $0.75/1Mトークン | $0.075/1Mトークン | $4.50/1Mトークン | コーディング・サブエージェント |
| GPT-5.4 nano | $0.20/1Mトークン | $0.02/1Mトークン | $1.25/1Mトークン | 大量処理・シンプルなタスク |
📌 ポイント:キャッシュ入力の活用が節約の核心。 同じシステムプロンプトを繰り返し使うワークロードでは、キャッシュ済み入力料金が適用され、最大90%のコスト削減になります。
組み込みツールの追加料金
Responses APIの強力な機能である組み込みツールには、別途料金が発生します。
| ツール | 料金 |
|---|---|
| Web検索 | $10.00 / 1,000回の呼び出し($0.01/回) |
| ファイル検索 | $0.10/GB/日(ストレージ)+ $2.50/1,000回のツール呼び出し |
| Containers(コード実行環境) | 1GB: $0.03 / 64GB: $1.92 per 20分セッション |
| Batch API割引 | 入力・出力ともに50%オフ(24時間以内の非同期処理) |
月額コストの試算例
日本の中小企業でRAGチャットボットを運用するケースを想定します。
- 月間リクエスト: 10万回
- 平均トークン数: 入力500 + 出力200トークン(計700トークン/回)
- 使用モデル: GPT-5.4 mini
- 月間入力トークン: 5,000万トークン → $37.50
- 月間出力トークン: 2,000万トークン → $90.00
- 合計: 約$127.50(約19,000円)
Batch APIを活用して非リアルタイム処理に切り替えると、約$63.75(約9,500円)まで削減できます。
Pythonで始めるResponses API実装入門
事前準備
# OpenAIライブラリのインストール
pip install openai
# APIキーを環境変数に設定(コードに直書きしないこと)
export OPENAI_API_KEY="sk-proj-your-api-key-here"
APIキーはOpenAI Platformで取得できます。ChatGPT Plus/Proの支払いとは別のクレジット購入が必要です。
基本的なAPIコール
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.4-mini",
input="Pythonでデータ分析を始めるための3つのライブラリを教えてください。",
)
print(response.output_text)
Chat Completions APIと比べて、messages配列ではなくinputフィールドにテキストを渡す点が異なります。
会話状態を保持するマルチターン会話
Responses APIの最大の強みが、サーバーサイドでの会話状態管理です。
from openai import OpenAI
client = OpenAI()
# 1回目のリクエスト(store=Trueで状態を保存)
first_response = client.responses.create(
model="gpt-5.4-mini",
input="Pythonのベストプラクティスを3つ教えてください。",
store=True, # ← これだけでOK。会話状態がサーバーに保存される
)
print("1回目:", first_response.output_text)
# 2回目のリクエスト(previous_response_idで文脈を引き継ぐ)
second_response = client.responses.create(
model="gpt-5.4-mini",
input="そのうちの1つ目についてもっと詳しく教えてください。",
previous_response_id=first_response.id, # ← 前の応答IDを参照するだけ
)
print("2回目:", second_response.output_text)
Chat Completions APIとの比較: 従来は2回目のリクエスト時に「1回目の質問」「1回目の回答」「2回目の質問」の全3メッセージを配列で送る必要がありました。Responses APIならprevious_response_idだけで済み、コードが大幅にシンプルになります。
ストリーミングレスポンス
stream = client.responses.create(
model="gpt-5.4",
input="AIエージェントの設計パターンについて詳しく説明してください。",
stream=True,
)
for event in stream:
if event.type == "response.output_text.delta":
print(event.delta, end="", flush=True)
4つの組み込みツールでエージェントを構築する
Responses APIの核心は、組み込みツールをシームレスに使える点にあります。ツールを宣言するだけで、モデルが自動的に適切なタイミングで呼び出します。
1. Web検索($0.01/回)
最新情報が必要なタスクに使います。GPT-5.4のナレッジカットオフを超えた情報をリアルタイムで取得できます。
response = client.responses.create(
model="gpt-5.4-mini",
input="2026年4月の日本のAI規制の最新動向を教えてください。",
tools=[{"type": "web_search_preview"}],
)
print(response.output_text)
# → WebからリアルタイムでAI規制情報を取得した上で回答が生成される
2. ファイル検索(RAG構築に最適)
自社文書や製品マニュアルをアップロードして、質問に対してRAGで回答するシステムを簡単に構築できます。
# ファイルをアップロード
with open("product_manual.pdf", "rb") as f:
file = client.files.create(file=f, purpose="assistants")
# ベクターストアを作成
vector_store = client.vector_stores.create(name="製品マニュアル")
client.vector_stores.files.create(
vector_store_id=vector_store.id,
file_id=file.id,
)
# ファイル検索ツールを使ってクエリ
response = client.responses.create(
model="gpt-5.4-mini",
input="製品の保証期間はどのくらいですか?",
tools=[{
"type": "file_search",
"vector_store_ids": [vector_store.id],
}],
)
3. Computer Use(ブラウザ自動操作)
OpenAIのOperatorと同じモデルが動いています。Webブラウザを自律的に操作してフォーム入力やデータ収集を自動化できます。法的・倫理的な用途でのみ使用してください。
response = client.responses.create(
model="computer-use-preview",
tools=[{"type": "computer_use_preview"}],
input=[{
"role": "user",
"content": "特定サイトから公開データを収集してCSVにまとめてください。",
}],
truncation="auto",
)
4. リモートMCP(Model Context Protocol)
MCPサーバーをResponses APIに接続することで、外部サービス・データベース・カスタムツールをモデルから直接操作できます。
response = client.responses.create(
model="gpt-5.4",
input="GitHubリポジトリの最新のissue一覧を取得して要約してください。",
tools=[{
"type": "mcp",
"server_label": "github",
"server_url": "https://your-mcp-server.example.com/sse",
"require_approval": "never",
}],
)
MCPを使えば、Slack・Notion・Salesforceなど任意の外部サービスをAIエージェントから操作できます。詳しくはMCP完全ガイドも参照してください。
Assistants APIからの移行ガイド(2026年8月26日廃止)
2025年8月に非推奨化が発表されたAssistants APIは、2026年8月26日に完全廃止されます。今から移行計画を立てておかないと、本番環境のアプリが突然動かなくなるリスクがあります。
廃止スケジュール
| 時期 | 内容 |
|---|---|
| 2025年8月 | Assistants API非推奨化発表 |
| 2026年4月(現在) | 既存の実装は引き続き動作 |
| 2026年8月26日 | Assistants API完全廃止 |
| 移行先 | Responses API(推奨)またはChat Completions API |
主な移行ポイント
1. スレッド管理→store: trueに置き換え
Assistants APIでは「スレッド」という概念で会話を管理していましたが、Responses APIではstore: trueとprevious_response_idで同等の機能が実現できます。コードがシンプルになります。
2. アシスタントオブジェクト→システムプロンプトに置き換え
Assistants APIのAssistantオブジェクト(指示・モデル・ツールを事前定義)は、Responses APIではシステムプロンプトとして渡す形式に変わります。
3. ファイルアップロード・ベクターストア
ファイル検索機能は移行先でも同様の仕組みで利用できます。ベクターストアのIDはそのまま流用可能です。
4. Run(実行)ポーリングが不要に
Assistants APIではRunの状態を定期的にポーリングする必要がありましたが、Responses APIはストリーミングで直接レスポンスを受け取れるため、この複雑さがなくなります。
移行チェックリスト
- 現在使用中のAssistants APIのエンドポイントをリストアップ
- 各エンドポイントをResponses API相当のコードに書き直し
- テスト環境で動作確認
- ベクターストアのデータを移行(APIコマンドで可能)
- 本番環境に段階的にデプロイ
- 2026年7月末までに完全移行を完了
AI PICKSの独自評価
AI PICKSでは、ChatGPT(OpenAI)を含む500以上のAIツールを独自の評価基準でスコアリングしています。その結果を踏まえ、Responses APIについての評価をお伝えします。
開発者体験(DX): ★★★★★ Chat Completions APIの単純さと、Assistants APIのエージェント機能を統合した設計は、実際に使ってみると体験の良さを感じます。会話状態管理がサーバー側に移ることで、クライアント側のコードが劇的にシンプルになります。
料金の合理性: ★★★★☆ GPT-5.4 nanoは入力$0.20/1Mトークンという低価格で大量処理に適しています。ただし、Web検索が$0.01/回という単価は、高頻度で検索するエージェントでは積み上がりやすく注意が必要です。
エージェント構築力: ★★★★★ Web検索・ファイル検索・Computer Use・MCPを単一エンドポイントで統合できる点は、2026年時点でのOpenAI APIの中で最も強力な機能です。LangChainなどのフレームワークを使わずにシンプルなエージェントを構築できます。
総合評価: 新規エージェント開発のデファクトスタンダード。Assistants APIから移行する価値は十分にあります。評価の詳細はAI PICKSの評価基準をご覧ください。
よくある質問(FAQ)
Q. Responses APIを使うには有料のChatGPT Plusが必要ですか?
いいえ、Responses APIはChatGPTのサブスクリプションとは独立した従量課金制のAPIサービスです。OpenAI Platformで個別にAPIクレジットを購入する必要があります。ChatGPT Plusに加入していても、API利用料は別途発生します。
Q. `store: true`にするとOpenAIに会話が保存されますか?セキュリティは大丈夫ですか?
はい、store: trueを設定すると会話データがOpenAIのサーバーに保存されます。OpenAI APIのデータポリシーでは、APIを通じて送信されたデータはデフォルトでモデルの学習には使用されません。ただし、機密性の高い業務データを扱う場合は、store: false(または省略)で毎回リクエストに履歴を含める方式を選ぶか、Zero Data Retentionオプションを検討してください。
Q. Assistants APIからの移行はどのくらいの工数がかかりますか?
シンプルなチャットボットであれば数時間〜1日程度で移行できます。複雑なアシスタント定義(複数ツール・複数スレッド管理)があるシステムでは1〜2週間を見込んでおくのが安全です。2026年8月26日の廃止まで約4ヶ月あるので、今すぐ着手すれば余裕を持って移行できます。
Q. Web検索ツールの$10/1k回という料金は高いですか?
使い方次第です。ユーザーが明示的に「最新情報が必要」なリクエストにのみWeb検索を呼び出すよう設計すれば、1回あたり$0.01のコストは許容範囲内です。問題になるのは、すべてのリクエストで無条件に検索を呼び出す実装をした場合です。モデルが「検索が必要かどうか」を自動判断するように設計するか、ユーザーの入力に応じて条件分岐させることでコストを抑えられます。
Q. GPT-5.4とGPT-5.4 miniはどう使い分ければ良いですか?
GPT-5.4($2.50/$15.00/1M)は複雑な推論・法律文書の分析・高品質なコンテンツ生成に向いています。GPT-5.4 mini($0.75/$4.50/1M)はコーディング補助・FAQ回答・サブエージェントとしての利用に適しています。GPT-5.4 nanoはシンプルな分類・要約・大量処理用です。本番環境では段階的に試して、品質とコストのバランスが取れるモデルを選ぶことを推奨します。
Q. Responses APIはLangChainやLlamaIndexなどのフレームワークと併用できますか?
はい、併用可能です。ただし、Responses APIの組み込みツール(Web検索・ファイル検索)を使う場合は、フレームワーク経由よりも直接APIを呼び出す方がシンプルです。LangChainはRAGパイプラインの複雑な処理や、OpenAI以外のモデルとの統合が必要な場合に特に有効です。シンプルなエージェントならResponses APIのみで完結できます。
