import { ArticleImage } from '@/components/ArticleImage'
【2026年最新】Langfuse完全ガイド|使い方・料金・LLMアプリの可観測性を徹底解説
LLMアプリを本番環境に投入したとたん、「なぜこんなに料金が高いのか」「どこで応答が遅くなっているのか」「プロンプトを変えたら品質が下がっていないか」——こうした問題に直面したことはないでしょうか。
Langfuseは、そうしたLLMアプリ運用のブラックボックス問題を解決するオープンソースの可観測性プラットフォームです。GitHubスター数10万超、世界4万以上のチームが利用するデファクトスタンダードになっています。
この記事では、Langfuseの基本概念から実際のセットアップ、料金プラン、競合との比較まで、必要な情報をすべてまとめます。
この記事でわかること
- Langfuseとは何か・何が解決できるか
- Langfuseの料金プラン(無料〜エンタープライズ)
- Python・JavaScriptでの基本的な使い方
- プロンプト管理・評価機能の活用方法
- LangSmithとの比較と選び方
30秒で結論
- Langfuse = オープンソースのLLM可観測性プラットフォーム(MIT License)
- 無料プランで月5万ユニット、セルフホストなら無制限・完全無料
- コスト・レイテンシ・品質をリアルタイムで可視化できる
- LangChain・OpenAI・Claude・Difyなど主要フレームワークと連携可能
- LangSmithより柔軟。セルフホストできることが最大の差別点
Langfuseとは?LLMアプリの「見えない部分」を見えるようにするツール
ChatGPTやClaudeのAPIを使ったアプリを作ると、表面上は動いていても中で何が起きているかは見えません。
- このリクエストにいくらかかったのか
- なぜこのプロンプトだと回答がおかしくなるのか
- RAGで取得した情報がLLMにきちんと渡っているのか
Langfuseは、こうした「LLMアプリの内部挙動を全部ログに記録して可視化する」ためのツールです。
Langfuseが選ばれる3つの理由
1. オープンソース・セルフホスト可能
Langfuseはコード全体がMITライセンスで公開されています。Dockerで5分あればローカルに立ち上がり、自社サーバーで完全運用も可能です。ログや会話データを外部に出したくない企業にとって、これは決定的なアドバンテージです。
2. フレームワーク非依存
LangChain、LlamaIndex、OpenAI SDK、Claude SDK、Dify、Langflow——どれでも使えます。特定のフレームワークに縛られないため、マルチモデル・マルチスタック構成でも対応できます。
3. 機能が一体化している
トレーシング・プロンプト管理・評価(Evaluation)・データセット管理が一つのプラットフォームで完結します。ツールを複数使い分ける必要がありません。
Langfuseの主要機能一覧
| 機能 | 内容 |
|---|---|
| トレーシング | LLMの全呼び出し・処理フローを記録・可視化 |
| コスト追跡 | トークン数・料金をリアルタイムでモニタリング |
| プロンプト管理 | バージョン管理・A/Bテスト・本番デプロイ |
| 評価(Evaluation) | LLM-as-a-judge・ユーザーフィードバック・人手評価 |
| データセット | 評価用データセットの管理・実験の再現 |
| ダッシュボード | レイテンシ・コスト・品質スコアのグラフ可視化 |
| セッション追跡 | チャット履歴のセッション単位での管理 |
Langfuseの料金プラン【2026年最新版】
クラウド版(Langfuse Cloud)
Langfuseのクラウド版は4つのプランで提供されています。
| プラン | 月額 | 含まれるユニット | データ保持期間 | ユーザー数 |
|---|---|---|---|---|
| Hobby | 無料 | 月5万ユニット | 30日 | 2名 |
| Core | $29(約4,400円) | 月10万ユニット | 90日 | 無制限 |
| Pro | $199(約3万円) | 月10万ユニット | 3年 | 無制限 |
| Enterprise | $2,499(約37万円) | 月10万ユニット | 3年 | 無制限 |
超過料金: 10万ユニット超は$8/10万ユニット(100万超は$7、1000万超は$6.50)
Hobbyプランで何ができるか
無料プランでも全機能が使えます(制限はユニット数と保持期間、ユーザー数のみ)。クレジットカード不要で即日開始できます。月5万ユニットは個人開発や小規模プロジェクトには十分な量です。
Coreプランが適するケース
チーム開発・本番運用を始める段階。月額$29(約4,400円)でユーザー数無制限になり、データ保持期間も90日に延びます。早期スタートアップは50%割引、学術・研究利用は最大100%割引が適用されます。
Proプランで追加されるもの
SOC 2・ISO 27001準拠、3年間のデータ保持、高いレートリミット(エンタープライズグレードのトレース量に対応)。セキュリティ要件が厳しい企業向けです。
セルフホスト版
完全無料で全機能を利用できます。MIT Licenseのため商用利用も問題ありません。
# Dockerで即セットアップ
git clone https://github.com/langfuse/langfuse
cd langfuse
docker compose up
セルフホストのエンタープライズライセンス($500/月)を追加すると、RBAC・SCIM・プロテクトプロンプト・データ保持ポリシーなどが使えます。
Langfuseの始め方・セットアップ手順
ステップ1: アカウント作成とプロジェクト設定
- cloud.langfuse.com にアクセス
- GitHubアカウントまたはメールでサインアップ
- 「New Organization」→「New Project」を作成
- プロジェクト設定からAPIキーを発行(Public Key + Secret Key)
ステップ2: SDKのインストール
# Python
pip install langfuse openai
# JavaScript / TypeScript
npm install langfuse openai
ステップ3: 環境変数の設定
# .env ファイル
LANGFUSE_PUBLIC_KEY="pk-lf-xxxxxxxxxxxxxxxx"
LANGFUSE_SECRET_KEY="sk-lf-xxxxxxxxxxxxxxxx"
LANGFUSE_HOST="https://cloud.langfuse.com" # セルフホストの場合はそのURLに変更
ステップ4: 最初のトレースを記録する
Pythonの場合(@observeデコレータ):
from langfuse.openai import openai # openaiをLangfuse経由でラップ
from langfuse.decorators import observe
@observe()
def generate_response(user_question: str) -> str:
response = openai.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "user", "content": user_question}
]
)
return response.choices[0].message.content
# これだけでトークン数・コスト・レイテンシが自動記録される
result = generate_response("AIとは何ですか?")
print(result)
JavaScriptの場合(OpenAI SDK統合):
import Langfuse from "langfuse";
import OpenAI from "openai";
const langfuse = new Langfuse();
const openai = new OpenAI();
async function generateResponse(userQuestion: string) {
const trace = langfuse.trace({ name: "chat-response" });
const generation = trace.generation({
name: "openai-call",
model: "gpt-4o",
input: userQuestion,
});
const response = await openai.chat.completions.create({
model: "gpt-4o",
messages: [{ role: "user", content: userQuestion }],
});
const answer = response.choices[0].message.content;
generation.end({ output: answer });
return answer;
}
これだけで、Langfuseのダッシュボードに全リクエストの詳細ログが表示されます。
主要フレームワークとの連携方法
LangChainとの連携
LangChainはコールバック1つで統合できます。
from langfuse.callback import CallbackHandler
# Langfuseのコールバックハンドラを作成
langfuse_handler = CallbackHandler()
# LangChainのチェーン実行時にcallbacksに追加
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
prompt = ChatPromptTemplate.from_template("以下の質問に答えてください: {question}")
model = ChatOpenAI(model="gpt-4o")
chain = prompt | model
# callbacksにLangfuseを指定するだけ
response = chain.invoke(
{"question": "AIの将来性は?"},
config={"callbacks": [langfuse_handler]}
)
Difyとの連携
Difyのノーコード環境でもLangfuseが使えます。
- Difyの「設定」→「監視」→「Langfuseを設定」
- Public Key・Secret Key・Hostを入力
- これだけでDifyのすべてのLLM呼び出しが自動トレースされる
OpenAIダイレクト統合
# langfuseがOpenAIをラップするため、コード変更は最小限
from langfuse.openai import openai # このimport 1行を変えるだけ
response = openai.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "こんにちは"}]
)
# トークン数・コスト・レイテンシが自動記録
AnthropicとClaude APIの連携
import anthropic
from langfuse.decorators import observe, langfuse_context
@observe()
def ask_claude(question: str):
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": question}]
)
# 手動でトークン数を記録
langfuse_context.update_current_observation(
usage={
"input": message.usage.input_tokens,
"output": message.usage.output_tokens,
}
)
return message.content[0].text
プロンプト管理機能の使い方
Langfuseのプロンプト管理機能は、チーム開発で特に威力を発揮します。プロンプトをコードの中に直書きするのではなく、Langfuseのダッシュボードで一元管理できます。
メリット:
- バージョン管理(変更履歴が全部残る)
- デプロイメントラベル(development / staging / production)
- 非エンジニアでもUI上でプロンプトを編集・デプロイ可能
- A/Bテストで複数バージョンの効果を比較
コードからプロンプトを取得する:
from langfuse import Langfuse
langfuse = Langfuse()
# production ラベルがついたプロンプトを取得(キャッシュ付き)
prompt = langfuse.get_prompt("answer-question")
# 変数を埋め込む
compiled_prompt = prompt.compile(topic="AIの歴史", language="日本語")
# 使用後、プロンプト更新はダッシュボードから→コード変更不要
評価(Evaluation)機能でLLM品質を自動チェック
LLMアプリの品質管理は難しいです。「プロンプトを変えたら品質が下がった」を人手でチェックし続けるのは現実的ではありません。LangfuseのEvaluation機能を使うと、これを自動化できます。
LLM-as-a-Judge(自動評価)
本番のトレースを別のLLMが自動採点します。
- Langfuseダッシュボードで「Evaluators」を開く
- 「Create Evaluator」をクリック
- 評価プロンプト(例: 「回答の正確性を1〜5点で採点してください」)を設定
- 対象モデルと評価頻度を設定
- 以降、新しいトレースが入るたびに自動でスコアが付与される
評価スコアはダッシュボードで時系列グラフとして表示されるため、「プロンプト変更後に品質が下がった」を即座に検知できます。
ユーザーフィードバックの収集
from langfuse import Langfuse
langfuse = Langfuse()
# ユーザーがサムアップ/サムダウンを押したとき
langfuse.score(
trace_id="trace-xxxxx",
name="user-feedback",
value=1, # 1=高評価, 0=低評価
comment="とても分かりやすかった"
)
LangSmithとの比較:どちらを選ぶべき?
Langfuseと最もよく比較されるのがLangSmith(LangChain社製)です。
| 項目 | Langfuse | LangSmith |
|---|---|---|
| ライセンス | MIT(完全オープンソース) | クローズドソース |
| セルフホスト | ✅ 完全無料 | ❌ 不可 |
| 無料プラン | 月5万ユニット・全機能 | 月5,000トレース・1ユーザー |
| 有料最低額 | $29/月(ユーザー無制限) | $39/ユーザー/月 |
| フレームワーク | フレームワーク非依存 | LangChain/LangGraph最適化 |
| LangChain連携 | ✅ 対応 | ✅ ネイティブ統合 |
| データ主権 | ✅ セルフホストで完全管理 | ❌ クラウドのみ |
| コミュニティ | GitHub 10万+ Stars | 非公開 |
Langfuseを選ぶべきケース:
- セルフホストでデータを社内に置きたい
- LangChain以外のフレームワーク(Claude SDK・Dify等)も使っている
- チーム人数が多くコスト効率を重視したい
- オープンソースを好む(ベンダーロックイン回避)
LangSmithが向くケース:
- LangChain / LangGraphのみを使っている
- セルフホストの運用コストをかけたくない
- LangGraphのデプロイ機能(LangGraph Cloud)も使いたい
よくある質問
Q. Langfuseは日本語に対応していますか?
公式UIは英語ですが、日本語の公式ドキュメントページ(langfuse.com/jp)が用意されています。日本語のトレースデータも問題なく扱えます。日本のコミュニティも活発で、ZennやQiitaに多数の日本語記事が公開されています。
Q. セルフホストは本当に無料ですか?
Langfuse本体はMITライセンスで完全無料です。ただし、自社サーバーの運用コスト(AWS EC2やGCPなど)は別途かかります。小規模なら月数千円のVPSで十分動作します。エンタープライズ向けのRBAC・SCIM等の機能は有料ライセンス($500/月)が必要です。
Q. OpenAI以外のモデルも使えますか?
使えます。Claude(Anthropic)・Gemini(Google)・Mistral・Groq・Amazon Bedrockなど主要モデルはすべて対応しています。LiteLLMプロキシ経由でログを取れるため、独自モデルやローカルLLMも対応可能です。
Q. DifyやLangflowのようなノーコードツールとも連携できますか?
できます。DifyはUI上でLangfuseの設定を入力するだけで連携が完了します。Langflowも同様にネイティブ統合に対応しています。コードを書かずにLLMアプリを可観測化できます。
Q. 「ユニット」とは何ですか?
Langfuseの料金単位です。基本的に1回のLLM API呼び出しが1ユニットに相当します(マルチターンのトレースも含む)。月5万ユニットは、日あたり約1,600回のLLM呼び出しに相当し、個人開発や小規模プロジェクトには十分です。
Q. データはどこに保存されますか?
Langfuse Cloud(クラウド版)はUS・EUリージョンのサーバーに保存されます。日本国内にデータを置きたい場合はセルフホスト版を使うのが最善策です。Docker ComposeまたはKubernetes上で動作し、データベースはPostgreSQL(+ ClickHouse)を使用します。
Langfuseは「LLMアプリを動かすだけ」から「LLMアプリをちゃんと運用する」フェーズへの橋渡しをしてくれるツールです。無料プランで今すぐ試せるので、AIアプリ開発を始めたら最初に入れておいて損はありません。
