【2026年最新】Label Studio完全ガイド|使い方・料金・インストール方法を徹底解説
「AIモデルを作りたいけど、学習データのラベリングツールをどれにすれば?」——機械学習やLLMファインチューニングに取り組む人が最初にぶつかる壁のひとつです。
Label Studioは、HumanSignal社(旧Heartex)が開発するオープンソースのデータラベリングプラットフォームです。GitHub Stars 26,900超、Slackコミュニティ20,000名超を誇り、研究機関から国内外のAIスタートアップまで幅広く採用されています。最大の特徴は「マルチモーダル対応 × 無料で使える × 高いカスタマイズ性」という三拍子。テキスト・画像・音声・動画・時系列データを1つのプラットフォームで扱えます。
このガイドでは、Label Studioのインストール方法から料金、実際の使い方、競合ツールとの比較まで、2026年4月時点の最新情報をもとに徹底解説します。
この記事でわかること
- Label Studioの特徴と得意なこと・苦手なこと
- pip / brew / Docker でのインストール手順(コマンドつき)
- Community・Starter Cloud・Enterpriseの料金比較
- 画像・テキストアノテーションの実際の操作フロー
- CVAT・Labelbox・V7との比較と選び方
30秒で結論
- 無料でセルフホストしたい → Community Edition(完全無料、pip/Docker対応)
- チームで使いたい・クラウド管理したい → Starter Cloud($99/月〜、約¥14,800/月)
- セキュリティ・SSO・大規模運用 → Enterprise(要見積もり)
- 画像特化で動画もラベリング → CVATのほうが向いている場合あり
- カスタムUIを組み込みたいエンジニアチーム → Label Studioが最適解
Label Studioとは?特徴と活用シーン
Label Studioは、AIモデルの学習に必要なアノテーション(ラベリング)作業を効率化するオープンソースプラットフォームです。2019年の公開から急速に普及し、2026年4月時点でGitHub Stars 26,911を記録。オープンソースのデータラベリングツールとして世界最大規模のコミュニティを持ちます。
Label Studioで対応できるデータ種別
| データ種別 | 代表的なタスク |
|---|---|
| 画像 | バウンディングボックス、セグメンテーション、キーポイント |
| テキスト | 固有表現認識(NER)、感情分析、テキスト分類 |
| 音声 | 文字起こし、感情ラベリング、話者分離 |
| 動画 | オブジェクト追跡、行動認識、シーン分類 |
| 時系列 | 異常検知、信号分類 |
| PDF・文書 | OCR、レイアウト解析、文書AI |
| LLM評価 | 回答品質評価、応答比較、RLHF用データ作成 |
特に強みを発揮するユースケース
① LLMファインチューニング用データ作成 ChatGPTやClaudeのような生成AIを自社データでファインチューニングするには、高品質な教師データが不可欠です。Label StudioはLLM応答の評価・比較・ランキングに特化したテンプレートを備えており、RLHF(人間のフィードバックによる強化学習)用のデータセット構築に適しています。
② 医療・金融・法務など機密データのアノテーション クラウドサービスにデータをアップロードしたくない場合でも、Label StudioはオンプレミスやローカルPCで動作するため、個人情報・医療情報を含むデータも安全に扱えます。
③ 複数データタイプを横断するMLプロジェクト 自動運転・監視カメラ・マルチモーダルAIなど、画像+音声+テキストを同時に扱うプロジェクトでも、1つのプラットフォームに統合できます。
料金プラン徹底比較
Label Studioは3つのエディションを提供しています(2026年4月時点)。
| プラン | 月額費用 | ホスティング | 主な特徴 |
|---|---|---|---|
| Community Edition | 無料 | セルフホスト | 全コア機能、ユーザー数無制限(全員管理者権限) |
| Starter Cloud | $99/月〜(約¥14,800) | クラウド管理 | RBAC、品質レビュー、追加ユーザー$49/月(最大12名) |
| Enterprise | 要見積もり | クラウド/オンプレ | SSO、LDAP/SAML、監査ログ、HIPAA対応、QAダッシュボード |
各プランの選び方
Community Editionが向いている人:
- 個人・研究者・スモールチームで試したい
- Dockerやpipで自前運用できるエンジニア
- 機密データをローカルで扱いたい
Starter Cloudが向いている人:
- インフラ管理をしたくない3〜12名のチーム
- レビュアーとアノテーターのロール分離が必要
- クラウドストレージ(S3・GCS・Azure)と連携したい
Enterpriseが向いている人:
- 100名以上の大規模チームや企業
- SSOやSCIMでユーザー管理を一元化したい
- SOC2・HIPAA・エアギャップ環境が必須要件
📌 ポイント: 料金の大きな変更があり、Starter Cloudは以前の$149/月から$99/月に値下がりしました。追加ユーザーも$99/月→$49/月に改定されています(2026年現在)。
インストール方法(3通り)
Label StudioのCommunity Editionは、pip・brew・Dockerの3通りでインストールできます。初心者にはpipかDockerがおすすめです。
方法1:pip(Python環境がある方・最もシンプル)
Pythonがインストールされていれば、2コマンドで起動できます。
# 仮想環境を作成して有効化(推奨)
python -m venv ls-env
source ls-env/bin/activate # Windowsは: ls-env\Scripts\activate
# Label Studioをインストール
pip install label-studio
# 起動(デフォルトはhttp://localhost:8080)
label-studio
初回起動時にブラウザが自動で開きます。サインアップ画面でメールアドレスとパスワードを設定すればすぐに使えます。
方法2:brew(Macユーザー向け)
# tapリポジトリを追加
brew tap humansignal/tap
# インストール
brew install humansignal/tap/label-studio
# 起動
label-studio
方法3:Docker(本番運用・チーム利用に推奨)
# 基本的なDockerコンテナ起動
docker run -it \
-p 8080:8080 \
-v $(pwd)/mydata:/label-studio/data \
heartexlabs/label-studio:latest
# ローカルファイルアクセスを許可する場合
docker run -it \
-p 8080:8080 \
-v $(pwd)/mydata:/label-studio/data \
--env LABEL_STUDIO_LOCAL_FILES_SERVING_ENABLED=true \
--env LABEL_STUDIO_LOCAL_FILES_DOCUMENT_ROOT=/label-studio/files \
-v $(pwd)/myfiles:/label-studio/files \
heartexlabs/label-studio:latest
チームで利用する場合はDocker Compose版も公式GitHubで公開されており、PostgreSQLとnginxをセットで構成できます。
注意: MacでSafariを使うとうまく動作しない場合があります。Google Chromeを推奨します。
使い方:プロジェクト作成〜アノテーション完了まで
Label Studioの基本的な操作フローは「プロジェクト作成 → データインポート → ラベリング設定 → アノテーション → エクスポート」の5ステップです。
STEP 1:プロジェクトを作成する
- ブラウザで
http://localhost:8080にアクセス - サインアップまたはログイン
- 「Create Project」をクリック
- プロジェクト名を入力して「Save」
STEP 2:データをインポートする
プロジェクト設定の「Data Import」タブから、以下の方法でデータを取り込めます。
- ローカルファイルのアップロード: 「Upload Files」で直接ドラッグ&ドロップ
- クラウドストレージ連携: S3・GCS・Azure Blob Storageをソースとして設定
- URLによるインポート: 画像URLのリストをCSVやJSON形式で読み込み
STEP 3:ラベリング設定(テンプレートを選ぶ)
「Labeling Setup」タブで、アノテーションの種類を選びます。以下のカテゴリから100種類以上のテンプレートが用意されています。
| カテゴリ | テンプレート例 |
|---|---|
| Computer Vision | Object Detection with Bounding Boxes、Image Segmentation |
| Natural Language Processing | Named Entity Recognition、Text Classification |
| Audio/Speech | Speech Transcription、Speaker Diarization |
| Conversational AI | Chatbot Response Evaluation、Intent Classification |
| Generative AI | LLM Response Evaluation、Pairwise Comparison |
例:画像の物体検出(バウンディングボックス)の場合は「Object Detection with Bounding Boxes」を選び、ラベル名(「car」「person」「bike」など)を設定するだけです。
STEP 4:アノテーション作業
タスク一覧から画像・テキスト・音声をクリックするとラベリング画面が開きます。
画像アノテーションの操作方法:
- ラベル名をクリック(またはキーボードの数字キー)でモード選択
- マウスでドラッグして枠を作成
uキーで選択解除、Backspaceで削除- 「Submit」で確定、「Skip」でスキップ
ショートカットキー一覧(画像アノテーション時):
| キー | 動作 |
|---|---|
| 1〜9 | 対応するラベルを選択 |
| u | 選択解除 |
| Backspace | 選択中の枠を削除 |
| Ctrl+Z | 一つ戻る |
| ← → | 前後のタスクへ移動 |
STEP 5:アノテーション結果をエクスポート
完了したアノテーションは複数形式でエクスポートできます。
JSON / JSON-MIN / CSV / TSV / COCO / YOLO / Pascal VOC XML
機械学習フレームワークに直接投入できる形式(COCO形式やYOLO形式)もワンクリックでエクスポート可能です。
MLバックエンド連携:AI補助ラベリングを活用する
Label StudioとMLモデルを連携させると、AIが事前ラベリングを行い、人間がチェック・修正するだけで効率が大幅に上がります。この機能を「MLバックエンド」と呼びます。
# mlbackend/model.py(最小構成例)
from label_studio_ml.model import LabelStudioMLBase
class MyModel(LabelStudioMLBase):
def predict(self, tasks, **kwargs):
# 既存のMLモデルを使って予測
predictions = []
for task in tasks:
predictions.append({
"result": [
{
"type": "rectanglelabels",
"from_name": "label",
"to_name": "image",
"value": {
"x": 10, "y": 10, "width": 50, "height": 50,
"rectanglelabels": ["car"]
}
}
]
})
return predictions
# MLバックエンドサーバーを起動
label-studio-ml start ./mlbackend
Label StudioのプロジェクトSettings > MLで http://localhost:9090 を登録すると、アノテーション画面でAIが自動的に候補を表示します。
競合ツールとの比較:どれを選ぶべきか
Label Studioの位置づけを競合ツールと比較します。
| 項目 | Label Studio | CVAT | Labelbox | V7 |
|---|---|---|---|---|
| 提供形態 | OSS / クラウド | OSS / SaaS | SaaS | SaaS |
| 無料プラン | ✅ 完全無料(CE) | ✅ OSS版 | ❌ トライアルのみ | ❌ トライアルのみ |
| 対応データ | マルチモーダル全般 | 主に画像・動画 | 画像・テキスト中心 | 画像・動画特化 |
| 動画強度 | △ 基本対応 | ◎ トラッキングが強力 | ○ 標準対応 | ◎ 高精度 |
| LLM評価 | ◎ 専用テンプレートあり | ✗ | ○ | △ |
| セルフホスト | ◎ ローカル対応 | ◎ | ✗ | ✗ |
| 有料最安 | $99/月 | CVAT Cloudは要問合せ | 要問合せ | 要問合せ |
| カスタムUI | ◎ XML設定で柔軟 | ○ | ○ | △ |
用途別おすすめ
Label Studioを選ぶべき人:
- 複数種類のデータ(テキスト・画像・音声混在)をまとめて扱いたい
- LLMやRAGの評価データを作りたい
- 機密データをローカル環境で扱いたい
- エンジニアチームで柔軟にカスタマイズしたい
CVATが向いているケース:
- 動画の細かいフレーム単位アノテーションやオブジェクト追跡が主な用途
- コンピュータビジョン特化のチーム
Labelboxが向いているケース:
- クラウドネイティブ環境で大規模チームを管理したい
- エンタープライズサポートが必須
よくある質問
Q. Label Studioは日本語で使えますか?
UIは英語ですが、アノテーション対象のデータ(テキスト・音声)は完全に日本語対応しています。日本語テキストのNERや感情分析にも問題なく使えます。なおコミュニティはSlack・GitHub中心で、公式ドキュメントは英語です。
Q. 商用利用はできますか?
Community Edition(OSS)はApache License 2.0で提供されており、商用利用が可能です。ただし、Starter Cloud / Enterprise プランの利用規約は別途確認が必要です。
Q. 既存のMLフレームワークと連携できますか?
はい。REST APIとPython SDKが充実しており、TensorFlow・PyTorch・Hugging Faceなどとの連携が可能です。また、MLbackend機能を使えばAI事前ラベリングを組み込めます。クラウドストレージはAWS S3、Google Cloud Storage、Azure Blob Storageに対応しています。
Q. アノテーター向けのロール管理はできますか?
Community Editionでは全ユーザーが管理者権限のため、ロール分離はできません。Starter Cloud以上でロールベースアクセス制御(RBAC)が使え、Owner・Admin・Manager・Reviewer・Annotatorの5つのロールを割り当てられます。
Q. どれくらいのデータ量を扱えますか?
Community Editionではデータ量の制限はありません。Starter Cloudでは12ユーザーまでのチームで利用でき、エンタープライズ規模のデータ量には Enterprise を選ぶのが現実的です。
Q. v1.23.0で追加された機能は何ですか?
2026年3月13日にリリースされたLabel Studio 1.23.0では、ベクターアノテーション機能、インタラクティブなタスクソースビューワー、Data Managerのワークフロー改善が追加されました。また、Advanced PDF + OCRインターフェースにより、文書AI向けのアノテーション精度が向上しています。
LLMファインチューニングへの応用:Label Studioをデータパイプラインに組み込む
2026年現在、Label Studioの需要が急増している理由のひとつがLLMファインチューニング用データの作成です。ChatGPTやClaudeのような大規模言語モデルを自社データで特化させるには、大量の高品質な教師データが必要です。
RLHF(人間のフィードバックによる強化学習)データの作成
RLHFは、OpenAIがGPT-4の品質向上に使った手法で「人間の評価者がAIの回答を比較・ランキングし、その結果でモデルを訓練する」仕組みです。Label Studioにはこのワークフローに特化した「Pairwise Comparison」テンプレートが用意されています。
典型的なRLHFデータ作成フロー:
- LLMに同じプロンプトへの回答を複数生成させる
- Label Studioで回答をペアで表示し、アノテーターが「どちらが良い回答か」を評価
- 評価結果をJSON形式でエクスポート
- Reward Model(報酬モデル)のトレーニングに利用
- PPO(Proximal Policy Optimization)でLLMを微調整
// エクスポートされるRLHFデータの例
{
"prompt": "日本の首都について教えてください",
"chosen": "東京は日本の首都で、世界最大級の都市のひとつです。",
"rejected": "首都は東京です。",
"annotator_preference": "chosen",
"confidence": 0.92
}
RAG(検索拡張生成)評価データの作成
RAGシステムの品質評価にもLabel Studioが活用されています。ユーザーの質問・検索結果・LLMの回答の三つ組みに対して、「正確性」「関連性」「根拠の明確さ」などの軸でアノテーターが評価します。
// RAG評価データ形式例
{
"question": "2026年のAIツール市場規模は?",
"retrieved_context": "...",
"answer": "...",
"faithfulness": 4,
"relevance": 5,
"correctness": 3
}
アノテーター品質管理:大規模プロジェクトでの活用
Label Studioでは複数アノテーターが同じタスクにラベリングを行い、アノテーター間一致率(Inter-Annotator Agreement, IAA)を計算して品質を管理できます。
アノテーター品質を高める3つのプラクティス
① ガイドライン設計を徹底する ラベル定義が曖昧だと、アノテーター間でブレが生じます。「どこからどこまでがpositive感情か」を具体的な例文とともに明示することが重要です。Label Studioのプロジェクト設定に「Instructions」を記入できます。
② 校正タスク(Calibration Tasks)を挟む アノテーター全員に同じ10〜20タスクを割り当て、一致率を測定します。一致率が低い場合はガイドライン修正や追加トレーニングのサインです。
③ レビュアーワークフローを設定する(Starter Cloud以上) アノテーターが提出した結果をレビュアーが承認・却下できるワークフローを設定します。
Inter-Annotator Agreement(IAA)の計算
# Python SDKを使ったIAA計算例
from label_studio_sdk import Client
ls = Client(url='http://localhost:8080', api_key='YOUR_API_KEY')
project = ls.get_project(project_id=1)
# タスクとアノテーションを取得
tasks = project.get_labeled_tasks()
# Cohen's Kappa係数などで一致率を計算
from sklearn.metrics import cohen_kappa_score
annotator_1_labels = [...]
annotator_2_labels = [...]
kappa = cohen_kappa_score(annotator_1_labels, annotator_2_labels)
print(f"Cohen's Kappa: {kappa:.3f}") # 0.8以上が目安
Label Studio導入ロードマップ:個人〜企業規模別
個人・研究者(Community Edition)
| フェーズ | やること | 期間目安 |
|---|---|---|
| 1. 環境構築 | pip install → ローカル起動 | 30分 |
| 2. 最初のプロジェクト | テンプレートで100件アノテーション | 1〜2時間 |
| 3. MLバックエンド連携 | 既存モデルをAPI経由で事前ラベリング | 1〜2日 |
| 4. エクスポート・学習 | COCO/YOLO形式でエクスポートしてモデル訓練 | プロジェクトによる |
スモールチーム(Starter Cloud)
- 14日間無料トライアルで評価:実プロジェクトのデータ100〜500件でワークフローを検証
- ロール設定:Owner(管理者)・Annotator(アノテーター)・Reviewer(レビュアー)を割り当て
- クラウドストレージ連携:S3バケットを直接ソースとして設定し、大量データを効率的に処理
- 品質モニタリング:IAAダッシュボードで週次レポートを確認
企業・大規模チーム(Enterprise)
- SSO/SCIM統合:Active DirectoryやOktaと連携してユーザー管理を自動化
- RBAC設計:部署・プロジェクト・データ感度別に権限グループを設計
- 監査ログ:誰がいつ何をラベリングしたか全記録を保持(HIPAA・GDPR対応)
- Kubernetes展開:高可用性構成でダウンタイムゼロを実現
Label Studioの注意点と限界
Label Studioは優れたツールですが、すべての用途に最適というわけではありません。導入前に把握しておくべき点を整理します。
向いていないケース
- 3Dポイントクラウドのアノテーション:自動運転向けの3Dリダール点群には対応が限定的。専用ツール(Scale AI、BasicAI等)が適しています。
- 高フレームレート動画の細かいトラッキング:CVATのほうが動画特化機能が充実しています。
- ノンエンジニアがすぐに使いたいケース:Community Editionはセットアップに技術知識が必要です。SaaSツール(Labelbox等)のほうが手軽です。
セキュリティ上の注意点
Community Editionでは全ユーザーが管理者権限になるため、外部に公開するサーバーではアクセス制御が不十分です。本番運用では:
# 環境変数でDBクレデンシャルを管理(ハードコードしない)
export LABEL_STUDIO_DB_USER="ls_admin"
export LABEL_STUDIO_DB_PASS="YOUR_SECURE_PASSWORD"
# リバースプロキシ(nginx)でHTTPS化必須
# 外部公開する場合は認証レイヤーを追加すること
ロール分離・SSO・監査ログが必要なら、Starter Cloud以上への移行を強く推奨します。
