Label Studio完全ガイド 2026年版

【2026年最新】Label Studio完全ガイド|使い方・料金・インストール方法を徹底解説

「AIモデルを作りたいけど、学習データのラベリングツールをどれにすれば?」——機械学習やLLMファインチューニングに取り組む人が最初にぶつかる壁のひとつです。

Label Studioは、HumanSignal社(旧Heartex)が開発するオープンソースのデータラベリングプラットフォームです。GitHub Stars 26,900超、Slackコミュニティ20,000名超を誇り、研究機関から国内外のAIスタートアップまで幅広く採用されています。最大の特徴は「マルチモーダル対応 × 無料で使える × 高いカスタマイズ性」という三拍子。テキスト・画像・音声・動画・時系列データを1つのプラットフォームで扱えます。

このガイドでは、Label Studioのインストール方法から料金、実際の使い方、競合ツールとの比較まで、2026年4月時点の最新情報をもとに徹底解説します。

この記事でわかること

  • Label Studioの特徴と得意なこと・苦手なこと
  • pip / brew / Docker でのインストール手順(コマンドつき)
  • Community・Starter Cloud・Enterpriseの料金比較
  • 画像・テキストアノテーションの実際の操作フロー
  • CVAT・Labelbox・V7との比較と選び方

30秒で結論

  • 無料でセルフホストしたい → Community Edition(完全無料、pip/Docker対応)
  • チームで使いたい・クラウド管理したい → Starter Cloud($99/月〜、約¥14,800/月)
  • セキュリティ・SSO・大規模運用 → Enterprise(要見積もり)
  • 画像特化で動画もラベリング → CVATのほうが向いている場合あり
  • カスタムUIを組み込みたいエンジニアチーム → Label Studioが最適解

Label Studioとは?特徴と活用シーン

Label Studioのマルチモーダル対応イメージ

Label Studioは、AIモデルの学習に必要なアノテーション(ラベリング)作業を効率化するオープンソースプラットフォームです。2019年の公開から急速に普及し、2026年4月時点でGitHub Stars 26,911を記録。オープンソースのデータラベリングツールとして世界最大規模のコミュニティを持ちます。

Label Studioで対応できるデータ種別

データ種別 代表的なタスク
画像 バウンディングボックス、セグメンテーション、キーポイント
テキスト 固有表現認識(NER)、感情分析、テキスト分類
音声 文字起こし、感情ラベリング、話者分離
動画 オブジェクト追跡、行動認識、シーン分類
時系列 異常検知、信号分類
PDF・文書 OCR、レイアウト解析、文書AI
LLM評価 回答品質評価、応答比較、RLHF用データ作成

特に強みを発揮するユースケース

① LLMファインチューニング用データ作成 ChatGPTやClaudeのような生成AIを自社データでファインチューニングするには、高品質な教師データが不可欠です。Label StudioはLLM応答の評価・比較・ランキングに特化したテンプレートを備えており、RLHF(人間のフィードバックによる強化学習)用のデータセット構築に適しています。

② 医療・金融・法務など機密データのアノテーション クラウドサービスにデータをアップロードしたくない場合でも、Label StudioはオンプレミスやローカルPCで動作するため、個人情報・医療情報を含むデータも安全に扱えます。

③ 複数データタイプを横断するMLプロジェクト 自動運転・監視カメラ・マルチモーダルAIなど、画像+音声+テキストを同時に扱うプロジェクトでも、1つのプラットフォームに統合できます。


料金プラン徹底比較

Label Studioは3つのエディションを提供しています(2026年4月時点)。

プラン 月額費用 ホスティング 主な特徴
Community Edition 無料 セルフホスト 全コア機能、ユーザー数無制限(全員管理者権限)
Starter Cloud $99/月〜(約¥14,800) クラウド管理 RBAC、品質レビュー、追加ユーザー$49/月(最大12名)
Enterprise 要見積もり クラウド/オンプレ SSO、LDAP/SAML、監査ログ、HIPAA対応、QAダッシュボード

各プランの選び方

Community Editionが向いている人:

  • 個人・研究者・スモールチームで試したい
  • Dockerやpipで自前運用できるエンジニア
  • 機密データをローカルで扱いたい

Starter Cloudが向いている人:

  • インフラ管理をしたくない3〜12名のチーム
  • レビュアーとアノテーターのロール分離が必要
  • クラウドストレージ(S3・GCS・Azure)と連携したい

Enterpriseが向いている人:

  • 100名以上の大規模チームや企業
  • SSOやSCIMでユーザー管理を一元化したい
  • SOC2・HIPAA・エアギャップ環境が必須要件

📌 ポイント: 料金の大きな変更があり、Starter Cloudは以前の$149/月から$99/月に値下がりしました。追加ユーザーも$99/月→$49/月に改定されています(2026年現在)。


インストール方法(3通り)

Label Studioのインストール環境イメージ

Label StudioのCommunity Editionは、pip・brew・Dockerの3通りでインストールできます。初心者にはpipかDockerがおすすめです。

方法1:pip(Python環境がある方・最もシンプル)

Pythonがインストールされていれば、2コマンドで起動できます。

# 仮想環境を作成して有効化(推奨)
python -m venv ls-env
source ls-env/bin/activate  # Windowsは: ls-env\Scripts\activate

# Label Studioをインストール
pip install label-studio

# 起動(デフォルトはhttp://localhost:8080)
label-studio

初回起動時にブラウザが自動で開きます。サインアップ画面でメールアドレスとパスワードを設定すればすぐに使えます。

方法2:brew(Macユーザー向け)

# tapリポジトリを追加
brew tap humansignal/tap

# インストール
brew install humansignal/tap/label-studio

# 起動
label-studio

方法3:Docker(本番運用・チーム利用に推奨)

# 基本的なDockerコンテナ起動
docker run -it \
  -p 8080:8080 \
  -v $(pwd)/mydata:/label-studio/data \
  heartexlabs/label-studio:latest

# ローカルファイルアクセスを許可する場合
docker run -it \
  -p 8080:8080 \
  -v $(pwd)/mydata:/label-studio/data \
  --env LABEL_STUDIO_LOCAL_FILES_SERVING_ENABLED=true \
  --env LABEL_STUDIO_LOCAL_FILES_DOCUMENT_ROOT=/label-studio/files \
  -v $(pwd)/myfiles:/label-studio/files \
  heartexlabs/label-studio:latest

チームで利用する場合はDocker Compose版も公式GitHubで公開されており、PostgreSQLとnginxをセットで構成できます。

注意: MacでSafariを使うとうまく動作しない場合があります。Google Chromeを推奨します。


使い方:プロジェクト作成〜アノテーション完了まで

Label Studioのプロジェクト作成フロー

Label Studioの基本的な操作フローは「プロジェクト作成 → データインポート → ラベリング設定 → アノテーション → エクスポート」の5ステップです。

STEP 1:プロジェクトを作成する

  1. ブラウザで http://localhost:8080 にアクセス
  2. サインアップまたはログイン
  3. 「Create Project」をクリック
  4. プロジェクト名を入力して「Save」

STEP 2:データをインポートする

プロジェクト設定の「Data Import」タブから、以下の方法でデータを取り込めます。

  • ローカルファイルのアップロード: 「Upload Files」で直接ドラッグ&ドロップ
  • クラウドストレージ連携: S3・GCS・Azure Blob Storageをソースとして設定
  • URLによるインポート: 画像URLのリストをCSVやJSON形式で読み込み

STEP 3:ラベリング設定(テンプレートを選ぶ)

「Labeling Setup」タブで、アノテーションの種類を選びます。以下のカテゴリから100種類以上のテンプレートが用意されています。

カテゴリ テンプレート例
Computer Vision Object Detection with Bounding Boxes、Image Segmentation
Natural Language Processing Named Entity Recognition、Text Classification
Audio/Speech Speech Transcription、Speaker Diarization
Conversational AI Chatbot Response Evaluation、Intent Classification
Generative AI LLM Response Evaluation、Pairwise Comparison

例:画像の物体検出(バウンディングボックス)の場合は「Object Detection with Bounding Boxes」を選び、ラベル名(「car」「person」「bike」など)を設定するだけです。

STEP 4:アノテーション作業

タスク一覧から画像・テキスト・音声をクリックするとラベリング画面が開きます。

画像アノテーションの操作方法:

  • ラベル名をクリック(またはキーボードの数字キー)でモード選択
  • マウスでドラッグして枠を作成
  • uキーで選択解除、Backspaceで削除
  • 「Submit」で確定、「Skip」でスキップ

ショートカットキー一覧(画像アノテーション時):

キー 動作
1〜9 対応するラベルを選択
u 選択解除
Backspace 選択中の枠を削除
Ctrl+Z 一つ戻る
← → 前後のタスクへ移動

STEP 5:アノテーション結果をエクスポート

完了したアノテーションは複数形式でエクスポートできます。

JSON / JSON-MIN / CSV / TSV / COCO / YOLO / Pascal VOC XML

機械学習フレームワークに直接投入できる形式(COCO形式やYOLO形式)もワンクリックでエクスポート可能です。


MLバックエンド連携:AI補助ラベリングを活用する

Label StudioとMLモデルを連携させると、AIが事前ラベリングを行い、人間がチェック・修正するだけで効率が大幅に上がります。この機能を「MLバックエンド」と呼びます。

# mlbackend/model.py(最小構成例)
from label_studio_ml.model import LabelStudioMLBase

class MyModel(LabelStudioMLBase):
    def predict(self, tasks, **kwargs):
        # 既存のMLモデルを使って予測
        predictions = []
        for task in tasks:
            predictions.append({
                "result": [
                    {
                        "type": "rectanglelabels",
                        "from_name": "label",
                        "to_name": "image",
                        "value": {
                            "x": 10, "y": 10, "width": 50, "height": 50,
                            "rectanglelabels": ["car"]
                        }
                    }
                ]
            })
        return predictions
# MLバックエンドサーバーを起動
label-studio-ml start ./mlbackend

Label StudioのプロジェクトSettings > MLで http://localhost:9090 を登録すると、アノテーション画面でAIが自動的に候補を表示します。


競合ツールとの比較:どれを選ぶべきか

データラベリングツールの比較・選択肢イメージ

Label Studioの位置づけを競合ツールと比較します。

項目 Label Studio CVAT Labelbox V7
提供形態 OSS / クラウド OSS / SaaS SaaS SaaS
無料プラン ✅ 完全無料(CE) ✅ OSS版 ❌ トライアルのみ ❌ トライアルのみ
対応データ マルチモーダル全般 主に画像・動画 画像・テキスト中心 画像・動画特化
動画強度 △ 基本対応 ◎ トラッキングが強力 ○ 標準対応 ◎ 高精度
LLM評価 ◎ 専用テンプレートあり
セルフホスト ◎ ローカル対応
有料最安 $99/月 CVAT Cloudは要問合せ 要問合せ 要問合せ
カスタムUI ◎ XML設定で柔軟

用途別おすすめ

Label Studioを選ぶべき人:

  • 複数種類のデータ(テキスト・画像・音声混在)をまとめて扱いたい
  • LLMやRAGの評価データを作りたい
  • 機密データをローカル環境で扱いたい
  • エンジニアチームで柔軟にカスタマイズしたい

CVATが向いているケース:

  • 動画の細かいフレーム単位アノテーションやオブジェクト追跡が主な用途
  • コンピュータビジョン特化のチーム

Labelboxが向いているケース:

  • クラウドネイティブ環境で大規模チームを管理したい
  • エンタープライズサポートが必須

よくある質問

Q. Label Studioは日本語で使えますか?

UIは英語ですが、アノテーション対象のデータ(テキスト・音声)は完全に日本語対応しています。日本語テキストのNERや感情分析にも問題なく使えます。なおコミュニティはSlack・GitHub中心で、公式ドキュメントは英語です。

Q. 商用利用はできますか?

Community Edition(OSS)はApache License 2.0で提供されており、商用利用が可能です。ただし、Starter Cloud / Enterprise プランの利用規約は別途確認が必要です。

Q. 既存のMLフレームワークと連携できますか?

はい。REST APIとPython SDKが充実しており、TensorFlow・PyTorch・Hugging Faceなどとの連携が可能です。また、MLbackend機能を使えばAI事前ラベリングを組み込めます。クラウドストレージはAWS S3、Google Cloud Storage、Azure Blob Storageに対応しています。

Q. アノテーター向けのロール管理はできますか?

Community Editionでは全ユーザーが管理者権限のため、ロール分離はできません。Starter Cloud以上でロールベースアクセス制御(RBAC)が使え、Owner・Admin・Manager・Reviewer・Annotatorの5つのロールを割り当てられます。

Q. どれくらいのデータ量を扱えますか?

Community Editionではデータ量の制限はありません。Starter Cloudでは12ユーザーまでのチームで利用でき、エンタープライズ規模のデータ量には Enterprise を選ぶのが現実的です。

Q. v1.23.0で追加された機能は何ですか?

2026年3月13日にリリースされたLabel Studio 1.23.0では、ベクターアノテーション機能、インタラクティブなタスクソースビューワー、Data Managerのワークフロー改善が追加されました。また、Advanced PDF + OCRインターフェースにより、文書AI向けのアノテーション精度が向上しています。


LLMファインチューニングへの応用:Label Studioをデータパイプラインに組み込む

LLMファインチューニングのデータパイプライン

2026年現在、Label Studioの需要が急増している理由のひとつがLLMファインチューニング用データの作成です。ChatGPTやClaudeのような大規模言語モデルを自社データで特化させるには、大量の高品質な教師データが必要です。

RLHF(人間のフィードバックによる強化学習)データの作成

RLHFは、OpenAIがGPT-4の品質向上に使った手法で「人間の評価者がAIの回答を比較・ランキングし、その結果でモデルを訓練する」仕組みです。Label Studioにはこのワークフローに特化した「Pairwise Comparison」テンプレートが用意されています。

典型的なRLHFデータ作成フロー:

  1. LLMに同じプロンプトへの回答を複数生成させる
  2. Label Studioで回答をペアで表示し、アノテーターが「どちらが良い回答か」を評価
  3. 評価結果をJSON形式でエクスポート
  4. Reward Model(報酬モデル)のトレーニングに利用
  5. PPO(Proximal Policy Optimization)でLLMを微調整
// エクスポートされるRLHFデータの例
{
  "prompt": "日本の首都について教えてください",
  "chosen": "東京は日本の首都で、世界最大級の都市のひとつです。",
  "rejected": "首都は東京です。",
  "annotator_preference": "chosen",
  "confidence": 0.92
}

RAG(検索拡張生成)評価データの作成

RAGシステムの品質評価にもLabel Studioが活用されています。ユーザーの質問・検索結果・LLMの回答の三つ組みに対して、「正確性」「関連性」「根拠の明確さ」などの軸でアノテーターが評価します。

// RAG評価データ形式例
{
  "question": "2026年のAIツール市場規模は?",
  "retrieved_context": "...",
  "answer": "...",
  "faithfulness": 4,
  "relevance": 5,
  "correctness": 3
}

アノテーター品質管理:大規模プロジェクトでの活用

Label Studioでは複数アノテーターが同じタスクにラベリングを行い、アノテーター間一致率(Inter-Annotator Agreement, IAA)を計算して品質を管理できます。

アノテーター品質を高める3つのプラクティス

① ガイドライン設計を徹底する ラベル定義が曖昧だと、アノテーター間でブレが生じます。「どこからどこまでがpositive感情か」を具体的な例文とともに明示することが重要です。Label Studioのプロジェクト設定に「Instructions」を記入できます。

② 校正タスク(Calibration Tasks)を挟む アノテーター全員に同じ10〜20タスクを割り当て、一致率を測定します。一致率が低い場合はガイドライン修正や追加トレーニングのサインです。

③ レビュアーワークフローを設定する(Starter Cloud以上) アノテーターが提出した結果をレビュアーが承認・却下できるワークフローを設定します。

Inter-Annotator Agreement(IAA)の計算

# Python SDKを使ったIAA計算例
from label_studio_sdk import Client

ls = Client(url='http://localhost:8080', api_key='YOUR_API_KEY')
project = ls.get_project(project_id=1)

# タスクとアノテーションを取得
tasks = project.get_labeled_tasks()

# Cohen's Kappa係数などで一致率を計算
from sklearn.metrics import cohen_kappa_score

annotator_1_labels = [...]
annotator_2_labels = [...]

kappa = cohen_kappa_score(annotator_1_labels, annotator_2_labels)
print(f"Cohen's Kappa: {kappa:.3f}")  # 0.8以上が目安

Label Studio導入ロードマップ:個人〜企業規模別

個人・研究者(Community Edition)

フェーズ やること 期間目安
1. 環境構築 pip install → ローカル起動 30分
2. 最初のプロジェクト テンプレートで100件アノテーション 1〜2時間
3. MLバックエンド連携 既存モデルをAPI経由で事前ラベリング 1〜2日
4. エクスポート・学習 COCO/YOLO形式でエクスポートしてモデル訓練 プロジェクトによる

スモールチーム(Starter Cloud)

  1. 14日間無料トライアルで評価:実プロジェクトのデータ100〜500件でワークフローを検証
  2. ロール設定:Owner(管理者)・Annotator(アノテーター)・Reviewer(レビュアー)を割り当て
  3. クラウドストレージ連携:S3バケットを直接ソースとして設定し、大量データを効率的に処理
  4. 品質モニタリング:IAAダッシュボードで週次レポートを確認

企業・大規模チーム(Enterprise)

  • SSO/SCIM統合:Active DirectoryやOktaと連携してユーザー管理を自動化
  • RBAC設計:部署・プロジェクト・データ感度別に権限グループを設計
  • 監査ログ:誰がいつ何をラベリングしたか全記録を保持(HIPAA・GDPR対応)
  • Kubernetes展開:高可用性構成でダウンタイムゼロを実現

Label Studioの注意点と限界

Label Studioは優れたツールですが、すべての用途に最適というわけではありません。導入前に把握しておくべき点を整理します。

向いていないケース

  • 3Dポイントクラウドのアノテーション:自動運転向けの3Dリダール点群には対応が限定的。専用ツール(Scale AI、BasicAI等)が適しています。
  • 高フレームレート動画の細かいトラッキング:CVATのほうが動画特化機能が充実しています。
  • ノンエンジニアがすぐに使いたいケース:Community Editionはセットアップに技術知識が必要です。SaaSツール(Labelbox等)のほうが手軽です。

セキュリティ上の注意点

Community Editionでは全ユーザーが管理者権限になるため、外部に公開するサーバーではアクセス制御が不十分です。本番運用では:

# 環境変数でDBクレデンシャルを管理(ハードコードしない)
export LABEL_STUDIO_DB_USER="ls_admin"
export LABEL_STUDIO_DB_PASS="YOUR_SECURE_PASSWORD"

# リバースプロキシ(nginx)でHTTPS化必須
# 外部公開する場合は認証レイヤーを追加すること

ロール分離・SSO・監査ログが必要なら、Starter Cloud以上への移行を強く推奨します。