AI PICKS
AI用語辞典インフラ・学習

事前学習 (Pre-training)

読み: じぜんがくしゅう

最終更新: 2026-06-26・AI PICKS編集部

定義

事前学習とは、大規模言語モデルをインターネット上の膨大なテキストデータで学習させ、汎用的な言語理解・生成能力を獲得させる訓練フェーズのこと。

事前学習 (Pre-training)とは — 詳しく解説

事前学習(Pre-training)は、LLMが特定タスクを学ぶ前に、数千億〜数兆トークン規模のテキストコーパスを使って基盤的な言語パターンを習得するプロセスだ。GPT、Claude、Geminiといった主要モデルはすべてこの段階で膨大なコストをかけて構築されている。 2026年の実運用では、自社で事前学習をゼロから行うのは現実的ではなく、既存の基盤モデルをベースにファインチューニングやRAGで業務適応させるアプローチが主流だ。現場での最初の意思決定は「汎用基盤モデル」か「特定ドメイン特化モデル」の選定になる。 相場感として、GPT-4クラスの事前学習には数百億円規模の計算リソースが必要で個人・中小企業には非現実的。一方でLLaMA系オープンソースモデルへの継続事前学習(Continued Pre-training)でドメイン適応する手法は数十万〜数百万円規模で実現できるケースもある。AI PICKSで紹介するツールの大半はこの事前学習済みモデルを内部で活用しており、ユーザーは月数千円のサブスクでその恩恵を享受している。

事前学習 (Pre-training)の使用例

  • GPT-4は数兆トークンで事前学習済み。追加学習なしでも多様なタスクに対応できる理由はここにある。
  • 自社データで継続事前学習を検討したが、コスト試算後にRAGへ方針転換した事例が2026年以降急増している。

事前学習 (Pre-training)に関連するAIツール

関連用語

インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・152語以上を体系的に整理しています

辞典トップへ