事前学習 (Pre-training)
読み: じぜんがくしゅう
最終更新: 2026-06-26・AI PICKS編集部
定義
事前学習とは、大規模言語モデルをインターネット上の膨大なテキストデータで学習させ、汎用的な言語理解・生成能力を獲得させる訓練フェーズのこと。
事前学習 (Pre-training)とは — 詳しく解説
事前学習(Pre-training)は、LLMが特定タスクを学ぶ前に、数千億〜数兆トークン規模のテキストコーパスを使って基盤的な言語パターンを習得するプロセスだ。GPT、Claude、Geminiといった主要モデルはすべてこの段階で膨大なコストをかけて構築されている。 2026年の実運用では、自社で事前学習をゼロから行うのは現実的ではなく、既存の基盤モデルをベースにファインチューニングやRAGで業務適応させるアプローチが主流だ。現場での最初の意思決定は「汎用基盤モデル」か「特定ドメイン特化モデル」の選定になる。 相場感として、GPT-4クラスの事前学習には数百億円規模の計算リソースが必要で個人・中小企業には非現実的。一方でLLaMA系オープンソースモデルへの継続事前学習(Continued Pre-training)でドメイン適応する手法は数十万〜数百万円規模で実現できるケースもある。AI PICKSで紹介するツールの大半はこの事前学習済みモデルを内部で活用しており、ユーザーは月数千円のサブスクでその恩恵を享受している。
事前学習 (Pre-training)の使用例
- GPT-4は数兆トークンで事前学習済み。追加学習なしでも多様なタスクに対応できる理由はここにある。
- 自社データで継続事前学習を検討したが、コスト試算後にRAGへ方針転換した事例が2026年以降急増している。
事前学習 (Pre-training)に関連するAIツール
関連用語
「インフラ・学習」の他の用語
既存の AI モデルを 自社データで追加学習させて 専門特化させる方法。
データから法則を自動学習させる AI 技術の総称。 ディープラーニングや LLM もここに含まれる。
ニューラルネットワークを多層化した機械学習手法。 LLM / 画像認識 / 音声認識 の基盤技術。
Self-Attention 機構を中核とするニューラルネット構造。 LLM / 画像 / 音声 すべての基盤。
入力系列のどこに注目すべきかを 動的に重み付けする仕組み。 Transformer の中核。
LoRAとは、大規模モデルの重みを凍結したまま低ランク行列ペアを追加挿入することで、全パラメータの1%以下の計算コストで特定ドメインへの適応を実現するファインチューニング手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ