![]()
YOLOとは?物体検出モデルの仕組みと選び方を最新版で解説
この記事のポイント YOLOは、写真や動画の中から「人」「車」「不良品」などを一瞬で見つけ出すAIです。2016年の初代から数えて10年、いまや自動運転から工場の検品まで支える定番技術になりました。この記事では、名前の意味・仕組み・バージョンの違い・自分に合う版の選び方を、専門知識ゼロでもわかるようにやさしく整理します。結論だけ先に言うと、これから始めるなら「YOLO11」か最新の「YOLO26」の二択です。
画像の中の物体を機械に見つけさせたい。そう思って調べ始めると、YOLOv8だのYOLO11だのYOLO26だの、番号だらけで手が止まりますよね。しかもどれが最新で、何が違うのかが一発でわからない。
安心してください。全部を覚える必要はありません。この記事を読み終えるころには、「自分の用途ならこの版」と自分で決められるようになります。
YOLOとは何か、ひとことで言うと?

YOLOとは、画像を1回見ただけで、その中にある物体の「種類」と「位置」を同時に当てるAIモデルです。
名前は "You Only Look Once"(ユー・オンリー・ルック・ワンス)の頭文字。日本語にすると「一度見るだけ」。画像を細かく何度も走査せず、一発の処理で答えを出す。この速さこそがYOLO最大の武器です。
物体検出(画像の中のモノを四角い枠で囲んで名前を付ける技術)の世界では、この「速さ」が正義になる場面がとても多いんです。動く車をリアルタイムで認識したい。ベルトコンベアを流れる製品を止めずに検品したい。そういう現場では、1枚に何秒もかけていられません。
次に、なぜYOLOがここまで広まったのかを見ていきます。
なぜYOLOはここまで普及したのか?

理由はシンプルで、「速いのに、そこそこ賢い」から。この一点に尽きます。
物体検出には、精度を優先して処理が重くなる方式もあります。でもYOLOは、実用に耐える精度を保ったまま、桁違いに速く動く。だから研究室の外へ飛び出して、現実の製品に組み込まれていきました。
ある技術レビューは、YOLOを「学術的な好奇心の対象から、自動運転車から医療画像まであらゆるものを動かすコンピュータビジョンの背骨へと変貌した」と表現しています(出典: YOLO in 2026: The Complete Evolution)。10年で「論文のネタ」から「産業の標準部品」になった、というわけです。
地味に効くのが、動かすハードルの低さ。オープンソースで公開され、学習済みモデルもそのまま使えます。GPU(画像処理を高速化する部品)さえあれば、個人でも試せる。この敷居の低さが普及を後押ししました。
では、その中身はどう動いているのでしょうか。
YOLOの仕組みはどうなっている?

ざっくり言うと、画像を格子状のマス目に区切り、それぞれのマスが「ここに何かある?」「あるなら何?」を一気に予想します。
従来の方式は、「まず物体がありそうな場所を探す」→「次にそれが何かを調べる」と、二段構えで処理していました。YOLOはこの2つを1つのネットワークにまとめた。だから一度の処理で完結し、速い。
- 入力: 1枚の画像を渡す
- 処理: 画像全体を一度だけAIに通す
- 出力: 物体を囲む四角い枠(バウンディングボックス)と、その名前・確からしさ
この「全体を一度に見る」設計が、名前の由来そのものです。細部を何度も見返さないぶん、処理が軽い。
つまり、速さは思想から来ているということ。次は、その思想がどう進化してきたかを時系列で追います。
YOLOはどんな歴史をたどってきた?

初代の登場は2016年。以来、ほぼ毎年のように新版が出続けています。
面白いのは、作者が途中でどんどん入れ替わっていること。個人研究者が始めた技術を、いまは企業チームが磨いている。この「バトンの受け渡し」がYOLOの歴史そのものです。
下の表は、リサーチで確認できた主なバージョンと発表者の流れです。表のあとに要点をまとめます。
| バージョン | 発表時期 | 主な著者 |
|---|---|---|
| YOLOv1 | 2016年5月 | Joseph Redmon |
| YOLOv2 | 2017年12月 | Joseph Redmon |
| YOLOv3 | 2018年4月 | Joseph Redmon, Ali Farhadi |
| YOLOv4 | 2020年4月 | Alexey Bochkovskiy |
| YOLOv5 | 2020年6月 | Glenn Jocher(Ultralytics社) |
| YOLOv6 | 2022年6月 | Meituan(美団)技術チーム |
| YOLOv7 | 2022年7月 | Alexey Bochkovskiy(v4の著者) |
| YOLOv12 | 2025年2月 | Yunjie Tian, Qixiang Ye, David Doermannほか研究者 |
(出典: YOLOの各バージョンについてまとめ・Qiita、2026年6月時点)
つまり、初代から3代目までは同じ研究者が育て、その後は別の研究者や企業が代わる代わる改良してきた、という流れ。番号が飛んで見えるのは、開発の主体が分散しているからです。
そして2026年時点の主役は、YOLO11とYOLO26。ここからは、現役世代の違いに絞って掘り下げます。
YOLOv8・YOLO11・YOLO26は何が違う?
新しく始めるなら、この3つの中から選ぶことになります。基準は「精度・速度・モデルの大きさ」の3つ。
ある比較記事は、YOLO26・YOLO11・YOLOv8を「精度・速度・モデルサイズの3軸で詳しく比較し、製造現場に最適なモデルを選定する方法」として整理しています(出典: 2026年最新版・YOLO26 vs YOLOv8/v11の比較、AI開発)。この3軸が選定の物差しになる、と覚えておけば十分です。
ざっくりした立ち位置を整理すると、こうなります。
| 版 | 位置づけ | こんな人向け |
|---|---|---|
| YOLOv8 | 実績豊富な安定版 | 情報の多さ・事例の多さを重視する人 |
| YOLO11 | 現行の主力 | 精度と速度のバランスを取りたい人 |
| YOLO26 | 最新世代 | いちばん新しい性能を試したい人 |
表のあとに一言。迷ったらYOLO11が無難で、最新を追いたいならYOLO26。YOLOv8は「情報が枯れていて安心」という理由で選ぶ版です。
ここで注意したいのが、公式版とコミュニティ版が混在している点。同じ「YOLO26」でも、提供元が違うと中身や使い勝手が変わることがあります(出典: AI開発の比較記事)。導入前に「どこが出しているモデルか」を確認する癖をつけてください。
新旧の話をしたところで、まったく別系統のライバルも押さえておきましょう。
YOLO以外の選択肢はある?RF-DETRとの違い
あります。近ごろ比較対象としてよく名前が挙がるのが「RF-DETR」というモデルです。
2026年5月に公開されたある比較動画は、YOLO26とRF-DETRを「速度・精度・セグメンテーション品質」の面で並べて検証しています(出典: YOLO26 vs RF-DETR、Pysource)。セグメンテーションとは、物体を四角い枠ではなく「輪郭のかたち」で切り抜く技術のこと。
- YOLO系: 速さと手軽さが持ち味
- RF-DETR系: 別のアプローチで精度を狙う新顔
どちらが絶対に上、という話ではありません。用途と、速度・精度のどちらを優先するかで答えが変わります。まずはYOLOで組んでみて、精度に不満が出たら他方式も試す。この順番が現実的です。
比較の視点がそろったところで、実際にどこで使われているのかを見ましょう。
YOLOは実際にどこで使われている?
自動運転から医療画像まで、リアルタイム性が求められる場所ならどこでも、が答えです。
先ほどの技術レビューは、YOLOが「自動運転車から医療画像まで」を動かしていると述べています(出典: YOLO in 2026)。別のレビュー論文も、物体検出技術が「自律システムから医療画像まで、幅広い応用の基盤を形づくる」と位置づけています(出典: A Review of YOLO Family from YOLOv1 to YOLO26)。
具体的なイメージがわく代表例を挙げます。
- 自動運転・運転支援: 歩行者や対向車を走行中に見つける
- 工場の検品: ベルトを流れる製品の傷や欠けを見つける
- 医療画像: レントゲンやCTの中の気になる部分を拾い出す
- 防犯・見守り: カメラ映像から人や動きを検知する
共通しているのは、「止められない映像を、その場で判断したい」という要求。ここにYOLOの速さがぴたりとハマります。
次は、導入で気をつけたいお金とライセンスの話です。
YOLOの料金とライセンスは?
モデル本体は無料。でも「タダで何でもできる」わけではない、が正直なところです。
コードも学習済みモデルもオープンソースで公開されています。ここは破格。ただし、実際に動かすにはGPUという計算資源が要り、その分の電気代やクラウド利用料はかかります。「モデル代0円、運用費は別」と考えてください。
もうひとつ、見落とすと痛いのがライセンス。版によって配布条件が違います。たとえばUltralytics社の系列はAGPL-3.0という条件で公開されることがあり、これは商用利用で追加の配慮が必要になる場合があります。
ここまでの整理: YOLOは「一度見るだけ」で物体の種類と位置を当てる、速さが売りの物体検出AI。初代から企業チームへとバトンが渡り、いまの現役はYOLO11とYOLO26。モデルは無料でも、GPU代とライセンス確認だけは避けて通れない。
商用で使うなら、必ず提供元の公式ライセンスを読む。ここだけは自己判断で進めないでください。次は、では自分はどれを選ぶべきか、を決めます。
どのバージョンを選べばいい?用途別の選び方
結論、これから始める人はYOLO11、最新を試したい人はYOLO26。この二択で9割の人は迷わなくて済みます。
選び方を目的別に表にしました。導入まえの最終チェックに使ってください。
| あなたの状況 | おすすめ | 理由 |
|---|---|---|
| とにかく実績と情報量が欲しい | YOLOv8 | 事例・解説が最も豊富 |
| バランス重視で堅く始めたい | YOLO11 | 精度と速度の折り合いが良い |
| 最新性能をいち早く試したい | YOLO26 | 現時点で最も新しい世代 |
| 枠でなく輪郭で切り抜きたい | YOLO26/RF-DETRを比較 | セグメンテーション用途 |
表のあとに一言。「新しい=正解」ではありません。周りに情報が多い版のほうが、詰まったときに助かる場面は多いです。
選ぶ基準は、性能表の数字だけでなく「困ったとき調べやすいか」も入れる。これが遠回りに見えて近道です。
技術の話が続いたので、少し視点を変えます。ここで、まったく別の「YOLO」についても触れておきます。
「YOLO」には別の意味もある?
あります。文脈しだいで、YOLOは物体検出AIではなく、まったく別のものを指します。
たとえば暗号資産(仮想通貨)の名前として「YOLO」という銘柄が存在します。あるデータでは、その価格はごく小さな値で取引されていると記録されています(出典: YOLO価格の未来、BeInCrypto)。この記事で扱ってきたAIモデルとは、名前が同じだけの別物です。
- AIの文脈: 物体検出モデル(この記事の主題)
- 投資の文脈: 暗号資産の銘柄名
- 日常会話: "You Only Live Once"(人生一度きり)というスラング
検索して情報が噛み合わないと感じたら、まず「どのYOLOの話か」を疑う。これだけで無駄な遠回りが減ります。
さて、周辺知識までそろいました。関連する画像・生成AIの話にもつなげておきます。
画像系AIとどうつながる?周辺技術との関係
YOLOは「見つける」AI。一方で、いま話題の多くは「作る」AIです。役割がまるで違います。
物体検出は、既にある画像から情報を取り出す技術。対して画像生成は、ゼロから絵を作る技術。どちらも「画像×AI」ですが、入り口と出口が逆なんです。
画像生成のほうに興味があるなら、ツールの構え方から違います。ノード式で細かく組むのか、手軽に一枚出すのか。その違いを先に押さえると理解が早いので、ComfyUIとStable Diffusionの違いを読んでおくと、生成系の全体像がつかめます。
動画生成まで視野に入れているなら、Sora徹底ガイドで「作る側」の最前線を眺めておくと、検出と生成の対比がくっきりします。
見つける技術と作る技術。両方を知っておくと、AIで何ができるかの地図が一気に広がります。
YOLOを学ぶには何から始めればいい?
いきなり自分のデータで学習させようとせず、まず学習済みモデルを動かしてみる。これが最短ルートです。
順番はこう。
- 公開されている学習済みモデルを、手元の画像で試す
- 出力の枠がどう付くかを目で確認する
- 自分の用途に近いデータで、少しずつ調整する
いきなり大がかりに始めると、GPUの用意や学習データの準備で心が折れます。まずは「動いた」という手応えを取りにいく。ここが続けるコツです。
学習の相棒として、調べものにAIアシスタントを使うのも手。日本語で使い勝手のいいものを知りたいなら、Feloの使い方ガイドやMeta AI活用ガイドが入り口として役立ちます。
学びの道筋が見えたところで、よくある疑問をまとめて片付けます。
AI PICKS編集部の判定
編集部の見立てを率直に書きます。2026年時点で、物体検出を「まず始める」なら、YOLOは圧倒的に一択です。理由は性能そのものよりも、周辺の厚み。10年分の解説・事例・つまずき記録が積み上がっていて、初心者が詰まる場所には、たいてい先人の答えが置いてあります。この「調べれば出てくる安心感」は、数字の速さ以上に効きます。
版の選び方については、編集部は「YOLO11を軸に、YOLO26を横目で追う」を推します。最新のYOLO26は魅力的ですが、公式版とコミュニティ版が混在し、情報がまだ育ちきっていない側面があります。堅実に成果を出したいなら、情報の枯れたYOLO11で組み、性能に不満が出た段階でYOLO26やRF-DETRへ乗り換える。この順番が、遠回りに見えて事故が少ない。逆に言えば、YOLOv8をいまから新規採用する積極的な理由は薄めです。過去の資産を引き継ぐ場合を除けば、正直そこはYOLO11で十分。速さと情報量、この2軸で選べば、たいていの判断は間違えません。
実際に使っている企業・チーム
YOLOは、開発の担い手そのものが実在の企業・研究チームです。ここでは公開情報から3つ紹介します。
- Ultralytics社: YOLOv5以降の主要バージョン(YOLO11など)を手がける開発元。学習済みモデルとツール群を公開し、事実上の標準を提供しています(出典: Ultralytics公式ドキュメント、Model Comparisons)。
- Meituan(美団)技術チーム: 2022年6月にYOLOv6を発表した中国の大手企業チーム。自社の事業ニーズに合わせて物体検出を磨いた例です(出典: YOLOの各バージョンまとめ・Qiita)。
- ワシントン大学系の研究者(Joseph Redmon, Ali Farhadiら): 初代からv3までを生み出したアカデミックの発信源。YOLOという発想そのものの起点です(出典: 同上)。
つまりYOLOは、一企業の製品ではなく、複数の企業と研究者がリレーで育ててきた技術。だから特定ベンダーに縛られにくい、という強みもあります。
よくある質問(FAQ)
Q. YOLOは無料で使えますか?
モデル本体とコードはオープンソースで無料です。ただし動かすためのGPU代や、商用時のライセンス対応は別途必要になります。個人が試すだけなら、実質無料で始められます。
Q. YOLOの最新バージョンはどれですか?
リサーチで確認できる範囲では、YOLO26が最新世代として比較記事で扱われています。現行の主力はYOLO11です(出典: AI開発の比較記事、Ultralytics公式)。番号は開発主体によって飛ぶので、数字の大小だけで新旧を判断しないのがコツです。
Q. プログラミング初心者でも使えますか?
学習済みモデルを動かすだけなら、初心者でも手が届きます。ただし自分のデータで学習させる段階では、PythonやGPUの基礎知識が必要になります。まずは公開モデルを試すところから始めてください。
Q. YOLOとRF-DETRはどちらがいいですか?
用途しだいです。速さと手軽さならYOLO、別方式の精度を狙うならRF-DETR。2026年5月時点の比較検証では、速度・精度・セグメンテーション品質の各面で両者が並べられています(出典: Pysource)。まずYOLOで組み、不満が出たら比較する流れが現実的です。
Q. YOLOはオフラインでも動きますか?
動きます。ネット接続なしで端末内で推論できるのが強みのひとつ。画像を外部に送らずに処理できるので、プライバシーが気になる用途にも向きます。
Q. 暗号資産の「YOLO」と関係ありますか?
まったくの別物です。名前が同じだけで、この記事のYOLOはAIの物体検出モデル。暗号資産のYOLOは投資の銘柄名です(出典: BeInCrypto)。文脈を取り違えないよう注意してください。
Q. 商用サービスに組み込めますか?
版によっては可能ですが、ライセンス条件の確認が必須です。AGPL-3.0など、商用で追加の配慮が要る条件が含まれることがあります。組み込む前に、必ず提供元の公式ライセンスを読んでください。
関連する比較・代替を見る
YOLOの周辺や、画像系AIの選択肢をもっと知りたい人向けに、比較ページを置いておきます。
- YOLO26 vs YOLOv8 — 最新世代と定番安定版を精度・速度で比べる
- YOLO11 vs YOLOv8 — 現行主力と実績版、どちらで始めるか
- YOLO26 vs RF-DETR — YOLOと別方式のライバルを並べる
- ComfyUI vs Stable Diffusion — 「作る側」の画像AIの構え方の違い
- 画像生成AIカテゴリ — 検出ではなく生成に興味がある人はこちら
物体検出で入り口をつかんだら、生成系まで見ておくと「画像×AI」の地図が完成します。
次に読むなら、ComfyUIとStable Diffusionの違いがおすすめです。YOLOが「見つける」AIだったのに対し、こちらは「作る」AIの代表格。両方を押さえると、画像分野でAIに何ができるのかが立体的に見えてきます。
