「動画マニュアルは作ったが、結局あまり活用されていない」「同じような動画が増え続けて、どこに何があるかわからない」——こうした悩みは、動画マニュアルを運用する多くの現場で共通しています。
制作する側にも課題は多く、製造業を対象とした調査※1では、動画活用における課題として「制作時間がかかる」(46.1%)「制作コストがかかる」(42.2%)が上位に挙がっています。手間をかけて作っても活用されないなら、なおさら作るモチベーションが下がる——という悪循環です。
その背景には、長らく動画というメディアが持っていた根本的な制約がありました。コンピュータは動画の中身を「理解」できなかったのです。
しかし近年、画像や動画を言葉で理解できるVLLM(Vision Large Language Model:視覚と言語を統合した大規模AI)の登場によって、この前提が崩れ始めています※2。本記事では、なぜVLLMで動画マニュアルが変わるのか、その原理と具体的な応用、そして現場で実用レベルに達した今だからこそ起きている変化を解説します。
動画が「見られない」を解決!現場作業特化型の動画・AR手順書システム「Dive」
動画は時系列に並んだ連続画像の集まりであり、テキストのように検索することができません。中身に何が映っているか、どんな作業をしているかは、すべて人が手書きしたタイトルや説明文に依存していました。
その結果、運用上はこのような壁がありました。
動画は「最初から最後まで通しで再生する」前提のメディアであり、検索・再利用・差分管理といったテキストでは当たり前のことができませんでした。だからこそ、せっかく作っても活用されず「死蔵」される動画マニュアルが量産されてきたのです。
VLLM(Vision Language Model)は、画像・動画と言葉を統合的に扱える大規模AIモデルです。従来の画像認識AIが「これは犬」「これはネジ」と物体を識別するところに留まっていたのに対し、VLLMはさらに踏み込んで以下のことを行えます。
つまりVLLMは、動画を「ピクセルの集まり」ではなく「意味のある場面」として読めるAIです。動画マニュアルにとって決定的なのは、これによって動画の中身がテキストと同じように扱えるようになったことです。
少し具体的に見ていきましょう。VLLMが現場の作業動画から抽出できる情報は、おおむね5つの層に分かれます。
映っている部品・工具・設備・人物を識別します。「写っているのは作業着の人とドライバーと制御盤」というレベルの情報です。
その人が何をしているかを理解します。「ボルトを締めている」「カバーを開けている」「ラベルを貼っている」など、作業マニュアルの記述に直結する粒度です。
動画の時系列に沿って、「Aの作業の後にB、その後にC」という手順の構造を抽出できます。動画マニュアルをステップに分解するうえで決定的に重要な能力です。
作業前と作業後で何が変わったかを読み取れます。「カバーが閉じた」「ランプが緑になった」のような状態遷移は、安全確認や検品の自動化につながる情報です。
上記を自然な日本語(あるいは多言語)で説明文として出力できます。これがあるからこそ、抽出した意味は人間にもコンピュータにも扱えるテキストとして活用できるようになります。
意味抽出が可能になることで、動画マニュアル運用そのものが変わります。代表的な応用を6つ整理します。
作業を撮影するだけで、VLLMが動画をステップ単位に分割し、各ステップに見出しと説明文を起こすことができます。実際、教示動画から手順ステップを自動抽出する研究は急速に進展しており※3、研究レベルでは実用に近い精度に達しつつあります。手順書作成は「ゼロから書く」から「下書きを直す」へ変わり、作成時間が大幅に縮みます。
「制御盤の交換手順はどの動画の何分何秒?」という検索が可能になります。動画ごとに意味のメタデータが自動付与されるため、テキスト検索と同じ感覚で動画を探せるようになります。
動画にナレーションがなくても、映像から状況を読み取って字幕を自動生成できます。聴覚的な情報がなくても、見ただけで何をしているかわかる動画になります。
動画から先に意味(テキスト)を抽出し、それを各言語に翻訳するという二段構成が取れるようになります。動画ごとに翻訳音声や字幕を機械的に準備でき、海外人材向けの教材展開コストが劇的に下がります。
ベテランと新人の作業動画を比べて、「ベテランはこの工程で工具を持ち替えていない」「新人は確認動作を1回多く挟んでいる」といった差分を抽出できます。属人化していたノウハウを可視化する有力な手段です。
過去に撮りためた現場動画から、必要な部分だけを取り出して新しい教材として再構成することが可能になります。これまでは検索できないがゆえに眠っていた資産が、再活用できる知識として息を吹き返します。
ここまで読むと、汎用のVLLMをそのまま使えば現場の動画マニュアルが大きく変わるように思えるかもしれません。実際、ベンチマーク上の汎用VLLMは「人がボルトを締めている」レベルの理解は十分にこなします。
しかし、製造・建設・保全といった現場特有の動画には、汎用モデルだけでは捉えにくい要素があります。
つまり、現場で本当に役立つ動画意味抽出を実現するには、汎用VLLMの能力を出発点としたうえで、現場の動画に特化したチューニングや、ユーザーが補足・修正できる仕組みを組み合わせる必要があります。
動画・AR手順書システム「Dive」は、汎用VLLMの上に現場の動画に特化した独自技術を組み合わせ、本記事で挙げた応用をすでに実装しています。
これらは「撮影だけで完結する手順書化」を可能にし、作成側の負担を大きく下げます。同時に、見る側にとっても検索できる・翻訳できる・要点だけ確認できる動画マニュアルになり、これまでの「死蔵される動画」とは本質的に異なる活用が可能になります。
なお、Diveに送った動画はAIモデルの学習データには使われません。お客様のノウハウはお客様の資産として、安心してお預けいただけます。
VLLMによる動画意味抽出は、動画マニュアルを「再生されるだけのもの」から「テキストと同じように扱える知識資産」へと変える技術です。
「動画マニュアルが活用されない」と感じている現場ほど、VLLMによる意味抽出の恩恵は大きくなります。導入を検討する際は、汎用AIを謳うだけのツールではなく、現場の動画に最適化されているかという観点で選ぶことが、運用に乗る第一歩になります。
動画が「見られない」を解決!現場作業特化型の動画・AR手順書システム「Dive」
参考文献
※1 テクノポート株式会社「製造業における動画マーケティングに関する実態調査」(2024年8月実施、製造業従業員1,000名以上の担当者102名対象。動画活用の課題として「制作時間がかかる」46.1%、「制作コストがかかる」42.2%)
※2 Y. Li et al.「A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges」arXiv:2501.02189(2025年、Large Vision-Language Modelの構造・性能・評価を体系化)
※3 Y. Chen et al.「Learning to Localize Actions in Instructional Videos with LLM-Based Multi-pathway Text-Video Alignment」ECCV 2024(教示動画から手順ステップを自動抽出する手法、最先端ベンチマークで高精度を達成)