コラム

【画像とテキストの生成AIモデル】 VLMについて詳しく解説！

公開日 | 2025.02.25 最終更新日 | 2025.02.25

「生成AIが画像を読み込んでその内容を読み取り説明してくれる」「テキストから画像を作成」

これらは VLMというAI技術が使用されている一例です。この技術により、ますます生成AIの活用の幅が広くなり、様々な用途での利用が期待されています。

本記事では、今後AIの応用範囲、可能性を押し広げる VLMについて網羅的に解説します。

VLMとは何か？

VLM（Vision-Language Model：大規模視覚言語モデル）とは、視覚情報とテキスト情報を統合的に処理する人工知能（AI）モデルのことです。コンピュータービジョン（またはマシーンビジョン：コンピューターが画像や動画などの視覚データから情報を得られるようにする技術）と自然言語処理 (NLP)が組み合わさることにより、機械が画像とテキストの両方を含むコンテンツを理解・解釈し、生成できるようにするものです。

VLMの例としては、Open AI社のGPT-4やGoogle社のGeminiが挙げられます。

VLMは画像や動画の内容を理解し、それに関連するテキストを生成したり、逆にテキストから画像を生成したりすることができます。例えば、画像のキャプション（説明文）生成や視覚質問応答（Visual Question Answering, VQA）などのタスクに利用されています。こちらのユースケースについては後述します。

LLMとVLMは何が異なる？

LLM（Large Language Model：大規模言語モデル）は、大規模なテキストデータを基に言語の理解と生成を行うモデルです。一方、VLMは視覚情報とテキスト情報の両方を処理する能力を持ちます。

LLMについて詳しくはこちら

具体的には、LLMは文章の生成や翻訳、要約などの言語タスクに特化していますが、VLMは画像の内容を理解し、それに基づいたテキストを生成するなど、視覚と言語の統合的な処理を行います。これはマルチモーダルAIの一種ともいえます。

VLMはコンピュータービジョンとセマンティック処理技術により、画像や動画内の対象物または、対象物の間の関係を理解して情報を得ます。つまり、視覚機械学習のアルゴリズムとLLM（大規模言語モデル）を組み合わせたモデルといえるでしょう。

実は身近なVLM

AI技術では、とりわけChatGPTが脚光を浴びた「生成AI元年」の2023年からは、LLMにスポットライトが当てられてきましたが、最近では、そこから一歩発展したVLMが注目を浴び、実用化されてきています。

例えば、画像検索エンジンでは、ユーザーが入力したテキストに関連する画像を表示する際にVLMが利用されています。また、SNSでの自動キャプション生成や、視覚障害者向けの画像説明サービスなどでもVLMの技術が活用されています。

最近SNS内で流れてくる動画には音声が字幕として出てきたり、さらにそれが自分の設定した言語に翻訳されて表示されたりしています。

これまで視覚障害者にとって何が画像に表示されているのかがわかるように、文書やWEBサイトでは画像に読み上げ可能な「代替テキスト」が使われていましたが、そのキャプション作成はなかなか言語化するのは難しいものです。その作業がVLMを使うことにより自動化することができるようになります。

VLMのユースケース

画像キャプション

画像の説明を自動的に作成することができます。

画像検索

入力されたテキストクエリに基づき、関連の画像を検索することができます。インターネット上で検索する際に画像検索ができるのもこのVLMのおかげです。

画像分類

モデルに画像を与えて、「これが何か」を分類することができます。つまり、定義された分類ごとにラベリングをすることができます。

物体検出

画像分類だけでなく、それをさらに発展させ、画像内のオブジェクトを検出、識別することができます。それだけではなく、画像内での位置を特定することで、モデルは検出されたオブジェクトの周囲にバウンディボックスをし、検出したものに対してラベリングを行うことができます。

視覚質問応答（Visual Question Answering, VQA）

視覚質問応答（Visual Question Answering, VQA）とは、画像を読み込ませると、内容を理解し、それを文章化または、画像の説明をするというものです。

テキスト認識（OCR）

日本語では光学文字認識とも言われるもので、画像内のテキストを検出し、機械が読み取り可能なテキストに変換するプロセスです。すでに一部のPCなどでは実装されていますが、MacOSでは画像上で右クリックすると、画像の中に含まれるテキストをコピーすることが可能です。

幅広い業界・分野で活用されているVLM

VLMは多くの分野で活用されており、今後も様々な用途で使われることが予想されます。代表的な例をこちらで挙げてみましょう。

自動運転車での活用

VLMは、自動運転車に搭載されたカメラやセンサーが捉えた画像や映像を解析し、周囲の状況を理解するために活用されています。

例えば、Tesla社のAutopilotでは、ニューラルネットワークを活用し、標識・歩行者・他の車両の動きを認識して安全な運転を支援します。また、アメリカで自動運転タクシーサービスを展開するWaymo社（Google社傘下の自動運転企業）では、視覚データを処理するAIを活用し、道路上の障害物や交差点での歩行者の動きを正確に予測しながら、自律的に運転を行っています。

自動運転についてはこちらもチェック

参考：

https://www.tesla.com/autopilot　

https://waymo.com/waymo-driver/

医療分野での活用

VLMは、医療画像（X線、MRI、CTスキャンなど）の解析と、医師の診断を補助する役割を担っています。Google Healthの研究では、眼科医チームが10万件以上の匿名化された網膜スキャンを手動で確認してAIモデルのトレーニングを行うことで「自動網膜疾患評価ツール：ARDA」というAIを用いた画像診断技術により、糖尿病網膜症を自動検出できるようになりました。

実際に眼科専門医の少ないタイやインドなどで実用化され、糖尿病網膜症スクリーニングへのアクセスを大規模に拡大し続けています。

VLMの活用により、過去の医療記録や画像データと照合しながら、病変の早期発見を支援し、誤診のリスクを減少させることができます。

参考：https://health.google/caregivers/arda/

広告制作・マーケティング

VLMを活用すると、広告クリエイティブの生成やターゲティングがより効果的になります。

例えば、Meta社（前Facebook社）はAIを活用して、ユーザーの興味に基づいた最適な広告画像・コピーを自動生成するシステムを開発しています。この技術により、広告のパフォーマンス向上が期待できます。

参考：https://ai.meta.com/research/publications/an-introduction-to-vision-language-modeling/

カスタマーサポート

カスタマーサポートにおいては、VLMが顧客の送信した画像やスクリーンショットを理解し、適切な回答を提供する用途で活用されています。

例えば、OpenAI社のChatGPT Visionは、ユーザーが送った画像を分析し、トラブルシューティングを行うことが可能です。

また、Google社のGeminiも、製品の写真を解析してカスタマーサポートを支援する機能を提供しています。

参考：

https://openai.com/ja-JP/research/　

https://gemini.google.com/

商品検索

オンラインショッピングでは、VLMを活用した画像検索機能が導入されています。

Amazon社では、ユーザーが商品画像をアップロードすると、それに類似した商品を自動で検索する機能を提供しています。Google Lensも、スマートフォンのカメラで撮影した画像を基に、商品情報や購入先を提示することで、消費者の購買体験を向上させています。

参考：

https://lens.google/　

https://www.aboutamazon.com/news/retail/amazon-makes-it-easier-to-search-and-shop

このように、自動運転車では、車載カメラで撮影した画像を解析し、周囲の状況を理解するためにVLMが使用されています。医療分野では、医師が行う診断に対して補助的な役割を果たし、早期発見や誤診のリスク低減に貢献。また、広告制作やカスタマーサポート、商品検索など、さまざまなシーンでVLMのマルチモーダルな能力が活用されています。

VLMの開発手順

VLMの学習手順は大きく５つに分かれます。

Step1 画像＋テキストデータを準備

　画像と対応するテキスト（キャプション、説明文、対話データなど）を大量に集めます。そして、画像の正規化やリサイズ、データ拡張を行い、テキストは単語や句読点、記号などより小さな単位に個々に分割してトークン化します。

Step2 視覚(画像)・言語エンコーダを設計

　画像を処理して特徴量を抽出する視覚（画像）エンコーダ、テキストはコンピュータが理解できるよう言語データを数値化する言語エンコーダを設計します。

Step3 事前学習で画像と言語の関係を学習

VLMはLLMと異なり画像と言語のマルチモーダルであるため、その二つの関係性を学習させる必要があります。

・画像-テキストマッチング（Image-Text Matching, ITM）

画像とキャプションが正しいペアかどうかを分類。

・画像-テキストのコントラスト学習（Contrastive Learning, CLIP方式）

画像とテキストの埋め込みを近づける（正例）／離す（負例）。

・マスク付き画像・テキスト学習（Masked Modeling, MLM/VLM）

テキストの一部をマスクし、文脈から予測（BERT方式）したり、画像の一部をマスクし、埋め込み空間で予測（MAE方式）したりします。

・画像キャプション生成（Image Captioning）

画像を入力して自然な文章を生成。

Step4 特定タスク向けにファインチューニング

画像キャプション、VQA、OCRなど、特定のタスクに適したデータで追加学習や、学習率、損失関数、データバランス調整など、タスクごとに微調整を行います。

Step5 推論で画像と言語の統合処理を実行

学習済みVLMを用いて、画像と言語の組み合わせを処理できるか確認、評価を行います。

今後のVLMの可能性

今後、VLMはさらに多くの分野での応用が期待されています。例えば、教育分野では、視覚とテキストを組み合わせた教材の作成や、インタラクティブな学習支援が可能となります。

また、エンターテインメント分野では、ユーザーの入力に基づいてリアルタイムで画像や動画を生成するなど、新たな体験を提供する可能性があります。

さらに、視覚障害者、聴覚障害者向けの支援技術や、ロボティクス分野での応用など、VLMの可能性は広がっています。

まとめ

今回は、生成AIの発展を押し上げている VLMについて解説しました。

VLMを活用したAIは今後ますます精度を上げ、様々なビジネスを生むだけでなく、視覚障害、聴覚障害を持つ人にとって活動の幅を広げるプロダクトの開発に応用されるでしょう。

ただ、VLMを利用した AI開発を試みている企業においては、データが集まらない、データの精度が良くないことによりプロジェクトが頓挫してしまうケースが少なくありません。

harBest（ハーベスト）では、AIに欠かすことのできないアノテーション、教師データの作成について、お客様のビジネス領域や要望に合わせてご依頼を承っております。また、データセットの配布、販売も行っております。高品質かつ専門的なデータセット作成にお困りの場合、ぜひご相談ください。下記よりお気軽にお問い合わせください。