コラム

【生成AI】GANとは？クリエイティブに強い注目のAI技術について詳しく解説！

公開日 | 2024.08.15 最終更新日 | 2024.10.10

生成AIの活用が世界的に一般化してきた近年ですが、生成AIに関わる技術として注目を集めているのが、GAN（敵対的生成ネットワーク: Generative Adversarial Network ）です。主に画像生成や画像変換などで利用されている技術です。今回の記事では、生成AIに欠かせないGANがどのようなものなのか、そしてビジネスでどのように応用できるのかに焦点を当てて詳しく解説します。

GAN（敵対的生成ネットワーク）とは？

GAN（ガン/Generative Adversarial Networks：GANsとも表記される）とはAI生成モデルの一種であり、日本語では敵対的生成ネットワークと呼ばれます。2つのニュートラルネットワークを競わせてAIのデータ学習、データ生成を進めていく考え方・手法です。

2010年代のディープラーニングの登場によって急速に発展したAIですが、GANはその時流の中で2014年に Ian J. Goodfellow氏らのGenerative Adversarial Netsという論文で初めて発表されたアーキテクチャ（論理的構造）です。

GANにできること

GANにできることとして、画像生成や動画生成の分野で実用化が進んでいます。

たとえば、AIで低画質の写真を高画質に変換、画像のスタイルを変更してくれるアプリケーションもGANの技術が応用されています。

それだけでなく、生成AIでこんな画像を作ってほしいとプロンプトを打ち込むと、AIが数十秒すると画像を生成してくれるのをご存じの方は多いのではないでしょうか。これにより、実在しない人物の画像を作り出したり、ある人間の音声を元に新しい発話や音楽を生成したりすることも可能となりました。

機械学習とは？

GANについて理解するためには、まず機械学習と機械学習モデルについて知っておく必要があります。

AIに膨大なデータを学習させて、データの中の対象物の特徴やパターンを機械が自動で学習して特徴をつかみ、認識できるようになることで、正解となる対象を自動的に検出できるようになります。これを機械学習と言います。

機械学習についてはこちら

2種類の機械学習モデル～識別モデルと生成モデル～

機械学習モデルには2種類のモデルが存在しています。

一つ目は、AIに対して、画像やテキストなどのデータを与えて、そのデータがどのようなものなのかを識別させる「識別モデル」。識別モデルにおいては、AIのデータベース上に存在する答えの中から正解を判断します。

もう一つは、AIに学習させたデータがどのようなものであるのかを考えさせて、新たな答えを生成する「生成モデル」です。与えられたデータの中から複雑な計算・処理を行い、新たな正解を生成します。

つまり、人間で例えると、識別モデルは教科書の中から答えを探す人、生成モデルはこれまで学習したものを統合させて新たな答えを探す人というように考えられるかもしれません。どちらのモデルにも良い/悪いはありません。

GAN（敵対的生成ネットワーク）は2つの機械学習モデルのうち、後者の「生成モデル」にあたります。

GANの仕組み

GANは生成ネットワークと識別ネットワークの2つのニュートラルネットワークで構成されています。

生成ネットワーク/Generator

1つはGenerator（ジェネレーター）/生成ネットワークで、名前の通り、生成することが目的のネットワークです。膨大な数の学習データをもとに、新たなデータを生成します。

例えば、これまでに学んだ画像をもとに、学んだものの中から新たな画像を作り出す、というような形で、元になるデータの特徴やパターンを学習し、それに基づく新しいデータを生み出すことができます。

識別ネットワーク/Discriminator

もう一方はDiscriminator（ディスクリミネーター）/識別ネットワークで、定められたカテゴリにデータ分類することが主な役割です。学習データをもとに、特徴量を抽出し、それに基づいてデータを判定します。データの特徴を見つけ出すことで、未知のデータに対しても適切な分類・識別を行うことが可能です。

生成ネットワークと識別ネットワークのそれぞれの役割

GANは生成ネットワークと識別ネットワークの2つのネットワークが互いに競争しながら学習を進めることで、GANの生成能力を向上させるという仕組みになっています。その仕組みは、しばしばブランド品の「偽造業者」と「鑑定士」の関係で表されます。ここでは、データを「ブランドバッグ」、学習を「両者の戦い」と考えてみてください。

生成ネットワーク（偽造業者）は、識別ネットワーク（鑑定士）を欺くことが目的です。すなわち、識別ネットワーク（鑑定士）が本物のデータ（ブランドバッグ）と区別できないような精巧なデータ（ブランドバッグ）を生成しようとします。

一方で、識別ネットワーク（鑑定士）は、生成ネットワーク（偽造業者）が生成したデータ（ブランドバッグ）と本物のデータ（ブランドバッグ）を正確に見分けることが目的です。識別ネットワーク（鑑定士）は、生成ネットワーク（偽造業者）に騙されないように精度を高めていき、そのデータ（ブランドバッグ）が本物である確率を弾き出します。

生成ネットワーク（偽造業者）は、最初は識別ネットワーク（鑑定士）が見破ることができる精度の低いデータ（ブランドバッグ）しか作れませんが、学習の過程で、識別ネットワーク（鑑定士）からのフィードバック（鑑定士の怪しむ顔）を受け取ることで、それをもとに生成ネットワーク（偽造業者）はパラメータを調整して、本物に近いデータ（ブランドバッグ）を作れるように改善を繰り返していきます。

識別ネットワーク（鑑定士）も同様に、本物のデータ（ブランドバッグ）と生成ネットワーク（鑑定士）の生成したデータ（ブランドバッグ）を識別できるように自身のパラメータを調整していきます。このように互いが競い合うことで、各々の精度を高めていくことがGAN（敵対的生成ネットワーク）の基本的な仕組みとなります。

GANの活用方法と応用研究

GANは多様性に溢れており、その派生形が現在は日常的に使われるようになりました。

また、GANは正解データ（教師データ）を与えることなく、特徴を学習していくため、「教師なし学習」の一つとして注目されており、アイデア次第で広範な用途に応用できるため、応用研究が今も進んでいます。

ここでは代表的な例を紹介します。

画像生成

GANは、リアルな画像を生成する能力で特に注目されています。特にStyleGANやProgressive GANといったモデルは、高解像度で多様な画像を生成することができます。StyleGANは、スタイルの異なる画像を生成するための層を持ち、細部まで制御できるのが特徴です。これにより、アート作品や人物の顔など、非常にリアルな画像を生成することが可能です。

画像変換

GANは、画像対画像変換の分野でも広く利用されています。例えば、Cycle GANは、異なるスタイルの画像間で変換を行うことができ、写真を絵画風に変換したり、その逆も可能です。この技術は、ファッションやインテリアデザインなどの分野で活用されています

データ拡張

GANは、データセットが不足している場合に新しいデータを生成するための手法としても利用されます。特に医療画像の分野では、病理画像やMRI画像を生成することで、学習データを増やし、モデルの精度を向上させることが期待されています。

テキストからの画像生成

最近の研究では、テキストを入力として画像を生成する技術も進化しています。DALL-EやStackGANなどのモデルは、与えられたテキストの説明に基づいて画像を生成することができ、広告やコンテンツ制作において新たな可能性を開いています。

動画生成

GANは静止画だけでなく、画像の生成やテキストデータ、音声合成などの複数の要素を組み合わせることで、動画生成にも応用されています。MoCoGANなどのモデルは、動画のフレームを生成する能力を持ち、リアルな動きを持つ動画を生成することが可能です。これにより、映画やゲームの制作において新たな表現手法が提供されるだけでなく、アニメ製作の効率化なども可能にします。

音声生成

音声合成の分野でもGANが利用されています。WaveGANやSpecGANは、音声データを生成するためのモデルで、音楽や音声の生成において高い精度を誇ります。これにより、音楽制作や音声アシスタントの開発においても応用が進んでいます。

ゲーム生成

本来であればゲームエンジンが必要となる、ゲームの製作。NAVIDI社が開発したGameGANはゲームのプレイ映像を5万回見ることでその環境のルールを学び、そして、実際にはないゲームのレイアウトを生成することができたことを証明しました。

つまり、ゲーム開発者が短時間で、比較的低いコストでゲームを作ることができることを示しています。NVIDIA社は、自動運転車や倉庫用ロボットなどの、従来、シミュレータの作成に大量の開発リソースを必要としてきた分野にニューラルネットワークを適用させていき、「最終的には、動画を見て、エージェントが環境でとる行動を知るだけで、運転のルール、物理法則を模倣することを学ぶ AI を生み出すことができる」と述べています。（参考：https://blogs.nvidia.co.jp/2020/05/22/gamegan-research-pacman-anniversary/）

このように、GAN（敵対的生成ネットワーク）は応用範囲が広く、今後さらに発展していき、様々なビジネス領域に活かすことができる可能性が高い技術と言えるでしょう。

GANの課題

GAN（敵対的生成ネットワーク）は、非常に強力な生成モデルですが、いくつかの課題やデメリットも存在します。

データ生成の評価が主観的

GANが生成したデータの品質を評価する際、客観的な基準が不足しています。生成された画像やデータが本物にどれだけ近いかを数値化することが難しく、主観的な判断に依存することが多いです。このため、誰が見ても「正解」とされるデータを生成するのは困難です。

学習の不安定性

GANの学習プロセスは非常に不安定であり、以下のような問題が発生することがあります

勾配消失問題: 生成ネットワーク（Generator）や識別ネットワーク（Discriminator）の一方が過度に優位になると、もう一方の学習が進まなくなることがあります。これにより、学習が途中で止まってしまうことがあります。

モード崩壊:生成ネットワーク（Generator）が特定の特徴を持つデータのみを生成するようになり、多様性が失われる現象です。これにより、生成されるデータの種類が偏ってしまいます。

計算リソースの要求

GANのトレーニングには、大量の計算リソースが必要です。特に高解像度のデータを生成する場合、GPUなどの高性能なハードウェアが求められます。このため、コストが高くなることがあります。

学習データの依存性

GANは学習データに強く依存しており、質の高いデータセットが必要です。データが不十分または偏っていると、生成されるデータの品質も低下します。特に、特定のドメインにおいては、十分なデータを集めることが難しい場合があります。

倫理的な懸念

AIの発達に従ってSNS上で拡散されることの多くなったフェイク画像。ディープフェイクなどのGANを用いた技術は、高性能であり、人間の目では見破ることができないほどになってしまったため、たびたび悪用されることがあります。また、性的な画像などが生成されてしまうことも問題になっています。

偽の映像や音声を生成することで、情報の信頼性を損なうリスクがあるため、倫理的な問題が生じています。このような技術の利用には、慎重な取り扱いが求められます。

GANは、強力なデータ生成能力を持つ一方で、様々な課題を抱えています。これらの問題を解決するための研究が進められており、今後の技術の発展に期待が寄せられています。

まとめ

GANという技術が画像やテキスト、音声生成などのクリエイティブな生成AIの隆盛の礎を築いたといっても過言ではありません。これにより、画像認識AIなどの学習データ収集や作成のコストが減るなど、AIを活用した業務効率化や新しいビジネスの創出につながっています。

harBest(ハーベスト)では、AI開発における課題設定からプロジェクトの全体設計までのAI実装を支援しています。AI開発で大部分を占めるデータの収集・作成を強みとしており、データセットの販売からビジネス領域に合わせたカスタマイズされたデータセット作成のご依頼も随時承っております。

AI開発・LLM開発とそれに付随するデータセット作成でお困りの場合は、ぜひご相談ください。下記よりお問い合わせをお待ちしております。