【最初の一歩】AI開発に必要なデータとは? 開発初期の基礎知識を一挙ご紹介!
AIは業種に関わらず、様々な領域、ビジネスで活用されています。日本では昨今DX(デジタルトランスフォーメーション)推進が叫ばれるようになり、その中でAIの活用促進を検討する企業が増えています。AIを開発する場合には、利用用途に応じて個別に設計し、膨大な量と質の高いデータセットを準備する必要があります。今回はDX推進の中で、なぜAIが注目されるのかについて解説したのち、AIの導入を検討する際に、AI開発において精度を左右するデータセットとはどのようなものか、データセットの準備について解説します.
目次
1.DX推進とはどのようなことを指すのか
まず、DX推進とはどのようなものなのでしょうか。
DXとは、デジタルトランスフォーメーション(Digital Transformation)の略称で、英語では
「Trans-」をXという文字で省略するためDXと呼ばれています。その意味は、「企業がビジネス環境の激しい変化に対応し、データとデジタル技術を活用して、顧客や社会のニーズを基に、製品やサービス、ビジネスモデルを変革するとともに、業務そのものや、組織、プロセス、企業文化・風土を変革し、競争上の優位性を確立すること。」(経済産業省『デジタルコード2.0』https://www.meti.go.jp/policy/it_policy/investment/dgc/dgc2.pdf?_fsi=ARWUdNJlより)と定義されています。つまり、急速に発達、変化している世界状況において、データ(最近では膨大なデータが世の中に蓄積されているため、ビッグデータともいわれます)やデジタル技術を用いることで、柔軟に対応していき、サービスや製品だけでなく、その一歩先のビジネスモデルや企業の在り方も変えていこうという考え方です。
2.IT化とDX推進の違いとは?
DX推進という考え方が広がる前までは、IT化という言葉がよく使われていました。IT化はIT(Information Technology:情報技術)やデジタル技術を活用し、アナログで行われている業務をデジタルへ移行することを指します。例えば、紙のメモで共有していた伝言を社内チャットに置き換えたり、ホワイトボードで各自の予定を共有していたところを、デジタルカレンダーを使用したり、紙で運用されている契約書や請求書を電子契約書・電子請求書にすることなどが挙げられます。
一般的には、業務効率化の議論に収束してしまうことが多いですが、その先の構造変化、新たな価値の創出まで見据えてこそ、DX推進と言えるでしょう。
3.DX推進の今
日本の多くの企業では、DX推進が課題と認識され、取り組みが進んでいます。そのきっかけとして最初に、経済産業省によって2018年から毎年更新されている『DX(デジタルトランスフォーメーション)レポート』が挙げられます。
2018年に発表されたDXレポートでは、「2025年の崖」という言葉で世界に後れを取っている日本における懸念が示されています。その懸念点とは、複雑化・巨大化しすぎている日本企業のレガシーシステムにより、マーケットの変化のスピードに柔軟に対応できず、日本企業がDXを推進しなかった場合に日本経済全体で年間12兆円の損失が発生するという提言がなされました。その内容がショッキングなものであったために、課題を認識した企業が次々とDXを推進するきっかけとなりました。
そして、2022年7月に更新された『DXレポート2.2』では、DX推進に取り組む企業が着実な増加傾向にあることが評価されている一方で、その取り組みがビジネスの効率化や省力化に留まってしまっており、企業のバリューアップ(サービスの創造・革新)において実際に成果が出ているのが1割未満という評価になっています。
4.DX推進でAIが注目される理由
DXを推進するにあたり、それを支える技術はAIのみならず、IoTやクラウド技術、ビッグデータなど多岐にわたります。AIを取り入れたからといって、DX推進がうまくいくとは限りません。社内で何が求められているのか、課題を克服するためには何が必要かは企業・部署の置かれている状況により変わってくるでしょう。ここではDX推進を支える技術について解説します。
■IoT(Internet of Things:モノのインターネット)
IoTは様々なモノに通信機能を持たせ、インターネットへ接続、またはBluetoothなどでモノとモノを接続して相互に情報交換することで、遠隔操作や自動認識、自動制御を実現する技術です。それが使われている技術の例を挙げると、自宅にカメラを設置して、スマートフォンのアプリでいつでも自宅の確認をすることができる製品があります。長時間家を空けてしまう際にペットの様子を確認するために使われていることが多いです。また、モノの動きを検知する技術では、工場内の生産設備の稼働状況の確認や異変察知などにも使われています。
■クラウド
クラウドとは、英語でCloud:雲を指します。雲のように実際に掴むことができない、インターネット上にあるリソースを必要に応じてサービスとして利用するということです。世の中には様々な種類のクラウドサービスが提供されており、一からシステムを作るのではなく、インフラやソフトウェアを持っていなくても、サービスを必要な時に利用することができるため、変化の速い現在においてはそれを利用することで、大幅な時間短縮をし、柔軟に対応していくことを可能にしています。
■ビッグデータ
AIとともに語られることの多いビッグデータですが、明確な定義はないですが、人が把握することが難しいほど蓄積された、巨大なデータ群のことをさすことが多いです。SNSなどのソーシャルデータや、オンラインストアでの購買記録、地図アプリ上に表示される混み具合、スマートフォンやパソコンから検索してWEBサイトを閲覧するのもすべて行動ログが取られており、それらもすべてデータとして蓄積されています。そのような膨大なデータの蓄積のみならず、そのデータの多様性(Variety)や速度(Velocity)の要素も含めてビッグデータと総称されています。のちほど説明する機械学習などのAIの進歩とともにより、一層ビッグデータの活用が期待されています。
■AI(人工知能)
AIは多岐にわたって使用される言葉ですが、AI(Artificial Intelligence):人工知能という意味で、人間の思考プロセスのように動作するプログラムや技術全般のことを指します。AIがDX推進において注目されているのは、日本社会において懸念されている人手不足や、それに伴って、少ない人数でも回すことができるよう、効率化や省力化(作業負荷の軽減)、高精度に作業を持続させることができるという点にあります。
5.AI開発に必要なデータセットの作成と流れ
ここまで企業においてDXを推進していく中で、その選択肢の一つとしてなぜAIが注目されるのかについて解説してきました。カタカナやアルファベット表記ばかりでAIの分野は言葉を聞いただけでも難しい、だから余計に導入して運用していくのはそれ以上に難しいとイメージしている方は多いかもしれません。たしかに聞いただけでは意味が分かりづらいものばかりです。DXなどの言葉も含め、これらの言葉は英語などの外国語から来ている言葉なので難しく思われがちですが、その意味を知ると意外とそうではありません。順を追って解説していきます。
5-1.機械学習とは?
まずは機械学習(Machine Learning)について説明していきます。AIの技術の一つで、大量のデータを読み込ませ、データの中の対象物の特徴やパターンを機械が自動で学習して認識できるようになることで、対象を自動的に検出できるようにすることです。つまり、反復的に学習させることで、データの中の規則性を学び、対象物について規則の通りにAの特徴を持つものはA、Bの特徴を持つものはBと判断することができるようになります。
5-2.機械学習の3つの手法と「教師データ」
機械学習は「強化学習」「教師あり学習」「教師なし学習」という3つの手法に分けることができます。いずれも大量のデータを読み込ませることには変わりはありませんが、それぞれの学習において準備するデータに違いがあります。
■強化学習
強化学習とは、正解を与える代わりに将来の価値を最大化するために学習させる手法のことをいい、動的環境の中で試行錯誤のやり取りを重ねることでタスクを実行します。「教師あり/なし」とは、教師データを用いて学習させるか、そうでないかの違いとなります。
■教師あり学習/教師なし学習
これまでに何度か出てきていた、教師データとは教師というその言葉の指すイメージから、「入力されたテキスト・音声・画像に対する正しい出力(応答)について記載した正解データ」のことを指します。AIが業務の中で実利用される際には、「教師あり学習」が利用されることが多いですが、このデータの質の高さがAIの精度を左右するのです。
5-3.機械学習に使われるデータセットは3種類
データセットとは、その言葉のイメージの通り、機械学習をするためにプログラム上で処理されるデータのセット(集合体)のことをさしています。機械学習では一般的3種類のデータセットがそれぞれ目的に応じて使用されます。
■トレーニングセット(Training Set)
トレーニングセットは機械学習モデルを構築するために最初に使用される学習用のデータセットです。その名の通り、トレーニング(訓練)のために使われ、全体の半数以上を占める最も規模の大きいデータセットで、機械学習モデル(分類器とも呼ばれる)の変数(パラメータ)を更新するために用いられます。
■バリデーションセット(Validation Set)
バリデーションは英語では「確認、(条約などの)批准」という意味がありますが、AIの文脈では「ある基準と合致しているかどうかを精査する」と理解するとわかりやすいでしょう。このデータセットではモデル学習は行わず、先ほどのトレーニングセットで訓練したものの中から優れているものを精査します。そして、手動で設定している変数が良いかどうか判断し、チューニング(調整)を行います。
■テストセット(Test Set)
テストセットは構築した機械学習モデル、データの精度を確認するために使用されるデータセットで学習は一切行いません。上記の二つのデータセットを使用してしまうと本来の数値と異なる数値が出てしまい、正確ではないため、テストセットを用意することで、正当な精度検証ができるようになります。
5-4.業務用AI開発に欠かせないアノテーション
ここまでAI開発に必要な機械学習についての学習方法の種類、データセットの種類について見てきましたが、業務での活用に有効な「教師あり学習」で欠かすことのできない作業にアノテーションがあります。アノテーション(annotation)とは、英語の辞書で調べてみると「注釈をつけること」と出てきます。これがAI分野においては「特定のデータに対して情報タグ(メタデータ)を付け加える」という意味になります。さらに詳しく説明すると、「教師データを作成する際に、テキストや音声、画像などのデータ情報タグ(メタデータ)を付加する作業」のこととなります。機械学習においてデータ収集した後、データにラベリングすることでそのラベルごとに仕分けをして、そのラベルの目的に沿った学習を行うことができるようになります。つまり、AI開発におけるアノテーションとは「教師データを作る作業」のことを指しています。
AIは私たちの生活の様々なところで活躍しています。この章で見てきたように、AIが活躍するためには、機械学習の技術が必要となり、そのためには膨大な量のデータが必要となります。そして、AIが学習を通して正確に活用されるためには、人の手によってアノテーションされた教師データの作成が必要となります。意外に思う方もいらっしゃると思いますが、AIは勝手にすべてを解決してくれるわけではなく、人の手が加わって初めて活躍することができるのです。
6.高質なデータセットをどのように作成するのか
ここまでAI開発に必要なデータセットとはどのようなものかについて見てきました。それでは高品質なデータセットはどのように作成すればいいのでしょうか。
6-1. データセット作成の前に知っておきたいこと
さきほどビッグデータのところで、今の世の中ではインターネット上ではデータが取られていて膨大なデータがあふれていると書きましたが、AIが普及する一方で、学習データが枯渇する可能性があると懸念されています。学習データが不足している要因として、アノテーションが人間の手で行われているように、機械が自らモデル学習ができるまでには至っておらず、正確なデータを収集する場合はどうしても人間の手が必要となってしまう点にあります。最近では画像生成AIやテキスト生成AIが普及し、使用されるシーンが増えてきています。AIモデルのトレーニングのためにインターネットからデータを収集して学習データとして使用している場合は、SNSなどから取得したテキストデータが偏見や差別的な表現や偽情報を含んでいる場合、AIとして出力される情報はそれらを含んだ質の低い結果となることが報告されています。
6-2.データセットは無料で手に入れることができる
企業がAIをインターネット上にある膨大な情報をそのまま使用した場合は前項で示したような結果になってしまう可能性も考えられます。一方で、政府や企業、大学などによってアノテーションされたデータセットはインターネット上でたくさん配布されており、かつ無料で手に入れることが可能です。検索画面から「データセット 無料」や「オープンデータセット」と調べると、多種多様な、数多くのデータセットが一瞬で出てきます。harBest(ハーベスト)でも一部のデータセットを無料で配布しています。そのデータセットがニーズに合致されるものがあればそのまま使用できますが、ほとんどの場合は完全にニーズと合致せず、無料のデータセットを活用しながら、新たにデータセットの作成が必要となるでしょう。
6-3.データセットを自ら作成する
上記のようなニーズと合致しない場合は、自作・自製するという選択肢もあります。データの集め方としては、すでに社内で蓄積されているデータを活用したり、個人の場合はアンケートなどを活用したりする方法があげられます。その場合は十分なデータの準備はもちろん、必要なデータを入力する必要が出てきます。手間や工数はかかってしまいますが、費用を抑えることができるというメリットがあります。一方で、デメリットや注意すべき点も多く存在します。先ほども述べたように、データセットには様々な種類があるため、自社の目的や用途に合致するものを選ぶ必要があります。使用しない、または目的に合致しないデータが存在するとAIの精度が落ちてしまうため、そのようなノイズやバイアスのあるデータは排除しなければなりません。また、自作する場合に最も懸念されるのは、著作権です。機械学習で使用されるテキストデータ、動画データ、画像データを商用利用する際は著作権などの権利関係に問題がないか注意する必要があります。
6-4.外注する
データを収集し、問題のないようにアノテーションを施す作業は膨大な工数、時間、人員を取られてしまうため、自ら集めるのは相当なリソースが割かれてしまい、社内で行うには難しい場合も考えられます。その場合はDX推進について解説した1章で取り上げたように、クラウドソーシング、クラウドサービスを活用する方法を検討すると良いでしょう。費用は自作する場合と比べるとかかってしまいますが、それに割かれるリソースやデメリットを考えると、外注するメリットは少なくありません。また、AI開発を手掛ける多くの企業はデータセットの作成において、高品質なサービスを提供しており、簡単に発注することができるようになってきています。DX推進を行うにあたり、どの方法でAI開発のためのデータセットを作成するにおいても、大前提として、AI、機械学習の導入により何を目的としたいのか、解決すべき問題はどのようなことなのかを明確にすることが最も重要です。
最後に
いかがでしたでしょうか。AIを導入するためには、データセットの質がAIの働きを左右することになります。また、データセットの作成は多くの会社がデータセットを無料で提供していることもあり、作成においてはハードルが低くなりつつあります。一方で、それをそのままデータセットとしてしまうと、社内のニーズとずれてしまう可能性や、データ収集を行ってアノテーションを施すということが人員や時間などのリソースにおいて容易ではない場合もあるでしょう。
株式会社APTOでは、DX推進の必要性を感じていてもなかなか踏み出せないお客様に寄り添い、その一歩を踏み出すための課題設定からAI実装まで包括的なサポートをしております。株式会社APTOの提供するプラットフォームサービスharBest(ハーベスト)を通じた多数のクラウドワーカーによる高品質なデータ作成により、AI開発において重要な教師データの作成を低コストかつスピーディーに準備することが可能です。AIの最新情報から要件定義、データ収集・作成からモデル開発まで、幅広くアウトソーシングできる株式会社APTOにお気軽にお問い合わせください。
詳しくは下記リンクよりサービスの内容についてご覧いただけます。
https://harbest.io/