【教師データ/データセット】AI開発において重要な教師データとは?
近年ではDX推進や、企業における深刻な人手不足が課題となっており、その解決策の一つとして、AIの導入が検討される場面が増えてきています。AIは様々な場面で活躍が期待される一方で、AIをなぜ導入するのか、どのように運用するか、何を準備するべきなのかを事前に明確化させておかなければ、コストをかけて開発しても有効活用できず、DX推進の一助となるのではなく、社内でAIや最新の技術を敬遠する雰囲気が醸成されてしまい、「DXの後退」につながってしまうきっかけにもなり得ます。
この記事では、AI開発においてその精度を左右する教師データについて解説します。
目次
AIとは
AIは多岐にわたって使用される言葉ですが、AIはArtificial Intelligence:人工知能という意味で、人間の思考プロセスのように動作するプログラムや技術全般のことを指します。AIが近年のDX推進において注目されているのは、日本社会において懸念されている人手不足や、それに伴って、少人数で業務を回すための効率化や省力化(作業負荷の軽減)、そして高精度に作業を持続させることができるという点にあります。
AI開発に使われている技術―機械学習
AI開発にとって最も重要とされているのが、「何をAIに学習させるか」ということです。
AIの開発は大量のデータを集めて、それらを読み込ませ、データの中の対象物の特徴やパターンを機械が自動で学習して特徴をつかみ、認識できるようになることで、正解となる対象を自動的に検出できるようになります。これをAIの分野では機械学習(Machine Learning)といいます。
したがって、AIに膨大なデータを反復的に学習させることで、データの中の規則性を学び、対象物について規則の通りにAの特徴を持つものはA、Bの特徴を持つものはBと判断することができるようになります。世の中には様々なAIが活用されていますが、どのAIも最初にデータなくして活用することはできません。
機械学習に使われるデータの集合体―データセット
機械学習で使われるデータの集合体をデータセットといいます。機械学習の際には、開発の順序、目的に応じたデータセットを利用する必要があります。そのデータセットは3つの種類に分けられます。
トレーニングセット(Training Set)
トレーニングセットは機械学習モデルを構築するために最初に使用される学習用のデータセットです。その名の通り、トレーニング(訓練)のために使われ、全体の半数以上を占める最も規模の大きいデータセットで、機械学習モデル(分類器とも呼ばれる)の変数(パラメータ)を更新するために用いられます。
バリデーションセット(Validation Set)
バリデーションは英語では「確認、(条約などの)批准」という意味がありますが、AIの文脈では「ある基準と合致しているかどうかを精査する」と理解するとわかりやすいでしょう。
このデータセットではモデル学習は行わず、先ほどのトレーニングセットで訓練したものの中から優れているものを精査します。そして、手動で設定している変数が良いかどうか判断し、チューニング(調整)を行います。
テストセット(Test Set)
テストセットは構築した機械学習モデル、データの精度を確認するために使用されるデータセットで学習は一切行いません。上記の二つのデータセットを使用してしまうと本来の数値と異なる数値が出てしまい、正確ではないため、テストセットを用意することで、正当な精度検証ができるようになります。
機械学習の3手法とAIの精度を左右する「教師データ」
AIが活躍するためには、機械学習の技術が必要となります。その機械学習にも大きく分けて、「強化学習」「教師あり学習」「教師なし学習」の3つの手法があります。いずれも大量のデータを読み込ませることには変わりはありませんが、それぞれの学習において準備するデータに違いがあります。
強化学習
強化学習とは、正解を与える代わりに将来の価値を最大化するために学習させる手法のことをいい、動的環境の中で試行錯誤のやり取りを重ねることでタスクを実行します。
教師あり学習/教師なし学習
「教師あり/なし」とは、教師データを用いて学習させるか、そうでないかの違いとなります。
教師データとは、教師というその言葉の指すイメージから、「入力されたテキスト・音声・画像に対する正しい出力(応答)について記載した正解データ」のことを指します。AIが業務の中で実利用される際には、「教師あり学習」が利用されることが多いですが、このデータの質の高さがAIの精度を左右するのです。
AI開発において最も重要な工程―アノテーション
業務用AI開発において,有効な「教師あり学習」を行うためには、膨大なデータを集めた後、その正解データとなる教師データを作成することが必要となります。
その正確なデータを準備する作業をアノテーション(annotation)といいます。
アノテーション(annotation)とは、英語の辞書で調べてみると「注釈をつけること」と出てきます。これがAI分野においては「特定のデータに対して情報タグ(メタデータ)を付け加える」という意味になります。
さらに詳しく説明すると、「教師データを作成する際に、テキストや音声、画像などのデータ情報タグ(メタデータ)を付加する作業」のこととなります。機械学習においてデータ収集した後、データにラベリングすることでそのラベルごとに仕分けをして、そのラベルの目的に沿った学習を行うことができるようになります。
このアノテーションは、AI開発の一過程ではありますが、AIによって代用することはできず、人の手によって準備されます。
すなわち、AIは自動的にすべてを解決してくれるわけではなく、人の手が加わって初めて活躍することができるのです。
教師データセットの作成方法
ここまで見てきたように、業務用のAI開発においては、膨大なデータのみならず、アノテーションされたデータセットが必要であることが分かりました。
それでは教師データのデータセットはどのような方法で作成すればよいのでしょうか。
データセット作成の前に知っておきたいこと
インターネット上ではデータが取られていて膨大なデータがあふれています。AIが普及する一方で、機械学習に必要なデータが枯渇する可能性があると懸念されています。学習データが不足している要因として、アノテーションが人間の手で行われているように、機械が自らモデル学習ができるまでには至っておらず、正確なデータを収集する場合はどうしても人間の手が必要となってしまう点にあります。
最近では画像生成AIやテキスト生成AIが普及し、使用されるシーンが増えてきています。AIモデルのトレーニングのためにインターネットからデータを収集して学習データとして使用している場合は、SNSなどから取得したテキストデータが偏見や差別的な表現や偽情報を含んでいる場合、AIとして出力される情報はそれらを含んだ質の低い結果となることが報告されています。
データセットは無料で手に入れることができる
企業がAIをインターネット上にある膨大な情報をそのまま使用した場合は前項で示したような結果になってしまう可能性も考えられます。
一方で、政府や企業、大学などによってアノテーションされたデータセットはインターネット上でたくさん配布されており、かつ無料で手に入れることが可能です。検索画面から「データセット 無料」や「オープンデータセット」と調べると、多種多様な、数多くのデータセットが一瞬で出てきます。harBest(ハーベスト)でも一部のデータセットを無料で配布しています。
ここでは、インターネット上で配布されているデータセットの例を紹介します。
e-GOVデータポータル(以前の名称はDATA GO JP)
日本政府の中央行政により提供されているオープンデータポータルです。人口、社会保障、運輸、行財政、企業、家計、経済、国際、司法、教育、国土、気象など日本における様々なデータを検索して探すことができます。データも画像や動画、テキストなど合わせて約2万項目ものデータセットが提供されており、2次利用が可能となっています。
民間企業の提供しているデータセットが一覧になっているサイトです。LINEヤフー株式会社の提供するYahoo!データセットや楽天グループ株式会社が提供しているデータセット、弁護士ドットコムの株式会社が提供する法律相談データのデータセットなど多岐にわたるデータセットが提供されています。
また、立命館大学が提供している浮世絵デジタル情報や、大阪大学が提供する対話エージェントと人との対話の様子を収めたマルチモーダルコーパスなどの研究機関から提供されているデータセットもあります。
世界中のデータサイエンスに携わる人々のコミュニティとなっており、現在約29万件の高品質なデータセットが提供されています。
経済、エネルギー、金融、生物学、社会学、物理学、政府、地理、気候、コンピューターネットワークなど膨大な多岐にわたるデータが公開されています。
ワシントン大学によって提供されているもので、ノイズデータを混ぜた顔認識の大規模なデータセットを公開しています。トレーニングセットでは470万枚の写真が含まれています。
MAVEN ANALYTICS DATA PLAYGROUND
ユニークなデータセットを提供しているサイトです。ニュージーランドで盗まれた車のデータセットや、ブロックおもちゃのレゴのデータセットなど、他ではあまり見ないデータセットを提供しています。
ここではインターネット上に存在するごくわずかな無料のオープンデータセットの例を記載しました。
インターネット上で公開されているデータセットがニーズと合致するものがあればそのまま使用できますが、ほとんどの場合は完全にニーズと合致せず、無料のデータセットを活用しながら、新たにデータセットの作成が必要となるでしょう。
データセットを自ら作成する
上記のようなニーズと合致しない場合は、自作・自製するという選択肢もあります。データの集め方としては、すでに社内で蓄積されているデータを活用したり、個人の場合はアンケートなどを活用したりする方法があげられます。その場合は十分なデータの準備はもちろん、必要なデータを入力する必要が出てきます。手間や工数はかかってしまいますが、費用を抑えることができるというメリットがあります。
一方で、デメリットや注意すべき点も多く存在します。
先ほども述べたように、データセットには様々な種類があるため、自社の目的や用途に合致するものを選ぶ必要があります。使用しない、または目的に合致しないデータが存在するとAIの精度が落ちてしまうため、そのようなノイズやバイアスのあるデータは排除しなければなりません。
また、自作する場合に最も懸念されるのは、著作権です。機械学習で使用されるテキストデータ、動画データ、画像データを商用利用する際は著作権などの権利関係に問題がないか注意する必要があります。
外注する
データを収集し、問題のないようにアノテーションを施す作業は膨大な工数、時間、人員を取られてしまうため、自ら集めるのは相当なリソースが割かれてしまい、社内で行うには難しい場合も考えられます。その場合はDX推進について解説した1章で取り上げたように、クラウドソーシング、クラウドサービスを活用する方法を検討すると良いでしょう。費用は自作する場合と比べるとかかってしまいますが、それに割かれるリソースやデメリットを考えると、外注するメリットは少なくありません。
また、AI開発を手掛ける多くの企業はデータセットの作成において、高品質なサービスを提供しており、簡単に発注することができるようになってきています。
教師データ作成の際に注意するべきことは?
業務に適したデータセットの準備が必要
先ほども述べましたが、社内に適したデータセットではなく、その業務を遂行するのに必要なデータセットが必要となります。データセットには様々な種類があるため、しっかりと目的や用途と合致しているデータセットなのかを確認する必要があります。
著作権に注意
データセット自作する場合の注意点でも述べましたが、インターネット上に存在するデータセットが著作権法に違反していないかを確認する必要があります。
日本の著作権法では、機械学習のために第三者が著作権を持つデータをもとに学習させ、学習済みモデルを公開しても問題ない、とされていますが、第三十条の四では「著作権者の利益を不当に害することとなる場合は、この限りでない。」と記載されているため、その恐れがないか確認する必要があります。
データセット完成後も繰り返し検証や改善が必要
データセットは完成したとしても常にベストな状態で目的を達成できているとは限りません。運用しながらPDCAサイクルを回すことでより効果的に運用できるようになります。
十分な量のデータを集める
高い精度のAIを開発するためには、想定されるものを網羅的に、十分な量のデータを集める必要があります。データが足りない場合は、機械学習において正しく推論できなくなってしまい、精度が低くなってしまいます。AIを開発する前にどのようなデータが必要になるのかをじっくり検討する必要があります。
バイアスのない均一なデータセットにする
十分な量のデータを集めたとしても、そのデータに偏りがあれば機械学習の精度に影響が出てしまいます。種類によってデータの数の偏りがないようにデータの収集が必要となります。
不要なデータを削除する(欠損値の処理・異常値/ノイズの除去)
収集でしたデータの中には、何らかの理由で記録されていない値が含まれてしまいます。その値を欠損値と言いますが、それがあると統計的分析ができない場合があるため、欠損値を含むサンプルの削除や欠損値を統計学的アプローチで予測することで補完する処理が必要になります。
また、他の計測値から極端に離れてしまっている場合があります。それを異常値、または外れ値と言います。計測の不備や入力ミスなどが原因となり発生する可能性がありますが、それが分析によって何らかの示唆を得られる可能性もあるため、除去しない場合もあります。
いずれも除去する場合がなぜ外れ値として除外したか理由を明確にしておいたほうがよいでしょう。
APTOが提供するデータセット
APTOは、様々なデータセットを作成しております。
最近は、LLM開発のFine Tuningに必要なInstruction Dataを日本の大企業だけではなく、グローバル企業にも提供をしています。Instruction Dataにお困りの企業様は是非ご連絡ください。
◼︎Instruction Data提供
https://prtimes.jp/main/html/rd/p/000000062.000053927.html
◼︎harBest Datasetsプラットフォーム
https://data.harbest.io/ja
最後に
いかがでしたでしょうか。AI開発において、質の高いアノテーションが施された教師データのデータセットが、その精度を左右することがお分かりいただけたかと思います。
harBest(ハーベスト)ではDX推進の必要性を感じていてもなかなか踏み出せないお客様に寄り添い、その一歩を踏み出すための課題設定からAI実装まで包括的なサポートをしております。
AI開発において重要な教師データの作成には、弊社の多数のクラウドワーカーによる高品質なデータ作成とWEBでの発注による、スピーディーかつコストパフォーマンスの高いデータセットの準備が可能です。 AI開発につきまして下記よりお気軽にお問い合わせください。