「アノテーションツール」って何? 用途や人気のサービスをご紹介!
突如AI開発のプロジェクト担当になったものの、一体どのようなアノテーションツールを選べばよいものか・・そんな不安を感じている方も多いのではないでしょうか。
人工知能(Artificial Intelligence、AI)は、コンピュータやマシンに人間のような知能を持たせる技術やアプローチを研究するものです。AI開発は、これまで人間が脳内で行っていたような論理的な思考、問題解決、学習、推論、判断、自然言語処理、画像認識、音声認識などのタスクを実行できるシステムやアルゴリズムの開発に関わる学際的な分野です。
そのようなAIが正しく作動するために必要なもの。それが「正しくアノテーションされた教師データ」です。これをいかにして作成するか。これがまさにアノテーションツール選びにかかってくるのです。
1.アノテーションツール判断基準
「正しくアノテーションされた教師データ」といっても様々な種類があり、手法があります。そして、アノテーションツールも多種多様に存在しています。数多く存在するアノテーションツールの中から 何を基準に選べば最短でゴールにたどり着けるのか。
わざわざ言うまでもない事ですが、目標としているプロジェクトが「このアノテーションツールを使えば達成できる」という、必要条件や指標が目的と合致していることがまず第一です。その上で、無料で試せたり、操作がわかりやすいという「他より使いやすい」機能が多いと理想的と言えそうです。
では、ポイントを一つずつ見ていきましょう。
1-1.シンプルな操作性
シンプルで使いやすい「ユーザーフレンドリーなインターフェース」は重要といえます。アノテーション作業では膨大なデータを処理するため、主要な機能や操作はアイコンを見れば直感的にわかるものが判断ミスを減らし、結果的に迅速な作業や高品質なデータ収集につながります。多くの人がマニュアルを読まなくても使い進めることができることが理想です。
1-2.作成可能なデータ形式数
教師データ(ラベル付きデータ)は、機械学習や人工知能のモデルを訓練するために使用される重要なリソースです。その作成のためのアノテーションツールは、自社で構築したいAIプロジェクトの目的に合わせて選ぶ必要があります。
また、プロジェクトの展開に応じて、必要な形式が増えていくことも想定されます。複数のデータ形式に対応していれば、同じ素材を利用して展開することも、操作方法を学ぶ工程も、より少ないリソースで行えて好都合といえます。それぞれの特性を確認していきましょう。
◎物体検出(バウンディングボックス)
画像内の物体を囲む四角形の領域を示すために使用されます。四角の領域は物体の位置と大きさを示し、機械学習モデルに物体の位置情報を提供するのに役立ちます。
◎多角形で領域指定(ポリゴンセグメンテーション)
画像内の物体や領域の輪郭を多角形の辺で示すアノテーション手法です。 主にセグメンテーションの一部として使用され、物体の領域をより詳細に示すための手法です。
◎領域抽出(セグメンテーション)
画像内の物体の形状や位置情報をより詳細に認識するために使用します。ポリゴンは独立した対象物を1つ1つ選びますが、セグメンテーションは全てのピクセルに当てはまるラベルを付けていきます。そのため、この方法はより高度な認知を行うことができます。
◎キーポイント
画像内の特定の位置やポイントを示すアノテーション手法です。これは、物体の部位や興 味のある特定のポイントを検出するために使用されます。物体検出や人物の姿勢推定、顔の特徴点検出など のタスクに広く応用されています。
1-3.半自動のアノテーション機能
アクティブラーニング機能ともいわれ、学習済みのモデルから半自動でタグ付けをしてくれる機能になります。機械学習モデルがデータを選択し、予測をもとにアノテーションをしてくれるという、非常に理想的な機能です。ただ、予測が常にこちらの想定した方向に沿うとは限らず、場合によっては手動で行った方が良いケースも数多いのも実状です。ケースにマッチすれば非常に有効な手段といえます。(学習済みモデルで学習していない物体についてはタグ付けはされません。)
1-4-.進捗管理機能
アノテーション作業は、機械学習モデルの訓練データを作成するために重要なプロセスですが、膨大なデータや複数のアノテーター(ラベラー)が関与する場合も多く、進捗管理が必要になっていきます。
・作業マニュアル
・タスクの割り当てと管理
・工数や進捗状況の可視化
・期限や予算
このような情報のやりとりが一目で分かりやすく、かつ簡単にデータを引き出せる環境が理想的です。
1-5.ユーザー管理機能
アノテーションツールをチームで利用する場合や、1つのプロジェクトを複数の企業などで利用する場合など、ケースに応じてやり取りを行う「ユーザーの連絡先」が一元管理できることも、非常に使い勝手の良い機能となります。
・作業マニュアル
1-6.無料トライアルの有無
どんな動きができるのか?操作性は?ピクセルの細かさは?無料トライアル版は多くの場合「有料ならもっと使える機能」が制限されていますが、まずは使ってみないことには、「何ができたら理想的なのか」に気づけないことも数多くあります。
試して使用できれば、おおよその感触はつかむことができますし、簡単なアノテーション作業であれば無料版のみで事足りることもあります。無料トライアルが用意されていて、実際にアノテーションツールを試すことができていれば、安心して有料コースに進むこともできます。
1-7.ピクセルの細かさ
アノテーションのピクセル数の細かさは、主に画像セグメンテーションや物体検出などのタスクに関連します。これらのタスクでは、画像内の特定の領域や物体をピクセル単位で識別し、アノテーションする必要があるからです。特定な領域を囲むための「ピクセルの細かさ」は、その精度に比例しますが、その分、正しく囲む作業 工程の重さも増します。ピクセル数を自在に調整できれば、精度に必要な「作業工程の重さ」を選択してプロジェクトを進めることができるため、条件に合わせて効率よく作業を配分できるといえます。また、必要に応じで確認箇所を拡大・縮小ができることも 作業効率と精度を上げる有用な機能です。
・タスクの割り当てと管理
1-8. 日本語対応
AIテクノロジー開発の最先端といえば海外のアノテーションツールです。数多くのユーザーと多くのノウハウの蓄積を持っているといえるでしょう。ですが、いざ目的のツールをダウンロードしてみても日本語の表記がなくて調べるのに必要以上の時間がかかったり、思うように動かなかったりすることもあります。対して 国内開発のアノテーションツールは、使い方や使用に関する配慮が細やかで、多くの場合に使いやすいアノテーションツールであるといえます。
1-9.カスタマーサポート
アノテーションツールを選ぶ場合、
・気軽に無料で試せるオープンソースツール
・最先端テクノロジーやノウハウの詰まった海外製ツール
・日本語での操作方法やご不明サポートに対応している国産ツール
まずはこの三つのうちから選ぶことになるでしょう。
その中でカスタマーサポートがあるのは 有料の海外製・日本製のいずれかになります。語学に堪能で、操作にも不安がなければ心配はいりませんが、メールや電話で分からないことなどについてののコミュニケーションがとりやすい点を考えた場合、日本語でのサポートが得られることは非常に安心といえます。
1-10.出力形式
最も重要なポイントは、学習先のコンピューターに取込可能な出力形式に合わせて選ぶことです。時間をかけて作成した学習データを「コンピュータに取りこめない!!」などという悲劇が起きてはならないからです。出力形式を変換する方法などもありますが、変換がうまくいかない場合もありますので、まずは必要な形式を知り、その形式での出力が可能なアノテーションツールを選択しましょう。
このような情報のやりとりが一目で分かりやすく、かつ簡単にデータを引き出せる環境が
1-11.品質管理機能
AIの普及に伴い、AI開発に着手する企業や研究機関は大幅に増加傾向にあります。それに伴い、アノテーション作業を外部委託することも増えています。そのような外部委託先としてアノテーションサービス会社を利用する場合、アノテーションの精度や品質管理はどのように見極めていくのがよいのでしょうか。
①希望要件に応じたアノテーション種類に対応可能か
②専門知識のある技術者からクラウドワーカーまでを抱えており、希望品質に応じて対応可能か
③検品のチェック体制などの品質管理体制は充分か
④希望納期や予算に対して柔軟に対応可能か
⑤機密性に関する対策は充分か(クラウド/オンプレミス)
最低限、上記の点で確認ができていれば、安心して外注することができます。
・期限や予算
★注目のアノテーションツール機能レビュー
harBest【自動評価機能】
harBestでは、非常に手間の掛かるデータ収集もWebで依頼するだけで、全国各地のクラウドワーカーがお客様に代わってデータ収集を行います。そして、依頼先のワーカー作業品質を自動評価する仕組みがharBestには組み込まれており、クラウドワーカーに依頼する場合に、アノテーションの同一作業を複数回行ってもらう際に設定して使用します。この機能を利用するために3回、5回、7回などの奇数回数で作業を依頼します。
例)3人のワーカーに依頼した結果が重なって表示されています。
この仕組みを利用することで不特定多数のクラウドワーカー作業の品質を担保しています。公開範囲が「非公開(Web)」や「一部公開(スマホ)」を利用して、社内メンバーなどが作業する場合は、作業コストが高くなってしまうため、”1回”を指定することを推奨しております。
【企業紹介】株式会社APTO
画像・動画・音声などのアノテーションデータをWebで簡単発注。全国多数のクラウドワーカーが作業を一斉に実施するため、データ作成の高速化・低価格化を実現しています。
https://harbest-support.zendesk.com/hc/ja
2.得意分野別オススメツール5選はこれ!
まずは構築したいAIモデルに合っているものがどれかで考えましょう。そのうえで、人手不足や品質管理に課題などがある場合、専門のスタッフと多くのノウハウを蓄積したアノテーション代行サービスの利用も有効な手段です。
必要な時期に、必要な部分のみを外部委託することにより、コストや時間の大幅な削減に繋がります。アノテーション代行会社はアノテーションを専門とするため、多くの課題の解決策の蓄積はもちろん、効率的かつ希望品質に合った作業を代行してくれることもおすすめな点です。
2-1.harBest
AI・人工知能開発で時間と手間のかかる学習データ作成を 低コスト・高品質に作成し、ノーコードでAI開発、 AIビジネス効果測定まで完結出来るプラットフォームです。
2.2.fastlabel
高度なアノテーション自動化技術を生かして開発した、オンプレ環境でも教師データ作成工数削減を実現するサービスです。 ファストラベル社が蓄積したデータをもとに開発した自動化技術によって、1000種類を超える画像・動画データ上の物体を自動的に検出することが可能になります。
2-3.Labelbox
データ中心のプラットフォームを使用すると、AI を使用してビジネスの成果を加速できます。Labelbox は、すべてのデータに対してエンタープライズ グレードのセキュリティとガバナンスを提供しながら、データを高度な AI アプリケーションに変換できるように構築されています。
2-4.VOTT
VoTTは2018年にMicrosoftが発表したオープンソースアノテーションツールです。学習済みモデルを使用したアノテーションにも行えます。作成したモデルデータがどの程度の精度なのか確認する際にも使用できます。 主要な3つのOS(Windows、Mac、Linux)で使用できます。
2-5.doccano
doccanoは、オープンソースのアノテーションツールです。テキスト分類、系列ラベリング、系列変換といったタスク向けのアノテーション機能を提供しています。doccanoを使うことで、センチメント分析、固有表現認識、テキスト要約などのためのラベル付きデータを作成できます。プロジェクトを作成し、データをアップロードして、アノテーションを開始するだけです。数時間でデータセットを構築することができます。
2-6.表まとめ
得意分野別おすすめツール5選!では 国内・海外での代表的な外部委託アノテーションサービス会社や、気軽にダウンドードして利用できるオープンソースツールを、画像・テキストと特化した種類別にご紹介しました。取り出したいデータを基準にご検討ください。
3.まとめ
今抱えている課題に対して総合的にマッチしたアノテーションツールには出会えましたでしょうか。
電気・ガス・水道のような、都市部にあっては当然のように存在するインフラと同等に、今後ますますAI(人工知能)の技術は生活の中であたりまえに存在する流れとなっていくことでしょう。
医療では画像診断、サポートセンターではチャットボット・配送センターでは荷物の積載計画など、既に実用化し、AIなくしては業務が成り立たない範囲は広がる一方です。
今のAIにできること、得意なこと、それは現在も刻々と進化し続けています。その様々な進化に係り、プロジェクトを支えるのは 現時点では私たち人間の発想の力と創造力でしかありません。ゴールに最も近いアノテーションツールを選んで、AIツールとビジネスのさらなる展開に期待しています。