すぐにAI学習が開始出来ないジレンマをどう解消するか

サグリ株式会社様

宇宙から見たグリッド状の地表データを活用し、 将来人類が直面する食糧問題や環境問題の解決に取り組んでおり、 衛星リモートセンシング、土壌分析、機械学習をはじめとした技術を融合させ、 地球の今と未来を創造するサグリ株式会社。
harBestを導入して衛星データのアノテーションデータ作成を行いました。
そこで機械学習する上での問題点や今後の展開などについて非常に興味深い取材をさせていただきました。

Global Manager & SoftwareEngineer
喜田圭伍さん

インタビュワー:本日は、サグリ株式会社の喜田圭吾さんにお話を伺います。喜田さん、どうぞよろしくお願いいたします。

喜田さん:よろしくお願いします。

 

■今回の案件の概要

「農地の区画情報の正誤を振り分けるアノテーション」

インタビュワー:まずは、今回株式会社APTOに依頼したアノテーションプロジェクトの概要を教えてください。

喜田さん:はい。弊社では、農地の自動区画をAIで検知するために、その教師データとして農地の区画情報をマッピングした画像データを用意しているんですが、今回はその画像の選別をお願いしました。今回の作業内容としては、あらかじめ矩形が設定されている画像に対して「正しい」か「誤っているか」で振り分けるというような作業になります。

インタビュワー:今回は正と誤の分類ということですが、他に矩形や塗り分けなど他のタイプのアノテーションもされているのでしょうか?

喜田さん:そうですね、今回お願いしたのは、画像を振り分けするという比較的単純なタスクでしたが、弊社ではそれ以外のタイプのアノテーションも実施しています。

【作業した実際のharBestのスマホアプリ画面】

アノテーション作業の初期表示
画像を正否をプルダウンで選択

■教師データ作成の問題点

「早く学習を始めたいのにできないジレンマ」

インタビュワー:日頃、教師データ作成でお困りのこと、課題と感じていることはありますか?

喜田さん:そうですね、日頃、教師データの作成を行っていますが、いくつか課題を感じています。まずひとつは、データの保存の方法です。弊社で扱っているデータは衛星データなのですが、衛星データは容量が大変大きいので、これらのデータを保存する方法に苦労しています。

インタビュワー:なるほど、衛星データが大容量だというのは聞いたことがあります。

喜田さん:そうなんです。次に、データ作成にあたるマネジメントコストがかかるという点です。データセットを用意する際、作業者にデータ作成の指示を行なったり仕様書を作成して提供するなど、作業が開始されるまでに相応の工数がかかってきます。また、作業者により作業されたデータが正しく作成されているかをチェックする工程も必要です。このように、機械学習エンジニア自身でやらなくてはならないことに時間を取られてしまってしまい、本来の仕事であるモデルの開発に集中できないという点があります。

インタビュワー:そうなんですね。これまで教師データを社外に委託されていたと伺っていますが、品質面での満足度はいかがでしたか?

喜田さん:はい、これまでデータ作成については、外部のクラウドワーカーさんに依頼していました。今回APTOに依頼した内容のように、比較的単純な作業が多かったので、データの精度や品質には満足していました。ただし、先ほどお話ししたようなマネジメントコストがかかってしまう点は感じていました。例えば、作業内容を先に洗い出して仕様書をお渡しするんですが、仕様書に網羅し切れていない例外パターンが出ると、都度質問が寄せられます。それに対して、随時、仕様と確認しながら「こうやってください」とお伝えするというコミュニケーションが発生します。これが地味に大変なんですよね。

また、作業が終わって仕上がってきたデータが期待通り作られているかを確認する作業を自社で行っていたのですが、この作業に煩わしさを感じていました。今回のような比較的シンプルな仕分け作業だと、確認作業の難易度や工数自体は高くないのですが、どっちかというと心理的負担が高いというか面倒というか、エンジニアにとってはやりたくない仕事になるのではないかと思います。

インタビュワー:早くデータを作って早く学習したいな、と思ってしまいそうですね。本来の業務であるモデルの開発になかなか着手できないジレンマと言いますか。

喜田さん:はい、なんでこの作業をやっているんだろうと思ってしまうんですよね。

インタビュワー:教師データ作成の委託サービスやツールを選定される際、どんなポイントを重視されますか?

喜田さん:そうですね、コストやエンジニア目線での使い勝手の良さなど、重視したいポイントが色々あるのですが、今お話ししたような課題を少しでも解決できるサービスがあればと国内外のツールやサービスを調べていました。

■APTOのサービスを使ってみて

「機械学習に特化したアノテーションサービスの安心感」

インタビュワー:では、APTOのサービスについてお伺いします。APTOのサービスに興味を持ったポイントはどんなところですか?

喜田さん:はい、APTOは機械学習に特化したアノテーションサービスの会社であるというところに興味を持ちました。通常、教師データの委託を依頼する会社やクラウドワーカーなどのアウトソーシングサービスは、教師データ作成だけでなく一般的な事務作業などをメインで受託している会社が多いので、そういった会社に作業を依頼すると、機械学習の考観点が念頭におかれることなく作業が進んでしまったりすることが多いと思います。「機械学習エンジニアがいる」という安心感や信頼性は高いと思いました。

インタビュワー:確かに、委託サービスは事務系のアウトソーシング会社がやっていることが一般的ですよね。「なぜ矩形でやるのか」というところからになりますね。
また、ツールの面だと、オープンソースや海外のものも多くあると思うのですが、国内で作業を依頼する場合には、外国語のツールだと作業中に作業者の方が操作法などで迷った場合、質問が多くなってしまったり、ということもありそうですね。

喜田さん:はい、言語のバリアはあると感じています。日本語対応という安心感はありますね。

 

「スマホアプリならではのコミュニケーションコストの削減」

インタビュワー:今回、APTOに依頼した感想をお聞かせください。

喜田さん:はい、これまでに苦労していたマネジメントコストが低かったと感じています。

ポイントはいくつかありますが、一つ目は、仕上がってきたデータの確認作業の点です。

先にお話しした通り、これまで自社で確認作業をおこなっていたのですが、その部分をお任せできたのは一番のメリットだと思います。

インタビュワー:そうなんですね、1件1件データを確認するのは煩わしいということでしたものね。

喜田さん:はい、「harBest」は作業をスマホアプリで操作できるというツールですが、作業者の人からすると、ラップトップPCよりはスマホの方が操作に慣れているので作業を進めやすいかと思います。これは他のツールにはない利便性だと思います。そのスマホアプリ上に、予めテンプレートが用意されているので、作業者の方はそのテンプレートに沿って作業を進めていただくことになります。

インタビュワー:普段使い慣れているスマホで作業することによって、作業や操作に迷うことが少なくなる。ツールの使い方や作業方法について説明するコストが減らせそうですね。

喜田さん:そうだと思います。仕様面についても、説明や質問への回答をアプリ上でほぼ完結することができるので、コミュニーケーションのコストが下げられると感じました。

喜田さん:次に、ツールの管理画面上のメリットとして、Web上でリアルタイムの作業の進行状況を見られるようになっている点があります。作業途中で「ちゃんとやっている」ということを視覚的に確認することができる点は良いと思いました。

インタビュワー:なるほど、作業を外部に依頼した場合、納品されるまで進捗は確認できないですものね。大量のデータを作成する場合は、うまく進捗しているか、予定通り納品されるのかは気になりますよね。

喜田さん:はい、安心感につながると思いました。
また、データの保管についての利便性も感じました。作成された教師データは「harBest」上に上がってくるので、「harBest」にデータを置いてさえおけば、その上で作業もできる。膨大なデータの置き場、そして作業場の両方として利用できる点にメリットを感じました。

インタビュワー:データの保管の問題にも役立てられそうということですね。

リアルタイムに進捗状況が確認できるharBest管理画面

■今後の展望:

インタビュワー:それでは、今後の展望についてお伺いしたいと思います。事業の展望について教えてください。

喜田さん:はい、弊社では、衛星データを使用して、農業だけでなく環境問題とかにもテクノロジーでいろいろな課題を解決していきたいと考えています。

インタビュワー:ありがとうございます。今回作成された教師データはどのように活用されるのでしょうか?

喜田さん:今回作成されたデータは、AIで農地の自動区画化のプロジェクトをやっていて、そのための学習データとして使用していく予定です。

インタビュワー:ちなみに、農地のデータということなので、時期によって区画が変わったり、季節によっても見え方が異なってきたりするんじゃないかと思います。その場合はデータを追加したりするのでしょうか?

喜田さん:はい、次は春ごろにデータを作成する予定です。毎年何月に作って、ということではないのですが、AIの精度が出なかったらそれに応じて柔軟に作成していくことになると思います。

インタビュワー:次回もAPTOに依頼するメリットはありそうですか?

喜田さん:そうですね、色々なアノテーションサービスの利用を検討してはいますが、アウトソーシングやクラウドワーカーに依頼した場合、ワーカーが別の方になることが一般的だと思いますし、一からプロジェクトを立て直さないといけなくなってしまい作業発足から完了までのコストがかかってきます。その点、仕様やプロジェクトを理解しているAPTOに依頼する安心感はあると考えています。

インタビュアー:今後、例えば機械学習エンジニアがプロジェクトに張り付いて、仮に、精度が出なかった場合に「じゃあ次はこういう方法でデータを追加してみましょう」など提案させていただくようなオプションプランが用意される予定です。こういったプランについてはいかがですか?

喜田さん:そうですね、オプションはあったほうが良いと思います。

インタビュアー:今回のような比較的簡単なアノテーション作業の場合は安価に仕上げて、難易度が高いものや、もっと精度の高いものが必要となったときに使い分けができるとよいですよね。

喜田さん:そうですね。柔軟に選択できると助かります。特にサポートが手厚いと継続的にアノテーション作業を行う上で説明コストが減りますし、機械学習エンジニアの仕事に集中できるのが良いと思いました。

インタビュアー:他に便利だと感じたことございますか?

喜田さん:アノテーションデータを途中でダウンロード出来るので、先に学習に回すこともできるので便利ですね。

インタビュアー:本日は貴重なご意見・お時間いただきありがとうございました。今後の進化に是非ご期待ください。