株式会社リコー様 【開発責任者インタビュー】開発プロセスを効率化したい。単純で大量にあるアノテーション作業を、まとめてアウトソーシングした結果…
世界初「360度カメラ」が生まれた部署で、更なる挑戦が続く。
機械学習のデータニーズが高まる今、ITサービスを担うリードオフマンの開発課題とは。
御社の事業内容と部署の概要について教えてください
株式会社リコーはオフィスにかかわる製品とシステムを合わせて支援する、デジタルサービスに力を入れています。私が所属しているのはSmartVision事業センターといって、元々デジタルカメラの部署だったところです。リコーのカメラの歴史はかなり長いのですが、iPhone が出てきた頃から、デジタルカメラメーカーは業種転換が求められるようになりまして、当社では全天球カメラTHETAの開発に乗り出しました。
THETAX、全天球カメラ。
2013年に初めて「THETA」というカメラを出しました。ワンショットで360度周りが全部撮れるという新しい取り組みです。その後、THETA-m15で動画対応、THETA-Sで高解像度化を行い、VRでの活用が進みブレークしました。また、初期の頃から、不動産のバーチャルツアーで活用されていて、近年でもコロナをきっかけに利用が急増しました。現在も、不動産や建築を筆頭にビジネスサイドでの活用が伸びてきています。
最新の「THETAX」ではどんなことができるのですか?
最新の「THETAX」ではどんなことができるのですか? 最新のTHETAXはスマートフォンのような液晶パネルがついていて、操作、閲覧を行うことができるようになっています。https://www.theta360.biz/(THETA公式ホームページ)
https://www.theta360.biz/(THETA公式ホームページ)
小田巻さんのキャリアを伺ってもよろしいですか。
小田巻さんのキャリアを伺ってもよろしいですか。 私は元々ハードエンジニアで複写機の開発にかかわっていましたが、2014年から2016年にコロンビア大学で2年ぐらい客員研究員をしていた時期がありまして。そこで、コンピュータビジョンの技術を高めて、これらを今技術開発に活かして働いています。
「THETA_S」はもうブレイクしている頃ですかね。
はい、既にTHETAはあって、大体この業界の人であれば存在を皆知っていたのでいろんな意味で助かりました。THETAには2つの魚眼レンズをくっつけて全天球したカメラですが、複数のレンズで全天球の画像を作るというアイデア自体は、アカデミアの分野では1997年頃からあったんです。このようにカメラ技術と画像処理技術を組み合わせる技術はコンピューテーショナルフォトグラフィーというんですけど、全天球カメラのアイデアを作ったうちの1人が、コロンビア大学のShree・K・Nayarという方で、その分野の第一人者なんです。その研究所に二年間くらい行ってきました。
前例があったんですね。
2000年代初期にはすでに360度カメラとそれを不動産に応用した事例はあったそうです。現在でも不動産は最も重要な活用分野で、不動産向けの自動切り出し、ステージングAI、超解像とかを開発したりしてます。また、360度画像から動画を自動的に生成する技術も作っています。
自動で動画が生成されるんですね。
はい。これは部屋を広く見せるためにカメラパスを作って動画にするサービスです。
AIステージングとはどんな機能でしょう。
不動産中古販売のときには、それっぽい家具を入れて撮影をしたりするんですけど、わざわざ業者が家具を買って搬入するのは大変なので、CGで家具を置いておいて、バーチャルに実現するのが、バーチャルステージングです。これはフルオートで行うサービスです。ここでAIが必要になります。たとえばですが、廊下にいきなりソファーがあったらおかしいわけです。ドアの前にソファーがあっても変。そこで、ドアや窓のラベリングが必要になりますよね。こうしたデータをもとにAIを駆使して、サービスを開発しています。
小田巻さんは現在、室長でいらっしゃいますよね、開発のかたは何人くらいですか?
10名以下でそれほど多くはありません。実際のリサーチはリコーの海外の研究所、アメリカのベンチャー企業と協業して進めています。
それはみなさんTHETAにかかわるチームなのですか?
基本的にはそうです。超解像なんかはTHETA用に機械学習で開発を進めて、国際的なトップの学会に発表しているので、高いレベルでの開発が行えているとは思います。
家具の「ラベリング」や「セグメンテーション」を弊社で行いましたが、あれはどういった活用になっているのでしょうか。
主にAIステージングに御社のアノテーションデータを利用させていただいております。
「harBest」を使うきっかけは何でしたか?
リサーチャーの「リソース」や「スピード」ですね。それ以外では「バイアス」の無さ、リサーチャーにはバイアスがあって、たとえば、自分の仮説と違ったり自分の意思とそぐわない画像を自分でラベリングするのは嫌じゃないですか。時間もかかるし、結果も悪いし。そんな時、ラベリングにバイアスがないアノテーターの人にぱっとやってもらいたいとなりました。お金は発生しますが、その結果をもとにフラットに議論ができますし、プロセスを適正に回せるところを私は気に入りまして、色々と発注させていただいてますね。
ありがとうございます。皆様の評判はいかがでしょうか。
直近でお願いした物体検知用のアノテーションですが、海外ではうまくいかなかったんです。暖炉やキッチンの仕様が日本と海外では異なっていることもあって、困っていたんですが、貴社に依頼してスピーディに処理していただけたのは助かりましたね。アノテーションだから、誰がやってもきっと最終的にはできるんですけど、速いのが一番ありがたいです。正確性に関していうと、このユースケースではそこまでこだわっていません。高い精度が必要な時は限られているので、スピードにメリットを感じてます。
色々なツールを使って試されているんでしょうか。
アノテーションツールはいろいろと試しています。できるだけ世の中にあるものを使っていくスタイルです。作業に関しては、なんだかんだで最初はリサーチャーが行うことが多いですね。後に、パッと数を増やせばOKとなれば貴社にお願いするパターンが多いです。反対に、簡単なアノテーションで、もうそれで全て決着つく場合は、リサーチャーにやってもらうだけ時間の無駄ですから、それはそれでまとめて御社にお願いするパターンもあります。
納品されるものに対して不満などはありましたでしょうか。
不満というか、別に御社の問題ではなく、発注の際に説明が難しいですね。ラベリングはいままでラベリングされてないものをラベリングするのが基本ですから、自然と専門的になる傾向があります。猫とか犬みたいにわかりやすいものは今更ラベリングする必要はないですよね。専門的なものほど説明をするために言語化するのが難しい。
今後、ツールとして改善してほしいポイントはありますか。
修正や説明が簡単になるといいなとは思います。本当はもうちょっと気軽にいろいろ出したいなっていう思いがあるんですよ。たとえば、先程あげた専門的すぎるラベリングなんかですね。一般の人にウレタン吹付けをした壁を選んでくださいって言っても、何?ってなっちゃうじゃないですか。本当に必要で出したいのは、そういうマニアックなデータですが、そういうものにはやり取りが必要になるので、そこは改善できるといいと思います。
最後に、今後のビジョンや目標があればお聞かせください。
全天球カメラって全部が映るんですけど、人が見るにはちょっと不便だと思っています。実際には様々なものが映っているので、機械が見た方がいいはず。そうするとやっぱりそこには機械学習の分類+シミュレーションとか、物体検知とか、機械の目によるラベリングが発生します。今後は人が見るのではなく、人間のかわりに機械が見て、お客さんの仕事がうまく回るような、そんな価値を提供できるようにしていくことを目標にしています。