コラム

【harBest Expert誕生】LLMデータ作成専門のクラウドソーシングサービスを徹底解説

公開日 | 2025.03.26 最終更新日 | 2025.09.12

日本初の専門家によるLLMデータ専門のクラウドソーシングサービスが誕生しました。その名も「harBest Expert」。

「生成AI元年」と呼ばれる2023年以降、大規模言語モデルの性能向上のため日本語データセットの重要性が叫ばれる中、LLMデータ専門のクラウドソーシングサービスは日本国内にはありませんでした。

これまでAI開発の教師データ作成、アノテーション、LLMデータ作成ができるクラウドサービスとしてたくさんの企業や研究機関で活用されてきた「harBest」ですが、1億人の日本語母語話者の知恵と経験を活かし、日本で蓄積された財産であるノウハウをAIに応用して国際社会でのプレゼンス向上を目指すために作られた当社が新しく提供するサービスが「harBest Expert」となります。

今回の記事では、国内におけるAI・LLM開発の取り組みを加速するために誕生した「harBest Expert」について詳しく解説します。

2025年8月27日発表のプレスリリースはこちら

2025年3月25日発表のプレスリリースはこちら

harBest Expert 公式ページはこちら

（参考）当社開発のLLM学習用データセット（数理推論）はこちら

1 「harBest Expert」誕生の背景とは？
2 harBest Expertのすごいところ
- 2.1 1億人の「知恵」と「経験」をAIデータに
- 2.2 専門分野に特化した高品質データ収集
3 harBest Expert が可能にする未来
- 3.1 日本語のAIデータをもとに国際社会でのプレゼンス向上
- 3.2 誰もが時間や場所、置かれている状況に関係なく働ける社会
4 まとめ

「harBest Expert」誕生の背景とは？

日本国内におけるAIの状況

2023年に「生成AI元年」と呼ばれ、その年には多く人々が自然言語を使用してAIを使用できるようになりました。それにより、大規模言語モデル（LLM）を活用してテキストだけでなく、画像や動画を生成できるようになり、様々な業界・分野で活用されてきました。

2025年現在、生成AIが、仕事、そして生活においても身近なものになりましたが、自然言語をベースとしたAIモデルはまだまだ発展途上であり、特に、日本語 × 国内産業 × ビジネスレベルでのLLM活用という観点では、とても企業が満足できる状態とは言えません。

多様でオリジナルな日本語

生成AIを使った時の「どうもしっくりこない日本語なのでそのまま活用できない」ということは、早くから生成AI、LLMを活用している人のみならず、多ででくの人が経験したことがあるのではないでしょうか。

満足にLLMが活用できない理由としては、日本語はひらがな、カタカナ、漢字という3種類の文字を使う言語でありながら、アルファベットも使用するとても複雑な言語であるということが言えるでしょう。また、表現についても地域や年代、そして時代によって多様である、オリジナルな言語というのもLLM活用という観点では、たくさんの困難があります。

専門性を兼ね備えたデータが不足している

世界の共通語としての英語では、世界中の様々な場所で使用される言語であり、研究論文なども英語で書かれたものが多く、専門的なデータと、蓄積されたものが膨大にあります。

一方、日本語は世界では8番目に母語話者人口が多い言語（約1億2500万人）ではありますが、日本語を公用語としているのは日本だけで、今後は人口も減ることが予想されているような言語であり、専門性の高いデータが不足している状態にあります。

実際に企業が直面する壁とは？

これまで、harBestでは画像・動画・音声・自然言語のデータ収集およびアノテーションを実施してきました。

AIデータを用いた企業効率的な帳票管理、製造業における異常検知モデルの開発・精度向上や、会話データ収集をもとにした音声認識精度の向上、海外のビックテック企業に向けたLLMインストラクションデータ支援など、様々な業界・業種で支援をしてきました。

現在は、世界中でGPT-4o、Claude Sonnet3.7などに代表される膨大なデータを学習したマルチモーダル生成AIモデルが使用できるようになり、抽象的な出力が可能になりました。

しかし、個別具体的なデータベースは学習されておらず、実務で使用できる場面（本当に質問（検索）したいことが質問できること）は限られているのが現状です。

また、モデル開発には莫大なコストがかかってしまうだけでなく、日本国内の人口減少による企業の人員不足に伴って個所ごとのデータ学習に時間を割くことが難しいという現状は、AIを積極的・実務的に使用できなかったり、タスクが属人的になってしまったりしていることで、長らく唱えられてきたDXを実現できていない要因になっています。

harBest Expert公式ページ

harBest Expertのすごいところ

1億人の「知恵」と「経験」をAIデータに

日本語でLLMを使用した時の「浅く」「抽象的な」「もしかしたら間違っているかもしれない」回答から脱却するためにも、これまで上手く活用されてこなかった、日本語を母語とする1億人以上の人々の生活に根ざした「知恵」「経験」「スキル」をAIデータとして最大限活用するためにharBest Expertは誕生しました。

日本語母語話者のデータを活用することで、人間的で、リアル・ソフトなコミュニケーションを実現するだけでなく、業界や業種、個別の企業や部門に応じたオリジナルなAIの開発を実現することが可能になります。それにより、ビジネスレベルにおいてAIを活用して国内産業を活性化させることができるのです。

専門分野に特化した高品質データ収集

学位や職業に限らず、誰もが「自分の得意なこと」を持っています。それは、外国語、方言、特定の研究分野、コーディング、料理、部屋の掃除術、好きなゲーム、不動産投資、何でも専門分野となります。誰もが何かしらのプロフェッショナルなのです。

今の時代を生き、どこに住んでいるか、どんなことを考えているか、どんなことを体験したか、どんな言葉を使って生活しているかなど、何でも「経験」であり、貴重な「知恵」「知識」、そして「データ」となります。

このようにして、誰もが「知恵」や「経験」を共有し、1億人以上が日本語をもとにデータを作ることができるため、細かな専門に特化したデータを作成することができます。それがharBest Expertの強みであり、最大の特徴です。

harBest Expert公式ページ

harBest Expert が可能にする未来

日本語のAIデータをもとに国際社会でのプレゼンス向上

長年の人々が積み上げてきた財産である「知恵」「知識」「経験」がデータとなり、AIの学習に使われ、今使われている生成AIやLLMがあります。それは、インターネット、SNS上にある情報や専門的に作成されたデータを学習しています。それでもまだまだ学習が足りないのです。

harBest Expertは、日本語をベースとする国内産業の現実を背景に、日本、そして日本企業が国際社会でのプレゼンスを向上させるためのボトルネックとなっている「データ」という側面でこの状況を打破すべく開発されたプロダクトです。

誰もが時間や場所、置かれている状況に関係なく働ける社会

海外企業による日本語データ学習はありますが、現実には英語ができなければその日本語データの作成には関わることはハードルが高いです。

harBestは日本語を母語とする1億人がインターネットとPCだけあれば、どこでも、いつでも、好きな時に、特殊な技能を身につけなくても、ありのままでこれまでの経験と知識だけで働くことができる新しい働き方を提案します。

harBest Expert公式ページ

まとめ

新プロダクト「harBest Expert」は個々人の知識、経験、スキルを日本語によってAIデータ化することで、日本語×国内産業×ビジネスレベルでのLLM、SLMの活用を促進し、国際社会における日本企業のプレゼンス向上に資するものです。

生成AIの時代とはいえ、AIの精度にはデータの質、量だけでなく、新しい時代を作っていく我々が経験して得た知識やスキルをもとに継続的にデータを改善、アップデートしていかなければ、進歩はありません。

日本発のAIデータ企業が提供する、日本初の、専門家によるLLM/SLMデータ専門のデータストックサービス「harBest Expert」の活用をぜひご検討ください。