▼ ニュースのポイント
①MetaがAIアシスタント改善の新プロジェクト「Project CAIRaoke」を発表した。
②マルチモーダルAIやユニバーサル翻訳システムなどの構築を含む研究・開発を推進する。
③メタバースを支える優れた会話型AIの実現へ。
オンラインプレゼンテーションでAIによるメタバース構築のロードマップを提示
Meta(旧Facebook)は米国時間の2月23日、オンラインプレゼンテーションイベント「Building for the metaverse with AI」を開催し、AIアシスタントを改善していく新プロジェクト「Project CAIRaoke」について発表した。
同社が目指す本格的なメタバース構築を支えるものになるであろう複数のAI開発プロジェクトの一部が紹介されている。
メタバースでは、ハードからソフトまであらゆる次元における進歩が求められるが、Metaでは、仮想世界とリアル世界の間をスムーズに移動し、より仮想世界をリアルに感じられるものとするには、ユーザーとAIの間での豊かで深い自然なコミュニケーションこそ重要であり、進化したAIこそ最大の鍵になると考えているという。
より優れた会話型AIを実現するに当たっての最大のハードルであり問題点は、現在最も高度なアシスタントにもみられるアーキテクチャそのものにあるとする。
それは単一サービスを実現させているにもかかわらず、実際には自然言語理解(NLU)、対話状態追跡(DST)、対話方針(DP)の管理、自然言語生成(NLG)という4つの別々のコンポーネントに依存しているということだ。
これによって最適化が難しく、人間ならば自然に予測してこなすような新しいタスクや不慣れなタスクへの適応力が低いものとなり、手間のかかるアノテーションデータセットに大きく依存してしまう。
このことが自然な会話的文脈でAIアシスタントとやりとりすることができない現状につながっているといい、文脈をより正確に理解し、同じ意味で使われる複数の語句を適切に認識することを目指す新規プロジェクトの「CAIRaoke」で作られたモデルを使えば、大幅に使用感を改善できるポイントになるとされる。
新モデルでは、会話の中で以前のことを参照したり、話題をまったく別のことに変えたり、複雑で微妙な文脈の理解が必要なことを述べる、ジェスチャーを使うといったことが可能になる。
Metaでは、まずこのモデルをビデオ通話デバイス「Portal」に適用、リマインダーの作成と管理を容易にした。自然な会話に近いやりとりで、リマインダーの目標セットを完了する成功率の測定テストを行ったところ、既存アプローチに比べ大幅な改善がみられているという。
似合う服も好みに合わせて選んでくれる?
しかしMetaは、こうした仕組みは新技術活用の第1歩にすぎないとし、さらなる人とAIの豊かなコミュニケーションの実現を目指しているともした。
将来的には、ARグラスに組み込まれた「Project CAIRaoke」搭載アシスタントが、ユーザーの「このパンツに合うのは何?」という質問に、「あなたの好きな色、赤のこのシャツはどうですか」と見つけてきた実際のアイテム画像を表示できるようになるとする。
さらに「気に入ったけれど、そのデザインではストライプが広すぎる」などとコメントすれば、代わりにピンストライプの施されたタイプを表示、勧めてくれるようにもなるそうだ。
「Project CAIRaoke」では、新たなドメインを追加する際の作業も軽減する。従来の正規アプローチでは、次のモジュールを確実に学習させる前に、各モジュールを順次構築・修正する必要があり、1つのコンポーネントに変更があると他のコンポーネントも壊れ、後続全ての再トレーニングが必要になる場合も多い。
しかし新モデルのエンドツーエンド技術では、こうした上流モジュールへの依存を取り除き、開発・学習速度を向上、より少ない労力とデータで素早く他のモデルの微調整が行えるようにしていく。
また最新の会話ボットであるBlenderBot2.0をサポートする技術をタスク志向のダイアログに融合、アシスタントが共感的な言葉を発したり、インターネットで検索して得られた知識をリアルタイムに伝えたりし、一貫した人格を示して振る舞うことができるものともしているという。
BlenderBotに内蔵されたセーフガードにより、間違いや不快なやりとりに遭遇するリスクも低減できるほか、プライバシーを考慮したアシスタント技術で、誰もが安全に心地良く利用できる仕様とすることも特筆点になっている。
メタバースでの活用やショッピング体験、ユニバーサルな言語翻訳など広がる可能性
イベント内では、「Builder Bot」というAIコンセプトのデモにより、仮想世界でのAIアシスタント活用法が実際に示された。
これは音声で世界を構築するbotで、「海岸に行こう」といえば景色が海岸に変化し、「あそこに島を作ろう」など自然言語で指示することにより、思い通りの環境を構築していけることが実際に紹介されている。
このようなサービスを実現するのに重要となるのが、「真のマルチモーダルAI」だといい、音声や画像、動画など多様なかたちをとる情報を組み合わせて活かし、総合的判断を行って振る舞えるAIになる。
Metaでは、マルチモーダルAI開発へのアプローチをself-supervised learningに定め、推進する方針としている。
メタバースでの言葉や文化の壁を超越した交流を見据え、ユニバーサルな音声言語翻訳システムの開発も促進させる。現在のように英語を標準として介さなくとも、人々が日常で用いる数百の言語間で直接翻訳できるオープンソースのAIモデルを構築した。
学習データが少なくともあらゆる言語を学習できる「No Language Left Behind」と、リアルタイム音声翻訳システムの「Universal Speech Translator」で、翻訳精度を向上させ、世界住の数十億人が気軽に母語など使い慣れた言語で新たなテクノロジーにアクセスできる環境を整えていくという。
このほか、より近い時期での実現・実装例として、ショッピング体験をよりパーソナライズ化したり、アシスタントが多数のチャットで文脈を維持・適用して対応したりといったことを行っていくとされた。
将来は次世代インタラクションの基盤技術に?
Metaでは、こうした取り組みを進める「Project CAIRaoke」の技術が、数年後には人とデバイスを結ぶ次世代インタラクションの基盤になっているだろうとの見方を示している。
タッチパネルが広く普及したように、VRヘッドセットやARグラスのようなデバイス上でもこうしたコミュニケーション技術がユビキタスでシームレスなナビゲーションやインタラクションの方法を支えるものとなり、メタバースの展開にも重要な意義をもつようになるとする。
Metaでは、安全と最高レベルのプライバシーを提供する次世代AIテクノロジーの構築を目指し、引き続き大きなビジョンの実現に向けた取り組みを加速させていくとした。
(画像はプレスリリースより)
Meta プレスリリース(公式ブログ発表記事)
https://ai.facebook.com/blog/project-cairaoke▼ 会社概要
Metaは正式名称をMeta Platformsとするテクノロジーコングロマリット。かつてのFacebook社で、現在もSNS「Facebook」を手がける。Alphabet、Apple、Microsoft、Amazonと並ぶ米国の情報技術産業ビッグ5を構成する1社であり、世界で最も価値あるブランド企業ともされる。
社名:Meta Platforms, Inc.
CEO:Mark Zuckerberg
所在地:米国・MenloPark, California