ロボティクス開発会社Figureは14日、OpenAIの生成AIを活用したヒト型ロボット「Figure 01」がリアルタイムで会話を行うデモンストレーションビデオを公開した。FigureとOpenAIの戦略的コラボレーションにより、視覚・言語知能がロボットに実装され、迅速かつ繊細なアクションを可能にした。Figure 01は人間との会話を瞬時に理解し、反応する能力を持つ。
Figure 01は身長約167.6cm、重量約59.9kgで、最大約19.9kgを持ち運び、時速約4.3kmで移動可能である。FigureのシニアAIエンジニア、コーリー・リンチ氏は、Figure 01が「視覚体験を説明し、行動を計画し、記憶を振り返り、推論を言葉で説明する」能力を持つと詳述している。プロジェクトでは、ロボットのカメラからの画像と、搭載されたマイクによって捉えた音声のテキストを、OpenAIによって訓練されたマルチモーダルモデルに提供する。マルチモーダルAIは、テキストや画像など異なるデータタイプを理解し、生成する人工知能を指す。
マルチモーダルAIを活用し学習することで、ヒト型ロボットの社会実装を目指す
リンチ氏は、Figure 01の行動が学習に基づき、通常速度で実行され、遠隔操作を使用していないことを明らかにした。このモデルは、過去の画像を含む会話の履歴全体を学習し、言語応答を生成してテキストから音声へ変換し、人間に返答する。Figure 01は、周囲を説明し、判断に常識を用い、あいまいな要求を文脈に応じた行動へと変換し、行動の理由を簡明に説明する能力を有する。行動は、ニューラルネットワーク視覚運動変換ポリシーにより駆動され、画素から直接行動へマッピングし、迅速な反応を実現する。
リンチ氏は数年前まで、ヒト型ロボットが完全に学習した行動を計画し実行しながら完全な会話を行うことは、数十年を待たねばならないと考えられていたが、多くが変化したと指摘した。
Figureは2月、マイクロソフト、OpenAIスタートアップファンド、NVIDIA、Jeff BezosのBezos Expeditionsなどから6億7500万ドルのシリーズB資金を調達し、AI訓練、ロボティクス製造、エンジニアリング人材の獲得、商業展開イニシアチブに資金を充てる予定であると発表していた。FigureはOpenAIとの戦略的コラボレーションも発表しており、ヒト型ロボット向けのAIモデルの開発を目指している。
Follow us on:
X(Twitter):@BeInCryptoJapan
Telegramチャンネル:@BeInCrypto Japan オフィシャルチャンネル
免責事項 - Disclaimers
当ウェブサイトに掲載されているすべての情報は、誠意をもって作成され、一般的な情報提供のみを目的としています。当ウェブサイトに掲載されている情報に基づいて行う一切の行為については、読者ご自身の責任において行っていただきますようお願いいたします。