ChatGPT、画像・音声認識および発話機能を搭載へ=2週間以内に実装へ

OpenAIは25日、ChatGPTに音声・画像認識および、発話機能が搭載されたと発表した。今後2週間以内にサブスクリプションユーザー「Plus」および「Enterprise」に提供されるという。

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

新たな音声認識機能はOpenAIの音声認識システム「Whisper」を使用しており、iOSおよびAndroidで利用が可能だ。初期設定では無効で、有効化が必要となる。発話機能では新しいtext-to-speechモデルを採用し、人間のような声をテキストとサンプル音声から生成が可能。利用者は5種類の声から選べ、開発にはプロの声優が協力している。

画像認識機能では、様々なフォーマットの画像やテキストの読み込みができ、複数の画像の一度の読み取りにも対応する。同機能は、マルチモーダル対応のGPT-3.5やGPT-4で提供されている。加えて、丸で囲ってChatGPTに認識させることや、ChatGPTでの会話内容を画像で表示することもできる。同機能では現在、英語テキストに強みを持つが、他の言語や非ラテン文字の処理能力ではパフォーマンスが低いという。

OpenAIは同日Spotifyでのポッドキャスト通訳機能の提供も開始。ただし、現在利用できるのは一部のポッドキャストで、言語も限定的。日本語への対応は今のところ発表されていない。加えてOpenAIはこのほど、対応するデータを2022年1月までに対応したもよう。現在のところOpenAIからの発表はない。

OpenAIは21日、ChatGPTの文章から画像を生成する新モデル「DALL・E 3」を発表していた。PlusおよびEnterpriseのユーザーは、10月よりDALL・E3の利用が可能になるという。ウォールストリート・ジャーナルによれば、OpenAIは株式売り出しを検討中で、その企業価値を800億から900億ドルと見積もっている。これが実現すれば、OpenAIは世界で最も価値のあるスタートアップとなる可能性がある。しかし、印FirstPostの報道では、同社の日々の運営コストが70万ドルと高額で、約540億円の損失が出ているとされる。それでもサム・アルトマンCEOは、今後の収益増加を投資家に約束しており、2024年には10億ドルの収益を見込んでいる。

ベスト暗号資産取引所

Bitget 見る

Phemex 見る

Margex 見る

Bybit 見る

Coinrule 見る

ベスト暗号資産取引所

Bitget 見る

Phemex 見る

Margex 見る

Bybit 見る

Coinrule 見る

ベスト暗号資産取引所

X（Twitter）：@BeInCryptoJapan
Telegramチャンネル：@BeInCrypto Japan オフィシャルチャンネル

免責事項 - Disclaimers

当ウェブサイトに掲載されているすべての情報は、誠意をもって作成され、一般的な情報提供のみを目的としています。当ウェブサイトに掲載されている情報に基づいて行う一切の行為については、読者ご自身の責任において行っていただきますようお願いいたします。

スポンサースポンサー

Shota Oba

筆者の紹介を全文表示

国際関係の大学在籍中に国内ブロックチェーンメディアでのインターンを経て、２つの海外暗号資産取引所にてインターントレーニング生として従事。現在は、ジャーナリストとしてテクニカル、ファンダメンタル分析を問わずに日本暗号資産市場を中心に分析を行う。暗号資産取引は2021年より行っており、経済・社会情勢にも興味を持つ。

筆者の紹介を全文表示

概要