ChatGPT、画像・音声認識および発話機能を搭載へ=2週間以内に実装へ

27日 9月 2023年 18:30 JST

ChatGPTは25日、音声・画像認識および、発話機能が搭載された。今後2週間以内にサブスクリプションユーザー「Plus」および「Enterprise」に提供される
iOSおよびAndroidで利用が可能で、初期設定では有効化が必要となる。発話機能では新しいtext-to-speechモデルを採用し、人間のような声をテキストとサンプル音声から生成が可能だ
OpenAIはこのほど、対応するデータを2022年1月までに対応したもよう。現在のところOpenAIからの発表はない

OpenAIは25日、ChatGPTに音声・画像認識および、発話機能が搭載されたと発表した。今後2週間以内にサブスクリプションユーザー「Plus」および「Enterprise」に提供されるという。

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

Sponsored

新たな音声認識機能はOpenAIの音声認識システム「Whisper」を使用しており、iOSおよびAndroidで利用が可能だ。初期設定では無効で、有効化が必要となる。発話機能では新しいtext-to-speechモデルを採用し、人間のような声をテキストとサンプル音声から生成が可能。利用者は5種類の声から選べ、開発にはプロの声優が協力している。

画像認識機能では、様々なフォーマットの画像やテキストの読み込みができ、複数の画像の一度の読み取りにも対応する。同機能は、マルチモーダル対応のGPT-3.5やGPT-4で提供されている。加えて、丸で囲ってChatGPTに認識させることや、ChatGPTでの会話内容を画像で表示することもできる。同機能では現在、英語テキストに強みを持つが、他の言語や非ラテン文字の処理能力ではパフォーマンスが低いという。

OpenAIは同日Spotifyでのポッドキャスト通訳機能の提供も開始。ただし、現在利用できるのは一部のポッドキャストで、言語も限定的。日本語への対応は今のところ発表されていない。加えてOpenAIはこのほど、対応するデータを2022年1月までに対応したもよう。現在のところOpenAIからの発表はない。

OpenAIは21日、ChatGPTの文章から画像を生成する新モデル「DALL・E 3」を発表していた。PlusおよびEnterpriseのユーザーは、10月よりDALL・E3の利用が可能になるという。ウォールストリート・ジャーナルによれば、OpenAIは株式売り出しを検討中で、その企業価値を800億から900億ドルと見積もっている。これが実現すれば、OpenAIは世界で最も価値のあるスタートアップとなる可能性がある。しかし、印FirstPostの報道では、同社の日々の運営コストが70万ドルと高額で、約540億円の損失が出ているとされる。それでもサム・アルトマンCEOは、今後の収益増加を投資家に約束しており、2024年には10億ドルの収益を見込んでいる。