詳細を見る

ChatGPT、画像・音声認識および発話機能を搭載へ=2週間以内に実装へ

4 mins

ヘッドライン

  • ChatGPTは25日、音声・画像認識および、発話機能が搭載された。今後2週間以内にサブスクリプションユーザー「Plus」および「Enterprise」に提供される
  • iOSおよびAndroidで利用が可能で、初期設定では有効化が必要となる。発話機能では新しいtext-to-speechモデルを採用し、人間のような声をテキストとサンプル音声から生成が可能だ
  • OpenAIはこのほど、対応するデータを2022年1月までに対応したもよう。現在のところOpenAIからの発表はない
  • promo

OpenAIは25日、ChatGPTに音声・画像認識および、発話機能が搭載されたと発表した。今後2週間以内にサブスクリプションユーザー「Plus」および「Enterprise」に提供されるという。

新たな音声認識機能はOpenAIの音声認識システム「Whisper」を使用しており、iOSおよびAndroidで利用が可能だ。初期設定では無効で、有効化が必要となる。発話機能では新しいtext-to-speechモデルを採用し、人間のような声をテキストとサンプル音声から生成が可能。利用者は5種類の声から選べ、開発にはプロの声優が協力している。

画像認識機能では、様々なフォーマットの画像やテキストの読み込みができ、複数の画像の一度の読み取りにも対応する。同機能は、マルチモーダル対応のGPT-3.5やGPT-4で提供されている。加えて、丸で囲ってChatGPTに認識させることや、ChatGPTでの会話内容を画像で表示することもできる。同機能では現在、英語テキストに強みを持つが、他の言語や非ラテン文字の処理能力ではパフォーマンスが低いという。

OpenAIは同日Spotifyでのポッドキャスト通訳機能の提供も開始。ただし、現在利用できるのは一部のポッドキャストで、言語も限定的。日本語への対応は今のところ発表されていない。加えてOpenAIはこのほど、対応するデータを2022年1月までに対応したもよう。現在のところOpenAIからの発表はない。

OpenAIは21日、ChatGPTの文章から画像を生成する新モデル「DALL・E 3」を発表していた。PlusおよびEnterpriseのユーザーは、10月よりDALL・E3の利用が可能になるという。ウォールストリート・ジャーナルによれば、OpenAIは株式売り出しを検討中で、その企業価値を800億から900億ドルと見積もっている。これが実現すれば、OpenAIは世界で最も価値のあるスタートアップとなる可能性がある。しかし、印FirstPostの報道では、同社の日々の運営コストが70万ドルと高額で、約540億円の損失が出ているとされる。それでもサム・アルトマンCEOは、今後の収益増加を投資家に約束しており、2024年には10億ドルの収益を見込んでいる

ベスト暗号資産取引所
Exodus Exodus 見る
BingX BingX 見る
BYDFi BYDFi 見る
Coinrule Coinrule 見る
Chain GPT Chain GPT 見る
ベスト暗号資産取引所
Exodus Exodus 見る
BingX BingX 見る
BYDFi BYDFi 見る
Coinrule Coinrule 見る
Chain GPT Chain GPT 見る

Trusted

Follow us on:

X(Twitter):@BeInCryptoJapan
Telegramチャンネル:@BeInCrypto Japan オフィシャルチャンネル

免責事項 - Disclaimers

当ウェブサイトに掲載されているすべての情報は、誠意をもって作成され、一般的な情報提供のみを目的としています。当ウェブサイトに掲載されている情報に基づいて行う一切の行為については、読者ご自身の責任において行っていただきますようお願いいたします。

wpua-150x150.png
Shota Oba
国際関係の大学在籍中に国内ブロックチェーンメディアでのインターンを経て、2つの海外暗号資産取引所にてインターントレーニング生として従事。現在は、ジャーナリストとしてテクニカル、ファンダメンタル分析を問わずに日本暗号資産市場を中心に分析を行う。暗号資産取引は2021年より行っており、経済・社会情勢にも興味を持つ。
READ FULL BIO
スポンサー
スポンサー