コンテンツにスキップ

Whisper (音声認識システム)

出典: フリー百科事典『ウィキペディア(Wikipedia)』
Whisper (音声認識システム)
作者 OpenAI[1]
初版 2022年9月21日
リポジトリ https://github.com/openai/whisper
プログラミング
言語
Python
種別
ライセンス MITライセンス
テンプレートを表示

Whisperは、音声認識と文字起こしのための機械学習モデルであり、OpenAIによって開発され、2022年9月にオープンソースソフトウェアとして初めて公開された[2]

英語を含む複数の言語で音声を文字起こしできる他[3]、英語以外の複数の言語を英語に翻訳することもできる。OpenAIは、開発において多様な訓練データを使用したことで、従来の手法と比較して、アクセント、背景雑音、専門用語の認識精度が向上したと主張している[4]

Whisperは弱教師あり学習を用いた深層学習音響モデルであり、エンコーダ・デコーダトランスフォーマーアーキテクチャを使用して構築されている[5]

Whisper V2は2022年12月8日にリリースされた[6]。Whisper V3は2023年11月のOpenAI Dev Dayでリリースされた[7]

背景

[編集]

音声認識は長い研究の歴史を持つ。初期のアプローチでは、動的時間伸縮法英語版や後に隠れマルコフモデルといった統計的手法が用いられていた。2010年代頃には、大規模データセット(「ビッグデータ」)の利用可能性と計算性能の向上により、音声認識モデルに深層ニューラルネットワークを用いるアプローチが一般的になった[8]。音声認識における深層学習の初期のアプローチには畳み込みニューラルネットワークが含まれていたが、系列データを捉えることができないという制限があった。そのため、後にSeq2seqアプローチが開発され、そこでは長・短期記憶を利用した回帰型ニューラルネットワークが用いられた[9]

2017年にGoogleによって導入されたTransformerは、機械学習における多くの問題に対する従来の最先端のアプローチの多くに取って代わり、言語モデリングやコンピュータビジョンなどの分野における中核となるニューラルアーキテクチャになり始めた。弱教師あり学習を用いた音響モデルの学習アプローチは、2020年代初頭に深層ニューラルネットワークを用いた音声認識アプローチとして有望であると認識された[10]

ニューヨークタイムズの報道によると、2021年にOpenAIは、大規模言語モデルの学習に使用する高品質データのソースを使い果たしたと考え、YouTube動画やポッドキャストの書き起こしでウェブスクレイピングテキストを補完することを決定し、このタスクを解決するためにWhisperを開発した[11]

学習と能力

[編集]

Whisperは、68万時間の多言語およびマルチタスクデータを用いて半教師あり学習で訓練されており、その約5分の1(11万7000時間)は英語以外の音声データである。WhisperはLibriSpeechデータセットに特化したモデルの性能を上回らないものの、多くのデータセットでテストした結果、他のモデルよりも堅牢で、エラーが50%少ない[12]

Whisperは、訓練データであまり表現されていない言語では単語エラー率が高くなるなど、言語によって異なるエラー率を示す[13]

このモデルは、音声認識とより一般的な音声認識のための統合モデルの基盤として使用されている[14]

アーキテクチャ

[編集]

Whisperのアーキテクチャは、エンコーダ・デコーダトランスフォーマーに基づいている。入力音声は30秒のチャンクに分割され、メル周波数ケプストラム英語版に変換された後、エンコーダに渡される。デコーダは、後続のテキストキャプションを予測するように訓練される。フレーズレベルのタイムスタンプなど、いくつかのタスクを実行するために特別なトークンが使用される[15]

脚注

[編集]
  1. ^ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (6 December 2022). "Robust Speech Recognition via Large-Scale Weak Supervision". arXiv:2212.04356 [eess.AS]。
  2. ^ Golla, Ramsri Goutham (2023年3月6日). “Here Are Six Practical Use Cases for the New Whisper API” (英語). Slator. 2023年3月25日時点のオリジナルよりアーカイブ2023年8月12日閲覧。
  3. ^ Dickson, Ben (2022年10月3日). “How will OpenAI's Whisper model impact AI applications?” (英語). VentureBeat. 2023年3月15日時点のオリジナルよりアーカイブ2023年8月12日閲覧。
  4. ^ Wiggers, Kyle (September 21, 2022). “OpenAI open-sources Whisper, a multilingual speech recognition system” (英語). TechCrunch. February 12, 2023時点のオリジナルよりアーカイブFebruary 12, 2023閲覧。
  5. ^ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (6 December 2022). "Robust Speech Recognition via Large-Scale Weak Supervision". p. 3. arXiv:2212.04356 [eess.AS]。
  6. ^ Announcing the large-v2 model · openai/whisper · Discussion #661” (英語). GitHub. 2024年1月8日閲覧。
  7. ^ (英語) OpenAI DevDay: Opening Keynote, https://www.youtube.com/watch?v=U9mJuUkhUzk 2024年1月8日閲覧。 
  8. ^ Yu, Dong; Deng, Li (2014) (英語). Automatic speech recognition: a deep learning approach. Signals and communication technology (2015th ed.). London Heidelberg: Springer. pp. 9. ISBN 978-1-4471-5778-6 
  9. ^ Siddique, Latif; Zaidi, Aun; Cuayahuitl, Heriberto; Shamshad, Fahad; Shoukat, Moazzam; Qadir, Junaid (2023). "Transformers in Speech Processing: A Survey". arXiv:2303.11607v1 [cs.CL]。
  10. ^ Paaß, Gerhard; Giesselbach, Sven (2023-02-16). “Foundation Models for Speech, Images, Videos, and Control” (英語). Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. pp. 313–382. arXiv:2302.08575. doi:10.1007/978-3-031-23190-2_7. ISBN 978-3-031-23189-6 
  11. ^ Davis, Wes (2024年4月6日). “OpenAI transcribed over a million hours of YouTube videos to train GPT-4” (英語). The Verge. 2024年4月20日閲覧。
  12. ^ Introducing Whisper” (英語). openai.com (2022年9月21日). 2023年8月20日時点のオリジナルよりアーカイブ2023年8月21日閲覧。
  13. ^ Wiggers, Kyle (2023年3月1日). “OpenAI debuts Whisper API for speech-to-text transcription and translation” (英語). TechCrunch. 2023年7月18日時点のオリジナルよりアーカイブ2023年8月21日閲覧。
  14. ^ Yuan, Gong; Khurana, Sameer; Karlinsky, Leonid; Glass, James (2023). “Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers”. Interspeech 2023. pp. 2798–2802. arXiv:2307.03183. doi:10.21437/Interspeech.2023-2193 
  15. ^ Introducing Whisper” (英語). openai.com (2022年9月21日). 2023年8月20日時点のオリジナルよりアーカイブ2023年8月21日閲覧。

外部リンク

[編集]