ニューラル機械翻訳
ニューラル機械翻訳(ニューラルきかいほんやく、英: neural machine translation、NMT)は、人工ニューラルネットワークを使用して単語の並びの尤度(ゆうど、確からしさ)を予測する機械翻訳へのアプローチであり、通常は単一の統合モデルで文全体をモデル化する。
特徴
[編集]これは、従来の統計的機械翻訳(英: statistical machine translation、SMT)モデルで必要とされるメモリのごく一部しか必要としない。さらに、従来の翻訳システムとは異なり、翻訳性能を最大化するために、ニューラル翻訳モデルのすべての部分が一緒に(エンド・ツー・エンドで)訓練される[1][2][3]。
歴史
[編集]ディープラーニングの応用は、1990年代に音声認識で最初に登場した。機械翻訳でのニューラルネットワークの利用に関する最初の科学論文は2014年に登場し、その後の数年間で多くの進歩(大語彙NMT、画像キャプションへの応用、サブワードNMT、多言語NMT、マルチソースNMT、Character-dec NMT、Zero-Resource NMT、Google、Fully Character-NMT、2017年のZero-Shot NMT)があった。2015年に、公開の機械翻訳コンテスト (OpenMT '15) でNMTシステムが初めて登場した。WMT'15にも初めてNMTシステムが登場し、翌年にはすでに入賞者の中にNMTシステムの90%が含まれた[4]。
仕組み
[編集]ニューラル機械翻訳は、個別に設計されたサブコンポーネントを使用するフレーズベースの統計的アプローチとは異なる[5]。ニューラル機械翻訳 (NMT) は、統計的機械翻訳 (SMT) で従来行われてきたことを超える抜本的なステップではない。その主な出発点は、単語と内部状態のためのベクトル表現(「埋め込み」、「連続空間表現」)の使用である。モデルの構造は、フレーズベースのモデルよりも単純である。個別の言語モデル、翻訳モデル、並び替えモデルはなく、一度に1つの単語を予測する単一のシーケンスモデルのみがある。しかし、このシーケンス予測は、ソースセンテンス(原文)全体と、すでに生成されたターゲットシーケンス全体を条件としている。NMTモデルでは、深層学習(ディープラーニング)と特徴学習を利用している。
単語列モデリングは、最初はリカレントニューラルネットワーク (RNN) を用いて行われるのが一般的であった。エンコーダとして知られる双方向リカレントニューラルネットワークは、ターゲット言語の単語を予測するために使用されるデコーダと呼ばれる第2のRNNのソースセンテンスをエンコードするため、ニューラルネットワークによって使用される[6]。リカレントニューラルネットワークは、長い入力を単一のベクトルにエンコードする際に困難に直面する。これは、出力の各単語を生成している間にデコーダが入力のさまざまな部分に焦点を合わせることができる注意メカニズム(英: attention mechanism)[7]によって補正できる。重複訳や訳抜けにつながる過去のアライメント情報を無視するなど、このような注意メカニズムの問題に対処するカバレッジモデル(英: Coverage Models)がさらに存在する[8]。
畳み込みニューラルネットワーク(英: Convolutional Neural Networks、Convnets)は、原理的には長い連続シーケンスに対していくらか優れているが、いくつかの弱点があったために当初は使用されなかった。これらは「注意メカニズム」を使用することにより、2017年にうまく補償された[9]。
注意ベースのモデルであるトランスフォーマーアーキテクチャは[10]、いくつかの言語ペアの主要アーキテクチャとして存続している[11]。
参照項目
[編集]- ^ Kalchbrenner, Nal; Blunsom, Philip (2013). “Recurrent Continuous Translation Models”. Proceedings of the Association for Computational Linguistics: 1700–1709 .
- ^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). "Sequence to sequence learning with neural networks". arXiv:1409.3215 [cs.CL]。
- ^ Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3 September 2014). "On the Properties of Neural Machine Translation: Encoder–Decoder Approaches". arXiv:1409.1259 [cs.CL]。
- ^ Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp et al. (2016). “Findings of the 2016 Conference on Machine Translation”. ACL 2016 First Conference on Machine Translation (WMT16) (The Association for Computational Linguistics): 131–198. オリジナルの2018-01-27時点におけるアーカイブ。 2018年1月27日閲覧。.
- ^ Wołk, Krzysztof; Marasek, Krzysztof (2015). “Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts”. Procedia Computer Science 64 (64): 2–9. arXiv:1509.08644. Bibcode: 2015arXiv150908644W. doi:10.1016/j.procs.2015.08.456.
- ^ Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL]。
- ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL]。
- ^ Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). "Modeling Coverage for Neural Machine Translation". arXiv:1601.04811 [cs.CL]。
- ^ Coldewey, Devin (2017年8月29日). “DeepL schools other online translators with clever machine learning”. TechCrunch 2018年1月27日閲覧。
- ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (5 December 2017). "Attention Is All You Need". arXiv:1706.03762 [cs.CL]。
- ^ Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias et al. (August 2019). “Findings of the 2019 Conference on Machine Translation (WMT19)”. Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1) (Florence, Italy: Association for Computational Linguistics): 1–61. doi:10.18653/v1/W19-5301 .