2019 年 1月 17 日

機械翻訳の精度を測る評価尺度とは

機械翻訳技術は、世界中の企業の将来にとって重要な投資であることが証明されています。昨今、より多くの取引がオンラインで行われ、異なる国の人々が互いに取引を行っています。言うまでもなく、インターネットは探しているものが何でも見つかる巨大な国際的なショッピングセンターだと考えられています。

機械翻訳の精度

万国共通語として英語を使用

英語は世界中のインターネットのデフォルトの言語です。つまり、Web上にある殆どの情報は英語で書かれています。そうしますと、英語の読み書きができない見込み客はどうなるのでしょうか。彼らのマーケットはあるのでしょうか。このような時に機械翻訳は活用され、特により多くの会社がローカライゼーションによって収入を増やしたいと考えている中、重要な役割を担っています。

機械翻訳は、国際取引のコスト減を期待する会社、速い翻訳を提供し、取引を提供したい会社、そして一日24時間・週7日（年中無休）の業務体制を望む会社にとって経済的に不可欠なものになっています。そのため、翻訳の自動化を促す翻訳ツールは不可欠であり、そのツールを実現するために、ここ数年技術開発が求められてきました。

機械翻訳の精度を測る評価尺度の選び方

まず文書を翻訳する時、次のことを常に念頭に置きながら作業を進める必要があります。

１）この翻訳は正確か
２）この翻訳はわかりやすいか
３）この翻訳は目的に沿っているか

これらの質問を念頭に置き一つ一つ答えながらあなたは翻訳作業をしました。なぜならあなたは人間で人間が翻訳作業を行っているからです。でも機械翻訳においてこの確認作業はどのように行えばいいのでしょうか？

このような時にテクノロジーが適切な解決策をもたらします。アルゴリズムとその処理技法が盛り込まれた次のような自評価尺度を使用します。

1.自動評価尺度

BLEU（Bilingual Evaluation Understudy）は、自動評価メトリックスを提供します。同時に提供されたさまざまな翻訳オプションを見比べながら評価します。言い換えれば、BLEUはアルゴリズムを使用して翻訳機械が訳した翻訳の品質をある言語から別の言語に訳し文を見比べながら評価します。

「BLEUの評価尺度の翻訳精度はどのように測定されますか？」

BLEUを使用する場合、そのスコアは単一のセグメントを翻訳するたびに計算されます。例えば、スペイン語の「Me llamo Eugenia」を英語の「My name is Eugenia」に翻訳したいとします。この2つの文章はデータベース上にある別の文章群と比較され、翻訳の質の基準として使用されます。

BLEUにおいて興味深い点は、良い翻訳参考文献の情報を備えるため、ある時点で人間が機械翻訳された出力文を比較し承認する必要があることです。

2. 自動評価メトリックス

最も一般的な選択肢は「単語誤り率」または（WER）の使用です。WERは、機械翻訳が翻訳した各単語とその出力文を評価します。もう一つ、翻訳編集率（TER）があります。このシステムは基本的に機械翻訳のメトリックスの観点から、既存のシステムの出力文に対して行う修正の割合を算出し、将来の参照文（正解）を作ります。

3. 人力評価

人力評価は、その名の通り、人間が機械翻訳された文章を修正または編集することです。言い換えれば、人間の注釈者は、多方面にわたって均整の取れた翻訳を提供し、不規則な意味の翻訳を避け、文脈に沿ったフレーズにします。

「このタイプの評価は実現可能か？」

もちろん可能です。しかし、時間と高いコストがかかります。なぜならテキストを翻訳できるソフトウェアに投資するだけでなく、1人または複数の翻訳者を採用して完璧な翻訳を仕上げることになるからです。

機械翻訳の作業を評価する方法は数多くあります。どの方法を選ぶかは、投資できる金額と費やせる時間、そしてあなたが人と機械のどちらを信頼するかによります。