利用者:McYata/3153

総論

日本語翻訳において、Google翻訳をはじめとした高度な機械翻訳は、最近「正確な翻訳」よりも「読みやすい作文」を目指す傾向がある。
そのため現時点では、コミュニケーションや大雑把な文意把握にはある程度使えるが、正確性が求められる記事翻訳には不向き、というより有害ですらある。
日本語版コミュニティでは、翻訳に携わる多くの利用者たちが、2019年以来どうにかしてCTの機械翻訳機能を廃止してほしいと考えている。

機械翻訳機能の問題点

日本語記事への翻訳で、機械翻訳は基本的に役に立たない。コンテンツ翻訳レビューではCTで作成された記事の3割近くで機械翻訳の濫用がみられ、そのほぼすべてに機械翻訳由来の誤訳が見つかった。
こと日本語への翻訳において、Google翻訳などの機械翻訳は未だに致命的な誤訳を、しかも表向きは自然に見える形で量産する。例、ノート:儀礼戦争。日本語は、文構造や語彙、文体、分かち書きの欠如などといった特徴のせいで、インド・ヨーロッパ語派間の翻訳と比べてはるかに機械翻訳が難しい言語である。実際に現在の機械翻訳ツールは、いずれも正確な記事翻訳ができるレベルには到底達していない。
そのため、日本語版コミュニティは機械翻訳がベースになっているというだけで記事が不正確であると推論できると判断し、ケースG-3を制定するまでに至った。今後、これを使って次々と記事が削除されていくだろう。逆に言えば、「機械翻訳ベースだから削除」という方針が成立するほどに、機械翻訳の質が問題とされており、同時にそれを改善するための人的資源が不足しているのである。
とはいえ、「削除」は最後の手段である。多くの場合、我々は問題ある記事を全面改訳によって救おうとしている。これは2度手間であり、貴重な執筆者・翻訳者の労力を割いているという点でWikipediaの発展を妨げる要因となっている。しかし同時に、CT開発チームが各言語版に突き付けている「削除率が低い」という主張は、CTの後始末をしている現場の執筆者の苦労が見えていない結果だと言わざるを得ない。
これらの問題と検証結果自体も、本来自分で翻訳記事を書いて貢献している利用者たちが、多大な時間と労力を割いて立証したものである。現在も、CTの機械翻訳機能が存在するがゆえに、数々の優れた執筆・翻訳・編集が世に出るチャンスが失われ続けている。
ゆえに、日本語版利用者の多くは、コンテンツ翻訳の機械翻訳機能が廃止された方があらゆる意味でコミュニティの駅になると考えている。

日本語版から要望が上がらなかった理由

これまで日本語版から財団や開発チームに具体的な要望が出されてこなかったのは、他言語版が同様の要望を出し、失敗している事例を見てきたからである。
これまでインドネシア語版やベトナム語版などが機械翻訳機能制限・廃止要望を出してきた。しかし各コミュニティが、コミュニティ内の合意や「機械翻訳機能の制限・廃止がWikipediaに多大な益をもたらす」という知見を示しているにもかかわらず、財団と開発チームは頑なに機械翻訳機能を守ろうとしている。
日本語版コミュニティの中には、こうした記事とコミュニティの発展を二の次にするような態度に不信感を抱いている者すらいる。だからこそ、どうすれば開発チームを説得できるか議論し続け、翻訳検証プロジェクト等でデータを集めている。

他言語版に対する開発チームの主張に対する反論

これまで開発チームが機械翻訳機能を擁護する際に使っているレトリックは、少なくとも日本語版の現状には当てはまらないと考えている。
削除率が現実を反映していないのは上記のとおりである。検証と削除に回せる人的資源は無尽蔵ではない。
CTが算出する機械翻訳率も役に立たない。機械翻訳率を下げるスキームは様々あり、実際に機械翻訳ほぼそのままで投稿される記事が数多く確認されている。逆に機械翻訳機能をオフにして人力翻訳しても、CTは極めて高い機械翻訳率を表示してくる。少なくとも日本語版においては、機械翻訳率算出の仕組みが抜本的に改善されない限り、機械翻訳率を使ったコンテンツ翻訳制限策は意味をなさない。
そもそもこの機械翻訳率が不正確なのは、分かち書きをしない日本語特有の問題であるとする指摘もある。実のところ、同様の問題が中国語版から2020年の段階で開発チームに報告されている。しかし今のところ、日本語版でも中国語版でも、この問題が改善された様子はみられない。
"100% unedited translation is likely bad"というが、私がコンテンツ翻訳で極めて短い記事を作ろうとすると、完全に人力翻訳でも「100％機械翻訳」ないしそれに近い数字が出ることがある。サンプル調査をしたところで、基準となる指標が崩れていたら意味をなさないのでは。
「機械翻訳機能によって新規執筆者が増える」という主張も、必ずしも正しいとは言えない。機械翻訳自体に上記のような問題があるため、機械翻訳を使いこなして正確な記事翻訳をするには、相当な語学力と機械翻訳に対する知識を要する。
それを理解しないで安易に機械翻訳を使い記事を量産する新規参加者は、確かに増えた。しかしそのような新規利用者が、誤訳を指摘されたり粗悪な機械翻訳記事を削除されたりすると「機械翻訳のせいだから知らない」と言って後始末をしないまま引退してしまう例が多発している。せっかくWikipediaの編集に興味を持って参加してくれた新規利用者が、誤った編集方法に慣れてしまい、優秀なWikipedianとして定着したり成長したりする機会が失われてしまうのは日本語版コミュニティ、ひいてはウィキペディア全体の損失である。
翻訳のハードルを下げる、というのも誤ったアプローチと言わざるを得ない。どの記事にも専門性があり、単に語学力があれば何の記事でも訳せるとは限らない。例えば小説に関する記事は、元から読んだり内容を知っていたりする人でなければ、適切にあらすじを訳せないだろう。人力翻訳ならば、「この内容はよく分からないから手を出さないでおこう」というブレーキをかけられる。しかしコンテンツ翻訳と機械翻訳機能が組み合わさり数クリックで記事を翻訳できるとなれば、初心者に、中身をよく理解せずとも「翻訳」できた、という誤った自信を与えてしまう。内容を理解しないで記事を機械翻訳し、膨大な誤訳を放置するようなコンテンツ翻訳利用者が後を絶たず、コミュニティ内でその後処理をめぐる問題が多発している。
このような例が続いた結果、日本語版内では「粗悪な記事を乱造してコミュニティを疲弊させる」コンテンツ翻訳（およびその利用者）そのものに対する印象が悪化している節もある。人を増やすのは大事だが、やり方を選ばねばすべての利用者を疲弊させ、逆にコミュニティの衰退を招きかねない。

「未完成」のツール

将来的に、機械翻訳があらゆる意味で正確になり、記事翻訳を任せられる水準に達するなら、それは喜ばしいことである。しかしそこまで達するには、まだまだ長い時間がかかるだろう。現状では「人が微修正して助ければ何とかなる」段階にすら達していない。
人的資源が足りず、改善が追い付いていないのは、開発チームも同じではないか。例えばMcYataは2018年に「コンテンツ翻訳を使うと脚注が消失する」というバグをMediaWikiで報告した。MediaWikiには、この類の膨大な報告が積みあがっているが、この問題は今まで解消と再発を繰り返している。これは、CTが発展途上にあることを如実に示している。
機械翻訳機能も同じである。英語版が機械翻訳機能の制限を実現させて以来、この機能が未完成であるという指摘は多くの言語版から上がっていた。しかし6年かかって目ぼしい進展が見られないにもかかわらず、開発チームは未だに不完全な機能を、判断力に乏しいビギナーに使わせることに固執しているように見える。
機械翻訳向上のための研究データは、直接の記事翻訳で機械翻訳を使わせずとも得られるのではないか。翻訳者たちがコンテンツ翻訳内で人力翻訳すれば、より正確な訳例を収集できる。また、記事翻訳と比べて厳密な正確性が求められず、多言語間の意思疎通を重視する「運動戦略フォーラム」は、機械翻訳の実用と研究を兼ね備えた格好の場となり得るだろう。

要点

以上の現状を踏まえ、日本語版コミュニティの翻訳者を中心とする利用者たちは、機械翻訳機能の制限・廃止を望みつつも、財団や開発チームへの拙速な要望をためらっていたのである。
これを踏まえて、財団や開発チームがどのような意向を持っているのか知りたい。