プロジェクト‐ノート:翻訳検証/過去ログ1
このページは過去の議論を保存している過去ログページです。編集しないでください。新たな議論や話題は、プロジェクト‐ノート:翻訳検証で行ってください。 |
提案 20220524
[編集]- 提案 翻訳検証プロジェクトについてのこの議論を広く周知すべくWikipedia:コメント依頼およびWikipedia:コメント依頼/リストからの誘導が必要ということであれば追加しようと思いますがいかがでしょうか?「合意形成」or「議論活性化?」で迷っている部分もありますので、自分以上に必要性を感じられている方がいらっしゃるのであればその方に一任します--Tze Chiang Hao(会話) 2022年5月24日 (火) 12:09 (UTC)
- まずは我々の中で練って、最終で外部の方に諮った方がよいと考えます。...悪質機械翻訳に対処していてこの仕組みが全然作れていませんが、漸次進めていきましょう。--Sethemhat(会話) 2022年6月20日 (月) 10:03 (UTC)
テンプレート改訂案
[編集]粗悪翻訳の場合は現状査読を経て削除依頼となりますが、「Template:Sakujo」は本プロジェクトに適した文面とはなっておらず、プロジェクト立ち上げ前のWikipedia‐ノート:削除の方針#新テンプレートと参加者登録制についての要不要にて改訂の必要性を訴えておりました。今回プロジェクトが正式にスタートするということで、再度文面の改訂あるいは「Template:翻訳検証」新設の必要性について改めてご意見を伺いたいと思います。
- 現行方式は
- 主執筆者による「Template:査読依頼」
- 主執筆者あるいは第三者による「Template:Rough translation」
- 削除依頼(Template:Sakujo)→削除審議で翻訳の不備を述べる→管理人が削除or存続
のような流れとなっていますが、
- 新方式(なんとなく英語版のドラフト制度に似てますかね?)
-
- 翻訳レビュー→削除依頼(Template:Sakujo、ケースG-3)→管理人が削除or存続(これが上記までの議論内容ですが、自分が考えているのは下記のようになります。)
- 翻訳レビュースペースで(『Template:翻訳検証』※翻訳判定と削除依頼は併存並立するものとし、翻訳判定は削除依頼の保険的・補助的な役割も担う。記事に対する削除依頼直行を否定するものではない。)
- →査読者OK判定の場合:記事からテンプレート除去(ノート欄等に第○版レビュー済みであることを示す文言orテンプレートを追加)
- →査読者NG判定の場合:→削除依頼(Template:Sakujoに移行、:サブページ先頭に(*機)や(*訳)をつけG-3案件であることを明示する)→即時削除あるいは管理人が削除or存続判断
- 1人目の査読者により明白なNG判定とならなくても、先行査読者が後任査読者の判断を仰ぐ旨を明記しており、2人目以降の(単数もしくは複数)査読者によってNGが決定付けられれれば上記フェーズで問題ないと思います。
記事に貼り付けられる削除依頼テンプレートの文面について、以下のような文面へ改稿されるのが望ましいと考えています。
- 現行テンプレート文面
現在、削除の方針に従って、この項目の一部の版または全体を削除することが審議されています。削除についての議論は、削除依頼の依頼サブページで行われています。削除の議論中はこのお知らせを除去しないでください。この項目の執筆者の方々へ: まだ削除は行われていません。削除に対する議論に参加し、削除の方針に該当するかどうか検討してください。また、本項目を既に編集されていた方は、自身の編集した記述内容を念のために控えておいてください。 |
- 改訂案(上記を以下のように書き換える素案)
現在、削除の方針またはプロジェクト:翻訳検証に従って、この項目の一部の版または全体を削除することが審議されています。機械翻訳の妥当性についてはプロジェクト:翻訳検証/コンテンツ翻訳レビュースペースにて検証が行われています。検証削除についての議論は、削除依頼の依頼サブページで行われています。削除の議論中はこのお知らせを除去しないでください。この項目の執筆者の方々へ: まだ削除は行われていません。削除に対する議論に参加し、削除の方針に該当するかどうか検討してください。また、本項目を既に編集されていた方は、自身の編集した記述内容を念のために控えておいてください。 |
- 新設案(素案)
現在、プロジェクト:翻訳検証によりこの記事はコンテンツ翻訳レビュースペースにて第三者の翻訳検証を受けています。削除の方針G-3に該当する場合は即時削除あるいは削除依頼の処置が執られる場合があります。
検証についての議論は、プロジェクト内の検証サブページで行われています。検証の議論中はこのお知らせを除去しないでください。 この項目の執筆者の方々へ: まだ削除は行われていません。翻訳検証に対する議論に参加し、機械翻訳あるいは削除の方針に該当するかどうか検討してください。また、本項目を既に編集されていた方は、自身の編集した記述内容を念のために控えておいてください。 |
必要性の有無、必要なら改訂or新設どちらがよいか、文面など皆様の忌憚なきご意見をお待ちしております。--Tze Chiang Hao(会話) 2022年5月22日 (日) 09:57 (UTC) (新設案について一部文面修正。)--Tze Chiang Hao(会話) 2022年5月24日 (火) 12:09 (UTC)
- Template:Sakujoを改訂するケースでは、冒頭に「削除の方針またはプロジェクト:翻訳検証」と並列して記載することには違和感があります。あらゆるケースの削除依頼で使用されるテンプレートになりますので、例えば特筆性の問題によりケースEで削除依頼が提出された場合でも、記事に貼付されたテンプレートによって、翻訳関係での削除依頼がなされているとミスリードする懸念があります。勿論、フラグで分岐させるなど条件により表示を変更することもできますが「プロジェクト:翻訳検証でNG判定されたケースG-3に該当する記事」というTemplate:Sakujoの使用法の中でもごく限られたケースでしか使用できませんので、新たにテンプレートを作成する方が良いのではないかと思います。また、テンプレートの使用方法につきましては、対象記事すべてに貼付することは運用上、かなりの工数が必要に感じます。少なくとも査読結果OKの場合、テンプレート貼付→除去の作業は省略可能に思えますので、検証結果が「NG」もしくは「要検証」の場合に、削除される可能性があることを通知するテンプレートにするという案はいかがでしょうか。加えて、プロジェクト:翻訳検証による検証はされていないものの機械翻訳だと強く疑われる場合にも使用できるような汎用性があっても良いかもしれません。--Junknote(会話) 2022年5月23日 (月) 01:38 (UTC)
- 私も新設が良いかと思います。本来、削除依頼は最後の手段であり、翻訳検証で問題ありとされたからといっていきなり真っ赤なおどろおどろしい削除テンプレートが貼られては、翻訳者をはじめ関係者を委縮させてしまう恐れもあります。プロジェクト:翻訳検証の仕組みまで含めて色々考えたのですが、こんな段取りを作ってみてはどうでしょうか。
- コンテンツ翻訳レビュースペースでNG/要検証とされた記事に、「翻訳検証中テンプレート」(Tze Chiang Haoさんの「新設案(素案)」)を設置する。また個別に機械翻訳が疑われる記事にも、このテンプレートを自由に貼ることができるようにする。
- 削除依頼テンプレートと同様に、「翻訳検証中テンプレート」から翻訳検証サブページを作れるようにしておく。翻訳の問題指摘や議論、改善報告などはサブページで実施する。
- 「翻訳検証中テンプレート」設置およびサブページ設置から一定期間経過して進展が無ければ、G-3で削除依頼を出すことができる。具体的には、該当ページで「翻訳検証中テンプレート」の上に重ねて削除依頼テンプレートを貼り、通常の手続き通りに削除依頼を提出する。削除依頼では機械翻訳との関連があることを簡潔に指摘し、詳しい経緯は翻訳検証サブページを参照するよう誘導する。
- 削除依頼は通常通り進行し、そこでの投票をもとに管理者が削除判断を下す。
- 削除手続きそのものを特殊化すると、期間を延ばすとか削除依頼テンプレートを変えなきゃいけないなどといった面倒なことになると思います。削除依頼の手続きは、あくまでも現行のWikipedia:削除依頼に記載の手順をそのまま使った方が今後の手続きも楽になるかと。そこで上記のように、問題記事ごとに翻訳検証サブページを作るという段階を挟み、その告知テンプレートとしてTze Chiang Haoさんが提案されたようなテンプレートを使うというのはいかがでしょう。--McYata(会話) 2022年5月23日 (月) 14:02 (UTC)
現在、プロジェクト:翻訳検証によりこの記事は翻訳の検証を受けています。削除の方針のケースGに該当する場合は、審議の上削除依頼の処置が執られる場合があります。記事の検証は、この記事のノートにて行われています。
検証の議論中はこのお知らせを除去しないでください。 この項目の執筆者の方々へ:翻訳検証に対する議論に参加し、削除の方針のケース Gに該当するかどうか検討してください。また、本項目を既に編集されていた方は削除に備え、自身の編集内容を念のために控えておいてください。 |
- コメント 5月から議論が止まっておりますが、Tze Chiang Haoさんのを引き取って文例を作成してみました。集団検証に備えて分岐を用いることにより、ノートの指定ができるようにしてあります。また、おどろおどろしいとあったので、緑にしてみましたが、これでどうでしょうか。
- McYataさんは「翻訳検証サブページを作れるようにしておく」と仰っていますが、これは記事のノートで十分なのではないかと思います。
- さらに、検証前に記事に張るのを利用例として想定していると思いますが、大体のG-3適用案件は見ればわかりますから、実際の使用例は結構少ないのではないかと思います。--Sethemhat(会話) 2022年8月25日 (木) 12:15 (UTC)
- 報告 一か月異論なかったため作成しました。ご活用下さい。--Sethemhat(会話) 2022年10月11日 (火) 11:48 (UTC)
翻訳検証参加者
[編集]2022年5月20日までに登録された自分を除く利用者についてはレビューの実績も相当あり、釈迦に説法かもしれませんが、今後参加者が増えた場合に備えて良心的な参加者を想定しつつも性悪説も取り入れています。以下もWikipedia‐ノート:削除の方針#新テンプレートと参加者登録制についての要不要での素案であり、新たなアイデアが浮かんだわけではないのでそのまま転記しております。
- 原則、利用者の任意とする
- 参加者の語学力、対象となる言語や参加資格(正式な各種外国語検定の有無)は特に問わないが、常識的な良心の範囲および自己の能力および可処分時間の範囲内でプロジェクトに協力する意思を有すること
- 検証参加者は原則としてプロジェクト:翻訳検証に登録する(プロジェクト:翻訳#参加者に準じてプロジェクト:翻訳検証#参加者に署名という形を考えています。上位である前者への登録がなくても下位である後者だけへの参加表明を以って参加意志とみなす形を想定しています。)
- 上記登録がなくても参加は可能であるが、ある程度問題ない判定をしているうちは判定を有効とする(黙認扱い)、誤判定を繰り返す場合は登録者欄の節に「未登録参加かつその判定に問題がある利用者」のような節を設け注意を促す。
- IP参加者もテンプレートを用いた査読はできるが、削除依頼同様その意見は「投票権なしのコメント」とみなし、登録参加者の意見を待つ。
- 検証参加者は週次や月次、年次の回数やノルマは課されないが、幽霊登録者と見なされかねないような低頻度が見込まれるような空登録は控えること。
- プライベートでの事情で参加できないことや、執筆したい記事がありそちらに集中したい、あるいは期間中の対象記事が自分が専門としない言語や分野であるため参加を控えることを想定しています。(自分の場合ですと『今は中→日の記事が無いから参加を見合わせよう』などが思いつきます。)
- ウィキブレイクや翻訳検証プロジェクトから参加を一定期間見合わせる、撤退するなどの場合は「参加者覧の自分の利用者名にその旨を追記するか、利用者名を打ち消し線で修飾」あるいは「利用者ページでのウィキブレイク」明記などを以ってそれを代替する。
- 悪戯目的あるいは悪意ある参加者があまりに雑過ぎるいい加減かつ軽率な判定を行い、かつ判定に正当な異論がつくなどそれが誰の目にも明らかな場合、あるいはそのような判定の結果、削除依頼が存続となるような場合にその回数分のイエローカード(Template:Yelを借用かそれに準じたものを作成。2回目あるいは累積でレッドカードとはしない)を参加者一覧の利用者名に付与し、同一記事で複数回のイエロー、あるいは複数の記事におけるイエローの間隔や頻度によってはその利用者に対する対話(会話ページ、コメント依頼など)へと移行。(誰がイエロー判定するのかなどの問題はここでは棚上げします。)
- イエローカードX枚で参加資格や認定レビュワー資格は停止・剥奪されず、引き続き判定行為を継続することができる。
- ただしイエローカード後の直近N回の判定は「判定ではなくコメント扱い」とされ、他の判定者によりそのN回全てで判定内容に異論がなかった場合は、イエロー+N回コメント以後の行為で有効扱いが復活する。(プロサッカーリーグでの累積イエロー5枚で出場停止のようなものと考えてください。厳密には出場停止ではなく、意見表明を継続できるが、N回の間はIPと同じコメント扱いにされる。)
- イエロー直後のN回判定コメントでも悪質な判定と認定された場合、プロジェクト登録か否かを問わずその利用者への対話フェーズに移行する(当該利用者会話ページあるいはコメント依頼)
問題点は大量の濫造記事に対してレビューが追いつくのかと、管理者、削除者、一般利用者からこれのための人材リソースが確保できるのかに尽きると思います。
却下されることも前提に思いついたことを自分なりに整理してみました。提案そのものの妥当性およびイエローカード制度やサスペンション期間の期間(=記事レビュー数)はどれぐらいが妥当かなど、皆様の忌憚なきご意見をお待ちしております。--Tze Chiang Hao(会話) 2022年5月22日 (日) 09:57 (UTC)
警告(暫定)
[編集]ここ数日、プロジェクト:翻訳検証#参加者にて参加表明をされていない利用者(スポット参加者?)によるいくつかのレビューに疑義が呈されているようなので、プロジェクト:翻訳検証#警告中節にて暫定的に運用を開始しました。カード数がいくつになればどういうアクションを求めるとかまではまだ決まっておりません。--Tze Chiang Hao(会話) 2022年6月29日 (水) 09:37 (UTC)
「機械翻訳の濫用はおやめください」テンプレートについて
[編集]作業効率化のために、「機械翻訳はおやめください」のテンプレートを作りましょう。一番対処されているMcYataさんに草稿を作っていただいてそれに私含め他の人が加筆するスタイルでどうでしょうか。--Sethemhat(会話) 2022年6月20日 (月) 09:59 (UTC)
- コメント 技術的なことは詳しくないので、こちらからは毎度のように皆様に丸投げ、追認する形しかとれそうにありません。おそらく問題利用者の会話ページに貼り付ける運用を想定しておられるのでしょうが、それとは別に新規作成時に警告の一環で表示させるようなギミックがあってもよいかもしれません。--Tze Chiang Hao(会話) 2022年6月20日 (月) 10:07 (UTC)
- 報告 McYataさんが現在活動されておられませんので、私の方で{{機械翻訳の濫用}}を作成しました。ユーザーの警告に活用下さい。確認頂き、もし追加/変更したい文言等あれば自由に変えて頂ければと思います。--Sethemhat(会話) 2022年8月22日 (月) 08:46 (UTC)
METAなどの文書の翻訳会社のひとつ、Gengoへの登録について
[編集]プロジェクトの参加者様、以下の内容はウィキペディアなどの記事の翻訳とは関りがありません。財団とコミュニティとの意思疎通のためです。これまでボランティアの方々の善意の翻訳に主として依存してきました。しかし、一部の文書について、財団が幾つかの翻訳会社と契約をしました。あくまでも一部です。全てではありません。急ぐ場合(技術者がコミュニティから意見を聞きたい場合など)、担当者が自分の判断で機械翻訳をし、お知らせや井戸端に載せます。
Gengoは最近、契約に至った翻訳会社です。東京に本社があります。柴田は個人的なつながりは一切ありません。ただ、選考段階で、他の会社よりは「まし」とわかりました。『数十の言語に対応できる翻訳会社は世界でも限られており、どの翻訳会社も一次翻訳に機械翻訳を使います(必ず、かどうかは、外部者である柴田にはわかりません)。』(YShibata (WMF)(会話) 2022年6月26日 (日) 05:00 (UTC))『』追加)仕上げを登録翻訳者が行います。
ご存知の通り、どのウィキにも独特の用語があります。7月以降、財団の中に、提出された日本語が正しいのかどうかを確認する人間がいなくなります。求人がもうすぐ出そうですが。何にせよ、英語・日本語・各ウィキの事情(特にムーブメントストラテジー)に精通している人が必要です。
もしよろしければ登録をお願い致します。なお登録をしてもしなくても、柴田にはわかりません。誰にもわかりません。せっかく日本の会社が選ばれたのにWikis用語に不適切な日本語が使用され、誰かが「この翻訳は酷い」と財団に言えば、契約打ち切りになる可能性があります。他の、例えば、インドの会社が選ばれるかもしれません。実際、日本語についてもインドの会社になりかけました。
財団の中の、柴田所属の多言語担当者のチームで多言語共通用語集を作り、翻訳会社に渡しました。
『日本語版の作成過程で、1月から、多くの日本語利用者の方々のご協力を得ることができたおかげです。この部分のアップロードはまだです。多言語なのでメタページの構造やエクスポートに時間がかかっており申し訳ありません。今後も訂正・増加を受け入れるためのメタページの作り方がとても難しいです』(YShibata (WMF)(会話) 2022年6月26日 (日) 05:00 (UTC))『』追加)
ご存知の通り日本語は一筋縄ではいきません。Wikisを知らない登録翻訳者が間違える可能性は高いです。他にもどなたがご存知であればこのリンクを送っていただければありがたいです。--YShibata (WMF)(会話) 2022年6月20日 (月) 10:56 (UTC)
- @YShibata (WMF)さん ご連絡ありがとうございます。正直に申し上げで、色々な面で憂慮すべき動きだと感じています。
- まず、日本語版コミュニティでの告知が無く一足飛びに翻訳外注を決定してから報告されたのはなぜなのでしょうか。有償翻訳者の募集が滞っているという点は応募しなかった私のようなWikipedia利用者にも責任があると思いますが(とはいっても自分の興味対象から外れたものに時間と労力をかける余裕がどうにもないもので・・・)、さすがにそれで外に頼む、という話には面食らいました。(私の認識不足で既に告知されていたなら申し訳ありません。)
- 「Gengoに限らず他の翻訳会社も一次翻訳に機械翻訳を使います。仕上げを登録翻訳者が行います。」これは事実ですか?私自身、親会社のLionBridge社とかかわったことがありGengoの存在も知っていたのですが、「機械翻訳に頼るのではなく、プロフェッショナルな技術を持った翻訳者が携わる」サービスを提供する会社だと認識しておりました。もちろん機械翻訳を用いたポストエディットも活用しているとは聞いていますが、機械が「一次翻訳」で人間が「仕上げ」というほどだというのは少し予想外でした。もしそうなら、なぜ井戸端やプロジェクト:翻訳などではなく、機械翻訳への対応に苦慮している我々プロジェクト:翻訳検証に最初に持ち込んできたのでしょうか。
- もし私がGengoを知らず、ここで「Gengoに限らず他の翻訳会社も一次翻訳に機械翻訳を使います。仕上げを登録翻訳者が行います。」と言われてしまったら、まず参加しようとは思わないでしょう。柴田さんご自身、井戸端での議論も経て、機械翻訳について現時点でどういった認識をお持ちなのかも気になるところです。
- なぜ外注したうえで我々Wikipedianに参加を依頼するのですか。そもそもGengoでは英日翻訳者が供給過多の状態にあり、新規登録すら難しい状況です(私も試しに会員登録してみましたが、実際に仕事をする前段階のテストは来月になるまで枠が空かなさそうです)。仮に登録翻訳者になれたとしても、他の翻訳者たちが常に案件を待っている状況なのですから、WikipedianがWikipedia文書の翻訳を引き受けられる可能性は極めて低いです。外注した時点で「Wikisを知らない登録翻訳者が間違える」のはほぼ確定と言っていいでしょう。そのあたりの危険性は把握していらっしゃったのでしょうか。
- 「せっかく日本の会社が選ばれたのに」個人的な意見ですが、しっかり英日翻訳が出来るプロの方が所属しているなら、どこの国の翻訳会社でも別に良いと思います。一つ日本の会社である利点を挙げるならそれは「日本語で会社と直接意思疎通が出来る」ということでしょうが、そもそもWikimedia側の交渉窓口は財団であり、上記の利点を生かせるのは日本語で意思疎通ができる方が財団にいる場合に限られます。つまり現時点では柴田さんしかその利点を活かせる方がいません。柴田さんが財団にいらっしゃるうちにご自身がGengoと十分な意思疎通を取り「Wikis用語に不適切な日本語が使用され」ないように尽力していただくしか「利点」は活かせないと思うのですが、いかがでしょうか。
- 「財団の中の、柴田所属の多言語担当者のチームで多言語共通用語集を作り、翻訳会社に渡しました。」日本語への文書翻訳はこのような対訳集で何とかなるものではないというのは、以前個人的に申し上げたはずです。「用語集」ではたとえばInterWikiを「ウィキ間」と訳していますが、これを「ウィキ間(リンク)」と書くか「インターウィキ」と書くかは文脈によって異なるわけで、これだけポンとWiki素人の翻訳者に投げるというのでは先方が可哀そうですらあります。しかし外部組織ですから、我々Wikipedianが助けに行くこともできません(我々が自分で案件を引き当てるのが難しいというのは上記の通りです)。この点でも、窓口として柴田さんを頼るしかないのですが……。
- いっぺんに色々投げて申し訳ないのですが、お答えいただけると幸いです。--McYata(会話) 2022年6月25日 (土) 15:44 (UTC)
- コメント かなり厳しいことを言います。正直YShibataさんの上の文章を読んだとき「全くお門違いだ」と思いコメントを寄せる気にならなかったですが、McYataさんが内容の問題点についてご丁寧に示してくださっているので、私も思ったことを書きます。
- 一つだけでも覚えておいて頂きたいのは、日本語は、他の言語と違い、大変機械翻訳にとって難しい言語であるということです。これを理解してくださって上記のことをおっしゃられているか不安です。理由として、言葉の表現の仕方が多様で、ニュアンスがそれぞれ異なることが第一に挙げられます。一つの訳例が、他の場合では全く不適切であるということが容易に起こりえます。
- そして、私たち翻訳検証者はJawpでの機械翻訳によって作られたゴミを掃除するのに忙しく、そのような翻訳をしている余裕もありません。人員が少ないのはわかりますが、私たちに持ってこられても困ります。大変雑ですがここまで。--Sethemhat(会話) 2022年6月26日 (日) 02:27 (UTC)
- 翻訳会社を利用することは「日本語利用者とだけ」でなく、ほぼ20の言語について一斉で今後、言語数は増えます。
- 「日本語版コミュニティでの告知が無く」→ 翻訳のお願いやご相談など、2022年1月から機会あるごとに伺ってまいりました。
- 「(財団と直接契約する)有償翻訳者の募集が滞っている」→ 本来、こちらを優先させており、現在もそうです。しかし、日本語利用者からの応募がありません。例えば、助成金関連書類の日本語版の作成のための予算を取ったにもかかわらず、申請をされている方々にご苦労をおかけし、後の報告書などでも更なるご苦労をおかけすることになりそうです。メタページではないので、ボランティアが翻訳できる文書ではありません。
- 数十の言語に対応できる翻訳会社は世界でも限られており、どの翻訳会社も一次翻訳に機械翻訳を使うと渉外者が申しておりました。(どの言語についても 必ず、かどうかは、社外の者にはわかりません)。
- 「機械翻訳について現時点でどういった認識をお持ちなのか」→ ここでの翻訳はウィキペディアなど記事の翻訳とは関りがありません。長年、技術者も機械翻訳で日本語利用者にお知らせをしています。
- 「なぜ外注したうえで我々Wikipedianに参加を依頼するのですか」→ 財団と直接契約の有償翻訳者を募集しても、応募が無かったからです。
- 「危険性は把握」しているのでこうしてお願いをしています。「新規登録すら難しい状況」→ Gengoに直接、担当者に聞いてもらいます。
- 「しっかり英日翻訳が出来るプロの方が所属しているなら」→ 数十の言語に対応できる会社を一斉に比較しました。他よりよかったのがゲンゴです。
- 「日本語で会社と直接意思疎通が出来る」→ 日本語で意思疎通はしていません。数十の言語を同時に進める財団としての契約なので英語のみです。
- 「多言語共通用語集」→ スプレッドシートの日本語の列の作成過程で、管理者の方々はじめ、ベテラン翻訳者の方々、多くの日本語利用者の方々のご協力を得ることができました。
- 「対訳集で何とかなるものではない」→ 上記の方々とも、共通認識です。そこで、まず、直接有償契約を募集し、現在、会社への登録をお願いしています。
- 先週末、助成金関連の膨大な書類の日本語版をつくるための根回しと予算を立てるところまでたどり着けました。日本語コミュニティから申請をしやすくするためです。現状、上記直接契約者を探しています。翻訳会社の場合、仕上がりをチェックする人間がいなくなるからです。このままでは申請者は膨大な書類を英語で読み書きする、あるいは、かなり面倒なのでこれまで通り自腹で活動されるかしかありません。--YShibata (WMF)(会話) 2022年6月26日 (日) 06:19 (UTC)
機械翻訳を機械的に検証する方法
[編集]みなさんこんばんは。外部ツールで文章の一致率を算出するフリーツールがいくつか発表されており、そうしたツールに翻訳された記事をかけてみるとどのような結果になるか、いくつか検証してみましたので情報連携しておきます。
今回使用したツール : 文章類似度算出(速攻ハック版)(テキストベースでコピペして比較するタイプ)
それぞれ、記事から無作為に抽出した一定量の文章と翻訳元google翻訳結果文章該当部分を比較した。
google翻訳結果と類似しているとして削除依頼にかけられていたもの
- 中華人民共和国のスポーツ 一致率87.038280725319 %
- マリオ・レブレーロ 一致率90.60773480663 %
- 2020年-2021年アメリカ合衆国大統領選挙抗議デモ 一致率86.642965972575 %
- アリエル・ドルフマン 一致率90.199406024608 %
機械翻訳を参考にはしたものの文章を自作したことがあきらかなものの場合(私が作ったもの)
- セントラル・パーク管理委員会 一致率45.119305856833 %
- コロンビアにおけるカバ 一致率52.355650017712 %
プロジェクト:翻訳検証/コンテンツ翻訳レビュースペース/2022年6月の6/21より
- フリーウェイ・シリーズ 一致率73.830155979203 %
- 形質芽球性リンパ腫 一致率62.135442412259 %
- Twitterの認証バッジ 一致率30.323450134771 %
- クロスタウン・クラシック 一致率65.928744379108 %
- 原始社会での紛争 一致率86.348044820489 %
- イェンス・バーゲンステン 一致率88.631090487239 %
翻訳記事のため、ある程度の一致はしょうがないのかなと思いますが、おおむね、80%後半で一致すると、該当の機械翻訳を使用した可能性が高く、適切に改稿できていないような感じを受けました。 この場合、原始社会での紛争、イェンス・バーゲンステンはgoogle翻訳からほぼそのまま持ってきている可能性があります。定量的に結果がわかるので、自分の中で一致率がいくつだったら削除しようとかの明確な目標数値を持つことができます。アルゴリズムがわからない外部のツールなので正式に使いましょうとは言えませんが・・・--Gurenge(会話) 2022年6月22日 (水) 10:25 (UTC)
- コメント 自分は過去にコンテンツ翻訳を使ったことがなかったのですが、せっかくプロジェクトに参加しているのだからと思い、テストも兼ねて使ってみました。右隅に機械翻訳との一致率が出る仕様のようですね。事前に「コンテンツ翻訳の画面上で文章のみ(極力)自力翻訳し一旦除去」(A)、ローカル(オフライン)で保存しておいた「文章のみ自力翻訳」(B')、同じくローカル上の「完全自力翻訳(出典強化とテンプレート最適化含む)した完全版の原稿」(B)を用意したうえで初めて使ってみました。A除去後に本文のみ最初からやり直した直後に、画面上で生成された機械翻訳の日本語(A')をA水準に近づけてもツール上の機械翻訳率が80%を切ることは一度もなく、B'(≒B)の文章に近づけてもそれは変わりませんでした。infobox型のテンプレートの置き換えに難があることや、原文についていた出典が右側の訳文出力箇所に移入できていなかったりで、前々から思っていた機能上の欠陥を更に思い知る結果となりました。旧大安渓橋がそうなのですが、初版(A')→第2版(B')→第3版(B)でどれほど齟齬があったかはおわかりいただけるかと思います。B'とBをツール画面に投入しても80%台を維持していたので、個人的にはコンテンツ翻訳機能は翻訳そのもの以上にそういった判定に問題を抱えていることがよくわかった、というのが個人的な感想です。それはそれとして、上記のツールは便利そうですので次回レビュー時に活用してみようかと思います。--Tze Chiang Hao(会話) 2022年6月22日 (水) 14:52 (UTC)
- コメント Gurengeさんがご提示された「文章類似度算出(速攻ハック版)」を使用したGoogle翻訳の検証記事を発見したので共有します。当該ブログの筆者の方はGoogle翻訳をポストエディットしたものは、見抜けると結論付けられているようです。私も少なくとも機械翻訳を見分ける目安として使用することはできそうに思えます。
- Tze Chiang Haoさんがご指摘されているコンテンツ翻訳ツールの示す一致率につきましては、データを引っ張れるAPIを見つけたので、何かに利用できないかとレビュースペースの結果と比較してみたのですが(参考)、機械翻訳が50%以下でもGoogle翻訳そのままだったり、きちんと手が加えられているものが80%台だったりと、目安としても使用するのは厳しい印象です。
- ついでに私が最近使用して便利だと思ったツールがこの話題に役立ちそうなので紹介します。コンテンツ翻訳を制作されたウィキメディアの技術者の方が公開している「Translation debugger」というデバッグツールです。英語版からの翻訳であれば Source language に「en」、Target languageに「ja」、Source title に英語版の記事名を入力して「FIND」をクリックすると下に情報が出力されます。ここで TRANSLATION タブをクリックすると、コンテンツ翻訳でその時に吐き出した機械翻訳文が確認可能で、翻訳結果の揺れを排除できます。--Junknote(会話) 2022年6月23日 (木) 03:42 (UTC)
- 一致率で調査をする方法は、明らかなコピペを炙り出すにはある程度効果的です。ただ、しっかり原文と対照させ十分に修正された記事でも高い割合が出ることはありますし、また逆にほぼ機械翻訳コピペでも意図的に空虚な文字列を増やすなど簡単な手法で割合を下げることもできてしまいます。現状では、最終判断はまだ人の目に頼るところなのかなと(正直もう機械翻訳でできた記事を見つけ出す作業にはうんざりしているので、ワンクリックでできるならそれに越したことはないのですが・・・)。またTze Chiang Haoさんが紹介されているコンテンツ翻訳内の「機械翻訳率」表示機能は、なぜか特に日本語への翻訳の時には役に立ちません。井戸端での議論でも指摘されている点ですが、私の実体験でも、一切機械翻訳を使わず人力翻訳していても4,50パーセントの数字が出ることがありますし、短い記事なら90パーセントを越えることすらあります。検証の際にはコンテンツ翻訳内の機械翻訳率を鵜呑みにせず、Gurengeさんが紹介されたツールを使うなり、Junknoteさんが紹介されたツールで見比べるなりした方が良いのかなと思います。--McYata(会話) 2022年6月25日 (土) 15:10 (UTC)
*コンテンツ翻訳の機械翻訳機能廃止に向けて―議論提起と今後の構想のお知らせ *技術班へ申し入れ以降 (2022-10-25) の過去ログ化場所はここです。
連絡 20220626・20220828
[編集]- プロジェクト:翻訳検証/個別報告を作成しました。見てみて気づいたことあれば修正をお願いします。--Sethemhat(会話) 2022年6月26日 (日) 02:27 (UTC)
- プロジェクト:翻訳検証/利用者別も作成しました。こちらも。--Sethemhat(会話) 2022年8月28日 (日) 09:45 (UTC)
リストアップされないタイプの投稿記事?
[編集]こんばんは。
「コンテンツ翻訳レビュースペース」の一覧にリストアップされたら報告した方がよさそうな気がする記事を見つけた(具体的には「フランス国立科学研究センター研究部長」という記事です)のですが、もしかするとチェックの網をすり抜けてしまっているタイプの記事かもしれません。利用者の下書きスペースから細部の編集という形で移動されたみたいです。同じ方が過去に同様の手段でアップされた記事が他にもありました。(9月5日の「ビットマップ (情報技術)」という記事のほか、それ以前にもあるようです)
どうしましょう、手動でリストに追加した方がよいでしょうか。かなりDeepLそのまま臭の強い内容です。--ウィキで英語の勉強(会話) 2022年9月14日 (水) 16:15 (UTC)
- 返信 (ウィキで英語の勉強さん宛) ご連絡ありがとうございます。ご指摘の通り「新規記事かつ標準名前空間への投稿」という抽出条件から漏れている記事になります。お手数をお掛けしますが、プロジェクト:翻訳検証/個別報告、もしくは、レビューが必要な記事が複数あるようでしたら、プロジェクト:翻訳検証/利用者別のいずれかへの追加をお願いできればと存じます。何卒宜しくお願い致します。--Junknote(会話) 2022年9月14日 (水) 22:51 (UTC)
- ありがとうございます。体裁が間違っているかもしれませんが、プロジェクト:翻訳検証/利用者別に追加しました。--ウィキで英語の勉強(会話) 2022年9月15日 (木) 03:44 (UTC)