Wikipedia:井戸端/subj/コンテンツ翻訳ツールにおける日本語への機械翻訳をツール側で禁止する提案
|
コンテンツ翻訳ツールにおける日本語への機械翻訳をツール側で禁止する提案
[編集]Wikipedia:井戸端/subj/翻訳ツール(ベータ)を用いた編集の増加と、機械翻訳の取り扱いやWikipedia:井戸端/subj/コンテンツ翻訳ツールの是非などで度々話題となっている通り、現在広く使われているコンテンツ翻訳ツールでは機械翻訳をそのまま投稿することが可能となっています。Wikipedia‐ノート:削除の方針/2019年#ケースGの改訂提案-201901の改訂である程度対処できるようになりましたが、見つけ次第削除するという事後策のため、機械翻訳をそのまま投稿するケースは後を絶えません。つきまして、根本的な解決策として、コンテンツ翻訳ツール側で日本語への機械翻訳を禁止するようPhabricatorにて提起すべきか、ウィキペディア日本語版のコミュニティで合意を形成したいと思います。
提案
[編集]- 合意が形成された場合、Phabricatorでタスクを作成し、主な論点を英語に翻訳して記載します。
- 具体的な実装としては、コンテンツ翻訳ツールで日本語への翻訳を行うとき、「Google Translate を使用」「Yandex.Translate を使用」「LingoCloud を使用」「Youdao を使用」を選べなくなるようにします。追記--ネイ(会話) 2019年7月17日 (水) 03:45 (UTC)
- 2019年4月にインドネシア語版での合意に基づきphab:T219851が提出されましたが、ウィキメディア財団の方からの反論があり、最終的には「3割以上の内容が機械翻訳そのままの場合、投稿を禁止する」ことが実装されました(既定では8割以上で警告、99%以上で禁止)。そのため、日本語版での合意があっても実装されるとは限りません。財団の方からの反論への返答について、予めここに記しておきます。
- Category:未査読の翻訳があるページというカテゴリがあるため、コンテンツ翻訳で作成されたページの追跡はできる - インドネシア語版と同じ状況ですが、そもそも人手不足なので、これ以上コミュニティへの負担を増やすべきではありません。現時点で当該カテゴリには800件以上のページがあり、追跡としての機能が果たされていないことが明らかとなっています。
- 特別:ContentTranslationStatsで示されている通り、多くの記事がコンテンツ翻訳ツールを通じて日本語版に投稿されている。そのうち削除されたものの少なさからして、機械翻訳問題はそれほど深刻ではない - 上記で示されている通り、日本語版では人手不足でチェックがそれほど行き届いておらず、全ての機械翻訳そのままの投稿が削除済みというわけではありません。
- 現在のところ、コンテンツ翻訳ツールでは8割以上が機械翻訳そのままの場合、投稿する前に警告メッセージを表示させており、99%以上の場合は投稿が禁止される - 日本語への機械翻訳ではGoogle翻訳でもYandex翻訳でも本文ほぼ全てを手直しする必要があるため、インドネシア語版で実装された「3割以上で投稿を禁止する」では不十分です。
- 見出しの翻訳などごく短い文では正しく機能することが多いので、「8割そのまま」で投稿を禁止するという基準を低くしすぎた場合、そのように使うこともできなくなる - 見出しを翻訳するだけならば、機械翻訳を使う利便性はかなり少ないのでは?また、日本語への翻訳ではごく短い文でも正しく機能しないことが多い。
- どこまで編集すれば、「機械翻訳そのまま、または軽く手直ししただけの文」にならなくなるか - 一から書き直さなければならないほどであり、そのように編集することはほかにも問題があります。利用者の私論ですが、利用者:McYata/コンテンツ翻訳についてにて例示があります。
- 英語版のen:Wikipedia:Content translation toolによると、英語版への機械翻訳は2016年7月に停止されています。また、英語版への投稿は英語版の「拡張承認された利用者」に限定されています。追記--ネイ(会話) 2019年7月16日 (火) 10:30 (UTC)
コメント
[編集]- 現在のところ、2週間後の提出を目処としています。なお、コンテンツ翻訳ツールを完全に無効化するという提案ではなく、提案通りに実装されたとしても編集ツールとしての機能は残す予定となっております。--ネイ(会話) 2019年7月16日 (火) 05:38 (UTC)
- 質問 機械翻訳投稿の実態には詳しくない、というよりは殆ど無知に近いのですが。禁止した所で、直接Google翻訳等にコピペして翻訳し、機械翻訳という事を隠して投稿されるだけなのでは無いでしょうか? その機能を未使用の僕が言うのもアレなのですけども、意味が有るのか疑問です。--お好みでタピオカをおかけください(会話) 2019年7月16日 (火) 06:45 (UTC)
- コンテンツ翻訳ツールが利用できるようになった以降に機械翻訳そのままの投稿が増えたように見えます(詳しい統計データがあるわけではありませんが)ので、機械翻訳を使えなくすることは一定の効果があるだろうと予想しています。--ネイ(会話) 2019年7月16日 (火) 08:18 (UTC)
- 成程です。直近でもWikipedia:削除依頼/アグアルディエンテが有りましたが。削除前に見ましたけど、アレは機械翻訳の放置にしか見えなかったですし。そういった事を有意義な割合・件数で減らせるならば、良いのでは無いかと思います。(僕は疎い為、賛否までは主張しません。あくまでも、コメントです)--お好みでタピオカをおかけください(会話) 2019年7月16日 (火) 10:04 (UTC)
- コンテンツ翻訳ツールが利用できるようになった以降に機械翻訳そのままの投稿が増えたように見えます(詳しい統計データがあるわけではありませんが)ので、機械翻訳を使えなくすることは一定の効果があるだろうと予想しています。--ネイ(会話) 2019年7月16日 (火) 08:18 (UTC)
- 賛成 ご提案に賛成いたします。コンテンツ翻訳のツールを使った投稿はかなり見かけますが、見つけて対処するだけで大変な労力ですし、日本語への機械翻訳はほぼ全て意味不明・不正確になる状態なので、使えないようにするだけでいくぶんか効果があると思います。--さえぼー(会話) 2019年7月16日 (火) 09:21 (UTC)
- 賛成 私は機械によって自動翻訳されたものがどんなのか、(Wikipedia歴が浅いのもあって)知らず、この井戸端にあったリンクで調べてみたのですが、これはひどい・・・。McYataさんがこの翻訳例を調べて書いてくださったのが半年前とのことで、この半年の間に多少進歩があったとしても、使える域に達しているとは思えませんし、増してネイティブな日本人のチェックなしに機械任せにまでできる域に達してるとはとても思えません。禁止に賛成します。とはいえ、将来的に質が上がる可能性はありますよね?(McYataさんがおっしゃってた通り、翻訳の精度は日々向上します。Google翻訳は今はある程度使える水準にありますが、昔はひどいもんでした)その場合はネイティブ日本人(きちんと自然な日本語を操れる方なら外国人でも構わないのですが)がチェックをした上で機械翻訳に委ねるというのは考えられると思います。とはいえそれまでには年単位でかかるでしょうし、そう考えるととりあえず禁止にすべきであると考えます。ので賛成。--Y.iwamoto-0810(会話) 2019年7月16日 (火) 10:16 (UTC)
- ちなみに質問なのですが、今機械翻訳任せにすることを禁止する(最低限人間のチェック)方針やガイドラインはあるのでしょうか?先ほどのリンクは「私論」という形でしたが・・・--Y.iwamoto-0810(会話) 2019年7月16日 (火) 10:18 (UTC)
- Wikipedia:翻訳のガイドライン#機械翻訳にてそのような文言があり、またWikipedia:削除の方針#ケース G: 他言語・翻訳についての問題がある場合でも似たような文言があります。--ネイ(会話) 2019年7月16日 (火) 14:46 (UTC)
- ありがとうございます。しかし、
翻訳のガイドラインはあくまでガイドラインですし、削除の方針は削除されるたくさんあるケースのうち一つに過ぎません。(知らない人もいるでしょう)この提案の議論は引き続きするとして、並行して方針で「機械翻訳をそのまま使わない」と言うようなものを(方針の一項目ではなく、方針そのものとして)置いたらどうでしょうか?(方針の改定手続きは詳しくは知りませんが、コミュニティの同意でできるんでしたよね)いっそのこと機械翻訳そのものを方針で禁止するとか・・・方針の改定はこちらで決めれることですし。いずれにせよ財団の返事を待たないといけない翻訳の禁止よりは早くできるでしょう。最もそもそも機械翻訳の内容に違和感を覚えない人間が方針が読めるのかと言うのは若干微妙ではありますが、やらないよりはましかと思います。楽観視しすぎでしょうけど、それで機械翻訳の問題が減ったら儲けもんですし、その方針を置いたから増えると言うことはないでしょう。--Y.iwamoto-0810(会話) 2019年7月18日 (木) 10:07 (UTC)- 今気づいたんですが、ガイドライン含めて聞いといて「あくまでガイドライン」って失礼でしたね。すみません。要点は、方針、ガイドラインの一項目である機械翻訳に関する記述やコミュニティの考え方を方針そのものとして(格上げ?)分かりやすくする、と言うことです。--Y.iwamoto-0810(会話) 2019年7月18日 (木) 10:29 (UTC)
- ありがとうございます。しかし、
- Wikipedia:翻訳のガイドライン#機械翻訳にてそのような文言があり、またWikipedia:削除の方針#ケース G: 他言語・翻訳についての問題がある場合でも似たような文言があります。--ネイ(会話) 2019年7月16日 (火) 14:46 (UTC)
- ちなみに質問なのですが、今機械翻訳任せにすることを禁止する(最低限人間のチェック)方針やガイドラインはあるのでしょうか?先ほどのリンクは「私論」という形でしたが・・・--Y.iwamoto-0810(会話) 2019年7月16日 (火) 10:18 (UTC)
- 保留 ネイさん提案の背景・目的には大いに共感しますが、手段をもう少し煮詰めてもいいのかなと感じました。翻訳ツールによって低質な記事が濫造されている現状は嘆かわしい一方で、一部ユーザはツールをうまく活用して、高品質で効率的な記事執筆に役立てています。つまりツールの問題というより、個々のユーザのスキルや意識の問題だと思います。そこで、以下の2案を代替として考えられないでしょうか?
- 代替案 (A): 原則はツール使用NGとするが、使用したい優良ユーザがいれば、審査の上で許可する。「Wikipedia:Bot/使用申請」や「Wikipedia:権限申請/アカウント作成者」のイメージに近いです。
- 代替案 (B): 原則はツール使用OKとするが、粗悪な翻訳記事を繰り返し濫造する問題ユーザがいれば、ツール使用禁止令を出す。ある意味部分ブロックの翻訳版みたいなイメージです。
- さらにこれを実現するにあたり、管理者さんの作業負荷をなるべく減らすために、2つほど前提となる環境整備もあわせて提示させて頂きます。
- 前提 (1): 「プロジェクト:翻訳」みたいなものを立ち上げ、翻訳執筆に長けた方々でなるべく自律的に運営できるとベターかなと思いました (既に存在していたらすみません)。このようなバーチャル組織があれば、上述の (A) 案を採用した場合の審査事務を担えますし、直接Google翻訳等にコピペする抜け穴ユーザへの対応や、ツール類は一切使っていないけれど低質な翻訳記事を作ってしまう方へのアドバイスなど、より広く対処できると思います。
- 前提 (2): 英語版にあるen: Wikipedia:Drafts (標準名前空間からドラフト空間への移動) を導入してはいかがでしょうか? 「低質な翻訳記事を表に出すのは嫌だけど、さりとて記事の主題そのものは重要なので削除依頼はできれば出したくない」というケースに対応できます。加えて、こちらが一発削除するよりも、ドラフトに戻して本人に直させる方が、今後は濫造をやめようと感じて抑止効果につながるかもしれません。
- ぽっと思いつきで提示した案なので、詰めが甘いかもしれません。皆さまのご意見お聞かせ下さい。--ProfessorPine(会話) 2019年7月16日 (火) 13:15 (UTC)
- 翻訳ツール自体の廃止は提案しておらず、「翻訳ツールの機械翻訳機能」のみの廃止を提案しています。上記の利用者の私論でも示されている通り、現時点の日本語への機械翻訳には活用できる場合が全くないため、一部利用者が翻訳ツールを活用しているとはいっても、機械翻訳機能を活用しているとは考えられません。機械翻訳なしにツール自体をエディターとして使用するだけならば、現時点では特に審査などが必要であるとは考えていません。プロジェクト立ち上げやドラフト名前空間の導入などは現時点で意見はなく、本提案とは別に議論を提起してもいいと思います。--ネイ(会話) 2019年7月16日 (火) 14:31 (UTC)
- 「一部ユーザはツールをうまく活用して、高品質で効率的な記事執筆に役立てています」となる可能性は、機械翻訳に限れば無視してよい程度でしかありません。また、高品質を生み出せるような僅かな利用者のために大多数に損害を与えることは許容されません。高品質な記事の存在は、数百倍の粗雑な記事をなかったことにできないのです。つまり代替案Aについては、許可制にするよりは単純に翻訳部分だけを停止した方が現実的でしょう。これでも対訳ツールとしてなら使えますので。代替案Bは問題を起こすアカウントの主力は他言語版の利用者と新規アカウントですから塞いだところで追いつきませんし、逐一個別対応を行うことでは網をかけて対処する提案の代替とすることはできません。これは現在の放置よりはましという程度の効力しかなく、負担は多大なものになります。オプション的に付け加えるならまだ使えますが、これをもって代替とすることは無理でしょう。環境整備ですが、プロジェクトについては個々にそのような対応を行う利用者は少なからずおり、それでも対処しきれないからこその現状です。つまり既に自律的に活動は行われており、残念ながらそれで対処の代替・補完とするのは非現実的です。加えて、日本語版のプロジェクトは管理権限を担うことはありませんから、審査事務をプロジェクトに委ねる可能性は無いでしょう。Draft案は私も考えたのですが、移動権限がネックで扱いきれないかなと。Draftは、コンテンツ翻訳を強制的に放り込むなら意味はあると思いますが、任意なら無意味になります。当初より品質に疑問を持つような利用者なら、そもそも現在でも問題を起こさないでしょうし、問題利用者が任意でDraft化する可能性に期待することはできません。またDraftは必ずしも本人に直させるものではありませんし(それは利用者ページに置く下書きの役目です)、標準からDraftへの移動を認めている英語版の運用は、運用上移動者に根拠のない承認権限を与えるに等しいという重大な問題があります。まして目の行き届かない日本語版では悪用の危険性が高いです。日本語版で導入するなら、Draft関係の移動を特殊な権限として扱えなければ運用できないでしょう。英語版もまた問題が多く人数も違うので、そのまま導入すれば良くなるというものでもないのです。--Open-box(会話) 2019年7月16日 (火) 16:54 (UTC)
- 「数百倍」というのは何処から出てきた数字でしょうか? 単に、非常に多い気がする、ということを仰りたかったのでしょうか? それとも「仮に数百倍になったとすれば」という意味で仰ったのでしょうか? --2001:240:2404:4E48:84C6:5BEA:DBCE:3CA6 2019年7月17日 (水) 03:21 (UTC)
- 実感優先ではありますが、今のところ「コンテンツ翻訳の機械翻訳により作成された優秀な記事」はありません。なので数百倍でも甘い評価をしているんです。これは比較的大規模な一覧系でなら機械翻訳が有効に働く可能性がある事は見通せるからですが、結局手直しが大規模に必要であることと、機械翻訳の利用にコンテンツ翻訳を経由する必要がないという単純な事実から、「コンテンツ翻訳の機械翻訳」はかなり分が悪いです。--Open-box(会話) 2019年7月17日 (水) 12:48 (UTC)
- 「数百倍」というのは何処から出てきた数字でしょうか? 単に、非常に多い気がする、ということを仰りたかったのでしょうか? それとも「仮に数百倍になったとすれば」という意味で仰ったのでしょうか? --2001:240:2404:4E48:84C6:5BEA:DBCE:3CA6 2019年7月17日 (水) 03:21 (UTC)
- 賛成 現状は深刻であり、対処の余裕を確保するためにも応急処置は必要と考えます。現状ははっきり言ってしまえば確認すらままならない状況であり、「機械翻訳」だけではなく「コンテンツ翻訳」機能を停止してもらってCategory:未査読の翻訳があるページではなく、「タグ:コンテンツ翻訳」の総チェックが必要です(特別:タグ一覧によればこれを書いている時点で7785回)。その結果はほぼ確実に「機械翻訳」の「停止」になると思われます。--Open-box(会話) 2019年7月16日 (火) 16:54 (UTC)
- (追記)YoudaoとLingoCloudが提案から抜けています。これらも日本語対応です。--Open-box(会話) 2019年7月17日 (水) 00:37 (UTC)
- YoudaoとLingoCloudを提案に追加しました。機械翻訳さえ停止すればあとは普通の翻訳と同じ状態になりますので、コンテンツ翻訳を完全停止する必要はないかと思います。--ネイ(会話) 2019年7月17日 (水) 03:47 (UTC)
- コンテンツ翻訳の一時停止は別の問題です。下で㭍月例祭さんが提案しているような検証作業中にノイズを入れないためなので。--Open-box(会話) 2019年7月17日 (水) 12:48 (UTC)
- YoudaoとLingoCloudを提案に追加しました。機械翻訳さえ停止すればあとは普通の翻訳と同じ状態になりますので、コンテンツ翻訳を完全停止する必要はないかと思います。--ネイ(会話) 2019年7月17日 (水) 03:47 (UTC)
- (追記)YoudaoとLingoCloudが提案から抜けています。これらも日本語対応です。--Open-box(会話) 2019年7月17日 (水) 00:37 (UTC)
- コメント ツールを使ってから3回の問題のない公開と2週間~1ヶ月の経過で、オプションとして機械翻訳の選択肢が選べるような仕様とかができればいいのですが。それなら機械翻訳を最初は選択できないようにする提案には賛成です。--Afaz(会話) 2019年7月16日 (火) 23:33 (UTC)
- コメント 今回の提案でそれは確実にセキュリティホールになります。まず提案の中身を考えますと、最初は選択できないとしておきながらオプションとすることは一見可能ですが、現在でも問題のある機械翻訳の処理に数ヶ月を要しますので、投下直後に発覚する状況でもなければクリアできてしまいます。しかもその状況を作り出す運用はツールを使って骨組みを作ってから機械翻訳を貼り付けるだけで行えます。つまり、「公開と経過」は資格を与えるふるいとしては機能しないのです。それ以上に深刻なのは、あなたの提案を読んだ財団は「機械翻訳を受け入れようとしている人もいる」とつけ込み、現状維持の口実にできることです。何とかして使えないかという善意は通常であればとても良いことなのですが、このような場では相手に武器を与えることになります。実地における評価段階を経ず、実装をしてしまう不注意な運用を行う相手であることを、そして押しつける手段として拒否を繰り返すという方法を採った前科がある相手であることを考慮しなければなりません。インドネシア語版ではいつまでも納得しない財団を相手に妥協案(30%)を提出した管理者がいたために、結局財団は30%を押しつけることに成功しました。そしてその結果は、機械翻訳を続けようとしている人からの不満と、すりぬけた機械翻訳に対する不満であり、財団は後者を無視し前者の緩和を試みるほどです。拒否を繰り返すことで根負けを誘発すれば、妥協案を持ち出す者がいるので勝てる、妥協案が出たらもう耳を貸さないという前例がある以上これを踏襲し、財団は最低でも30%を押しつけようとするでしょうし、受け入れたら不具合が生じても無視するでしょう。日本語版はインドネシア語版の二の舞は避けなければならないのです。--Open-box(会話) 2019年7月17日 (水) 00:37 (UTC)
- 返信 セキュリティホール?機械翻訳は別に問題ないですよ。ただ「日本語として可読な状態にしようとしない行為」だけが問題なだけで。包丁が悪いのではなく、包丁を振り回す行為が悪い。あなたが言うような悪意をもった運用者は、今までどおりブロックすればいいだけの話です。--Afaz(会話) 2019年7月17日 (水) 03:05 (UTC)
- 包丁の例えは、道具だから悪くないという価値観を利用して、道具には問題が無いという前提をすり込ませている典型的な詭弁です。しかもこの問題は「機械翻訳が悪いと理解できない」利用者以前に、問題だらけの機械翻訳を手軽に乱用できるツールが悪いと判っているのですから、不適切です。包丁の例えが詭弁であることを免れるのは、道具側に問題が無いときなのです。加えて「日本語として可読な状態にしようとしない行為」であるという認識を持っているかは、疑問です。機械翻訳がある=当然通用する翻訳になる程度に考えていても不思議ではないのですから、悪意があって荒らしているという前提すら必ずしも成り立ちません。そして、残念ながらブロックは有効ではありません。ブロックは事後の手当に過ぎませんし、ブロックされるほどの粘着性を発揮する機械翻訳常習者は僅かで、実際には単発です。僅かな常習者を後からブロックしても効果は薄いのです。--Open-box(会話) 2019年7月17日 (水) 12:48 (UTC)
- ツールを利用した「善意だが能力の低い利用者」を排除したいのは分かりますが、ただ、機械翻訳がデフォルトのツールの現状に賛成しているわけではないので。英語版は導入予定ではなかったのにミスで機械翻訳が有効になっていたということらしいので、停止されましたが、インドネシア語版の場合はコミュニティの全会一致の意見ということを言っても停止していません。ギズモードの記事によるとこのツールはgoogleが協力して作ったものらしいので機械翻訳はセットなのかもしれません。--Afaz(会話) 2019年7月17日 (水) 23:55 (UTC)
- この提案の結果、ちゃんと使える人には変わりがないはずなんです。「機械翻訳がデフォルト」ではなく「機械翻訳とリンク確認は自分でやってきてね」というツールに変わるだけなので。Gizmodeの記事は、今年に入ってから追加されたGoogle機械翻訳の追加についてです。(英語版に機械翻訳が実装されないのは不自然ですが)Googleとの絡みで停止できないなら、財団側がそう言ってしまえば済むんですけどね。もっともあの記事は日本語版が無いApertiumを使っていることにした直後に日本語が無いことを書くように、よくわかってない人が書いた気配があります。--Open-box(会話) 2019年7月18日 (木) 09:07 (UTC)
- ツールを利用した「善意だが能力の低い利用者」を排除したいのは分かりますが、ただ、機械翻訳がデフォルトのツールの現状に賛成しているわけではないので。英語版は導入予定ではなかったのにミスで機械翻訳が有効になっていたということらしいので、停止されましたが、インドネシア語版の場合はコミュニティの全会一致の意見ということを言っても停止していません。ギズモードの記事によるとこのツールはgoogleが協力して作ったものらしいので機械翻訳はセットなのかもしれません。--Afaz(会話) 2019年7月17日 (水) 23:55 (UTC)
- 包丁の例えは、道具だから悪くないという価値観を利用して、道具には問題が無いという前提をすり込ませている典型的な詭弁です。しかもこの問題は「機械翻訳が悪いと理解できない」利用者以前に、問題だらけの機械翻訳を手軽に乱用できるツールが悪いと判っているのですから、不適切です。包丁の例えが詭弁であることを免れるのは、道具側に問題が無いときなのです。加えて「日本語として可読な状態にしようとしない行為」であるという認識を持っているかは、疑問です。機械翻訳がある=当然通用する翻訳になる程度に考えていても不思議ではないのですから、悪意があって荒らしているという前提すら必ずしも成り立ちません。そして、残念ながらブロックは有効ではありません。ブロックは事後の手当に過ぎませんし、ブロックされるほどの粘着性を発揮する機械翻訳常習者は僅かで、実際には単発です。僅かな常習者を後からブロックしても効果は薄いのです。--Open-box(会話) 2019年7月17日 (水) 12:48 (UTC)
- 返信 セキュリティホール?機械翻訳は別に問題ないですよ。ただ「日本語として可読な状態にしようとしない行為」だけが問題なだけで。包丁が悪いのではなく、包丁を振り回す行為が悪い。あなたが言うような悪意をもった運用者は、今までどおりブロックすればいいだけの話です。--Afaz(会話) 2019年7月17日 (水) 03:05 (UTC)
- 「3回の問題のない公開と2週間から1か月の経過」が技術上実装できるか、というか日本語版だけのためにそれを実装してくれるかが不明である、と申し上げておきます。一方で機械翻訳の完全禁止は英語版ですでに実施されているため、実装に必要な時間がそれより少ないのは明らかです。日本語への機械翻訳は上のほうでも述べている通り、現時点では全くと言っていいほど役に立たないため、わざわざ実装の手間が多い提案を選ぶことに相応の利点があるとは思えません。「拡張承認された利用者」のグループがあれば実装がより簡単になりますが、本提案で想定されるであろうタイムラインより長い時間をかけて議論する必要があると考えますので、機械翻訳の抑止を早急に行うという意味では今回は見送りにするしかありません。--ネイ(会話) 2019年7月17日 (水) 03:40 (UTC)
- 方向性というか考え方は共感できるのですが、いろいろなお話を読むと「2週間後に」という見通しはむつかしいのではないかなと思いました。
- 「財団を説得する」という過程があることを思うと、私だったらたとえばこんな感じのロードマップを考えます。
- (1)コンテンツ翻訳ツールにより投稿された記事のうちランダムにX件(少なすぎず、適度に多くて、現実的に多すぎない)を抽出
- (2)そのうち日本語に問題がある記事の数をカウント(問題を、「文法の問題 大中小(致命的←→変だが理解できる)」「用語の問題 大中小」みたいに類型化して数をだしておくのもよい)
- (3)削除を検討した数・実際に削除になった数(割合)をカウント
- (4)この数字を交渉の根拠にする。
- (5)財団にはコンテンツ翻訳ツールの全面廃止を求める
- (6)最終的に譲歩と妥協により機能の一部制限をとりつける?
- 申し立て文書を完全に日本語で書き、それを機械翻訳で英語にして、それをそのまま送る。(半分冗談)
- 56あたりはともかく、2や3あたりは根拠として持っといたほうが説得力がある。その数字を出すには少なくない手間と時間を要します・・・でも機械翻訳を放置しておくよりは、将来的な手間は少ないはず。。。
- 実際に1-3をやるには、もう「検証委員会」みたいのをつくるところからでしょうか・・・。--柒月例祭(会話) 2019年7月17日 (水) 09:59 (UTC)
- 恐らく、(1)と(2)が難しいです。抽出できるのはいいのですが、サンプリングをどうするか(母数考えると100ぐらい?)。また、(2)を考えるとコンテンツ翻訳を単純に対訳ツールとして使ったケースや事後に再訳・修正したケースを「問題なし」としてカウントしても意味がありません。なのでこの段階で機械翻訳に限定する方がいいです。ついでにそれができるならチェックを容易にするようにできないかなと。数千のページにタグが付いていても、それを辿る手段がないのでは困りますから。
(2)は、(1)=機械翻訳ではないので、ここは機械翻訳で限定をかけた方がいいです。(5)の廃止は無理でしょうから、狙いは停止ですね。機械翻訳だけでも止まれば何とかなるのかは、機械翻訳を止めなければ判りませんが、止めてもなお手作業による機械翻訳が相次げば止める材料にはなるでしょう。(6)はあまりよい策ではないと思います。譲歩や妥協前提は突破口にされるだけです。提案者のネイさんは英語版で停止できたのだからと考えていますが、私は逆に停止した前例がありながらインドネシア語版に対して抵抗を続けて30%を引き出した結果から、有利な前例を主張するのは予想できるのです。--Open-box(会話) 2019年7月17日 (水) 12:48 (UTC)--切り貼りミスのdel化--Open-box(会話) 2019年7月17日 (水) 12:51 (UTC)
- コメント コンテンツ翻訳ツールの話ではないのですが、他言語版の記事を読むときにGOOGLE翻訳をよく使うので、その時の経験から感じたことを書きます。韓国語版(あるいは朝鮮語版)については、そもそもハングルが読めないので、GOOGLE翻訳に頼らざるを得ません。それでGOOGLE翻訳で読むと、たまに「これは訳語が間違っているな」ということがあるものの、文脈・文法などはほぼ自然な日本語と呼べるものになっています。訳語に「?」がつく箇所だけを別途オンラインの辞書で調べて埋めればOKというところです。一方英語の場合文脈・文法がおかしいと思う場合が大部分です。そこで、GOOGLE翻訳はあくまで辞書代わりと心得て、原文と日本語訳を並べて読むことになります。ドイツ語、フランス語などは日本語に翻訳すると英語同様の状態なのですが、英語に翻訳すると私の英語力程度では文脈・文法の間違いが気にならないので、ざっと読む段には問題ないなと感じています。以上のような経験があるので、韓国語版(あるいは朝鮮語版)からの翻訳については機械翻訳でもそれほどひどいものになならないと思います。翻訳ツールの実験は大変そうですが、GOOGLE翻訳の実験なら簡単にできるので一度お試しください。--2001:268:C02C:6A6F:101:C596:CCB7:F2DB 2019年7月17日 (水) 14:05 (UTC)
- コメント(追加)韓国語版(あるいは朝鮮語版)からの翻訳で?になるのは、漢字を音写したと思われる言葉です。元々韓国語(あるいは朝鮮語)には漢字から音写した言葉が多いらしい(例えば「대한민국(大韓民国)」はすべて音写です)のですが、母音・子音の種類が多いこともあって、日本語に比べると同音異語というのははるかに少ないようです。ハングルだけの文章が見事に漢字かな交じり文に翻訳されるのを見るとちょっと驚きます。--2001:268:C02C:6A6F:101:C596:CCB7:F2DB 2019年7月17日 (水) 14:13 (UTC)
- それはハングルの同音異義語が多い表音文字という特徴によるものですね。日本語と文法が近いとされることもあって「定型的」な文章はそこそこ読めるのですが、問題はその定形外で発生します。ハングルに限らず定型で行ける記事って薄いというか、割と辞書片手でも何とかなるんですけど、それでも変ところは発生します。それでも近縁の言語かつ定型なら不気味の谷を覗くところまでは来ているかもしれません。なので自己責任で機械翻訳を使うなって話にはなってないんです。ついでに他の機械翻訳と比べると判りますけど、Googleは日韓に限らずアジア系についてはまだまだというか、アジア系はやっぱり餅は餅屋的なところはあります。--Open-box(会話) 2019年7月18日 (木) 09:07 (UTC)
- 賛成 期間を設定して。CX2 の能力の低さのみが悪訳の原因ではないのですが、まず機械翻訳の部分だけ、停止したいです。機械翻訳ソフト会社で大量処理した訳文の校正をした経験があり、CX2 弱点に同情的な自身は特殊な例だと思いながら皆さんのコメントを拝読しました。CX2 の機械翻訳部分はすべての言語対あるいは分野に未熟ではなくとも、他言語から/に日本語に「翻訳」できていません(構文解析の失敗・訳語選択の間違い)。ときどきひどい和訳を読む羽目になると、ウィキメディアが有償校正者を用意してもよいとぼやいています。ただ、CX2 の機械翻訳部分がこと日本語についてどれほど未熟かウィキメディア財団に認識がないと思われ、柒月例祭さんご指摘のデータを示せたらどれほどよいかと思います。折りしも CX2 でフィードバック募集中の好機でもありますから、改善してほしい点を考えました。
- ウィキメディア財団は「本ツール〔CX2〕のもうひとつの狙いとして新規編集者を呼び込む意図もあり、まっさらな状態から新規ページを作成するよりも簡単に貢献できる方法を提供」するとしていますが、だめな道具で仕事の質が悪い場合、道具を手にしたことを責めるのは厳しいです。「ほかの言語版にはあるのに日本語版にない記事」の一覧を見る度、なんとか増やしたいと感じる反面、あたかもその願望が機械翻訳で手軽にかなうように言外に誘導するのはよろしくないと感じます。
- ウィキペディアが採用した機械翻訳機能は「あなたは何で通勤していますか?」「私はバスです」の対訳を字句どおり I am bus と出力します。これを正しく翻訳するソフトは有償ならありますし、訳語訳文集がバックで動いて加工・出力しています。それには文例の蓄積が欠かせず、この部分をコミュニティに担わせるつもりなのかどうか(後述■部分)。
- 「警告」機能が中途半端(機械翻訳のままの訳文がxx%)。ヒトと機械の翻訳が同じだと一律に警告を出すのですが、定訳やそれ以上ない名訳は使うわけで、軽視するほかない事情もあります。また、どの部分を指した警告なのか、画面拡大表示で作業する者にはわかりません(「警告」と訳文のペイン同士がうまく並ばない)。
- ■ウィキペディア日本語版利用者がで使わないと CX2 は育ちませんので、構文の解析はさておき、辞書の部分でコミュニティが投資を増やす(CX2 から見ると訳文の修正例を蓄積)と、応分に用語対応の性能を上げる。開発部門は担保しないでしょうか。
- ■すると、どの分野では訳語Aだけどそれは分野bには当てはまらないなど、日本語版の専門辞書が築けます。すると翻訳原文のカテゴリを基準に CX2 が選ぶ訳語がより正しくなり、またどう修正したか解析すると分野別用語集を多言語対応で蓄積できる。(なんとか説得材料はないかひねり出した感があります。)
- 画餅ながらウィキメディア財団が、うまく日本語に/から翻訳できる機械翻訳ソフトのノウハウ提供を受けると、まだましな翻訳がでるようになるかもしれません(成功事例はこの本あるいはアジア太平洋機械翻訳協会(*)の機関誌にあったと思います)。*=1990年代後半に東京にあった機械翻訳フォーラムで、PCハード製造会社や研究所が参加。非ラテン語系言語のうち、日本には自国語・英語対訳ソフトが充実し技術的な説得材料が揃っていました。
- 議論から外れますので、読み流してください。ウィキペディアに自分の名前で記事がのる編集初学者の誇らしさも他人の加筆修正で傷つく気持ちもわかるのに、ごくたまに見かねて校正すると反駁の激しさにひるみます。--Omotecho(会話) 2019年7月22日 (月) 12:53 (UTC)
- 賛成 - 機械翻訳の丸投げを少しでも減らすべく、手を打つべきだと私も以前から考えておりました。翻訳していてしばしば経験することですけれども、例えば、英語から日本語に翻訳する際は、1つの文の中での構文の問題ではなく、段落単位で文を入れ替えないと不自然な日本語になりがちです。機械翻訳が、記事全体を見渡して、文を適切に入れ替えられるようになったならば話は別かもしれないものの、現状の機械翻訳は単語単位ですら不適切な「変換」をしばしば行っているような状況です。個人で機械翻訳を楽しむのは結構ですが、それをWikipediaの記事にされては困ります。ですので、提案に賛成せざるを得ません。--G-Sounds(会話) 2019年7月25日 (木) 21:59 (UTC)
コメント(区切り1)
[編集]- 報告 コンテンツ翻訳ツールの中身を見たことがない方もいると思うので、画面キャプチャして機能説明しました。こちらの画像もご参照下さい。--ProfessorPine(会話) 2019年7月18日 (木) 03:39 (UTC)
- 機械翻訳機能 (ドロップダウン選択) を無効にすると、日本語版Wikipediaの内部リンク自動挿入機能も奪われるデメリットがあります。たぶんこの内部リンク自動挿入は重宝している人もいるはず。
- 文全体の品質はダメだけど、単語ベースで訳の候補を活用している人もいるはず。
- なお、実際にツールを活用しているユーザさんに、どのように使用して効率性を上げているのか、現状ヒアリング中です。
- 私も@㭍月例祭さんの「財団を説得する」という観点は大変重要だと考えます。また、@Afazさんの「包丁が悪いのではなく、包丁を振り回す行為が悪い」ご発言も賛同です。「mw: Content_translation/V2/ja#新バージョンを試用する」をご覧頂ければ分かりますが、基本はツールを利用してもらってバグを出して改善していこう!という路線です。したがって、ネイさんの提案では「改善さえもいらねーよ」と財団や開発者に伝えることになり、交渉戦術としては正直難しいと思います。私が (A) 案を提示した背景には、「一部優良ユーザは使い続けることができるので、ツール改善に役立てられますよ」とexcuse (交渉の材料) として使えると思ったからです。もちろん、実際にツールを利用している優良ユーザが私の活動領域に実在するから、その方々からツールの機能を奪うのは適切ではないとも考えています。また、㭍月例祭さんの「検証委員会」が私が提案したプロジェクト:翻訳と近しいです。暫定組織か常設組織かの違いですが。あと、Afazさんの「ツールを使ってから3回の問題のない公開と2週間~1ヶ月の経過で、オプションとして機械翻訳の選択肢が選べる」という案ですが、これも私の (A) 案と路線は近いです。形式基準をクリアしたら自動承認にするか、より厳しい審査制にするかの違いはありますが。--ProfessorPine(会話) 2019年7月18日 (木) 03:39 (UTC) --リンク不備修正: ProfessorPine(会話) 2019年7月18日 (木) 03:45 (UTC)
- 「日本語版Wikipediaの内部リンク自動挿入機能も奪われるデメリット」自力で確認すれば済むことであって、機械翻訳有効化とのトレードオフにできるメリットではありません。また、不適切なリンクは見逃されるでしょう。
- 「単語ベースで訳の候補を活用している人もいるはず」それは機械翻訳を組み込む理由にはなりません。むしろその用途であれば、ツール外である方が楽です。
- 「改善さえもいらねーよ」悪質な印象操作です。そもそもコンテンツ翻訳ツールそれ自体には機械翻訳の機能がなく、外部から提供されている物を使用しているのは、容易に知ることのできる事実です。「機械翻訳の提供者」は、APIを通じてデータを得て「機械翻訳の改善」に繋げることになっていますが、それすらコンテンツ翻訳ツールで行う必要はありません。「ツールを利用してもらってバグを出して改善していこう」にも通じますが、機械翻訳無効化とコンテンツ翻訳ツールの改善とは別なのです。そもそもツールの無効化ではなく、既存の機能である「機械翻訳無効化」の要望なのですから、ツール改善に貢献しないという前提が既に無理があります。
- 詰まるところ、使いたいんだから特権を与えろって主張をしていることは理解していますか? みんな犠牲になれって現状は論外ですが、特権を与えるには相応の体制が必要です。特権を与えるのは権限申請になりますので(拡張半保護程度ですと、条件を満たすのは容易なので申請する権限になるでしょう)、『「検証委員会」が私が提案したプロジェクト:翻訳と近しいです』とする時点でずれています。㭍月例祭さんの提案は、現状で問題がどの程度あるかを洗い出して検討材料にする考えであって、翻訳支援((3)の存在により削除依頼に回付されることに注意)や設置不可能な審査機関のことではありません。この違いは暫定組織か常設組織かの違いで済む範囲ではないのです。さらに困ったことに優良ユーザーと判定できるだけ使いこなすなら、機械翻訳は要らないんです。そしてこれが意外に重要なんですが、スイッチを日本語版が握れるかって問題があります。新規開発になることもあり、ローカルに個別のユーザーに対して機械翻訳有効化/無効化機能を解放するって機能を付けてくれるように説得するのは難しく、実装はさらに時間を要すると予想しています。
- 原案は「ツール外での機械翻訳」まで禁止したり、恒久的に「ツールそのものを止める」提案ではないので、代案としてもローリターンかつ時間がかかりすぎます。しかもこの提案をもってしても、結局大多数は止めなきゃならないのです。--Open-box(会話) 2019年7月18日 (木) 09:07 (UTC)
- 私はあくまで皆さんの解説を読んで、間接的にしか状況(財団がどうの)を理解していません。だからおかしなことを言ってたらごめんなさい。
- Open-boxさんがおっしゃってくださったとおり、私の意図は「いかに機械翻訳に問題があるかを示す」ところにあり、「問題の多さ」を数とか量とかで数値化する作業に過ぎません。「問題がすごい多いです」よりは「108件の問題がある」のほうが具体的で説得力があるからです。そしてその作業をする目的は、ネイさんの当初提案である機械翻訳の禁止を実現しやすくすることです。(無数に生まれてくる機械翻訳記事をなおしていこうぜ、ではなく、説得材料が一定数揃えば終了です。)
- 前のコメントよりもちょっと手の届く、省コストで現実的なことを考えてみました。1件の記事を機械翻訳してどれだけ問題が生じるかを数える、というのはどうかな。たとえば「そもそも日本語の文章として意味が取れない」から「専門用語・術語・定訳の選択に誤りがある」まで、数種類に類型化して、数える。それには、その記事を人力翻訳できる人のマンパワーが必要です。(記事の選択とかで偏りが生じることはめをつぶる。)
- ここの議論には私も存じ上げている方がチラホラいらっしゃるので・・・たとえば、さえぼーさんがイギリス文学に関する記事を1つ、ネイさんが歴史記事を1つ、私が競走馬の記事を1つ、みたいに人力翻訳を行って、機械翻訳と比較し、問題点をカウントするとかね。翻訳前の記事の大きさを「10000バイト程度」とか揃えておけば、「10000バイトにつき平均○件の致命的なエラーがある」みたいにできる。とかね。
- ネイさんの思いとは違うかもしれないのですが、手順として「機械翻訳を制限すべきだ」という基本的で巨大な合意をまずつくる。「制限すべきだ/一切制限すべきでない」で調査投票するとかね。そのうえで「どのぐらい制限すべきだ」についても簡便な投票を行う。(100%不可、記事の50%までは機械翻訳を可とする、25%、から択一、とか。)管理者の信任などでは30とか50ぐらいの票が集まるわけですから、できれば少なくともそのぐらいのまとまった人数による大きな合意をつくって、それを示す・・・とか・・・--柒月例祭(会話) 2019年7月19日 (金) 13:08 (UTC)
- ためしにやってみた。自分の守備範囲で辞書無しで翻訳できるような記事で、人力で90分、機械で15分といったところ。で、「正答率」は文の数ベースで2/34(6%)、原文のバイトベースで122/8903(1%)てとこですね。「日本語として意味が取れない」モノが文ベースで6割あって、それだけでも十分アカンのですが、一見文章になっているようだが本来の意味と逆になっている(馬が騎手に乗っていたり、父と子が入れ替わっていたり、生まれたと死んだが逆だったり。)のが25%ぐらいある。--柒月例祭(会話) 2019年7月20日 (土) 03:48 (UTC)
- 私もやってみました。割と定型が多い航空記事2本です。節名称含めて50件ぐらいで、正解と言えるのは2つ(しかも一方は節)、よみにくいけど放置レベルまで含めても10から12ぐらいでしょうか。こちらは用語間違いで意味がまるで違うのに機械的に文章が読めてしまうパターンが頻出しまして、使い物になりそうにありません。これらは多分「日本語として意味が取れない」モノになると思われます。不時着が撤退だったり、事故が殺人だったり、コクピットに20人詰め込んだりします。--Open-box(会話) 2019年7月20日 (土) 09:22 (UTC)
- コンテンツ翻訳を利用している者です。私が翻訳記事を書くときは機械翻訳をオフにして、分からない単語や専門用語など何らかのサポートが欲しいときはGoogle検索などを使っています。現状では(少なくとも英語では)機械翻訳の文章は出発点にすることすら難しい状態です。機械翻訳で重大な問題が出ている以上、機械翻訳は停止すべきと考えます。--プログラム(会話) 2019年7月19日 (金) 11:36 (UTC)
- 情報 インドネシア語版の交渉履歴をお読みになっていない方々がいるように感じますので、途中まで日本語で意訳しました。当井戸端の「ノートページ」をご参照下さい。どれだけ泥仕合を繰り広げたか、この過去事例を踏まえて、現実的な交渉戦術のご議論を頂けますようお願いします。今の丸腰のままでネイさんに交渉をお願いしたら、ネイさんの胃に穴が開かないか心配なレベルです。--ProfessorPine(会話) 2019年7月19日 (金) 13:16 (UTC)
- 分かりやすかったです。外国語は分からないので、出来ればですが、残りもまとめて頂けると助かります。--お好みでタピオカをおかけください(会話) 2019年7月19日 (金) 23:14 (UTC)
- 現実的ではありません。提案と異なるより不利な落としどころを提示するような甘さを見せれば、「押しまくれば折れる、もっと取れる」と考えるのが交渉です。これは典型的な日本外交の弱点として知られる「勝手に妥協線を引く」行動と同じで、丸腰どころか後ろから撃っているのがあなたの提案です。しかも財団は0回答を繰り返し、わざと現実を無視し続けてインドネシア語版の管理者の愚行を引き出しました。この前例があることから、機能を押しつける側という絶対的な優越性を持つ彼らが成功体験から脱却することは至難です。--Open-box(会話) 2019年7月20日 (土) 02:13 (UTC)
- 例えば10~20個英語記事を持ってきて機械翻訳し、どう思うか?と言うアンケートにするのはどうでしょう?つまり、例えば
- ①10個(程度、ランダムに)記事を機械翻訳して投稿する(もちろん普通の記事ではなく、他の場所に。このページの子ページでもいいかも)
- ②アンケート。違和感があるか?で「大いにある」「少しある」「全くない」というような形式(ただ単に2択ではあるかないかになりますし、多いと集計が難しい。3、4択程度が現実的と思います)
- ③集計して、その結果を交渉材料。(例えば、『10記事中9記事で「多いにある」と答えた人が〇パーセントを超える結果となりました』『「多いにある」と答えた人は10記事平均で〇パーセントとなりました』)のように。
- いかがでしょうか?--Y.iwamoto-0810(会話) 2019年7月19日 (金) 13:38 (UTC)
- 良いと思います。(テストケースの翻訳元記事の)選定は『おまかせ表示』で選べば良いと思いますし(存命中および近年まで存命だった故人の記事は除外すべきでしょうけども)。元々がスタブだったら意味が薄いので、『秀逸な記事』から選ぶべきかも知れませんが。--お好みでタピオカをおかけください(会話) 2019年7月19日 (金) 23:14 (UTC)
- ただ機械翻訳をコピペしただけの記事を削除するのにどれだけの手間がかかっているかを思えば、日本語への機械翻訳をツール側で禁止するのは妥当だと思います。また、Y.iwamoto-0810さんご提案の「アンケート」も財団の連中との交渉材料として有用と考えます。ProfessorPineさんが翻訳してくださっている「インドネシア語版の交渉履歴」を見るかぎり、インドネシア語版側の利用者と財団の連中とで、全く話が噛み合っていなかったことがわかります。財団の連中はコンテンツ翻訳ツールを「導入」した側ですから、自分たちの不手際、技術不足を認めたくない。だから「ツールゴミ!使うのムリ!」という叫びに対して「でも削除率低いやんけ」という返しにしかならない。そこで思ったのですが、交渉材料として「英→日」の機械翻訳でアンケートをとることはもちろんなのですが、「日→英」の機械翻訳も財団の連中に見せてやって「どれだけゴミツールか」ということを思い知らせる、というのが早道ではないかと思いました。(極論、インドネシア語版のケースの「わからずや」ぶりからみて、「英→日の機械翻訳結果に基づくアンケート」の結果だけでは、「それはツールの問題やのうて、おたくらの語学力の問題ちゃうん」という返ししか来ない懸念もあります。ですから「日→英」の翻訳結果を出して、「あんたらこれ読めるか?理解できるか?これで一切修正なしに投稿しても大丈夫だと思うか?」と迫った方が、財団の連中も多少は話が通じるんじゃないですかね)彼らは、基本的には英語話者であり、「記事の翻訳」の必要性に迫られていない人達なので、言葉は悪いですが、自分たちが提供する翻訳ツールの精度を真剣に確認してなどいないんじゃないかと・・・。--Rienzi(会話) 2019年7月20日 (土) 01:51 (UTC)
- 「削除率低いやんけ」は、「てめーらのせいで確認すらおいつかねーんだよ!」って返しはできますけど、無視するでしょうね。上でも書きましたが、「無視を続ければ折れる」って前例が強すぎます。なお機械翻訳の弊害一番わかってるのは英語話者ですよ。英語版が機能停止してるんですから。率直に言ってこれ、ただの差別なんですね。まぁ、差別だって突きつけたら後に引けなくなるので暴走するのは確実ですけど。--Open-box(会話) 2019年7月20日 (土) 02:13 (UTC)
- 反対 インドネシア語版の代表者はひたすら「機械翻訳のクオリティがいかに低いか?」をリンクを貼って例証し続け、財団側が「そこが論点じゃない」と却下しています。ですから、クオリティの低さを例示するY.iwamoto-0810さんの案も、Rienziさんの案も、失敗例をそのまま踏襲して徒労に終わるのでは?
- 私は@Afazさんの推測に同感なのですが、ツールの利用はGoogleと財団のビジネスディールが背景にあると思いますよ。つまり、Google翻訳の品質を上げるためにWikipediaに翻訳ツールを提供し、ユーザが機械翻訳からどこをどう直しているのかビッグデータを集めて、アルゴリズムの改善インプットにしているのだと思います。もっと邪推すると、Phabricator上で対応している財団の人が、そもそもGoogle本社から人材派遣されている可能性や、Googleから財団に寄付金が流れている可能性だってあります。特に日本語のGoogle翻訳の品質が低いと分かっているのだから、改良するためには優良ユーザに使い続けてもらう必要があるわけで。
- 仮に機械翻訳機能を停止させるならば、「優良ユーザは誰も機械翻訳機能を使っておらず、単に転写機能しか使ってない」ことを証明するしかないでしょう。問題ユーザや問題記事ではなく、優良ユーザにフォーカスすべきです。ちなみに私は、優良ユーザの一部は機械翻訳も部分的に使用しているケースを知っているので、証明しようとしても失敗すると思っています。だからこそ、優良ユーザを問題ユーザと切り分ける手段として、許可制を提案したわけです。
- @Open-boxさん、この場では愚痴の垂れ流しではなく、具体的にどのように交渉するか議論しています。ご自身が交渉代表ならば、どのような文面や材料を携えて交渉に臨むのでしょうか?--ProfessorPine(会話) 2019年7月20日 (土) 02:35 (UTC)
- 何度も大前提として、不利になる余計な提案を持ち込むな、ここでの妥協的な議論すら悪材料になるって指摘しているんですよ。隙を与えないというのは交渉の基本です。
- 愚痴? 自らの問題点を指摘されて対手を罵倒するとは何事か。そもそも問題点の指摘をされていることを理解できていないのでは、議論に参加することはできません。あなたの提案では交渉にはなりません。物理的な面を無視しても過去に提案された案ですし、「だったらそれで」とか「使いたい人いるんだからそのままね」って材料にすらなります。ですからこの方向性は無理があるのです。
- 「問題ユーザや問題記事ではなく、優良ユーザにフォーカス」問題ユーザや問題記事ではなく優良ユーザにフォーカスするのは、財団側が前回用いた言い訳です。そんな手に乗る時点で甘い。0とする証明を要求するのは悪魔の証明ですし、「機械翻訳をそのまま貼り付けているか検証できないし、回避手段のあるわずかな優良ユーザ」を「機械翻訳をそのまま貼り付けている多数の問題ユーザや問題記事に対する対策」より優越させる根拠はありません。
- 「許可制を提案した」時間的・物理的にできないし、そこを解決しても抜け道が確保でき、なおかつ許可されるような利用者には必要ないって指摘されてるの判ってます? 指摘を無視してもなかったことになりませんよ。
- 「そこが論点じゃない」「例証し続け」あなたの主張を検証しましょう。最初は[1]利用者の制限で何とかできないか? 検証してという提案。まぁこれはいいでしょう。単に提案ですし、問題ありません。実際、ここでも検証案は出ていますしね。が、次からは問題だらけです。まず[2]、統計を無視し問題点に目をつぶって有効な物もあるんだからしきい値で何とかしようとします。これが案に留まるならよかったのですが、ここから「しきい値」への固執が始まります。まず[3]、指摘済みの人員問題を無視してコンテンツ翻訳の問題とイタズラ対処他を含む通常の削除を同一視して正当化、上手く使えている人のためにと主張し、英語版と同じにしろという要求を無視し、しきい値を繰り返します。統計の意図的な悪用と拒否ではなく無視というのが肝心です。これを指摘されると次に[4]「最近の更新」の悪用を始めます(これをやるなら「新しいページ」を「contenttranslation-v2」で絞り込むんだってのはミス扱いとして)。そもそも査読しなくても巡回=査読できるという致命的な問題点があるので「査読」確認には全く使えないシステムですが、それを無視した上、またしきい値を要求します。次いで[5]英語版の存在を無視して、有効な機械翻訳を防ぐなんてと言い訳を行い、なおかつ機械翻訳の停止が選択肢にあることを認めます。直後にインドネシア語版管理者の一人が致命的な過ちを犯します。30%(機能面では70%になります、ここは相互理解に問題があったようです)の提案です(個人的な案[6][7]であることは後に指摘されました)。財団はこの案に飛びつきます。この後は、検証作業に入ります。確かにコンテンツ翻訳は減少しましたが、バグがあって有効に機能していないことも理解しました[8]。そして変更によって対応しました[9]。しかしこれでよかったとならないバグが見つかり、60%への緩和が検討されました[10]。そして、誰も検証してない! って落ちが残ったのです[11]。
- これを例証とするのは無理でしょう。無視と統計の悪用を組み合わせて「しきい値」への固執を見せた財団と、うかつに妥協を提案したインドネシア語版の問題です。
- 「しきい値」は、データ中心の移植を行うときに邪魔になるって欠点があるので、技術的にも上手くないんです。
- この前例から学ぶべきは、「こちらからの譲歩は悪手」です。元々論理的には勝ち目がない戦いを撤収寸前で財団が粘り勝ちしたのです。これは財団にとっての成功であり、成功を繰り返したいと考えるのは自然なことなのです。--Open-box(会話) 2019年7月20日 (土) 04:30 (UTC)
- 機械翻訳を「完全禁止」というのは少し違うのではないでしょうか。機械翻訳というのはAIを使ったものでしょうが、それなら学習により発展(改善)の余地は大いにあります。我々が今、機械翻訳により質の悪い記事が量産され、困ってるからといって、それを完全禁止し、今後の改善の可能性を潰してしまうのは・・・例えば、5年後には、95%正確になるかもしれません。そしてユーザーの8割が機械翻訳によって作った文章を自分でチェックし、手直しするようになれば、0.05(5%)×0.2(2割)=0.01(1%)程度まで質の悪い記事の割合は落とせる(一例ですが)訳で、1%程度ならば、見つけ次第誰かが直す、ということはできます。しかし今、完全に禁止したら、そうなる見込みもなくなる。(学習にはデータを要しますが、→日本語のデータは我々日本語版にしか提供できません)もちろん、今現在のグダグダ機械翻訳はなんとかしないといけないので、例えば誰でも機械翻訳で記事を作れるようにした上で、機械翻訳により作られた記事は一旦非公開。誰か別の人がチェック(きちんとした文章か)をした上(チェックできる人の要件は別に考えるとして・・・例えば自動承認された利用者とか)で公開するとか。--Y.iwamoto-0810(会話) 2019年7月20日 (土) 03:04 (UTC)
- 重大な認識ミスがあります。この案は機械翻訳を「完全禁止」どころか、機械翻訳そのものは完全に自由です。ここを間違えていると議論がおかしくなります。この案は、機械翻訳を改訳・調整・検証せずに貼り付けてる原因の「コンテンツ翻訳ツールの内蔵機能」を止めようって提案です。「→日本語のデータは我々日本語版にしか提供できません」は、間違いです。それには「コンテンツ翻訳ツール」を経由する必要はありませんし、Google他のために日本語版が犠牲になる必要もありません。「機械翻訳により作られた記事は一旦非公開」それが先に出たDraft案です。副作用がひどいので、作成と移動の権限を整備しないと無理ですね。許可制案にも通じますが、この両案はそんなことをできるだけの体制がないんです。体制を整えるとしても、ランク制になりかねないが拡張半保護や巡回者すらなくIP及び一般利用者の権限が強すぎる現状に対処するには、時間も人手も足りないので近いうちの改善の見込みが立たないので、そんな余裕がないのです。--Open-box(会話) 2019年7月20日 (土) 04:30 (UTC)
- 我々は誰も、機械翻訳の改善の可能性まで否定するわけではないです。それは他所でやってね、というだけ。--柒月例祭(会話) 2019年7月20日 (土) 04:42 (UTC)
- 2013年の議論ですが、翻訳の専門家の間で「翻訳の初歩が分かっていないような人は機械翻訳に手を加える(post edit)手法で翻訳した方がまだましである、一方翻訳のプロはpost edit法を使っても余計な手間がかかるばかりで変な訳文も引きずられて品質も落ちがちでメリットがない」(大意)というような知見があります[12](立教大学異文化コミュニケーション研究科/立教SFR翻訳研究プロジェクト)。Wikipediaに翻訳を投稿する人は翻訳を職業とする人もいれば素人もいるでしょう。上記の知見を踏まえると、「実際に機械翻訳をベースに作業してみたが話にならない」という経験を持つ人は、どちらかと言えば能力の高い人の方に偏りそうな気がします。その逆側の人はおそらく井戸端等には顔を出さないのでしょう。つまり翻訳の下手な人が機械翻訳を使わず独力でやるようになったとすると、機械翻訳があるときよりひどい翻訳をしてしまう可能性がある、ということも考慮する必要があるのでは、と思います。機械翻訳停止が「成功」したとして、意図したような成果が得られたか、意図に反して事態が悪化してしまわなかったか、しばらく時間を置いてから調査する用意もあった方がいいでしょう。せっかく苦労して停止にこぎつけたからには成果が得られたと思いたくなるのが人情ですので、できれば今回の議論に関係していない人が評価するといいと思います。 --2001:240:240F:FE0F:BDD9:A3B5:84FE:6EAB 2019年7月20日 (土) 08:08 (UTC) 書き忘れましたが2001:240で始まっているIPは同一人物です(今の所)。 --2001:240:240F:FE0F:BDD9:A3B5:84FE:6EAB 2019年7月20日 (土) 08:25 (UTC)
- 生物学が不得意なら生物学のページを編集すべきでなく、日本語が不得意ならWikipedia日本語版を編集すべきでなく、翻訳が不得意なら翻訳に手を付けるべきでないというだけの話で、翻訳が不得意な方には翻訳以外のところで頑張ってもらうべきなのですから、仮に機械翻訳を停止して低質な翻訳記事が増えたならば、それは機械翻訳を解禁するのではなくそういう翻訳しかできないユーザに手を止めてもらうべきだと思うのですが。--219.102.203.143 2019年7月22日 (月) 13:59 (UTC)
コメント(区切り2)
[編集]報告と コメント こちらで話題になっているので、どんなものかなと思いコンテンツ翻訳を使って以前より気になっていたen:Straussee_Ferryを翻訳してシュトラウスゼーフェリーを作成してみました。翻訳ツールはGOOGLE翻訳です。「あなたの文章は90%の機械翻訳を含んでいます」という警告が出ていましたが、私の英語力ではこんなものかなと思える程度の文章になったので公開しました。みなさんの書いておられるようなひどいものなら公開するのを止めるつもりでしたが、これなら今まで自力で(と言ってもGOOGLE翻訳を使って)翻訳したものとあまり違わないので、今後は使いたいなと思います。(ので使用禁止にしないでほしいです。)まだ実験していないのですが、コンテンツ翻訳の出来がもう一つだなと思ったら、訳文を手直しするのではなく、再度コンテンツ翻訳するほうが手っ取り早い解決策になるのではないでしょうか。--Ferrovia della Mendola(会話) 2019年7月22日 (月) 21:04 (UTC)
- それをやるなって話です。あなたの記事を見ましたが機械翻訳の影響に起因する問題がいくつもあります。まず私が機械翻訳訂正で作ったこちら(版番73577799)ですが、既にこの時点で「英語のまま放置」「意味を取れない直訳(サービス等)」「転写で済ませるべきではない部分の放置」といった問題は明らかになっています。また次の版(版番73577799)で修正しましたが、ちゃんと出典を確認すれば料金のところは間違いであることは容易に判りますし、略称F39をそのまま番号扱いする英語版の問題点も明らかになります。そしてドイツ語の固有名詞をドイツ語+英語にしてしまう誤りは、機械翻訳で冒頭部を訳してしまったことに起因します。最終的にはもう少し調整を入れましたが、この程度の記事でも機械翻訳に頼りきりでは記事にならないんです。それを記事にしてしまうからこそこの提案が発生したのであり、そこに「私の英語力ではこんなものかな」「今後は使いたい」などと無責任な発言を許容する余地はありません。コンテンツ翻訳に限らず、このレベルで量産するのであれば問題となるでしょう。--Open-box(会話) 2019年7月23日 (火) 08:44 (UTC)
コメント(Open-boxさんへ)シュトラウスゼーフェリーにご加筆いただきありがとうございます。
語学力の問題をご指摘いただきましたが、コンテンツ翻訳ツールを使っても使わなくても、語学力のなさは翻訳に影響するので、Open-boxさん自身も書いておられる通り、このセクションで議論されているコンテンツ翻訳ツールの話題とは別の話のように思います。
少しこのセクションでの話題からそれますが、折角ご指摘いただいたのでコメントをします。
「シュトラウスゼーフェリー」の翻訳で、私の語学力が直接関連するのは2019年7月23日 (火) 08:20の最初の編集で修正された箇所だけだと思います。その後の編集で修正された箇所についてはドイツ語版を参考にして修正しておられる個所などもあり、Open-boxさん自身も書いておられる通り、英語版の問題点などもあるので、語学力だけの問題ではないようです。そして、最初の編集で修正していただいた箇所についてはOpen-boxさんの語学力をもってすれば簡単に修正できる話で、「問題」というほどのものではないと思います。
Open-boxさんの編集履歴を見ると、記事名の変更を含めて、「シュトラウスゼーフェリー」と同様に、「このレベル」の、全く箸にも棒にもかからないわけではないが修正が必要な翻訳記事の修正を精力的に行っておられます。つまり、「このレベル」の翻訳記事の存在は、Open-boxさんの語学力をWikipediaの編集に生かすことにつながっています。そのことを考えると、「このレベルで量産するのであれば問題となるでしょう。」と書いておられることは不思議です。
また、どの程度の語学力をもって許容範囲と考えるかをあらかじめ客観的なルールとして決めておくのはなかなかむずかしいように思うのですが、いかがでしょうか。--Ferrovia della Mendola(会話) 2019年7月25日 (木) 14:43 (UTC)
- コメント 巡回する人手が足りないというのに、機械翻訳を許可して、修正が必要な記事をさらに増やしても仕方ないでしょう。機械翻訳に任せっきりにする方が後を絶えず、修正が全く追いつかないからこそ、今回の提案を提出したのです。Category:改訳が必要なページがいつまでも空にならないことも修正する人手が足りない証拠の1つでしょう。--ネイ(会話) 2019年7月25日 (木) 15:23 (UTC)
- コメント 語学力で許容範囲が決める方法がありませんし、判断する材料は成果物たる記事のみです。今は、コンテンツ翻訳にあるんだからこれでいいや、作っちゃえとなっています。その結果、語学力が足りない利用者ほど「検証・確認・調整」といった作業を行わないため多作になります。つまり、問題はより大きくなります。そのような問題を起こす語学力のなさどころか語学力0の非日本語話者(むしろこっちが多数です)まで混ざっている利用者に対して、機械翻訳を推進している「コンテンツ翻訳の機械翻訳」の問題を止めるために措置が必要なのです(同レベルの機械翻訳ベースでも非日本語話者のものほど問題が大きくなるのは、「日本語の語学力」に差があるからです)。だからこそこの提案は「意図的な機械翻訳は禁止しない」+「意識せずに作成できる「コンテンツ翻訳ツール内蔵API連携機能」=「コンテンツ翻訳の機械翻訳」を止める」→「自己責任で機械翻訳して、記事を作ってね」(機械翻訳放置や日本語になっていないならケースGで削除)となっているんです。
- 「このレベルで量産するのであれば問題となるでしょう」機械翻訳の問題点を修正せずに記事を投げ出すことは、他の執筆者のリソースを奪っていることになります。これが少数であれば問題にならないでしょうが、頻繁になれば問題になるのです。「コメント依頼やブロック依頼が出せないほどにまで大規模かつ頻繁」な問題利用者は今でも複数います。多くの問題利用者は、これの影に隠れているか、手が付けやすいから対処されているに過ぎません。そして、「他人の記事をわざわざ直す」人は決して多くはないのです。
- 一般に「直せる人」はそれ以上に「書ける人」であることを忘れないでください。そして「直す」行為には、他人の記事を直すよりも、先回り=執筆して同様のケースを防ぐべきではないのか? という問いはつきまとうのです。
- (おまけ)記事はドイツ語版なんか使っていません(使うなら履歴を継承してもっと大きな記事になります)。あの程度の記述は、全て英語版のドイツ語出典と既存の記述の範囲で片が付きます。あのミスをやらかすって事は、英語版は機械翻訳すら使っていませんし、「対象が何か」を考えていないんです。実は英語版ってこのレベルの問題抱えた記事も多いんですよ(そして書き下ろす羽目になる)。--Open-box(会話) 2019年7月25日 (木) 15:52 (UTC)
- 「語学力が足りない利用者ほど多作」ほんとこれ!--柒月例祭(会話) 2019年7月25日 (木) 16:31 (UTC)
- ついでに言うと、「調べない利用者ほど多作」。そして調べもしないし語学力もない利用者が機械翻訳でものすごい多作・・・--柒月例祭(会話) 2019年7月25日 (木) 16:32 (UTC)
コメント(Open-boxさんが「(おまけ)」で指摘された翻訳元の記事に誤りがある場合の件について)Open-boxさん以外の方には、私とOpen-boxさんのやり取りを読んでも何の事かわからないと思います。この件は、翻訳記事の作成に関して考えておかなければいけない問題を含んでいるように思います。そこで事実関係を説明したうえで、私が考えていることを書きます。
先にも書いたように、私はコンテンツ翻訳の実験としてen:Straussee Ferryを翻訳してシュトラウスゼーフェリーを作成しました。その際、私は、英語版の運賃に関する文章の内容が間違っていることに気づかずにそのまま翻訳しました。Open-boxさんは私の作成した訳文にNorth landさんが加筆されたものを修正する際に、最初の修正では、訳文の修正だけにとどめて、2回目の修正で英語版の間違いを直されました。英語版の間違いは、ドイツ語版(de:Strausseefähre)を読めばわかるので、私はてっきりOpen-boxさんがドイツ語版を元に修正されたのだと思ったのですが、そうではなく元のドイツ語資料[1]を見て修正されたというのがOpen-boxさんが「(おまけ)」で書かれていることです。
以上が事実関係の説明で、以下は私の意見です。
Open-boxさんの投稿履歴を見ていると孟宏偉の初版作成の際の編集の要約に「中国当局に拘束された国際刑事警察機構総裁。翻訳を試みたが英語版は内容不足、中国語版は出典に問題があったため、出典から再構築しました。」と書いておられます。他の記事でも「翻訳」を使わずに新規作成された記事がいくつかあります。
これを見て、「すごいな」と思う一方で、「翻訳記事を作成する時点で翻訳元の記事を検証する必要はないだろう」というのが私の意見です。もちろん、「翻訳元の記事を検証する」こと自体はよいことなのですが、「必ず」検証しなければいけないとは思いません。また、検証して元の記事に間違いがあったことに気付いた場合、その間違いを修正したかたちで翻訳するのは「正しい翻訳」といえず、翻訳元の間違いをそのまま翻訳するのが「正しい翻訳」であるとも思います。先に翻訳元を修正してから翻訳するか、一旦翻訳した後で訳文を修正し翻訳元の間違いはそのままにするというのが誤りに気付いたときの正しい手順のように思うのですが、いかがでしょうか。--Ferrovia della Mendola(会話) 2019年7月25日 (木) 22:51 (UTC)
- コメント Wikipedia:翻訳のガイドライン#翻訳に値する記事とはに「正確な翻訳は大切ですが、元記事を無批判に翻訳するべきではありません。書かれていることが信用に足るか、内部で矛盾を起こしていないか、確認した上で翻訳記事として投稿しましょう。」と書かれているように、翻訳記事でもある程度の検証は必要です。また、同じページの「訳文の作成」というセクションには必ずしも翻訳元に忠実に訳す必要がないということが書かれています。脚注がうまく働いていなかったので{{Reflist-talk}}を追加しました。--プログラム(会話) 2019年7月26日 (金) 04:38 (UTC)
- 報告 Ferrovia della MendolaはLTA:SUZUとしてブロックされましたので、そのアカウントのコメントに取り消し線を引きました。--ネイ(会話) 2019年7月27日 (土) 08:17 (UTC)
- 利用者:Ferrovia della Mendola(会話 / 投稿記録 / 記録)さんがLTA:SUZUとしてブロックされて以降、議論が止まっているようですが。ここから、どう持っていく感じでしょうか? ここで終わりではないかと思いますが。
- また、彼はBellcricketさんによる不適切な管理者権限の行使だと主張し解除依頼しており、それが本議論に悪影響を及ぼさないかも心配です。
- というのも、僕はPhabricatorの事はよく分かりませんが。彼がLTAであっても誤認であっても(中立的な表現)、Phabricatorにて彼または同意見の方が異論を唱える可能性が有り、それも考慮すべきなのではないかと思うからです。
- 『現状の翻訳精度で十分だと考える、日本語話者』の存在を否定できない以上、彼らの存在を許容できないと言ったところで、交渉面では意味が薄いです。これから、どう舵をとられる感じでしょうか?--お好みでタピオカをおかけください(会話) 2019年8月1日 (木) 02:44 (UTC)
- 端的に答えますと、「現状の翻訳精度で十分だと考える、日本語話者」の存在については「現状の翻訳精度が不十分であり、現状ではコンテンツ翻訳の機械翻訳機能はウィキペディア日本語版に有害である」とウィキペディア日本語版のコミュニティが合意できれば十分反撃になる考えます。ここからどうするかについては、後ほどまとめてみます。--ネイ(会話) 2019年8月1日 (木) 03:22 (UTC)
- 少なく見積もっても、ここまで私自身も含め多岐多様な意見が出ていますが、「機械翻訳は(なんらかの)制限をするべきだ」という方向性については概ねの合意はあるといえるでしょう。--柒月例祭(会話) 2019年8月1日 (木) 04:10 (UTC)
- 「精度が」とかいうざっくりした表現じゃなくて、「機械翻訳は能動態と受動態を逆に訳す」とか「機械翻訳は肯定系と否定形を逆に訳す」とか、ダメな理由を具体化できないでしょうか。--219.102.203.143 2019年8月28日 (水) 13:06 (UTC)
コメント(区切り3)
[編集]- そもそもの疑問として……機械翻訳レベルで良しとするのであれば、それはわざわざ記事を作らなくても、読む側が英語版Wikipediaを機械翻訳で読めば同じ事ですよね?そんな記事を日本語版にわざわざ新規に作る意味があるのでしょうか?--219.102.203.143 2019年7月24日 (水) 12:49 (UTC)
- 確かに。機械翻訳だと不十分だから、日本語版の記事を求める(求められる)訳で。--お好みでタピオカをおかけください(会話) 2019年7月24日 (水) 13:58 (UTC)
- ところで区切りここなんですか? 1つか2つ上のような気はします。--Open-box(会話) 2019年7月25日 (木) 15:52 (UTC)
- ご指摘の内容を勘違いしていたらアレなのですが、もう少し上で区切るべきという事でしょうか? とりあえず、区切りを一つ増やしてみました。--お好みでタピオカをおかけください(会話) 2019年7月25日 (木) 16:23 (UTC)
- コメント 一読者の立場から申し上げさせていただきますと、日本語などの文献を検証することなしに立ち上げられた翻訳記事に眉をしかめることがよくあります。例えば、この井戸端の提案者である利用者:ネイさんの立ち上げたもののうち、気付いた/かかわった範囲で申し上げるとブリアン=ベキル・サーミ協定 (旧タイトルキリキア講和条約)、ラ・プラタ戦争 (旧タイトルプラチナ戦争)、大日本青年党 (未だに内容が修正されていません)などは検証せず翻訳だけしたのではないかと推察されます。外国語版の内容が必ずしも正確でないうえ、誤訳などもおきえますから、機械翻訳対策だけでなく無検証翻訳対策もとらないと、読者から見て「なんじゃこりゃ」という記事が増殖していくでしょう (たまたま提案者がネイさんだったので例示しただけであって、問題の原因がネイさんだということではありませんので、あしからず)。具体策としては、機械翻訳対策や無検証翻訳が報告され「問題アリ」との「コンセンサス」が得られた件数が例えば5件 (この根拠はないです) をこえた利用者は一定期間 (1年とか、根拠はないです) 翻訳による立項を禁止にする (翻訳でなく自力で立項するのは妨げない)、とか。まぁ、それは受け入れられそうもないですよね。どう対策したらいいのでしょう。--Takabeg(会話) 2019年7月26日 (金) 12:02 (UTC)
- 翻訳にはその過程などで閾値とか回数とか程度とかさまざまなレベルの問題や課題はあるんだけれど、そこを論じて線引するのはいろいろ難しい。ツールを封じても外部の機械翻訳を使う人はいるだろうし、機械翻訳でなくても問題は起こりうるし、翻訳でなくても問題は起きているけれど、ツールの機械翻訳機能の問題の純度は高すぎる、少なく見積もっても「機械翻訳」は(たいがい)完全アウトなので、まずそれはやめよう。というお話でしょう。--柒月例祭(会話) 2019年7月26日 (金) 12:57 (UTC)
- なるほど、わかりました。ツールの機械翻訳機能に関する問題を解決したの後、無検証翻訳問題については別のところで問題提起しようと思います。--Takabeg(会話) 2019年7月26日 (金) 13:17 (UTC)
中間まとめと第2案
[編集]ここまで、多くの方からの意見をいただきましたので、一旦下記にてまとめておきます。
- 下記の3点は、おおむね合意が形成されたものといえます。
- コンテンツ翻訳ツールの機械翻訳により、機械翻訳そのまま(または少し手直ししただけで日本語がかなり不自然のまま)の状態で投稿された記事が問題となっている。
- コンテンツ翻訳ツールを使用して投稿した記事について、機械翻訳そのままなどの問題があるかどうかを精査する人手が足りない。
- したがって、(完全禁止か条件付きで許可することについては異論があるにせよ)コンテンツ翻訳ツールにおける機械翻訳の利用には制限をかけるべき。
- 続いては制限の手段ですが、こちらは異論がより多くなっています。
- 機械翻訳を完全禁止すべきと主張する利用者も多い一方、条件付きで許可すべきと主張する利用者もいる。また、長期的には条件付きで許可すべきだとしても人手の問題により短期的には完全禁止すべきとの主張もある。
- 完全禁止を主張すべき場合、財団側がコミュニティの合意を無視して納得しない懸念がある。究極的にはコミュニティの合意を強制的に受け入れさせる方法は存在しないので、完全禁止を求める場合は少なくとも説得材料を揃えるべき。
- 一例としては㭍月例祭さんによるHannibal (horse)の翻訳、Open-boxさんによるKeystone XO-15の翻訳がある。また、現在無期限ブロックされている利用者が作成した記事ですが、シュトラウスゼーファーレに関するOpen-boxさんとFerrovia della Mendola氏のやりとりも材料の1つになると考える。
- 条件付きで許可する場合、どのような条件を付けても抜け穴となる懸念がある。また、本来ならば完全禁止にすべきなのに、条件付きで許可することを受け入れる可能性を示すと、交渉において不利になるとの懸念もある。
- で、次はここからのことですが、今すぐPhabricatorで機械翻訳完全禁止の要望を提出しても、おそらく日本語版のコミュニティで合意が形成されていないものとして却下されるだけであり、どれだけ材料を揃えても財団が受け入れない懸念は払拭できないと思います。つきまして、2段階にわけて要求を提出することを提案します。
- 第1段階として、Phabricatorにて「7割以上が機械翻訳そのままの場合、投稿を禁止する(閾値はインドネシア語版に合わせる)」「自動承認された利用者にのみコンテンツ翻訳ツールの使用を許可する」の要求を提出する。
- 前者は財団側がごねたインドネシア語版の場合でも受け入れられているので、実装される可能性が高いという予想に基づいています。後者については、いくつかコンテンツ翻訳関連の削除依頼を読み、新規利用者により作成された記事が多いように感じたため、提出した次第です(英語版より緩い制限ですが、日本語版では該当する利用者グループがないため自動承認された利用者で代用しています)。
- 第1段階が実装されてから3か月経過した後、第1段階の施策の効果について井戸端で再び検討する。効果が不十分の場合は機械翻訳の完全禁止も視野に入れる。
- より緩い制限でも効果が上がらないと、財団のほうでも受け入れざるを得ないのではないかとの予想に基づいています。交渉術としては異論もあるとは思いますが、今回の提案変更はなけなしの制限だけでも早急に実装させようとの考えに基づいています。--ネイ(会話) 2019年8月1日 (木) 13:32 (UTC)
- 「無視」戦術が財団側の絶対的な防御として有効であることを考慮すると「禁止」前提で要求を行い、最低限「70%」がいいです。いきなり「70%」だけ出すと「50%」(実験やりたい)「使いたいのもいるからそのまま」(何もしたくない)の2択になりかねません。その手を使うなら「禁止」(英語版、原則こっち)「70%」(インドネシア語版、あちらが欠いている検証作業を3月ぐらいで行う)ぐらいの選択を仕掛けるんです。いきなり「70%」という譲歩一択を見せるのは財団側がまたあいつだ! という前提としては甘いですし、相手にまともな人物が出てきたときに「禁止」がいきなり取れるならそっちがベストなわけです。--Open-box(会話) 2019年8月1日 (木) 14:19 (UTC)
- 第1段階として、Phabricatorにて「7割以上が機械翻訳そのままの場合、投稿を禁止する(閾値はインドネシア語版に合わせる)」「自動承認された利用者にのみコンテンツ翻訳ツールの使用を許可する」の要求を提出する。
- 暴論なんで、例示だとしても言うべきでは無いと思っていましたが、ちょっと……ハッキリ言えば弱腰すぎるように思えたので、言わせて頂きます。極論すれば、日本語版のローカルルールで『機械翻訳禁止』を明確に打ち立て、『機械翻訳そのままで投稿する事を、ブロック可能なレベルの荒らし行為と制定する』位の事を視野に入れても良い位だと思うんですよ。実際にそうしろという訳では無くて、それ位強気で考えた方が良いという例えです。
- 全面禁止スタートからの70%なら兎も角、最初から70%で提案する位なら、やらない方がマシです。『日本語版から50%を勝ち取った』という、悪い前例が出来てしまいかねず、他言語版で同様の提案が出た時に財団側に有利な前例を与えかねませんから。某言語版が出してしまった70%の前例が、今現に、財団側に有利な前例となっているように。某言語版があのミスをやらかさなくて、全面禁止を勝ち取るまで粘る事に成功していたら、逆にそれは日本語版に取っても有利な前例となっていた筈です。
- 以上、真剣に今回の話を考えられていると思いましたので、僕も青二才ながらに真剣に考えてコメントさせて頂きました。気を付けたつもりですが、言い過ぎた部分が有りましたら、申し訳ありません。--お好みでタピオカをおかけください(会話) 2019年8月1日 (木) 18:21 (UTC)
- 「いきなり「70%」だけ出すと「50%」(実験やりたい)「使いたいのもいるからそのまま」(何もしたくない)の2択になりかねません」の辺りが分かりにくいのですが、詳しく説明いただけないでしょうか。「70%」を提案したら、より機械翻訳に対して抑制的な対案(「50%」)が帰って来そうだと、お考えなのでしょうか? 「70%」=30%以上の書き換えを必須とする、「50%」=50%以上の書き換えを必須とする、ですよね? --2001:240:2421:BB3E:6169:1D2E:D1BB:7010 2019年8月4日 (日) 12:19 (UTC)
- 「70%」は「70%以上の書き換えを必須とする」という意味だと思います。--プログラム(会話) 2019年8月4日 (日) 14:12 (UTC)
- 仮にそうだとすれば、「7割以上が機械翻訳そのままの場合」(2019年8月1日 (木) 13:32 (UTC))というネイさんのお話とOpen-boxさんのお話の間に少しズレがあったということになりそうですが、そういうことでしょうか。 --2001:240:2408:CC73:6169:1D2E:D1BB:7010 2019年8月5日 (月) 13:58 (UTC)
- インドネシア語版が「60%」で緩和になるので、70%書き換えと考えました。--Open-box(会話) 2019年8月9日 (金) 17:48 (UTC)
- 仮にそうだとすれば、「7割以上が機械翻訳そのままの場合」(2019年8月1日 (木) 13:32 (UTC))というネイさんのお話とOpen-boxさんのお話の間に少しズレがあったということになりそうですが、そういうことでしょうか。 --2001:240:2408:CC73:6169:1D2E:D1BB:7010 2019年8月5日 (月) 13:58 (UTC)
- 「70%」は「70%以上の書き換えを必須とする」という意味だと思います。--プログラム(会話) 2019年8月4日 (日) 14:12 (UTC)
- 「いきなり「70%」だけ出すと「50%」(実験やりたい)「使いたいのもいるからそのまま」(何もしたくない)の2択になりかねません」の辺りが分かりにくいのですが、詳しく説明いただけないでしょうか。「70%」を提案したら、より機械翻訳に対して抑制的な対案(「50%」)が帰って来そうだと、お考えなのでしょうか? 「70%」=30%以上の書き換えを必須とする、「50%」=50%以上の書き換えを必須とする、ですよね? --2001:240:2421:BB3E:6169:1D2E:D1BB:7010 2019年8月4日 (日) 12:19 (UTC)
合意形成に向けた仕切り直し
[編集]賛否表明の対象を明確にするため、区切り入れました。--お好みでタピオカをおかけください(会話) 2019年8月5日 (月) 00:23 (UTC)
- 追記 正式な投票にはならないと知ったので、取り消し線を入れました。--お好みでタピオカをおかけください(会話) 2019年8月8日 (木) 02:20 (UTC)
- 条件付きで許可すべきという意見があったから、完全禁止を最初に要求しない第2案を出したので、「最初に完全禁止を要求し、最終的に70%まで譲歩を認める」ということをウィキペディア日本語版のコミュニティで合意できれば、それでもかまいません。今回も2週間ほど意見を募集いたします。--ネイ(会話) 2019年8月4日 (日) 17:27 (UTC)
- 賛成 それ(完全禁止スタートで、最終的に70%(以上の書き換えを必要)まで譲歩を認める)が良いと思います。--お好みでタピオカをおかけください(会話) 2019年8月5日 (月) 00:23 (UTC)加筆しました。--お好みでタピオカをおかけください(会話) 2019年8月5日 (月) 00:26 (UTC)
- コメント
「日本語版コミュニティの合意」とするには正式な投票を3択で:Phabricatorで「完全禁止」を個人の意見として主張するのは自由ですが、ここで意見を述べている人たちだけの「合意」をPhabricatorで「日本語版コミュニティの合意」と認めさせるのは無理でしょう。◇「日本語版コミュニティの合意」とするためには、少なくとも (1)「完全禁止」、(2)「部分規制(例:「機械翻訳の文章が70%以上含まれている場合、投稿を禁止する」and/or「自動承認された利用者にのみコンテンツ翻訳ツールの使用を許可する」)」、(3)「規制なし(現状のまま)」の3択で正式な投票を行うべきだと思います。広く日本語版内で周知徹底してーそれこそお知らせとSitenoticeで告知して。正式な投票結果が「完全禁止」多数であればPhabricatorに投票ページのリンクを貼って要求できます。◇ちなみに私個人は、いったん全面禁止にすればたとえ機械翻訳が飛躍的に進歩したとしても状況を変更するのは困難を極めるでしょうから、「全面禁止」には反対です。現状では「部分規制」は仕方がないと思いますが。--miya(会話) 2019年8月8日 (木) 01:04 (UTC) (追記)柒月例祭さんの「2択で」の意見を受けて「3択で」に打消し線を入れました。たしかにその方が明快ですね。--miya(会話) 2019年8月10日 (土) 12:54 (UTC) (再追記)「日本語版コミュニティの合意」とするには正式な投票を」にも打消し線を入れました。何らかの「規制」をすることについては異論はなさそうなので、規制する/しないの2択であれば「正式な投票」までする必要はない、と考え直したからです。--miya(会話) 2019年8月16日 (金) 14:50 (UTC)
- それは知りませんでした。ちなみに僕個人としては、一度全面禁止にしたとしても、将来的に再度変更することは可能だと思います。正式な投票で、改めて是非を問えば良いと思いますので。--お好みでタピオカをおかけください(会話) 2019年8月8日 (木) 02:20 (UTC)
- Wikipedia:調査投票の方法#調査投票の手順が参考になると思いますーこの通りでないとだめというわけではありませんが、コミュニティがどの選択肢を選ぶかは明確になるでしょう。--miya(会話) 2019年8月8日 (木) 02:56 (UTC)
- それは知りませんでした。ちなみに僕個人としては、一度全面禁止にしたとしても、将来的に再度変更することは可能だと思います。正式な投票で、改めて是非を問えば良いと思いますので。--お好みでタピオカをおかけください(会話) 2019年8月8日 (木) 02:20 (UTC)
- コメント まずはmw:Talk:Content translationにフィードバックを提供し「閾値の調整」を求めてはいかがでしょうか?(フィードバック済みでそれでも全く対応されなかったということであれば、このコメントは取り下げます): 「mw:Help:コンテンツ翻訳/翻訳する/翻訳の品質#制限の調整」には「"閾値の調整により、個別のウィキのニーズに制限の強弱をさまざまに適合させることができます。 制限をきちんと調整するには、それぞれの言語を母語とする人日とのフィードバックが不可欠です"」とあり、mw:Talk:Content translationにフィードバックを投稿するように書かれています、フィードバックの方法も提案されているようです。コンテンツ翻訳のページ右側にも「フィードバックを送る」リンクがあります。Phabricatorでタスク?を作る前に、まずmw:Talk:Content translationで「フィードバック」して「閾値の調整」を求めたほうが柔軟に対応されるかもしれません。--miya(会話) 2019年8月8日 (木) 02:59 (UTC)
- 本件はウィキメディア財団との間の「交渉カード」を検討する必要が出てくるという、財団が喜んで実装するような変更ではありませんので、利用者1、2人がフィードバックを送ったところでやはり門前払いになるのではないかと考えます。したがって、タスクを直接作成するか、フィードバックを送ってからにするかにかかわらず、まずはウィキペディア日本語版で合意を形成してからにすべきでしょう。合意形成の後、フィードバックを送り、1週間程度時間をおいて返答がなかった場合にPhabricatorタスクを作成するのがよいと思います。投票関連については、もう少し考えてからコメントします。--ネイ(会話) 2019年8月8日 (木) 16:30 (UTC)
- とりあえず、投票に付すべきとの意見が提出されていることをWikipedia:コメント依頼にて追記しました。投票案がなければ投票を行うべきかの判断も難しいので、まずは投票案の起草から始めます。
- 問題:コンテンツ翻訳ツールで日本語への翻訳を行う場合に提供されている機械翻訳機能について、規制を行うべきか。また、行うべきとする場合は、どのように行うべきか。
- 選択肢:(複数選択は不可)
- 全面禁止:日本語への翻訳では機械翻訳を使用不可にする。
- 部分規制:機械翻訳の文章が70%以上含まれている場合、投稿を禁止する。また、規制の一環として、コンテンツ翻訳ツールの使用を自動承認された利用者に限定する。
- 規制なし:規制を行うべきではない。
- 投票の期間:投票案の告知に2週間、投票に1週間。
- 集計方法:最多数をとった選択肢を選ぶ。
- 投票資格:自動承認された利用者のみ、投票資格を有する。
- あくまでも草案ですので、遠慮せずにコメントをいただければと思います。(なお、現時点で投票に付すべきことが合意されているわけではありません。)--ネイ(会話) 2019年8月9日 (金) 17:18 (UTC)
- 「案」段階だということなので私の意見。私は、まず、「一切規制は必要ない」「何らかの規制が必要」の2択で調査投票するほうがいいんじゃないかなー、と思います。資格はご提案の通りでよいかと。投票期間は、私だったらもっと長くてもいいと思います。それはできるだけ多くの意見を吸い上げるため=より大きな合意を確認するため、です。--柒月例祭(会話) 2019年8月9日 (金) 17:33 (UTC)
- あまりベラベラ書くのもあれなんですが、私の意図は2つあります。まず、「規制するか・しないか」の2択であれば、たぶんおそらく「規制する」が圧倒的な結果になると予想され、「何らかの規制が必要だという意見が圧倒的である」という事実を作ることができる。また、もしも「70%」とかの選択肢を入れると、結局「なぜ70%なのか」「60%ではどうか」などの諸意見がでてきてグダグダになることが予想される。なので、まずは「規制すべし」という堅い大合意をしたい、というところです。--柒月例祭(会話) 2019年8月10日 (土) 09:04 (UTC)
- 「案」段階だということなので私の意見。私は、まず、「一切規制は必要ない」「何らかの規制が必要」の2択で調査投票するほうがいいんじゃないかなー、と思います。資格はご提案の通りでよいかと。投票期間は、私だったらもっと長くてもいいと思います。それはできるだけ多くの意見を吸い上げるため=より大きな合意を確認するため、です。--柒月例祭(会話) 2019年8月9日 (金) 17:33 (UTC)
- 規制あり/なし、規制の内容の2段階でどうでしょう。また、上でも書きましたが、70%まで機械翻訳を認めるんですか? 過去の経緯から30%まで認める(70%は自力)だと思っていたのですが。--Open-box(会話) 2019年8月9日 (金) 17:48 (UTC)
- 2段階投票:それでもいいと思いますが、投票案を提出して数時間後にすぐ書き換えるというのもアレなので、もう少しコメントを募集してからにします。
- 7割か3割か:インドネシア語版では最初に「少なくとも7割書き換え」(phab:T221353)が実装されたが、phab:T222782で6割書き換えに緩和され、phab:T228971で3割書き換えに緩和されています。部分規制の場合、インドネシア語版と合わせることが順当なのではないかと思いましたが、このような経緯があったため3割と7割とで議論が混乱してしまいました模様ですね。インドネシア語版での経緯をみるに、規制緩和には素早く応じる模様で、投票ほどの強い合意も必要とされないため、部分規制では最初は7割書き換えで実装し、人手で翻訳した場合でも投稿できない場合が生じたら緩和する程度でいいでしょう。--ネイ(会話) 2019年8月10日 (土) 05:38 (UTC)
- @ネイ:さん、詳しい経緯をありがとうございます。インドネシア語版が "Remove Machine Translation"を求めたのが2019年4月初旬で、Translation qualityのページが起草され"please share your feedback and we can explore how to better adjust them.⇚ "が書かれたのが5月中旬ですから、インドネシア語版の経緯をもとに、同じ不満を持つ言語版が出る場合を考え、Phabricatorよりも参加しやすいノートで「制限の調整」を提案できることを明確に打ち出したのかもしれませんね。というわけで、「部分規制」であればPhabricatorではなくmw:Talk:Content translationで「制限の調整」を求めればよいのではないでしょうか?--miya(会話) 2019年8月10日 (土) 12:54 (UTC)
-
三段階の方が良いと思いますが、調査目的で二段階を経る案でもが良いと思います。--お好みでタピオカをおかけください(会話) 2019年8月10日 (土) 08:49 (UTC)上の追記(直前の編集)を見て、変更します。やっぱり、まずは堅い合意が欲しいと思いましたので。--お好みでタピオカをおかけください(会話) 2019年8月10日 (土) 09:21 (UTC)
- コメント柒月例祭さんの「2択で」の意見になるほどと思い、上の自コメント「3択で」に打消し線を入れました。なお、投票する前にここやMediaWikiページをじっくり読んで判断できるように、投票期間は2週間あるいは15日くらいはあったほうが良いように思います。--miya(会話) 2019年8月10日 (土) 14:42 (UTC)
- 再コメント 「2択で」に賛成したものの、柒月例祭さんの2019年8月10日09:04のコメントのように”「規制する」が圧倒的な結果になると予想”されるのであれば、「正式な投票」を今する必要はない、と考え直しました。◇そもそも私が「正式な投票を3択で」と書いたのは、「日本語版コミュニティの合意」としてPhabricatorで「完全禁止を要求する」のであれば正式な投票を、という意図からでした。完全禁止については意見が分かれているのだから、それを主張するのであれば、投票すべき、ということです。しかし何らかの「規制」をするについてはここまで反対意見も見られない(見落としていたらごめんなさい)ので、「規制する/しない」の2択であれば「正式な投票」までする必要はない、と考え直しました。◇なお、インドネシア語版[13]のおかげでmw:Talk:Content translationのフィードバックで規制を求める道が開けているのですから、PhabricatorではなくHelp:コンテンツ翻訳/翻訳する/翻訳の品質#制限の調整にある「調整」を求めたほうが良い、という意見の方は取り下げません。英語から日本語への翻訳の場合、99%では足りない、機械翻訳のままの文章が〇%以下でないとpublishできないようにしてほしい、とmw:Talk:Content translationで求めて、「明確な合意を示してほしい」と求められたら、その時に改めて正式な投票をしても遅くはないのです。そして「〇%」を求めるかを決める議論は、2択の投票をしてもしなくても避けて通れない道です。--miya(会話) 2019年8月16日 (金) 14:50 (UTC)微修正--miya(会話) 2019年8月16日 (金) 14:54 (UTC)
- では、「日本語への翻訳の場合、機械翻訳のままの文章が30%以下でないと投稿できないようにする」とフィードバックすることを提案します。「70%」はインドネシア語版での最初の規制に合わせた数字であり(不具合が生じた場合に調整するものとする)、また英語からの翻訳に限定しないようにしています。その後は財団の出方次第ということで。--ネイ(会話) 2019年8月19日 (月) 05:00 (UTC)
- 「フィードバック」にご同意ありがとうございます。何%を求めるかは、フィードバックの際にリンクで示しやすいように、節を改めて議論するのが良いと思います。--miya(会話) 2019年8月24日 (土) 04:01 (UTC)
- ふむ。私だったら、求めるのは「機械翻訳のままの文章は1%未満」(=0%)ですけどね。--柒月例祭(会話) 2019年8月24日 (土) 04:06 (UTC)
- 0%とすると、1単語でも合っていたら投稿できなくなるので、無理でしょう。ほとんどの文章に「てにをは」が含まれることを考えると、30%以下が極限だろうと思います(詳しい統計を取ったわけではありません)。--ネイ(会話) 2019年8月24日 (土) 04:29 (UTC)
- そうなんですか?正直、どういう仕組で「%」を計算しているのかわからないので、自信満々では言えないのですが・・・私が今あらためて試してみましたけど、機械翻訳(100%)を、それを自力で修正したもの(単語の多くは機械翻訳で表示されたものをそのまま使用)にしたら、%表示はなくなりました。(%の表示が更新されるのにはしばらくタイムラグがあるので、よくわからない)--柒月例祭(会話) 2019年8月24日 (土) 05:07 (UTC)
- 考えるべきは、機械翻訳のままが何%以下なら、低品質の翻訳量産を防げるか、という点ではないでしょうか。文末の「ですます」を「である」に替えた程度で翻訳量産するタイプの人にとっては、たとえ70%以下であっても、十分厳しいハードルとなるでしょう。--miya(会話) 2019年8月24日 (土) 05:04 (UTC)
- 0%とすると、1単語でも合っていたら投稿できなくなるので、無理でしょう。ほとんどの文章に「てにをは」が含まれることを考えると、30%以下が極限だろうと思います(詳しい統計を取ったわけではありません)。--ネイ(会話) 2019年8月24日 (土) 04:29 (UTC)
- では、「日本語への翻訳の場合、機械翻訳のままの文章が30%以下でないと投稿できないようにする」とフィードバックすることを提案します。「70%」はインドネシア語版での最初の規制に合わせた数字であり(不具合が生じた場合に調整するものとする)、また英語からの翻訳に限定しないようにしています。その後は財団の出方次第ということで。--ネイ(会話) 2019年8月19日 (月) 05:00 (UTC)
- 反対 すっかり乗り遅れてしまったのですが、「コンテンツ翻訳ツールにおける日本語への機械翻訳をツール側で禁止する提案」につき反対票を投じたいです。禁止提案の理由が、完全機械翻訳記事の多発に頭を悩ませてのことであることは十分理解しました。また、ツール側での機械翻訳自体を禁止しないにしても、投稿時の機械翻訳の割合が70%程度のものは投稿禁止するという提案があることも理解しました。しかしながら、最近翻訳ツールを使っての記事を作成した経験からは、これらの提案はあまりに厳しすぎるのではないかと思います。元記事の英文が特別に簡明で優れているからなのかもしれませんが、私が要した作業はほとんどが文体の修正(「ました」を「した」など)で、ほかの訂正をどんなに施しても、すべての段落で機械翻訳率が92%を下回ることはありませんでした。個々には単語の修正や、文法構造の取り違えなどの機械翻訳独自の誤謬もありましたが、それでも7割以下をもって合格基準とするのはあまりにも厳しすぎます。それならば、翻訳などする必要はなく、独自に日本語版を書き起こすしか方法がないのではないかと思います。見た目機械翻訳ほぼそのまんまであっても、リンクワードの精査(該当する日本語版ページがない場合の処理等)など、表立っては見えない翻訳作業も含まれておりますので、単純に何割というラインを引いてほしくはないですし、機械翻訳の劇的な精度向上をもっと考慮していただきたいです。実際、今回初めてツールを使って作業しましたが、近年これほどまでに性能が向上していたとは思いもよりませんでした(私自身はどちらかと言わずとも機械翻訳を馬鹿にしていた口です)。なお、この意見・感想はあくまで私が作業を担当した、ごくごく一部の記事(事件・事故)での経験に基づいてのものですので、他のジャンル・分野においては7割程度の正確性しか達成されていないのかもしれませんし、どういう状況なのかを理解しているわけではありません。ただ、このまま諸提案が通ってしまうならば、私自身は翻訳の際に非常に不便を感じることになることは確実です。--直蔵(会話) 2019年8月25日 (日) 21:14 (UTC)
- 上記に書き添えますと、私の投稿記録から「翻訳」を参照すると、この翻訳ツールを使用しての翻訳は3本ありまして、1つが英語版からの2年前のもので、これは翻訳済み37%で機械翻訳比率が0%になっています。これほど数値が低いのは、2年の間に原語版が充実して、比較対象として意味を成さなくなっているのだと思います。残りの2つは、昨日翻訳したもので、英語版を翻訳したものが翻訳済み97%で機械翻訳比率95%、シンプル英語版を翻訳した(ごく短めの)ものがそれぞれ100%と97%という状況です。上で92%と数字をあげたのは、英語版の方での作業時に、各段落にて警告表示を見ながら翻訳作業を進めつつ、なかなか数字が下がらないので、仕方なく問題が解決したことにして警告を都度消しつつ進めていった際の話です(正直申し上げて、この警告が鬱陶しくて仕方なく感じ、どうにかして非表示にする設定はないものかとしばらく探したほどです)。以上、ご参考にしていただければ幸いに存じます。--直蔵(会話) 2019年8月26日 (月) 05:33 (UTC)
- コメント 制限を調整するならば、問題のある翻訳を防止しつつ有用な翻訳を阻害しないことを確かめることが必要でしょう。そのためのデータを集める目的も兼ねて十字石をコンテンツ翻訳を使って翻訳しました。Google翻訳を使って利用者:プログラム/十字石のような状態から始めた場合、機械翻訳の割合が74%になりました。最初に空行から始めた場合は0%、翻訳前の文章(英語)から始めた場合(バーバーショップ音楽など)は20%台でした。なお、機械翻訳の割合は翻訳一覧のページの青いバーにマウスオーバーすると確認できます。--プログラム(会話) 2019年8月26日 (月) 13:41 (UTC)
- 追記 上のコメントでは「問題のある翻訳を防止しつつ有用な翻訳を阻害しない制限」が存在しない場合について言及できていませんでした。この場合は機械翻訳自体を止める必要があると考えています。現状の深刻さを考慮すると問題のある翻訳を防止できる制限にする必要がありますが、そうすると機械翻訳の機能が事実上使えなくなるどころか翻訳の公開を阻害する要素にしかなりません。そのような制限を設けるくらいなら機械翻訳の機能そのものを無効化したほうが良いと考えます。--プログラム(会話) 2019年8月26日 (月) 15:33 (UTC)
- このページにおけるOpen-box氏の発言を引用しますと、「また、高品質を生み出せるような僅かな利用者のために大多数に損害を与えることは許容されません。高品質な記事の存在は、数百倍の粗雑な記事をなかったことにできないのです」。実際に、こうして議論が行われている間でも黎智英と中世の大砲という機械翻訳そのままの投稿が行われており、また、「機械翻訳はそれほど精度悪くない」という主張には利用者:㭍月例祭/sandbox/HR/16や利用者:Open-box/MT-TESTの例をみるに、正確ではないといえます。さらに、直蔵さんのようにきちんと手直しを行う場合でも(利用者:McYata/コンテンツ翻訳についてより引用)「翻訳作業には、少なからず訳者の主観が混じってしまう危険が伴います。それが意訳と言えるレベルに留まるなら問題ないのですが、直前に『誤った訳文=機械翻訳』を目にしてから人力翻訳しようとしても、無意識に機械翻訳に引きずられてしまう恐れがあるのです。 」という危険をはらんでおり、実際に2013年サンタモニカ銃撃事件では意味自体を訳するのに大きな問題はなかったものの、いわゆる英文翻訳調になっており、あまり自然ではありません。そして、英文翻訳調でなくなれば(逐語訳でなくなれば)、機械翻訳の割合はぐっと下がるでしょう。--ネイ(会話) 2019年8月26日 (月) 15:11 (UTC)
- 私もあらためて英国の女性劇作家の記事を機械翻訳をベースに訳してみました。「です・ます」を「である・だった」調に変えただけだと「99~96%」にとどまり、日本語としてわかりにくい個所を修正してもなかなか「90%」未満にはならなかったです(利用者サブページ投稿時で大半は「91%」から「84%」。80%未満になると警告が消えるようです)。◇仮に、「90%未満」に規制すれば、少なくとも「機械翻訳そのままの投稿」は防げるでしょう。現状の既定が「8割以上で警告、99%以上で禁止」であれば、「90%以上で禁止」でもずいぶん状況は改善すると思います。◇2013年サンタモニカ銃撃事件では、日本語話者になじみのない固有名詞に説明や補足を加えれば機械翻訳の比率も90%未満になり読者の理解の助けにもなるのではないかと思いました(たとえば「ビッグブルーバス4057」にサンタモニカの公営バスであるという情報を加えるなど)。◇「8割以上で警告」について:「80ー90%」ではまだまだ「英文翻訳調」かもしれませんが、日本語として意味が通る有用な情報であれば、コミュニティに許容していただけるのではないかと思います。--miya(会話) 2019年8月27日 (火) 08:13 (UTC)
- 「機械翻訳はそれほど精度悪くない」という主張に対する反例として2例挙げられたのを拝見しましたが、いずれも専門分野の用語が多めで、主にそれが原因で誤訳を多発しているように見受けられました。翻って、私が機械翻訳を利用した文章は、固有名詞も入ってはいるものの、現代における時事問題を扱ったものであるために、比較的精度が高かったのではないかと見ています。もちろん、固有名詞であるRoofをきちんと名字として訳したものがあった一方で、後続の文では屋根と訳してしまったりするなど、機械翻訳ならではの凡ミスもあるにはありましたが、総じて「(かつて機械翻訳の精度と思っていたものと比較すると)それほど精度悪くない」というのは偽りのない実感です。これは経験からくるものですので、実際に扱っていない反例を出されても、どっちもどっちという状態にしかならず、決着が付く話ではないのではないかと思っています。実のところ、機械翻訳が向いているジャンルとそうでないジャンルがあって、私が利用したのは前者に入っていて、反例は後者に属するというだけの話ではないでしょうか。なので、一概にラインを引かれると困ると申し上げたのはそういう次第です。
- 私もあらためて英国の女性劇作家の記事を機械翻訳をベースに訳してみました。「です・ます」を「である・だった」調に変えただけだと「99~96%」にとどまり、日本語としてわかりにくい個所を修正してもなかなか「90%」未満にはならなかったです(利用者サブページ投稿時で大半は「91%」から「84%」。80%未満になると警告が消えるようです)。◇仮に、「90%未満」に規制すれば、少なくとも「機械翻訳そのままの投稿」は防げるでしょう。現状の既定が「8割以上で警告、99%以上で禁止」であれば、「90%以上で禁止」でもずいぶん状況は改善すると思います。◇2013年サンタモニカ銃撃事件では、日本語話者になじみのない固有名詞に説明や補足を加えれば機械翻訳の比率も90%未満になり読者の理解の助けにもなるのではないかと思いました(たとえば「ビッグブルーバス4057」にサンタモニカの公営バスであるという情報を加えるなど)。◇「8割以上で警告」について:「80ー90%」ではまだまだ「英文翻訳調」かもしれませんが、日本語として意味が通る有用な情報であれば、コミュニティに許容していただけるのではないかと思います。--miya(会話) 2019年8月27日 (火) 08:13 (UTC)
- 再コメント 「2択で」に賛成したものの、柒月例祭さんの2019年8月10日09:04のコメントのように”「規制する」が圧倒的な結果になると予想”されるのであれば、「正式な投票」を今する必要はない、と考え直しました。◇そもそも私が「正式な投票を3択で」と書いたのは、「日本語版コミュニティの合意」としてPhabricatorで「完全禁止を要求する」のであれば正式な投票を、という意図からでした。完全禁止については意見が分かれているのだから、それを主張するのであれば、投票すべき、ということです。しかし何らかの「規制」をするについてはここまで反対意見も見られない(見落としていたらごめんなさい)ので、「規制する/しない」の2択であれば「正式な投票」までする必要はない、と考え直しました。◇なお、インドネシア語版[13]のおかげでmw:Talk:Content translationのフィードバックで規制を求める道が開けているのですから、PhabricatorではなくHelp:コンテンツ翻訳/翻訳する/翻訳の品質#制限の調整にある「調整」を求めたほうが良い、という意見の方は取り下げません。英語から日本語への翻訳の場合、99%では足りない、機械翻訳のままの文章が〇%以下でないとpublishできないようにしてほしい、とmw:Talk:Content translationで求めて、「明確な合意を示してほしい」と求められたら、その時に改めて正式な投票をしても遅くはないのです。そして「〇%」を求めるかを決める議論は、2択の投票をしてもしなくても避けて通れない道です。--miya(会話) 2019年8月16日 (金) 14:50 (UTC)微修正--miya(会話) 2019年8月16日 (金) 14:54 (UTC)
- それから、機械翻訳を利用すると、そっちに引きずられて日本語らしからぬ文が出来上がるとのご指摘はごもっともです。私も訳していて、とくに代名詞の多用とそれをそのまま訳し出すことの不自然さには気付いていましたが、逆に言うと、日本語らしさというのはその辺を曖昧にぼかすのが一つの大きな「らしさ」ではありますので、百科事典的な内容としては内容の正確性の方を重視して、あえて日本語らしからぬとも誤解が生まれにくいような文章を心がけてみました。といっても、翻訳自体はウィキペディアでも3本しかないわけではありません。これまで主に訳してきたのは映画のあらすじで、そういうのは分量もたかが知れてるので、機械翻訳ツールは使わずに、自力で逐語訳に近い形で訳していました。ただ、それも、文体で言えば映画宣伝口調の「あらすじ」があまりにも散見されるので、逆に閉口しているというのが動機でもあり、いったい日本語らしい文章という理想をどこに求めるかはなかなか難しい話だと感じています。基本的には、私もできることならば翻訳ツールの助けなしに作業できればそれに越したことはないと思っていますが、たとえば時事問題でもチャールストン教会銃撃事件の英語版などはかなり大部に渡り、これをツールなしに訳すというのはなかなか大変だろうと、個人的には思っています。もちろん、お茶の子さいさいという方々がここでは多かろうということは承知しておりますが、そういう方々にはツール無しでやっていただいて、ただ私みたいな未熟者がツールに頼るのまで禁じられてはツライです。
- 2例挙がっている丸々機械翻訳の例ですが、ほかにどういう例があるのか知らずに申し上げると、投稿歴の間もない同一人物によるものですので、個別に投稿内容につき指導なり警告なりを出して、それでも止まないならば厳しい処置を下すという方針ではダメなのでしょうか(冒頭の代替案B)?それ以外に、翻訳回数が一定数を数えたら使えるようにするとか、もうすこしバランスを取った解決策が望ましいと思いますが、いかがでしょうか?「問題を起こすアカウントの主力は他言語版の利用者と新規アカウントですから塞いだところで追いつきません」とのことですが、好ましくないコンテンツが出現してしまうというのであれば、数多くの映画のあらすじで前半までの尻切れトンボでタグすら付いていない状態でもすでに長らく放置されているわけですし。既に問題が生じているのだから、これ以上余計な問題を増やしたくないという思いは理解するのですけれど、そうした記事が存在することによるコストと、翻訳ツールを一律禁止した場合のコストとを慎重に比較検討した方が良いのではないでしょうか。
- 最後になりましたが、miyaさんの日本語話者になじみのない固有名詞に説明や補足を加えると良いというご指摘は、今後に活かしたいと思います。どうもありがとうございました。--直蔵(会話) 2019年8月27日 (火) 13:28 (UTC)
- 提案を「9割以上機械翻訳そのままを投稿禁止」にまで提案を緩めたのが限界であり、これ以上緩めるのは難しいでしょう(説明や補足を加えるなどすれば、簡単に9割以下におさめられるでしょう)。「映画のあらすじ」の件は別問題であり、それを引き合いにしたところでいわゆる「スピード違反の論理」にしかならず、本件に対する有効な反論とは言えません。そして、提案をここまで緩めた以上、提案のコストは「そうした記事が存在することによるコスト」と比べて遥かに低いものと考えます。--ネイ(会話) 2019年8月27日 (火) 15:10 (UTC)
- 「提案のコストは『そうした記事が存在することによるコスト』と比べて遥かに低いものと」お考えになるのは勝手ですけど、「提案をここまで緩めた以上」と「提案のコストは『そうした記事が存在することによるコスト』と比べて遥かに低い」とは論理的に全くつながっておらず、有効な反論になっていません。したがって、とうてい納得できません。「慎重に」とわざわざ3文字入れた意味をよく考えていただきたいです。--直蔵(会話) 2019年8月28日 (水) 13:51 (UTC)
- 提案を「9割以上機械翻訳そのままを投稿禁止」にまで提案を緩めたのが限界であり、これ以上緩めるのは難しいでしょう(説明や補足を加えるなどすれば、簡単に9割以下におさめられるでしょう)。「映画のあらすじ」の件は別問題であり、それを引き合いにしたところでいわゆる「スピード違反の論理」にしかならず、本件に対する有効な反論とは言えません。そして、提案をここまで緩めた以上、提案のコストは「そうした記事が存在することによるコスト」と比べて遥かに低いものと考えます。--ネイ(会話) 2019年8月27日 (火) 15:10 (UTC)
「90%以上機械翻訳そのままを投稿禁止」案
[編集]- あとから議論を見始めた人や非日本語話者にもわかりやすいようにここに区切りを設けて仮の小見出しを入れました。もっと他の見出し、あるいは英語表記の方が良かったら適宜ご変更ください。--miya(会話) 2019年8月28日 (水) 00:09 (UTC)
- では、一週間後の9月3日に「90%以上機械翻訳そのままを投稿禁止」を提起し、問題が解決しないようであれば「新規利用者によるツール利用禁止」などさらなる施策を検討するとしましょう。これ以上の譲歩は無理と考えます。8割から9割の場合も禁止すべきかは議論を続けるものとしてください。(9割以上禁止はかなり軽い規制とは思いますが、議論がこれ以上長引くよりも「ないよりはマシ」程度の規制だけでも実装させようと考えています。)--ネイ(会話) 2019年8月27日 (火) 10:22 (UTC)
- 賛成 「90%以上機械翻訳そのままを投稿禁止」をひとまず提起することに賛成します。90%ならば有用な翻訳を阻害することはほぼないでしょう。80%から90%の場合は個人的には禁止寄りです。逐語訳を回避すれば多くの場合80%未満は達成できるものと考えます。--プログラム(会話) 2019年8月27日 (火) 12:32 (UTC)
賛成反対 第一段階として「90%以上機械翻訳そのままを投稿禁止」を求めることに賛成します。◇これで必要十分であることを祈りますが、もし不十分で「80%以上禁止」を求めることになったとしても、最初からいきなり80%を求めるよりも容易に対応されるのではないかと思います。◇ただ、次の段階としては、「80%以上禁止」だけでなく「承認された利用者にのみコンテンツ翻訳ツールの使用を許可する」や「標準空間投稿不可、利用者サブページにのみ投稿可(今の「投稿先」は「新規ページ」と「個人の草稿」の2択)」も可能なら検討してはどうかと思います。--miya(会話) 2019年8月28日 (水) 00:09 (UTC) 直蔵さんのコメントに深く考えさせられて、自コメント後半に打消し線。--miya(会話) 2019年8月29日 (木) 03:05 (UTC) 賛成票を反対票に変えました(※)。--miya(会話) 2019年10月25日 (金) 14:56 (UTC)- (追記)私がここの議論に気付いたのは#合意形成に向けた仕切り直しで「最初に完全禁止を要求し、最終的に70%まで譲歩を認める」に賛成意見がついた後でした。◇私自身は「Google翻訳+コンテンツ翻訳」の将来に大きな期待をもっているので「完全禁止」には反対でしたが、そこまで議論が進んでいては「部分規制」は仕方がない、たしかに機械翻訳そのまま投稿してしまう人もいる・・・と思ってしまいました。そのため、機械翻訳は今まで通り使い続けられて、なおかつ「機械翻訳そのまま」の投稿を防げるのは90%のラインかなと考えたのです。◇ですが直蔵さんのコメントをきっかけによく考えてみれば、「機械翻訳そのまま」の投稿は現行の99%では防げていないけれど90%なら完全に防げます。95%でもいいかもしれません。ですからそれ以上厳しい規制については(前言半分撤回で申し訳ないけど)明確に反対します。--miya(会話) 2019年8月29日 (木) 03:05 (UTC)
- (※)賛成票を反対票に変えました。この議論を何度も読み返し、コンテンツ翻訳もいろいろ試してみた結果、「現在」の状況をもって「90%」に制限強化するのは将来に禍根を残すのではないかと危惧します。パーセンテージをいじる前に、「利用者サブページへの投稿をデフォルトにする」「質が低い翻訳は利用者サブページに移動するるよう改名提案する」などを先に実施するべきだと考えるようになったからです(これは新たに井戸端で提案することを検討中です)。--miya(会話) 2019年10月25日 (金) 14:56 (UTC)
- (追記)私がここの議論に気付いたのは#合意形成に向けた仕切り直しで「最初に完全禁止を要求し、最終的に70%まで譲歩を認める」に賛成意見がついた後でした。◇私自身は「Google翻訳+コンテンツ翻訳」の将来に大きな期待をもっているので「完全禁止」には反対でしたが、そこまで議論が進んでいては「部分規制」は仕方がない、たしかに機械翻訳そのまま投稿してしまう人もいる・・・と思ってしまいました。そのため、機械翻訳は今まで通り使い続けられて、なおかつ「機械翻訳そのまま」の投稿を防げるのは90%のラインかなと考えたのです。◇ですが直蔵さんのコメントをきっかけによく考えてみれば、「機械翻訳そのまま」の投稿は現行の99%では防げていないけれど90%なら完全に防げます。95%でもいいかもしれません。ですからそれ以上厳しい規制については(前言半分撤回で申し訳ないけど)明確に反対します。--miya(会話) 2019年8月29日 (木) 03:05 (UTC)
- コメント 投稿された記事をみて「これは機械翻訳90%だ」「85%だ」などはわからないですよね?ツールを利用した場合、例外なく、自動で要約欄に「この記事は機械翻訳N%で作成されました」と表示されるようにはできませんか?--柒月例祭(会話) 2019年8月28日 (水) 02:16 (UTC)
- (追記)数値目標としては、私は「90%」には大いに不満です。が、ネイさんが合意形成の長期化を望まず、まずは第一手をうちたい、というのもよくわかります。「N%で作成されました」という情報が万人向けに公開されると、機械翻訳の精度についての後の検証にも役に立ち、90%→80%などの論拠になるでしょう。誰が、どんな記事で、どのぐらい機械翻訳を使用しているのかも可視化されます。「利用者ごとの使用承認・許可」制を検討する材料になるでしょう。デメリットはないと思うのですがいかがでしょう。これが条件として付与されるなら、私も「90%」に賛成できます。--柒月例祭(会話) 2019年8月28日 (水) 03:23 (UTC)
- 反対 まず、結論ありきの提案になっていてとうてい納得できないことを主張します(たとえば、正味100万円の損賠請求するのに、相手がそれでは折れないだろうから、200万円を請求しといてやっぱり100万円に負けるからもうこれ以上譲歩はできないと言ってるようなものです。それならば、高い数字を最初にふっかけた者勝ちということになります)。機械翻訳率を問題にしたいならば、あくまでも0%から100%までの幅のある中で、どこが適切なラインかを慎重に検討して合意形成すべきです。なので、中身もさておき、この提案「自体」に反対という意味です。つぎに、”問題が解決しないようであれば「新規利用者によるツール利用禁止」などさらなる施策を検討する”とありますが、順番が逆でしょう?「90%以上機械翻訳そのままを投稿禁止」が実現するならば、「新規利用者によるツール利用禁止」はおそらくそのうちの機械翻訳率が高いもの、もっと言えばまるまる機械翻訳のものがターゲットなのでしょうから、最初の提案実現により名ばかり規制になるんじゃないでしょうか?まずは「新規利用者によるツール利用禁止」、それとても弊害の方が大きいと私は考えますが、そちらを試してみて、それでも丸投げ投稿が収まらないようならば、そこで初めて機械翻訳率の話になるんじゃないでしょうか?それよりも、私はたまたまこの井戸端会議を別の探しものをしていて見つけたので、議論に参加していますが、この提案があることすら知らずに翻訳を続けている人が多数いるわけでしょうから、わずかな利用者で決めてしまうのは大いに問題があると考えます。あえて異論(現状変更に反対)を強く打ち出しているのは、その埋め合わせの意味合いもあります。それと、私も疑問に思っていたのですが、機械翻訳率を本人以外がどうやって調べるのですか?--直蔵(会話) 2019年8月28日 (水) 14:14 (UTC)
- (直蔵さんへの返信)たとえ話ならば、正味100万円の損賠を1万に譲歩したのに、それでも「ふっかけられている」と言われている状態です(要点ではないので、これ以上たとえ話で主張しません)。それに、「わずかな利用者で決めてしまう」とはいっても、コメント依頼、お知らせ、コミュニティ・ポータルで告知しており、それでも参加しない方に参加を強いることはできませんし、告知が十分である以上このページで成立した合意は有効であると考えます。
- 大元の提案の目的が機械翻訳丸投げ(=機械翻訳率が10割に近い投稿)の規制なので、機械翻訳率を規制することが直接的ではないでしょうか。順番が逆といいますが、むしろ「新規利用者によるツール利用禁止」のほうが回り道でしょう。
- 「自動承認された利用者」のハードルは登録から4日と編集10回と低く、普通の新規利用者ならば数日でツール利用が解禁されるので、「新規利用者によるツール利用禁止」の弊害はかなり少ないものと考えます。それでも問題になるようであれば、(制度の整備は必要ですが)「承認された利用者」の権限を申請させてツール利用を早期解禁することも可能でしょう。ただし、当方はこの制限が実施された場合でも権限申請の利用率がかなり低いものになるだろうと想定しています。
- (柒月例祭さんと直蔵さんへの返信)機械翻訳率はAPI経由で取得することになると考えます(mw:Content translation/Published translations の説明も参照)。多分ボット運用で統計ページを生成できるので、必ずしも要約欄に追加する必要はないではないでしょうか。(合意が形成されたら、作成してみます。)--ネイ(会話) 2019年8月28日 (水) 15:05 (UTC)
- 順序がおかしいというのはこういうことです。そもそもの提案の目的は完全なる機械翻訳丸投げ投稿を排除することでした。それならば、機械翻訳率100%のみを排除すべきなのに、なぜか70%だの最大限譲歩して90%だのというおかしなことを言い出しています。それではもう初期の目的を超えて人為的な翻訳までが網にかかってしまい、しかも私が例に出したように、少なからぬ範囲のフォールスポジティブが出てしまう。これは甚大な弊害です。私からしたら、そもそもこのような規制を行おうという動き自体が認められないという話なので、はなから90%ラインは譲れないなどと言われても全く納得できません。現状の提案では「お前には今後翻訳ツールは使わせない」と言われてるに等しいです。少し手を加えれば90%を下回るのは容易という話も出ていますが、本末転倒な話です。一体何が目的のルールなんですか?新たなルールを作ったがために、編集作業が悪影響を受けるというのはおかしいのであって、まずは悪影響が出ないように上手にルールを作ることが何よりも大事なはずでしょう。それなのに、私が具体例を出して90%でも低すぎると反論したのに対して、それすらも排除して強行すると言うならば、議論などする必要なくないですか?機械翻訳記事がいくら抑制できても、日本語で読みたい人力翻訳記事がそのために作成されないというのであれば(それは当然予想されます)、一般利用者には弊害の方が明らかに大きいと考えます。たとえば、不要な記事が増えるから、その分データ量が多くなって無視できないほどのコスト増大があるというなら抑制のメリットは十分理解できますが、現状で何がまずいのか(単に存在してほしくない記事内容が増えるという以外に)がよく理解できません。理解できないままだと話が進まないので、いまこのページを冒頭から読み進めています。現在「区切り1」の直上あたりですが、一旦ここで休止して、また明日コメントします。--直蔵(会話) 2019年8月28日 (水) 17:51 (UTC)
- 機械翻訳ツールに制限すると一切翻訳できなくなるみたいに不安に思われているようにみえます。が、べつにふつーに翻訳すればいいだけでしょう。私もこれまで翻訳記事をいくつか投稿してきましたけれど、翻訳ツールも機械翻訳もまったくつかっていません。それを不自由に思ったこともないです。機械翻訳ツールに頼らなければ翻訳できない人は、べつに翻訳しなくていいです、って感じ。(英語版の記事を自分で機械翻訳で読めばいいんですし。)
- Wikipedia:翻訳のガイドラインでは「機械翻訳をそのまま投稿することはどうかおやめください」とあります。コミュニティの合意により機械翻訳の投稿は既にガイドラインで禁じられているのです。それなのに、ガイドラインに反するツールが整備されてしまったのです。(まあ、それは各方面の「上流」が異なっているのでしかたないのですけど。)
- 直蔵さんは「100%のみを排除すべき」とおっしゃいます。各人が意見を述べるのは自由です。私から言うと「機械翻訳は1%も残さず排除したい」と思いますね。そういういろいろな利用者の意見の総和として合意形成をしますので、「自分は納得できない」と言い張って立ち塞がってもしょうがないところはあります。
- 「機械翻訳ツールの機能停止」はどうやら実現可能性に難があり、他言語版での実例に鑑みて「機械翻訳率」の%のバーの上げ下げで対応するのが現実路線、ということで今の議論になっています。この手の線引設定では常にそうですが、どこに設定するかなんてのはえいやあと決めて線を引くわけでして。「
- 「%」の話はふわっとしたところがあり、100文のうち99文は機械翻訳そのまま、1文だけ弄って「100%」を回避することもできちゃいますよね。私だったら、すべての文章において1文毎に機械翻訳を排除してね、って思いますよ。
- (ネイさんへ)私の希望は、「統計」ではなくて、まさに一記事毎、一投稿毎に、機械率何%であるかを記録・公開することにあります。それによって、個々の記事毎に機械率が何%ぐらいだとどのぐらいの品質になるのか、誰が何%ぐらいで投稿しているのか、が可視化されます。間接的ではありますが、1記事毎に読者がその翻訳文の信頼度を計る材料にもなるでしょう。--柒月例祭(会話) 2019年8月29日 (木) 13:58 (UTC)
- 昨日からの続きです。このページのコメントにはどうにかすべて目を通しました。また、自分でも検証を行なってみました。結果はこのようになりました。概ね8割から9割のどこかがラインという結果です。7割だとやはり厳しすぎます。9割だと少しは余裕があるので、その余裕はファールスポジティブ救済用にバッファーとして持っておきたいですが、逆の立場もありますから、そこは譲歩の余地があるかなぁと。ただ、個人の意見としては9割をギリギリのラインとして主張したいなぁという感じです。以上は機械翻訳率による制限導入を前提にした話です。 根本的な疑問を呈しておきます。仮に機械翻訳率をいくつかと定めてそれ以下でなければ投稿禁止という措置を導入したとします。すると、機械翻訳だけに頼ってそのまま記事作成しようとした利用者の中で、人力翻訳はやりたくもない、でもどうしてもこの記事は作成したいという熱意だけがある人はどうするか?一つには、どこかから全く関係のない文章を取ってきて、それを末尾に付加すれば全体として機械翻訳率は格段に下がるでしょう。この余計な文章量を増やすだけで容易に機械的に機械翻訳率は下げられてしまう。こういうループホールがあり、その穴はいくら機械翻訳率の基準を下げても塞げない一方で、まじめに人力翻訳をして機械翻訳率を下げようと努力した人は、意味もなく下げられた基準によって投稿できない羽目に陥るでしょう。この根本的に解決不能である問題にどう対処するのか?機械翻訳率の制限を導入するに当たっては、まずはこの問題に対する(ツール組み込み廃止とそれ以上の翻訳上の工夫以外の)解決法を伺いたいです。もし、個別に対処するしかないのならば、現状からの労力軽減に資するわけでもないのだから、この対策は採用すべきではないと考えます。 もし機械翻訳率での制限が90%レベルで導入されたとしたら、私なら次のようなことをします。翻訳ツールをそれまで通り使い続けることを前提として、制限回避のために、今まで通り機械翻訳をベースに修正を加えて、それでも90%を下回らなければ、なにか適当な文字列(たとえばaaaaaaaaみたいなもの)を機械的にその段落の末尾に加えます。これによって各段落の機械翻訳率が下回ればトータルでも投稿は可能になるでしょう。投稿されたらば、即座に編集を再開して、先ほど付加した不要な文字列を除去します(これで査読の無駄な労力も生じないでしょう)。このやり方で今回提案が予定される措置の抜け穴になると考えていますが、いかがでしょうか?
- なにか(管理者でもなく)一般利用者にかなり近い私のような立場からすると、財団だの日本語版だのといった(普段は意識することのない)複数のプレイヤーが出てきているようで、その中での利害対立が議論の前に存在するようですね。論理的な流れを多少無視してでも一方方向に持って行こうとする流れがすでに出来上がりつつあるようで、その観点からもこの議論はどれだけ意味があるのかなと思っています(そもそも「財団」に対する敵対姿勢が大前提なのが非常に違和感があります)。ことに、財団にスキを見せないために妥協要素は一切入れるなという主張がそのまま通るならば、もう議論をする必要など一切なくて、自分たちで最良と思った提案を「これが日本語版利用者の総意です」とでも言ってぶつければ良いだけなのではないですか?もうそうなったら、私としては関与の余地はないわけですけど、それならそれで一蹴されることを強く望みます。 リソースの浪費という観点から機械翻訳記事の乱発に対する無駄骨を解消するというのが基本的方向なわけですが、そのための対策として翻訳ツールの使用禁止または事実上の使用不可能が現実のものとなれば、そのことによって潜在的な翻訳作業者が出てくると予想されるので、そうなると、本来ならば利用できていたリソースが使われずに埋もれてしまうという意味で、問題の本質は同じなのではないかと思います。そこで、後者についてはそんな人材なら翻訳してくれないでいいなんて暴論が出るようであれば(実際出ていますし)、同じようにそんなことで疲弊するような人材なら削除作業に当たってくれなくてもいいという暴論だって成り立ってしまうのではないでしょうか? 私としては、幾つかご指摘も受けましたが、翻訳自体優良というわけではないので、そのことは自覚して、公開に至るまでにサンドボックスで編集を続けて、ようやくこれで何とか人に見せられるレベルになってから一般公開してきました(機械翻訳の使用有無に関わらずです)。その枠内で、つまり公開するまでの間に(とりわけ取っ掛かりの段階で)機械翻訳を利用することくらいは今のまま許可してほしいです。まだまだ日本語版が欠けている、それでいて英語版は充実している記事が、私の関心分野においては山ほどありますので、今後とも微力ながら地道に一部翻訳を含めて作業は継続していきたいと思っています。なにとぞその思いがつぶされることがないような配慮をお願いします。--直蔵(会話) 2019年8月29日 (木) 15:25 (UTC)
- 順序がおかしいというのはこういうことです。そもそもの提案の目的は完全なる機械翻訳丸投げ投稿を排除することでした。それならば、機械翻訳率100%のみを排除すべきなのに、なぜか70%だの最大限譲歩して90%だのというおかしなことを言い出しています。それではもう初期の目的を超えて人為的な翻訳までが網にかかってしまい、しかも私が例に出したように、少なからぬ範囲のフォールスポジティブが出てしまう。これは甚大な弊害です。私からしたら、そもそもこのような規制を行おうという動き自体が認められないという話なので、はなから90%ラインは譲れないなどと言われても全く納得できません。現状の提案では「お前には今後翻訳ツールは使わせない」と言われてるに等しいです。少し手を加えれば90%を下回るのは容易という話も出ていますが、本末転倒な話です。一体何が目的のルールなんですか?新たなルールを作ったがために、編集作業が悪影響を受けるというのはおかしいのであって、まずは悪影響が出ないように上手にルールを作ることが何よりも大事なはずでしょう。それなのに、私が具体例を出して90%でも低すぎると反論したのに対して、それすらも排除して強行すると言うならば、議論などする必要なくないですか?機械翻訳記事がいくら抑制できても、日本語で読みたい人力翻訳記事がそのために作成されないというのであれば(それは当然予想されます)、一般利用者には弊害の方が明らかに大きいと考えます。たとえば、不要な記事が増えるから、その分データ量が多くなって無視できないほどのコスト増大があるというなら抑制のメリットは十分理解できますが、現状で何がまずいのか(単に存在してほしくない記事内容が増えるという以外に)がよく理解できません。理解できないままだと話が進まないので、いまこのページを冒頭から読み進めています。現在「区切り1」の直上あたりですが、一旦ここで休止して、また明日コメントします。--直蔵(会話) 2019年8月28日 (水) 17:51 (UTC)
- (インデント戻す、柒月例祭さんへ)APIクエリではコンテンツ翻訳ツールによる投稿毎に「ソースページ」「投稿先ページ」「投稿先oldid(2015年12月頃以降の投稿のみ)」「機械翻訳率」といったデータを取得でき、これに投稿者名も加えて表示することはできます。私が主張したいのは「要約欄で表示するのではなく、統計ページで(表組みで?)表示する」ということです。要約欄では投稿記録を辿る必要があるので、すべて統計ページで表示したほうが便利という利点もあります。--ネイ(会話) 2019年8月29日 (木) 15:38 (UTC)
- 直近50件の翻訳(JST0:00時点)について、機械翻訳の割合と読みやすさを利用者:プログラム/機械翻訳の割合と読みやすさにまとめました。サンプル数を稼ぐため、内容までは確認していません。大まかに言って
- 機械翻訳率90%以上だと機械翻訳丸投げの翻訳が多く、短い文章を除き読みやすい翻訳がない
- 80 - 90%だと少し読みづらい翻訳が多い
- 80%以下だと読みやすい翻訳が多いという印象を受けました。--プログラム(会話) 2019年8月29日 (木) 19:01 (UTC)
- 直蔵さん宛 「人力翻訳はやりたくもない、でもどうしてもこの記事は作成したいという熱意だけがある人はどうするか?」…どうもしません。外国語の勉強を頑張ってくださいというだけです。残念ながら、能力がなく熱意だけで低質な(例えば機械翻訳の丸投げ)で記事を投稿する人を迷惑な投稿者とかコミュニティを消耗させるユーザーとか呼びます。子供だからとか、精神に病を持つからという理由でそれが許されないのと同様に、外国語ができないという理由で許される事もありません。能力のある人にお願いするか、お願いするあてが無いならいつかそういう人が出てくるまで待ってもらいます。それは現行のWikipediaが既にそういう性質を持つのであって暴論でも何でもありません。--219.102.203.143 2019年8月29日 (木) 21:44 (UTC)
- ”「…どうしてもこの記事は作成したいという熱意だけがある人はどうするか?」…どうもしません”質問の趣意を誤解されているようです。その問いかけは、そういう”困った行動を取る人たち”が次にどういう行動を取ると予想されますか?という意味です。そういう人たちに対処する人たちが彼らに何を望みますか?ということを訊いたわけではないです。その部分はそのように理解して次の文以降につなげてください。それから、ウィキペディアの性質上能力のある人のみが編集(この場合は翻訳作業)に参加すべきだとのお考えのようですが、それならばなぜ翻訳能力による編集権限制度が導入されていないのですか(もしそういう理念を是とするならばそういった制度こそ導入すべきでしょう)?現実には、翻訳にかぎらずオリジナル記事作成についても執筆権限には能力制限など無くて、品質がてんでバラバラの記事が散見されますし、そういうこともあってウィキペディア自体が信頼できないものの代名詞みたいに言われることもあります。世間的な認識はウィキペディアの高尚な理念とは反対に寄っているのではないでしょうか? ないよりはあった方がマシという価値観もありましょうし、さすがに機械翻訳そのまんまだったら「わざわざ記事を作らなくても、読む側が英語版Wikipediaを機械翻訳で読めば同じ」という議論は成り立つでしょうが、拙劣でも多少人手が入っているならば「ないよりはマシ」ということは十分成り立ちます。その品質に満足しない人は見なければいいだけの話じゃないでしょうか?すでに記事が存在することが新たに高品質な記事の誕生することを阻害する要因にもなりませんし、あるだけマシな記事が存在を許されない意味がよくわからないです。手前味噌ですが、チャールストン教会の事件は英語版が充実していますが、本来ならばあれだけの重大事件に(これだけ歳月が経過しているのに)日本語版がないのはおかしな話なので、英語版を訳したものが存在してほしいものですが、現実にはそうなっていなかったので、なけなしの能力を使って簡易英語版からなんとか最低限の日本語記事を作りました。それだけでも十分に存在価値はあると思うのですが(こっ恥ずかしいので早いところ英語版をフルに訳したもので上書きされることを切に願っています)。実際には粗雑な翻訳がしらみつぶしに排除されているわけでもないのに(それともしらみつぶしに消されてるから私の目に入らないだけなのでしょうか?それにしては…拙訳は棚に上げて申し上げると…誤訳の目立つ記事が散見されますが)、機械翻訳のツール内での使用だけがことさら叩かれるのはおかしいのではないでしょうか? あと、「機械翻訳の割合と読みやすさ」にて評価頂いたのはそれとして受け止めますが、失礼ながらこう見えても私利用者ページにあるような英語運用能力を有する日本語を母語とする日本人です。翻訳を業とするような特別な訓練を受けているわけではありませんが、世間で言えば日英ともにかなり高水準な運用能力はあると自負しています。もしそれでも「少し読みづらい」という評価ならば(もちろん「読みづらさ」の理由は理解してますが、わざとらしく”日本語らしく”する必要もとくに感じません)、もうウィキペディアの翻訳は専門の翻訳者しか手を出してはいけないということに決めたらどうですか?ウィキペディアに求められることは第一に正確性であると思われるのに、読みやすさのみを翻訳の優劣の基準にするのはおかしいですよという話です。これは、日本語としては読めるけれども、前後関係からして意味不明なことが書いてあって、よくよく原文(英語版)を読んでみると誤訳しているということがしばしばあるので、都度直している経験上申し上げています。読みやすさも基準にして評価するのは構いませんが、まずは正確性を基準にしてどうなのかを調べてみてはいかがでしょうか? これは完全に愚痴ですが、直訳ということを皆さんすこしバカにし過ぎではないでしょうか?直訳ができない者が翻訳など土台できるわけないので、直訳は基本中の基本なのですけれど、直訳すらまともに出来ない者が翻訳の優劣を論じるのは滑稽な話です。皆さんの中にはそういう人がいないことを切に願います。--直蔵(会話) 2019年8月30日 (金) 00:52 (UTC)
- いまちょっと利用者:プログラム/機械翻訳の割合と読みやすさにて○評価を与えられていて、なおかつ機械翻訳率の低いものを4つばかり(ギオルギ・グガヴァ (柔道家)(機械翻訳率47%)、アハメド・アルカフ(75%)、1954年農産物貿易促進援助法(66%)、R-29 (弾道ミサイル)(69%))見てみたのですが、以下のような類型に分けられると思います。
- 極めて短い人物紹介記事:ギオルギ・グガヴァ (柔道家)、アハメド・アルカフ
- 原文に加えて大幅に加筆された記事:1954年農産物貿易促進援助法
- 専門用語が多数使用されている記事:R-29 (弾道ミサイル)
- こうした翻訳記事が翻訳率が低くなるのは、それぞれにそれなりの理屈が通る理由があるからで、でもだからといって、これらの記事の機械翻訳率を元にして相対的な機械翻訳率の限界を決められてしまうと、非常に困るわけです。極めて短い人物記事の場合は、全体が短いこともあって最近の活動歴などをすこし加筆すれば機械翻訳率を飛躍的に下げることが容易です。大幅に加筆された記事が機械翻訳率が下がるのは当然のことですが、これをすべての翻訳記事に求めることは無謀です。専門用語が多用されていると、もとの機械翻訳の誤訳の多さが疑われ、手直しする分量が多い分機械翻訳率は下がりやすいと言えるでしょう。こうした事例があるからといって、容易に機械翻訳率が下がらない記事の存在が否定されることはやはりあってはならないことだと考えます。--直蔵(会話) 2019年8月30日 (金) 01:14 (UTC)
- 直蔵さん宛 「人力翻訳はやりたくもない、でもどうしてもこの記事は作成したいという熱意だけがある人はどうするか?」…どうもしません。外国語の勉強を頑張ってくださいというだけです。残念ながら、能力がなく熱意だけで低質な(例えば機械翻訳の丸投げ)で記事を投稿する人を迷惑な投稿者とかコミュニティを消耗させるユーザーとか呼びます。子供だからとか、精神に病を持つからという理由でそれが許されないのと同様に、外国語ができないという理由で許される事もありません。能力のある人にお願いするか、お願いするあてが無いならいつかそういう人が出てくるまで待ってもらいます。それは現行のWikipediaが既にそういう性質を持つのであって暴論でも何でもありません。--219.102.203.143 2019年8月29日 (木) 21:44 (UTC)
- 質問 対立意見ばかり書いても溝が埋まらないので、させてください。「ただ機械翻訳をコピペしただけの記事を削除するのにどれだけの手間がかかっているかを思えば、日本語への機械翻訳をツール側で禁止するのは妥当」という意見が上がっていましたが、この「どれだけの手間」というのが明確には理解できていません。機械翻訳の放置がケースGに該当するという記述がありましたが、そうすると削除作業はWikipedia:削除の方針にしたがって、Wikipedia:削除でいうと「その他の削除」に該当するということでしょうか?つまり、Wikipedia:即時削除はできないから手間が掛かってしまっているという理解でよろしいのでしょうか?--直蔵(会話) 2019年8月30日 (金) 01:52 (UTC)
- で、そう考えると、Wikipedia‐ノート:即時削除の方針/過去ログ18#コンテンツ翻訳ツールによる機械翻訳をそのまま投稿した記事を新たなケースとする提案…このような提案がなされているのはごくごく自然なことだと思うのですが、管理負担の軽減という観点から、こちらの方向も並行して検討した方が良いのではないかと思います。そもそも機械翻訳が毛嫌いされているのは品質もさることながら削除作業が必然的に発生して、それが大いに負担になっているからなのでしょう?--直蔵(会話) 2019年8月30日 (金) 02:01 (UTC)
- 3年前の提案・議論で当時とはいろいろ状況は変わっているでしょうが、参考になりそうなのでリンクを置いておきます。当時から関わっておられる方々、おつかれさまです。Wikipedia‐ノート:削除の方針/2016年#翻訳についての削除の方針(仮称ケースH)の提案--直蔵(会話) 2019年8月30日 (金) 02:23 (UTC)
- 賛成 賛成いたします。私は全面禁止でもかまわないと考えていますが、とりあえずは規制の必要があると考えます。--さえぼー(会話) 2019年8月30日 (金) 06:47 (UTC)
- 反対 理由は「逆進性」です。何%を設定しようが、そもそも変更率を指標にするには根本的な問題があります。機械翻訳で精度が異なるので、記事Aは20点、記事Bは80点の出来だったとします。90%の閾値を設定するということはつまり、10%を改善するということになり、記事Aは30点、記事Bは90点までアップすれば投稿OKということです。読者からすれば記事Aはゴミのままで、何ら規制の効果はありません。そして記事Bは既に合格ラインに達しているのに、そこからさらに高い水準まで変更しない限り投稿できないことになります。よって、Google翻訳が学習するほど、この逆進性によってツールが使いづらくなるわけです。なお、変更率とはまったく別の改善案がありますので、別途井戸端に節を分けて投稿しようと思います (今はちょっと忙しいのですぐには無理ですが)。--ProfessorPine(会話) 2019年8月30日 (金) 07:58 (UTC)
- 条件付賛成 コンテンツ翻訳機能(CX2)で機械翻訳のままの比率を90%未満と指定して投稿の閾値を設ける案に、条件付きで賛成します。コンテンツ翻訳機能の開発趣旨には投稿者増加を目指し「ゼロから記事を書き起こせないが翻訳で投稿したい」人に向けて開発したと示してあります。バージョン2公開以降、精度の低い翻訳投稿が増えた印象がありますが、開発趣旨を妨げず、なおかつ百科事典としての品質を保ち信頼性を担保する申し入れがしたいです。上記の議論でご指摘の点から2点を重視します。(1) 日本語版ウィキペディアの方針は機械翻訳そのままの投稿を認めておらず、矛盾を避けるにはコンテンツ翻訳ツールの精度の閾値に慎重でありたいこと。(2) ウィキメディアの開発側もしくは言語部門が、コンテンツ翻訳ツールで作成した翻訳記事の品質を数値化してほしいと求めます(後述)。
- (2) のCX2の統計について。量的な統計は個別ウィキに導入するデータベースがあるそうです。なおデータ処理などコード周りの理解が浅く無理な注文をしていることをお断りしつつ、APIを私製していただき速報が知りたい反面、「カテゴリ:コンテンツ翻訳機能を使った記事」にリンクさせて常設のページで公開できませんか。イメージはmwの言語別の翻訳統計ページですが、ただし利用者名は公開の必要より害が気になり、管理者のみ把握してほしいです(当該利用者を嫌がらせ行為から守るため)。
- (仮3) これは交渉の文言に組み込まないまでも、強く推したいです。開発側に分野別の対訳辞書の早急な充実を求めます。上記で機械翻訳と分野の相性の話題があり、翻訳精度は外部の分野別辞書の手当てでコントロールすることができます。開発側も分野別辞書充実が課題 というページを書き整理しています。
- ウィキペディアは機械翻訳の実験場でもないし、翻訳力を磨くための道場でもありません。ただCX2で翻訳ができると広く知らせたからには、投稿する喜びを覚えた翻訳初学者にも同情があります。では自分がどこまで働くのか、CXで投稿前に添削すべき点の洗い出しと起稿をするか、公開されたページを巡回するか反省があります。信頼できる百科事典を保つため管理の役目を果たしてくださる方々の疲弊も心配です。長くなりました。 --Omotecho(会話) 2019年8月30日 (金) 12:50 (UTC)
- @直蔵:さん#質問の「ただ機械翻訳をコピペしただけの記事を削除(する手間)」について日本語版の現状から外れますが全言語版横断のデータに、編集初学者が翻訳ツールを使って投稿し削除された記事の比率を追ったグラフがあります。対照データ
対象データは翻訳経験者で同ツールを利用した投稿と削除率です。--誤字修正 Omotecho(会話) 2019年8月31日 (土) 10:07 (UTC)/ 2019年8月30日 (金) 13:18 (UTC)
- @直蔵:さん#質問の「ただ機械翻訳をコピペしただけの記事を削除(する手間)」について日本語版の現状から外れますが全言語版横断のデータに、編集初学者が翻訳ツールを使って投稿し削除された記事の比率を追ったグラフがあります。対照データ
- 条件付賛成 ご無沙汰してます。あちこちで議論抱えてる上に先日のテストでの翻訳の記事化も抱えているのにまともに各所に参加する余裕がないので取り急ぎ。本提案はそもそも「機械翻訳やりたきゃ自己責任」&根拠のない盲信に基づくお手軽乱造を防ぐという性格のものであり、機械翻訳を使いたいから無条件で解放されている現状を維持しろという意見は考慮に値しません。機械翻訳がやりたければツールを経由しなければいいのですから、対象が本質的に異なるのです(その結果は削除からブロックに至るまで全て自己責任です)。現状での初心者・非日本語話者によるお手軽翻訳はトラブルを数多く引き起こしており、削除依頼どころか検出すら追いつきません。これを拒絶することで改善する提案に対して解放の維持を求めるのは無理筋ですし、機械翻訳の将来性や検証記事の専門性は免罪符になりません。初心者に優しい顔を見せて、負担を他の人に押しつけ、対策を積極的に阻害する意見を考慮すべきではありません。
- この点は、反対意見に安易に妥協した提案者の責任も大です。妥協した提案を財団がもっと譲歩しろとなるだろうという当初の予想を、事前に日本語版利用者が展開している状況であることは理解されていますか?
- 初期設定値についてはMiyaさんの例を考えると、これで良しとする段階でもなお相応の問題点が残っており、短い記事の例であることを考えても80%ではないかと考えます。また直蔵さんとプログラムさんの例を参考にすると、恐らく90%では突破されるであろうと考えます。そして、初期設定値で問題を起こさないか評価するためには、速やかな検証が必要です。「80%」と「1月以内の検証による見直し」を条件として試行する価値はあると考えます。ただ、あまり高い数値を設定するなら無効化した方が妥当な運用となりますので、これを越えたら無効化に舵を切るという値も検討すべきですし、ツールがあるのにとして抵抗するなら、ツールの存在自体が原因であることは明らかなのでツール自体を止めるしかないでしょう。
- 個人的には限界値は高めと見ています。日本語の機械翻訳は文字数的には微細なところで意味が変わるので、%での閾値は機能しにくいんです。
- コンテンツ翻訳記事を蒐集しまとめるページ・ツールは、提案に先行して設けるべきでしょう。先に述べた理由から単純な閾値で判断するのは危険で、一見日本語だが内容がめちゃくちゃというものは分野外ですと見落としが多くなると予想しています。
- なお、見直しは期限をあらかじめ設定して必ず行うべきものであり、これを欠くものやそのうち・いつか等といういい加減な設定ならば反対とします。--Open-box(会話) 2019年9月2日 (月) 09:08 (UTC)
- コメント冒頭提案理由への疑義:いやそもそも、提案者の提案理由が妥当かどうか、確認する必要があると思います。◇たとえば、Category:未査読の翻訳があるページについて「これ以上コミュニティへの負担を増やすべきではありません。現時点で当該カテゴリには800件以上のページがあり、追跡としての機能が果たされていないことが明らかとなっています。」と書かれていますが、「追跡としての機能が果たされていない」ことの解決は、機械翻訳の停止ではなく、カテゴリの改善でなされるべきです(カテゴリ除去の基準を決める、あるいは分野別カテゴリに細分化するなど。現状、翻訳者自身が除去していいのかどうかもわからない。たとえばOmotechoさんの翻訳ならご自身で除去されてもいいのではないかと思うのですが、ここにカテゴライズされたままのものもある。第三者が専門分野の人にチェックを依頼したい場合は、「Category:査読が望まれるページ|教育」とか「Category:査読が望まれるページ|IT」とかに貼り替えるシステムがあればよいのでは)。◇「全ての機械翻訳そのままの投稿が削除済みというわけではありません。」について:修正しきれない「機械翻訳そのままの投稿」は翻訳者の利用者サブページに移動する、というルールを設ければどうでしょう。◇「 日本語への機械翻訳ではGoogle翻訳でもYandex翻訳でも本文ほぼ全てを手直しする必要があるため、インドネシア語版で実装された「3割以上で投稿を禁止する」では不十分です。」とありますが、「3割以上で投稿を禁止する」で「不十分」の根拠は示されていません。「本文ほぼ全てを手直しする必要がある」としても、どれくらい手直しが必要かは分野によります。◇インドネシア語版の「合意」について:「インドネシア語版での合意に基づきphab:T219851が提出されましたが」とのことですが、インドネシア語版はたかだか11人のSetujuでサイト全体に大きな影響のある変更を求めて、あとで機械翻訳で翻訳を行っていた人から異議が出されて、どんどん規制が緩められる結果になったのですよね? ProfessorPineさんが紹介してくださった財団とインドネシア語版の人たちのやり取り:Wikipedia‐ノート:井戸端/subj/コンテンツ翻訳ツールにおける日本語への機械翻訳をツール側で禁止する提案#インドネシア語版と財団の交渉を一部意訳を読みましたが、財団の「ツールをうまく使っているユーザまで制限するのはよくない」「うまく使っているユーザを無視しないでほしいとお願いしているのです」というのは至極当然のことだと思います。◇ちゃんと使う利用者もいるが酷い使い方をする利用者が多いので止めるべき、というのは、まともなIP利用者もいるが荒らしのIP利用者が多いのでIP利用者の編集を禁止してしまえ、というのと同じレベルの非オープンさだと感じます。--miya(会話) 2019年9月2日 (月) 15:17 (UTC)
- 返信 Miyaさんは「『規制する』が圧倒的な結果になると予想されるなら調査投票の必要はない」とおっしゃいましたよね。これは事実上、議論するまでもなく規制することがコミュニティの総意であることをお認めになったのではないですか?(「非オープン」といいますが、「酒を飲んでもちゃんと運転できる人もいるのだから飲酒運転を一律禁止するのはおかしい」というのと似ているのでは・・・。)
- (ネイさんへ)この3週間「規制すること自体への疑義」が散発的に示され、その都度議論が後戻りしています。先月提案したとおりまずは「何らかの規制をするべきか、一切規制しないべきか」の2択で調査投票を実施することを求めます。
- その結果により、「規制すべき」という意見が実際にどの程度、コミュニティの総意であるかが具体的に可視化されるでしょう。(それで拮抗するようなら議論を深める必要はありますし、明らかな差がつくなら先へ進めばいい。)
- 一足とびに先を急いでも結局後戻りが生じます。ひとつづつ、着実に積み重ねて進めませんか。--柒月例祭(会話) 2019年9月2日 (月) 15:32 (UTC)
- (㭍月例祭さんへ)「規制することがコミュニティの総意であることをお認めになったのではないですか?」について:豹変したようで申し訳ありませんが、あの時点ではそこまでの議論を読んでそう考えました。語尾の修正だけでも不可避なのだから、99%でNGは緩すぎる、という点にあえて異論は出ないだろうと考えての見解でした。しかしその時点でも禁止には反対でした(コンテンツ翻訳は飲酒運転よりはよく切れるナイフにたとえたほうが良いと思います)。--miya(会話) 2019年9月2日 (月) 23:31 (UTC)
- 私の考えでは、現状はWP:MACHINEで「機械翻訳は質が悪いからダメよ」という大きな合意がなされており、大前提として「機械翻訳は禁止されている」ということになっています。(ガイドラインだから方針じゃない、という反論の余地は認めます。)しかしそのガイドラインを考慮せずに「翻訳ツール」が機能として実装されてしまった。(これはまあ今更言ってもしょうがない)
- すなわち、「機械翻訳は規制の対象である」というのが現状であり、本来の筋道でいえば「機械翻訳を解禁する」ための合意形成が必要だ、と考えています。ロジックとしてはね。でもまあそのロジックを言うだけでは翻訳ツールは止まらないので、「翻訳ツールを規制すべき」という明瞭な合意をするしかないな、と思っています。
- 財団との交渉というステップがあることを考えると、「コミュニティは規制を求めている」という明確な合意をしておくことは有用だと考えています。--柒月例祭(会話) 2019年9月2日 (月) 16:03 (UTC)
- (㭍月例祭さんへ)WP:MACHINEには機械翻訳をそのまま投稿することはどうかおやめください。とあります。「そのまま」は控えるようにということであり、機械翻訳をmodifyしたものを対象としてはいません。これをもって「機械翻訳は禁止されている」ということはできないでしょう。◇なお、この文章は2007-07-22の第2版からあります。初出はたぶんWikipedia:FAQ 翻訳の2006-07-28。たしかに当時の機械翻訳ときたら、ほんとに酷いものでした。当時の機械翻訳を小学生レベルとしたら、今の機械翻訳は高校生か大学1,2回生レベルにはなっていると思います。--miya(会話) 2019年9月2日 (月) 23:52 (UTC)
- (返信)「そのまま」の解釈次第ですね。少なくとも「100%機械翻訳のまま」=「そのまま」ですよね。ということは、99%か90%か80%か30%か、閾値は人それぞれの考え方がありますが、いずれにせよ何らかの規制は当然にある、ということでしょう。--柒月例祭(会話) 2019年9月3日 (火) 04:19 (UTC)
- (㭍月例祭さんへ)WP:MACHINEには機械翻訳をそのまま投稿することはどうかおやめください。とあります。「そのまま」は控えるようにということであり、機械翻訳をmodifyしたものを対象としてはいません。これをもって「機械翻訳は禁止されている」ということはできないでしょう。◇なお、この文章は2007-07-22の第2版からあります。初出はたぶんWikipedia:FAQ 翻訳の2006-07-28。たしかに当時の機械翻訳ときたら、ほんとに酷いものでした。当時の機械翻訳を小学生レベルとしたら、今の機械翻訳は高校生か大学1,2回生レベルにはなっていると思います。--miya(会話) 2019年9月2日 (月) 23:52 (UTC)
- すみません、今日は詳しい返信は無理なので、1つだけ情報提供を。「Category:未査読の翻訳があるページ」の実装の経緯はphab:T190798 にあります。--ネイ(会話) 2019年9月2日 (月) 16:43 (UTC)
- わたしの会話ページにもコメントがありましたので、ここまでで出た提案を一旦まとめます。当方からは1、2、3、4、5、7に賛成、6、8、9には意見を保留します。
- (本節の最初の提案)コンテンツ翻訳ツールで機械翻訳9割以上の投稿を禁止する
- 賛否ありかつ意見が二分しているので、暫定でも通る可能性は低いとみられます。また、9割では合意が形成できそうにないならば何パーセントがいいか、という議論は泥沼になると思います。
- (柒月例祭さんより)コンテンツ翻訳記事の機械翻訳率を可視化する
- 元の提案では要約欄で示すとしていますが、プログラムさんが50件の例示を別ページで作成しました。細かい内容についてさらに詰める必要もあるかもしれませんが、この提案に大筋で反対する方はこれまででいないとみられ、合意が形成されたものとみていいでしょう。
- (柒月例祭さんより)「機械翻訳に何らかの規制をするべきか、一切規制しないべきか」の2択で調査投票を行う
- 当方からの異議はありません。
- (直蔵さんより)コンテンツ翻訳ツールによる機械翻訳をそのまま投稿した記事を即時削除の新たなケースにする
- 大筋で賛成します。
- (miyaさんより)Category:未査読の翻訳があるページの運用改善
- 運用改善に賛成します。おそらく特別:新しいページを巡回する利用者がついでで行うこととなるので、そちら方面で周知したほうがいいでしょうか。
- (ProfessorPineさんより)ドラフト名前空間を導入
- 機械翻訳と関係ないところで役に立ちそうであると考えています。ただし、「機械翻訳そのままの投稿をドラフト名前空間に移動する」という提案はドラフト名前空間がなくても「利用者ページのサブページ」に変更できるので、必須というわけではありません。また、「英語版では運用上移動者に根拠のない承認権限を与えるに等しい」との異論がある。
- (ゆすてぃんさんより)コンテンツ翻訳ツールのデフォルトを「翻訳原文を転写」にする
- ゆすてぃんさんの理由は「私のような鈍臭い投稿者があちこちクリックして『あれれれれ???』と思っているうちに何だか記事のようなものを作って投稿してしまいます」とのことで、わたしのほうは機械翻訳をなるべく非推奨にするという意味で賛成します。
- (ProfessorPineさんより)部分ブロックの適用範囲を拡大して、機械翻訳による継続的な濫造ユーザを管理者権限で部分ブロックできるようにする
- いわゆるコンテンツ翻訳ツール使用禁止令は技術上実施が難しいための代案。本来ならば9月1日頃に部分ブロックの運用検討が行われる予定だったのですが、まだ提出できておらず申し訳ございません。賛成意見があれば、運用検討でこの案も検討しましょうか。
- (ProfessorPineさんより)コンテンツ翻訳ツールのデフォルト投稿先を下書き(利用者ページのサブページ)に変更する
- 効果が少ないと思います(積極的に反対しませんが)。--ネイ(会話) 2019年9月7日 (土) 07:31 (UTC)
質問 上記6以下の経緯について、ProfessorPine氏に質問ですが、2019年7月18日 (木) 02:45 (UTC)のゆすてぃん氏に対して行われた告知について説明していただけますか?--KENINW(会話) 2019年9月13日 (金) 07:27 (UTC)
- ネイさんとの間でボタンの掛け違いがあったようですので、改めて申し上げます。先般発言した通り、私の案については「別節にて後ほど」提起する想定です。したがって、今回のネイさん提起を発端とするこの議論に、私の案を含めるつもりは全くありません。また、そもそも「最初に合意形成」を目指すつもりもありません。Phabricatorには誰もが自由にツールの仕様や使い勝手についてフィードバックを投稿することができると認識しております。そのため、財団側がツールの仕様変更についてどのような考えなのか、先に軽く打診してみて、その上で必要に応じて井戸端に別節を立ち上げて、皆さんからのご意見も伺う2段階ステップを踏むつもりです。よって、ネイさんがまとめられた9点のうち、6~9については、現時点で除外して下さい。以下、1~5点目について意見を表明します。
- 1点目については、重ねて反対を表明します。既に機械翻訳の学習度が上がっていて、約9割機械翻訳でも問題ない記事が作れる実証結果があがっています。また、1か月半以上前にインドネシア語版ではX割制限が意味ないとして、反発・混乱が生じており、財団側も認識しています。いまさら逆進性という大きな欠陥のあるこの議論を続ける意味を感じません。
- 3点目の何らかの規制をすべきか?ですが、他の1~9点目とMECEになっておらず具体感もないので、回答不能です。
- 4点目については、問題記事を「即時削除」ではなく初版作成者の「利用者ページ下に移動」させるべきと考えます。これは8点目の部分ブロックとも関連しますが、他者から注意を受けてもなお、機械翻訳濫造を続ける問題ユーザについては、その記事を利用者ページ上で直すまで、標準名前空間への投稿部分ブロックを解除しないというワークフローが良いと考えています。
- 5点目のCategory:未査読の翻訳があるページについてですが、Miyaさんの議論の方向性に賛同します。加えて、カテゴリの細分化などのシステム的な話と、誰が巡回するのかという属人的なスキルとマンパワーの話を両輪で議論すべきと考えます。現時点でも、特別:新しいページを巡回する有志の方々はいて、にもかかわらず問題の翻訳記事に{{日本語表現}}が貼られる割合は低いと感じています。この警告テンプレートが貼られると、自動的にCategory:校閲の必要な記事にカテゴライズされるので、みなさんチェックしてみて下さい。個人的には、Wikipedia:メインページ新着投票所#新しい記事投票所やWikipedia:良質な記事/良質な記事の選考の逆バージョンで、巡回していて翻訳新記事に問題を発見したら、報告・投票できる仕組みが良いのではないかと考えます。一定以上の賛同があれば、初版作成者の利用者ページに問題記事を移動させて直してもらう判定ワークフローです。この判定においては、新記事や良質な記事の選考と同様、管理者の手を介す必要はないと思っています。このようなワークフローや体制 (属人的な議論) を先に詰めておいて、それに必要なカテゴリの細分化などシステム仕様・フローを検討するステップが良いのではないでしょうか。--ProfessorPine(会話) 2019年9月13日 (金) 09:20 (UTC)
質問 ProfessorPine氏に質問ですが、2019年7月18日 (木) 02:45 (UTC)のゆすてぃん氏に対して行われた告知についてWP:APPNOTEの問題はないとお考えですか?--KENINW(会話) 2019年9月13日 (金) 09:46 (UTC)
- 申し訳ありませんが、「告知」とおっしゃる意図が分かりません。私は日頃コンテンツツールをご利用になっている方に、利用理由や使い勝手のヒアリングを行いました。さらに私自身も実際にツールを使ってみて仕様の問題点を体感し、同じ記事ジャンルであっても、翻訳言語によって品質に大きな差が出ることを比較検証致しました (参考: 9割機械翻訳でも品質に問題ないルーマニア記事 と ゴミ翻訳で使い物にならなかったフランス記事。しかしそのヒアリング相手に対し、井戸端に出てきて賛成/反対票を投じてくれとお願いしたことはありません。正直、コンテンツツールの使用歴はおろか、Wikipedia上での有意な編集が殆どない方から、議論の本筋から外れた発言が出ること自体に驚いています。--ProfessorPine(会話) 2019年9月13日 (金) 11:06 (UTC)
賛成 Wikipedia:削除依頼/庭園関連等の翻訳記事10項目でも難しいなと感じていましたが、90%なら大丈夫かと思っています。機械翻訳の結果が良くても、これに引っかからないような言い回しの修正等が初版において求められる・・・・そんな手間暇はあっても良いのではないでしょうか。--貫鉄(会話) 2019年9月28日 (土) 11:30 (UTC)
- (賛成)良い提案だと思います。9割未満が原文であればよいのはかなり甘いとは思いますが、ひとまずもう一度原文と訳文を見直して、訂正することを促すくらいの効果はあるかと思います。--Reiwa period(会話) 2019年10月24日 (木) 11:04 (UTC)
- コメント 先に述べたとおり妥協しすぎ以前に、根拠に対する提案がおかしいと考えますが、まず機械翻訳率を出しての調査をやりませんか? 改稿される可能性があるため初版限定で期間を決めて取得、それをざっと並べてどの程度なら受忍できるかというのは現段階でないと難しいと思われます。また提案を引っ張りすぎたので調査に入っても問題ないのではないかと考えます。--Open-box(会話) 2019年10月25日 (金) 12:36 (UTC)
- 反対 機械的に90%での線引きを定めることへ反対の立場から意見します。最近ぶち当たった例で、翻訳の質があまりにも悪い記事がありました。1記事中だとおそらく誤訳が3桁に迫るほどのもので、あまりの多さに1節の一部しかまだ直していないほどです。その編集者は数多く英語記事からの翻訳を手掛けていて、その影響は大きいのですが、間違いの内容からすると機械翻訳(すくなくともそのまま)ではなさそうです。これがどう関係するかと言うと、要するに、機械翻訳がある程度精度が上がった今となっては、翻訳の質の極端に低いものは機械翻訳との一致率が極端に下がるということです。機械翻訳ほとんどそのままの記事乱立を防ぐために、人力翻訳の低質なものが増えたのでは本末転倒ではないかという話です。無論、はなから全部人力のものは今回の議論の対象外ですが、中には機械翻訳をベースに手直しを加える人もおりましょう(私はおそらくその一人となるでしょう)。そうすると、90%の制限を回避しようとする意図の有無に関わりなく、能力の低い人ほど安易に機械翻訳からかけ離れた、それでいて原文の意味すらつかめないメチャクチャな訳文を当てはめてすり抜けてしまうのではないかと危惧します。そうした記事を見つけ出して直していくのは大変な作業となります。こうした観点から、提案には反対いたします。--直蔵(会話) 2019年12月28日 (土) 14:20 (UTC)