コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

Wikipedia:編集フィルター/一覧/小さな記事の作成

小さな記事の作成の過去ログ

フィルター 13と14の変更提案

[編集]

ソフトリダイレクトの作成時を適用除外することを提案します。具体的には、発動条件に「{{Wiktionary redirect}}、{{Wtr}}、{{Wtsr}}、{{Softredirect}}(必要ならこれらの頭文字を小文字にした場合を含む)のいずれかが含まれる場合を除く」を加えます。--north land (会話/投稿記録) 2017年9月13日 (水) 11:28 (UTC)Yuukin0248さんのコメントを受けて一部除去--north land (会話/投稿記録) 2017年9月14日 (木) 10:16 (UTC)[返信]

コメント {{Softredirect}}に関しては既に除外されています。--Yuukin0248[会話/履歴] 2017年9月13日 (水) 12:00 (UTC)[返信]
コメント 確認しましたので、他のテンプレートについて提案します。--north land (会話/投稿記録) 2017年9月14日 (木) 10:16 (UTC)[返信]

チェック 提案通りに{{Wiktionary redirect}}、{{Wtr}}、{{Wtsr}}の3件を除外しました。なお、フィルター13と14では変更内容を全て小文字に変換してから検査していますので、{{WTR|xxx}}でも{{Wtr|xxx}}でも同じように除外されます。--ネイ会話2017年10月14日 (土) 01:39 (UTC)[返信]

小さな記事の作成(フィルター#13, 14)

[編集]
作成済 作成済
目的 標準名前空間に「自動承認された利用者」ではない利用者が作成した小さな記事(500バイト未満)を対象とする。リダイレクト、曖昧さ回避を除く。
理由 主に悪戯や初心者と思われる投稿に対応するため。
対処操作 警告&タグ付け(#13)、警告&不許可(#14)
フィルター 編集フィルター#13変更履歴一致記録
フィルター 編集フィルター#14変更履歴一致記録

以下のスクリプトは英語版の「Creating very short new article」を参考に作成しました。

!("autoconfirmed" in user_groups) &
(article_articleid == 0) & (article_namespace == 0) & 
(new_size < 500) &
!lcase(added_lines) rlike "{{(?:aimai|曖昧さ回避)}}|#redirect|#転送" &
!('曖昧さ回避' in new_html)

デバッグも出来ない状態で出してますが、よろしくお願いします。--Frozen-mikan 2010年8月16日 (月) 17:10 (UTC)[返信]

コメント 砂山の議論で申し訳ないですが、「500バイト」という数値の根拠はなんでしょうか。英語版を参考にとのことですが、英語と日本語では(通常は)1文字に対しての増加サイズが異なっていたはずですし、また、そもそも言語構造的に、英語での500バイトと日本語での500バイトが同じ程度の内容であるとは思えません。あまりにも小さな記事の作成に対して、通知あるいは投稿制限をかけること自体には同意しますが、そのしきい値が難しいように思います。--青子守歌会話/履歴 2010年8月16日 (月) 17:48 (UTC)[返信]
ご指摘のような問題があることも認識してはいます。日本語で使用する文字の殆どはUTF-8で3バイトであることなどを考慮に入れ、さらに甘めに見積もって、現在の英語版で150バイトになっている値の3倍を超える値に設定しました。この値を含め、仮運用を行う中で、諸条件を調整する形にしていただけたら、と思います。--Frozen-mikan 2010年8月18日 (水) 06:24 (UTC)[返信]
コメント 日本語の場合、文字数の代わりに句点の数で判断する(count('。',new_wikitext) < 閾値)方法はどうでしょうか?--Fumiexcel (会話|履歴|メール) 2010年8月17日 (火) 11:34 (UTC)[返信]
日本語っぽく魅力的ではあります。試しにOR条件で組み込んでしまうのも良いかもしれません。--Frozen-mikan 2010年8月18日 (水) 06:24 (UTC)[返信]
コメント 句点の数とすると、例えば他言語版の記事を翻訳のために一度転記する時に発動してしまう恐れがあるので、少し考えたほうが良いかと思います。--青子守歌会話/履歴 2010年9月21日 (火) 16:38 (UTC)[返信]
コメント ところで、対処操作は何を想定されているでしょうか?--青子守歌会話/履歴 2010年9月21日 (火) 16:38 (UTC)[返信]
このフィルターは、主に悪戯やテスト投稿の疑いがあると思われる投稿を抽出するものです。特に他の方に検討してもらう必要があると思うので、対処操作は「タグの付与」であると思っています。--Frozen-mikan 2010年9月24日 (金) 03:47 (UTC)[返信]
賛成 ただし、試作は「500バイト未満」ではなく「150バイト未満」(=約50文字相当)で。「日本語で使用する文字の殆どはUTF-8で3バイト」ではあるものの、同時に、日本の文字(特に漢字)は1-2字で英単語一つ分に相当することも多い(「命」は"life"、「歌手」は"singer"、「保存」は"preservation"など)ので、閾値を同じ「150バイト」としても、1文字に対しての増加サイズの違いは相殺されるのではないかと思います。というわけで、ひとまず
目的(修正案):標準名前空間に作成された小さな記事(150バイト未満)を対象とする。 リダイレクト、曖昧さ回避を除く。
で作成しておいて、閾値は稼働状況を見ながら加減すればよいと思います(おそらく増やすことになるとは思いますが)。--miya 2010年9月26日 (日) 23:42 (UTC)[返信]
コメント 閾値について、例えば24時間観測でいいので、どれほどのサイズの増減があるのか、特別:新しいページから拾って度数分布表などにまとめて、統計をとった方がよいかと思います。--青子守歌会話/履歴 2010年9月27日 (月) 03:04 (UTC)[返信]
4週間の統計

コメント みなさん誰もやらなさそうだったので(興味ないんでしょうか?)、自分で統計を出しました。この結果を受けて、以下のように提案します。

  1. 1000[byte]以下の記事の作成に対しては、全てタグを付けます
  2. 300[byte]以下の記事の作成に対しては、「記述量が不足している可能性がある」旨の警告を付与します
  3. 100[byte]以下の記事の作成に対しては、以前の解析の結果も考慮して、「非自動承認利用者」の作成を不許可にする。

つまり、フィルターが3つになります。ただ、これは少し細分化しすぎな気もするので、1をやめて、2の閾値を500[byte]に引き上げる、あるいはそれに加えてタグの付与のみにする、という手もあります。ただいずれにしても、3のような「新規利用者による極端に小さな記事」の作成については、それを確実に防止する(不許可にする)ことが必要と考えます。--青子守歌会話/履歴 2010年10月14日 (木) 19:35 (UTC)[返信]

賛成 これは面白いデータですね。僕は興味はありますが、やり方が分からないです。ちなみに100byteマックスの記事を作成してみました(利用者:Was a bee/testA)。サイズをつめるのに苦労しましたが、いわゆる一行または一文「〇〇は☓☓である」のもののみが100byte以下という閾値に入ってくるでしょう。上のデータ上も大部分(99%以上?)はイタズラやテスト投稿のようなものとしてsd対象となっている領域です。フィルターの数についてはどちらでも良いと思いますが、フィルターの管理・メンテナンスの手間を考えると500byteと100byteの二つで行く方が楽なのではないかと思います。--Was a bee 2010年10月20日 (水) 16:39 (UTC)[返信]
賛成 自分で言っておいて票を入れ忘れてました。500[byte]-100[byte]で警告&タグ付け、100[byte]以下で非自動承認利用者は不許可という対処操作を目指して作成したいと思います。3日ほど待って反対がなければ試験フィルターとして作成します。--青子守歌会話/履歴 2010年10月30日 (土) 01:00 (UTC)[返信]
賛成 有用なフィルターだと思います。即時削除対象の記事数も減らすことができるでしょう。作成に賛成します。記事作成の為に無駄な記述を増やして水増しするようなケースが出てくるかもしれませんが、(考えすぎかな?)メリットの方が大きいことは明らかだと思います。--W.CC 2010年10月30日 (土) 08:59 (UTC)[返信]
賛成 賛成します。W.CCさんがおっしゃっているような懸念はありますが、やってみないとわからないと思います。--長月みどり 2010年10月31日 (日) 20:20 (UTC)[返信]

報告 100-500バイトの方を編集フィルター#13変更履歴一致記録、100バイト以下の方を、編集フィルター#14変更履歴一致記録でそれぞれ作成しました。W.CCさんがおっしゃるような懸念ももっともですので、警告文は十分に吟味する必要があるかと思いますが、取り急ぎご報告まで。--青子守歌会話/履歴 2010年11月6日 (土) 17:26 (UTC)[返信]

コメント このタイミングで失礼します。編集フィルター#14変更履歴一致記録の閾値を300byteにするのはどうでしょうか。理由は、青子守歌さんの統計で「即時削除された記事数 - 即時削除されなかった記事数」が最大になるからです。--プログラム会話2011年7月26日 (火) 08:53 (UTC)[返信]

通知文の具体案

[編集]

通知文をどうしようか悩んでいて提案が遅れてしまいましたが、ある程度まとまったので提案します。

案1
[編集]

まぁつまるところ、具体的なしきい値には触れず、そして「小さすぎるよ!」という事のみを述べるという内容です。13も14も述べていることに大差はないので共通でもいいかなと思いましたが、若干違いがありますので、一応わけてあります。いかがでしょうか?--青子守歌会話/履歴 2011年1月26日 (水) 09:15 (UTC)[返信]

コメントフィルターを見ましたが、100バイト以下の記事を自動承認された利用者が作成した場合はどちらのフィルターにもかかりませんよね?--プログラム (会話 | 投稿記録) 2011年2月26日 (土) 04:52 (UTC)[返信]
報告 誤作動ですね。フィルター#13の第161版差分)で修正しました。引き続き通知文案への意見お待ちしています(何の意見も出てないので、今の状態ではどうも動けません)。--青子守歌会話/履歴 2011年2月26日 (土) 10:35 (UTC)[返信]
案2
[編集]

初心者も見る可能性が高い通知文ですので、できるだけソフトに…と考えてみました。ガイドブックへのリンクもあった方がいいのかもしれませんが、とりあえず対案第一弾。一度保存した後で"Wikipedia:スタブを読んで" を追記しました。説明部分を折りたためるようにした方がいいかもしれません。--miya 2011年2月28日 (月) 02:21 (UTC)[返信]

コメント フィルター#14の方についてはこれでよいと思います。フィルター#13の方についてですが、「現在、作成しようとしている記事の文章量が少なすぎる可能性があると判定されました。ウィキペディアにおける独立記事として求められる文章量に達していないのではないでしょうか。」は「現在、作成しようとしている記事の文章量が少なすぎる可能性があると判定されました。ウィキペディアにおける独立単独記事として求められる文章量に達していないのではないでしょうか可能性があります。」というように変更した方が良い気がします。理由については、「少なすぎる可能性」というよりは、少ないと(機械的に)判定しているフィルターであるが、ふさわしい(要求されている)文章量に達しているかは個別に判断される(そうかもしれない、という判定基準の1つであるにすぎない)ということをよく表すため、また、「独立記事」よりは「単独記事」の方がよく見かける(「独立」というと、分割を前提にした名称に聞こえかねない)という点です。それ以外は、柔らかい感じになっていて良いと思います。折りたたみについては、とりあえずなしでよいと思います(文章量が少ないというのは、相当な問題と考えても良いと思われますので)。--青子守歌会話/履歴 2011年2月28日 (月) 22:16 (UTC)[返信]
コメント フィルター#13につきましては、ウィキペディア内で「独立記事」と「単独記事」の両方が使用されているようですので、ここはフィルター#14のように単に「記事」とするか、あるいは「ひとつの記事」などもよいと思います。折りたたみにつきましては、文章量が少ないと不許可になることもあるわけですから、重要度を考慮して「なし」のほうがよいのではないでしょうか。--長月みどり 2011年3月2日 (水) 20:38 (UTC)[返信]
案3
[編集]

#案2で出たコメントも含めて、少し書き換えました。いかがでしょうか。--青子守歌会話/履歴 2011年3月11日 (金) 00:41 (UTC)[返信]

賛成 この案でよいのではないでしょうか。案3に賛成します。--長月みどり 2011年3月23日 (水) 19:57 (UTC)[返信]
賛成 この案に賛成です。ところで、フィルター#13では、500byte以下という条件を最初にし、#14では100byte以下という条件を最初にした方がいいのではないのでしょうか。(フィルターの高速化のため)--プログラム (会話 | 投稿記録) 2011年3月26日 (土) 07:02 (UTC)取り消し線。--プログラムノート/履歴/ログ 2011年9月12日 (月) 09:03 (UTC)[返信]
賛成 特に問題がないようでしたらこの案で運用されるようお願いいたします。--Web comic 2011年5月13日 (金) 20:20 (UTC)[返信]

対処操作の付与

[編集]

#案3の通知文で賛成のみでしたので、これを用いて、フィルター#13の第239版差分)とフィルター#14の第240版差分)に対処を付与しました。問題等ありましたら以下にお書きください。問題がなければ1週間後にこの議論は過去ログ化されます。--青子守歌会話/履歴 2011年9月12日 (月) 14:01 (UTC)[返信]

コメント 編集フィルター#14変更履歴一致記録の閾値を300byteにするのはどうでしょうか。理由は、青子守歌さんの統計で「即時削除された記事数 - 即時削除されなかった記事数」が最大になるからです。--プログラムノート/履歴/ログ 2011年9月14日 (水) 13:11 (UTC)[返信]
コメント 編集フィルター#14変更履歴一致記録(新規利用者による記事作成の不許可)のしきい値をあげることには、あまり賛成できません(特に強く反対するものでもありませんが)。不許可のような、偽陽性の時の影響が強い対処操作に対しては、「即時削除された記事数 - 即時削除されなかった記事数」などのような、損益(誤検出と正常検出)の差が最大であるという評価指標の重みを高くすべきではありません。代わりに、偽陽性(つまり、不許可すべきでないものを不許可する誤検出)が限り無くゼロである必要があると考えます。それを考えれば、統計結果によれば100[byte]は今のところ妥当であると考えます。ゆえ、300[byte]の方が100[byte]より圧倒的に優れているという結果でもない限り、私は賛成できません。もちろん、コミュニティーが300[byte]を望むのであれば、それに従いますが・・・。--青子守歌会話/履歴 2011年9月15日 (木) 13:46 (UTC)[返信]
質問 では、不許可の場合、偽陽性は何%なら許されると考えていますか?--プログラムノート/履歴/ログ 2011年9月21日 (水) 06:02 (UTC)[返信]
コメント 私への質問でしょうか?砂山の議論をする気は毛頭ないので、そういう方向をお望みであればお応えできかねますが、私が携わっている分野では、少なくとも1[%]程度以下であればゼロとみなしています。3[%]は「存在するが無視する」程度ですね。一方、本フィルターにおいてどの程度が許容されるかという質問であれば、それはアンケートでもとってみないことには分からないと思うので、ぜひ調査してみてください。--青子守歌会話/履歴 2011年9月21日 (水) 08:41 (UTC)[返信]

対処操作「警告、不許可」の見直し

[編集]

先日Wikipedia:お知らせTech News: 2018-42で告知されたとおり、対処操作「不許可」のときエラーメッセージを選択できるようになりました。現状では、対処操作「警告、不許可」となっているフィルター(編集フィルター#5変更履歴一致記録編集フィルター#11変更履歴一致記録編集フィルター#12変更履歴一致記録編集フィルター#14変更履歴一致記録編集フィルター#40変更履歴一致記録)に引っかかった場合、警告を無視して編集しようとした際に一律でMediaWiki:Abusefilter-disallowedが表示されますが、これでは問題点についての説明を再び読むことができません。そこで、対処操作を「不許可」にしてエラーメッセージはそれぞれの警告メッセージを使うことを提案します。これなら不許可となるたびに個別のメッセージが表示されるので、2回目に問題点を解決しようとした場合に説明を読み直せます。--プログラム会話2018年11月11日 (日) 06:40 (UTC)[返信]

賛成 プログラムさんが挙げたフィルター5件の変更に賛成します。これに合わせて、フィルター5番のコメントに「転送先がカテゴリでない」という誤字がありますので、その修正も同時に行うことを提案します。--ネイ会話2018年12月27日 (木) 12:49 (UTC)[返信]
提案者含め2人の賛成があり、反対がないため合意成立とみなすことができますが、提案者以外で唯一の賛同者であるわたしが対処することを避けたいので、ほかの編集フィルター編集者による対処を待つこととします。--ネイ会話2019年1月14日 (月) 06:21 (UTC)[返信]
ネイさんご指摘のフィルター5番「C:で始まるが、 転送先がでカテゴリでない」ですが、ついでに前段も「CAT:で始まるが」とコメント、条件とも改めていただけますか。--Kurihaya会話2019年1月30日 (水) 07:20 (UTC)[返信]
賛成 C:のままではフィルターの意味がなく有害なのでCAT:にすることに賛成します。--プログラム会話2019年1月30日 (水) 18:16 (UTC)[返信]
賛成 Kurihayaさんの提案に賛成します。上記の通り、ほかの編集フィルター編集者による対処を待ちます。--ネイ会話2019年2月7日 (木) 03:26 (UTC)[返信]

チェック 見落としていてかなり遅くなりましたが、フィルター#5の第2115版差分)、フィルター#11の第2116版差分)、フィルター#12の第2117版差分)、フィルター#14の第2118版差分)、フィルター#40の第2119版差分)で「警告」を外して「不許可」のときにメッセージを表示するように変更しました。--青子守歌会話/履歴 2020年5月20日 (水) 14:55 (UTC)しました。[返信]