ハクソク

世界を動かす技術を、日本語で。

ウィキペディア: ウィキプロジェクト AI クリーンアップ

概要

  • WikiProject AI Cleanupは、Wikipedia内のAI生成コンテンツの品質向上を目指す協力プロジェクト
  • AI生成テキストや画像の識別と、出典や正確性の確認を重視
  • 無出典・誤情報の削除や、AI利用者への注意喚起が主要活動
  • AI利用の禁止ではなく、適切な利用と検証・修正を推進
  • 多数の参加者による共同作業と、タスク・連絡先の明示が特徴

WikiProject AI Cleanupとは

  • WikiProject AI Cleanupは、Wikipedia内で増加する出典不明・品質不良なAI生成コンテンツへの対応プロジェクト
  • 参加希望者はプロジェクトページで登録し、タスクや議論に参加可能
  • 2022年以降、GPTなどのLLM(大規模言語モデル)が普及し、記事作成の利便性向上と同時に誤情報や出典不備が問題化
  • WP:LLMなどのエッセイでは、AI利用時の慎重な編集を推奨
  • プロジェクトの目的はAI生成テキストの特定・校正、Wikipedia方針への適合確認

主な活動内容

  • AI生成テキストの識別と、出典や正確性の確認作業
  • 無出典・不正確な記述の削除、AI生成画像の適切利用の確認
  • AI利用編集者の支援・監督、AIツールの限界を理解してもらう啓発
  • AI利用禁止ではなく、有用な出力の検証・修正・削除を推進
  • テンプレートによる記事タグ付け、無出典情報の除去、違反者への警告
  • 明確にAI生成と判明した記事は、WP:G15に基づく即時削除の対象

AI生成コンテンツの識別

  • AIによる編集の判別は困難であり、人間による文章との差異が分かりにくい
  • AI Writingの特徴リストがあり、疑わしいテキストの参考に利用
  • 2022年11月30日以前の記事内容はAI生成の可能性が低い
  • AI生成コンテンツの出典には以下のパターンが存在
    • 実在しない架空の出典を捏造
    • 実在するが全く無関係な出典を引用
    • 正当な出典を用いてAI生成文を作成
  • 削除時は正当な出典まで消さないよう注意、出典の信憑性確認が必須

具体例と注意点

  • Leninist historiographyの記事:AI生成文+実在しないロシア語・ハンガリー語の架空出典
  • Estola albosignata(昆虫記事):AI生成段落+実在するが無関係な独仏語出典
  • Amberlihisarの記事:完全なフィクションとしてAI生成、1年近く発見されず削除
  • WP:HOAX事例:AIが作成したもっともらしい偽の出典による虚偽記事の掲載

記事・タスク管理

  • Category:Articles containing suspected AI-generated textsで、AI生成疑い記事を一覧管理
  • タスクページで、AI関連の編集・議論・出典対応方法を案内

主要連絡先・参加者

  • Chaotıċ Enby、3df、charlotteなどが創設メンバー
  • 多数のユーザーが参加者リストに登録、誰でも参加可能
  • 参加者は随時追加可能、活動内容や方針に同意の上で協力推進

まとめ

  • WikiProject AI Cleanupは、AI生成コンテンツの品質維持・信頼性向上を目的とした共同作業体制
  • AIの完全排除ではなく、適切な利用と検証・修正を重視
  • 出典確認・誤情報削除・利用者啓発など多面的なアプローチを展開
  • 疑わしい記事・編集への注意喚起と、参加者の協力拡大が今後の課題

Hackerたちの意見

これはあまり驚くことじゃないよね。新しいテクノロジー企業とのパートナーシップが、ウィキペディアの持続可能性を支えてるから。人間のコンテンツに依存してるしね。
その皮肉には同意するけど、このAIクリーンアップページの最初のバージョンが2023年12月4日に書かれたことも言っておくべきだね。
Wikipedia:Signs of AI Writingのページ、めっちゃ面白くてためになった!普通の「エムダッシュ」ヒューリスティックよりもずっと詳しく書いてあるよ。
そのページからの面白い観察:「だから、非常に特定的な『最初の列車連結装置の発明者』が『産業の革命的な巨人』になるかもしれない。」まるで、肖像画が特別な重要人物を示していると大声で叫んでいるのに、肖像画自体は鮮明な写真からぼやけた一般的なスケッチに変わっていくみたい。主題は同時に、より具体性が失われ、より誇張されていくんだ。
皮肉なことに、これはAIラボやAIライターのスタートアップにとって、強化学習やファインチューニングの金の山だね。
これはすごく詳細で、生成されたテキストにうんざりしている人はみんな読んだほうがいいよ。俺はクソみたいな空港で嫌な思いをしたことがあって、Googleマップで悪いレビューを書こうとしたら、何千人もの人が評価しているのに4.7だった。あの空港が腐敗した政府に運営されていることを知って、すごくポジティブなレビューや他の古いレビューを読み始めたんだ。英語の文をかろうじて数文しか書けない人たちが、今ではその空港の歴史や地域における重要性について何段落も書いているのが信じられない。最初のセクション「重要性の過度な強調」を読んでいると、その偽レビューのことしか考えられない。
すごくいいけど、「ゲームチェンジャー」って言葉が出てこないのが意外だな。俺の観察では、LLMのテキストではよく使われてるよね。
こういう問題を避けるために、ライティングスキルを磨くのもめっちゃ役立つよね。https://github.com/blader/humanizer
これをvale.shのルールセットにしたよ[0]。 [0]: https://ammil.industries/signs-of-ai-writing-a-vale-ruleset/ [1]: https://vale.sh/
逆に、あの(たくさんある)難解で、すごく分かりにくい表現や中立的じゃないトーンの自動言い換えにもお金を使ってほしいな。一般的なウィキペディアファンとして言ってるけど。
WP:BOLDして、自分のプロジェクトを始めてみなよ。
ウィキペディアのすべての記事が突然似たようなトーンやスタイルに書き直されたら、めっちゃ嫌だな。その美しさは多様性にあるから。
こういうコピー編集のプロジェクトはたくさんあるよね。左寄りのトーンやバイアスのことを言ってるなら、それはちょっとスパイシーになるかも。でも、一般的な文法やトーン、曖昧さ、誇張表現なんかは、コピー編集の目標だよ。例えば、私は組版のコピー編集をしてるんだ。
サンダーソンのウィキには、出版前の本のスナップショットを読むことができるタイムトラベル機能があって、ネタバレがないんだよね。LLM以前のウィキペディアのスナップショットも欲しいな。時には、古くて不完全な情報でも、ぐちゃぐちゃの中を探るよりはマシだと思う。
でも、ウィキペディアのどのページでも過去のバージョンはもう見れるよ。読みたいページに行って、「履歴を表示」をクリックして、2023年以前のどのリビジョンでも選べばいいんだ。
これを手に入れる一番簡単な方法はKiwixだと思う。特定の日付の時点での英語版ウィキペディアを約100GBのファイルでダウンロードできて、オフラインでローカルにブラウジングできるよ。実際かどうかはわからないけど、インターネットアーカイブには2022年5月のダンプだと主張しているリストがあるよ: https://archive.org/details/wikipedia_en_all_maxi_2022-05
そこで実際にスラップを見たことある?俺はウィキペディアのウサギ穴を暇つぶしに使うことが多いけど、あんまり違いを感じたことはないな。
最近、ウィキペディアの矛盾を見つけるためにLLMを使うという論文があったよ。同じページ内やページ間で相互に矛盾しているように見える主張を探すやつね。https://arxiv.org/abs/2509.23233 それから何か新しいことが出てきたのかな。どちらにしても、ウィキペディアでAIを使う一番つまらない方法は記事のテキストを生成することだと思う。この論文のようなことをする方がずっといいよ。
ChatGPTの通常のGPT 5.2を使えば簡単にできるよ。思考をオンにして(拡張版の方がいい)、ウェブ検索を有効にして、ウィキペディアのページをモデルに指示して、主張のエラーをチェックさせるんだ。前に試したことがあるけど、驚くほどエラーを見つけることが多いよ。小さいのもあれば、中くらいのもある。リンクしたページがあまり人気がないほど、エラーがある可能性が高いんだ。これはGPT 5.xが実際にウェブ検索を適切に使うからうまくいくんだよ。
それはめっちゃ興味深いね。18ヶ月前に似たようなアイデアを思いついたことがあるよ。最大のチャンスは、ウィキペディアに基づいた知識グラフを構築して、新しい編集が行われたときにそのグラフと照らし合わせることだと思う。編集の中で新しい主張を検出して、グラフとの矛盾をチェックして、矛盾しているウィキペディアのページへのリンクと一緒に警告を出すんだ。もし新しい編集が悪ければ、引用を使って編集者に理由を示して、ウィキペディアが現在間違っていることを修正しているなら、他に修正が必要な場所も示すんだよ。https://www.reddit.com/r/LocalLLaMA/comments/1eqohpm/if_some...
最近のトークがすごく面白かった。人々が生成されたコンテンツを追加する理由を見ていたんだ: https://media.ccc.de/v/39c3-ai-generated-content-in-wikipedi...
ちょっと反対意見だけど、ウィキペディアにはもっとAIが必要だし、逆に減らすべきところもある。ウィキペディアの大きな欠点は、内容が単純に下手に書かれていることだよね。繰り返しや冗長性、曖昧さ、論理的でない内容の順序、長ったらしい文、わかりにくい文法。驚くべきことじゃないよ。明確な文章を書くスキルを持ってる人はほとんどいないし、ウィキペディアの記事は一般的に編集者なしのコラボレーションの成果だから。AIはこの問題を解決するのにぴったりだと思う。最近、ちょっと重要な記事を数時間かけて書き直したけど、情報を足したり引いたりはせず、ただもっとわかりやすく、簡潔にしただけ。AIが監視のもとで同じくらいの仕事を、もっと短時間でできたんじゃないかって確信したよ。AIを使った校正はウィキペディアのルールに反してないし、今のところそれを促進するツールがないのは、AIに対する疑念が影響してるんだろうね。もっと賢いアプローチが必要だよ。
強く反対するよ。少なくとも英語のウィキペディアでは、記事の質は高いし、繰り返しや冗長性があるのはAIの方だと思う。
> AIはこの問題を解決するのにぴったりだ。最近、ちょっと重要な記事を数時間かけて書き直したんだけど、情報を足したり引いたりはしてない。ただ、もっと分かりやすく、簡潔にしただけだ。これには混乱してる。これってAIが書いたの? > 繰り返しや冗長性、曖昧さ、内容の不合理な順序、長ったらしい文、わかりにくい文法。この言葉の山には動詞が欠けてる。「あなた」(誰でもいいけど、人間かどうかは別として)が一つの記事を編集しただけで、その経験が「AIはこの問題を解決するのにぴったりだ」と思わせたの?皮肉なことに、そんな強い主張を裏付ける証拠がないのが、AIライティングの大きな問題の一つなんだ。情報を足したり引いたりせずに記事を徹底的に編集できるなんて、簡単すぎる考えだね。この編集を見てみたいな。
こういうのを取り除くために動いてるのは本当にいいことだね。人間が書いてないってすぐにわかることが多いし。
> 残念ながら、これらのモデルはほぼ常に主張の出所を適切に示せず、しばしば誤りを導入します。時代を反映した引用かもね。ただ、ちょっとシシフォス的な作業かもしれないけど…。
ランダムなページを開いてみたんだけど、ラベルはこうだった: https://en.wikipedia.org/wiki/Ain%27t_in_It_for_My_Health これって、特にこのページがAIによって書かれたっていうサインは何かあるの?そうじゃないとは言わないけど、何か見落としてるのかなって思ってる。
おそらくこの部分だね: > アルバムのリリース時、批評家からは一般的に好意的なレビューを受け、トップの伝統的なアプローチやボーカルの本物さが称賛されたが、いくつかは馴染みのあるカントリーフレームワークに従っていることを指摘した。一般的で引用もないね。