コンテンツにスキップ

プロジェクト‐ノート:翻訳検証/コンテンツ翻訳レビュースペース

ページのコンテンツが他言語でサポートされていません。

当面の本スペースの運用について

[編集]

皆さま、貴重なお時間と労力を割いてコンテンツ翻訳記事のレビューにご協力くださり、本当にありがとうございます。残念ながら予想した通り、機械翻訳のままの粗雑な翻訳や、機械翻訳によりライセンス違反を起こしている記事が数多く見つかっています。個々の記事については、今後しかるべき対処がなされるべきだと思っております。

さて、私が本スペースを作ったのは、直接的にはWikipedia:井戸端/subj/コンテンツ翻訳内の機械翻訳機能を制限できないかで提起した「コンテンツ翻訳内での機械翻訳機能の廃止」という方策の有効性をコミュニティに周知し、ゆくゆくはWikimedia財団に働きかけるためのデータを集めるためでした。見たところ、ひとまず2022年1月中の作成記事をすべてレビューすれば十分なデータが出るのではないかと思っています。一方で、皆さまのご協力のおかげで日を追うごとにリストが追加され、延々とレビューが続けられていくような様相も呈しております。問題ある記事のあぶり出しに有効であることが分かったので、今後もご協力いただける方がいらっしゃるならそれでも良いと思うのですが、まずは当初の目的を達するために1月のリストをすべて消化したいところです。また今後も続けるのであれば、きちんとしたプロジェクトか何かを立ち上げて、そちらに場所を移した方が良いのではないかとも思っています。

レビューにご協力いただいている皆様、まずは1月の残りの記事、判断保留中の記事を重点的に攻めていっていただけるとありがたいです。また今後の動きについても、このノートページでご意見をいただきたいです。--McYata会話2022年2月7日 (月) 16:04 (UTC)[返信]

1月の暫定集計を行いました

[編集]

皆さまのご協力のおかげで、1月分の作成記事すべてがレビュー済みとなりました。表にも節を設けましたが、ここにも結果を掲示します(再検証などにより数字が変動する可能性があります)。 総数221記事

  • OK : 111本(50.2%)
  • NG: 80件(36.2%)
    • コンテンツ翻訳由来: 59件(26.7%)
      • Google翻訳: 58件
      • Yandex. Translate: 1件
    • 外部ツール(ライセンス違反): 25件(11.3%)
      • DeepL翻訳: 25件
  • 要検証: 30件

結果、1月にコンテンツ翻訳で作成された189記事のうち実に少なくとも約36.2%が機械翻訳絡みの致命的な問題を抱えている恐れがあり、また全体の少なくとも約26.7%がコンテンツ翻訳ツール搭載の機械翻訳に依存した粗悪な記事である疑いがあることが分かりました。この結果については、前節でも触れた井戸端の話題で議論できればと思います。

また前節でも触れた本レビュースペースの今後の運用については、ここでご意見をいただけるとありがたいです。--McYata会話) 2022年2月18日 (金) 09:37 (UTC)取り消し線--McYata会話) 2022年2月18日 (金) 09:43 (UTC)要検証を計算し損ねていたので計算し直しました。すみません。上記NG割合はいったん下がりますが、要検証判定の記事の考え方次第で上がる可能性が高いです。--McYata会話2022年2月18日 (金) 12:43 (UTC)[返信]

すみません、もう井戸端のスレッドは読み込み解除されていたんですね。埋もれていくところで議論したり話題を乱立させたりするのもよろしくないと思うので、ひとまずこのノートを当座の議論場所にできればと思います。
上に挙げた集計結果は、個人的には悪い意味で予想外でした。これでは機械翻訳機能どころかコンテンツ翻訳自体が粗悪な翻訳記事の温床になっているという指摘も否定できないかもしれません。皆様の目にはどのように映りますでしょうか。また、レビュー作業を通じて何かお気づきの点があればぜひコメントしてください。--McYata会話2022年2月18日 (金) 09:43 (UTC)[返信]
集計お疲れさまでした。確認作業をしていて自分でも多いなとは思っていましたが、結構な割合になりましたね… 今回の結果で明らかにされた分だけでなく、2月以降も低質な機械翻訳が多く見られます。
このレビューはコンテンツ翻訳の廃止を検討するために行われたものですが、DeepLなどのコンテンツ翻訳外のツールを使ったケースも多く、仮にコンテンツ翻訳を廃止しても、機械翻訳による低質な記事は今後も出てくると思います。それら「コンテンツ翻訳外の低質翻訳」にはどう対処することになるのでしょうか。--(あ)会話2022年2月18日 (金) 12:10 (UTC)[返信]
何も対応を取らなければ、今後もずっと同様の記事が生み出され続けていくでしょうね・・・。ただ誤解だと良いのですが、私が意図していたのはコンテンツ翻訳内の機械翻訳機能の廃止であって、コンテンツ翻訳そのものの廃止ではないです(私自身コンテンツ翻訳ユーザーなので困る・・・)。まず内蔵機械翻訳を廃止することで、上記集計の「59件26.7%」部分を大幅に減らすことが期待できます(それでも外部からコピペしてくる人は出るでしょうが)。今回は比較的抽出しやすいコンテンツ翻訳記事に絞って調べたわけですが、その他の翻訳記事すべてともなると、それぞれ履歴継承の仕方が異なるのでリストアップする所から難儀しそうです。何なら履歴継承すらしていない翻訳記事も大量に眠っていることでしょう。本気でこれらを何とかしたければ、もうすべての新着記事をチェックすることくらいしか思いつかないのですが、それはあまりにも非現実的ですよね(今回のレビューですら多くの方の貴重な時間をかなり割いていただいているのに)。--McYata会話2022年2月18日 (金) 12:52 (UTC)[返信]
お疲れ様です。ネタ増やすばかりであまりお手伝いできずに申し訳ありません。今後取るべき対策としては、
  1. DeepL使用記事の削除依頼、Google等放置記事の削除依頼 - これは削除依頼の実績が無いと「コンテンツ翻訳」どころか「機械翻訳」の問題を指摘してもあまり実効が得られない(「大半の利用者が機械翻訳のまま放置した記事を認めている」って論法が必ず来ます)と思われるためです。
  2. DeepL等未確認を「利用不可」に引き上げ - 実はみんなの翻訳(権利者の腹一つ的な留保があるので危険ですが、「利用者やDraft空間」等「翻訳することが善意・有益とは限らない空間」を除外すれば行けそうです)以外は「ライセンス不詳につき利用不可」確定に引き上げ可能と思われます。「ライセンス確定していないから使えないよ」とすれば「使えるって決めたから使える」って論法で使う人は減らせます。
  3. 疑惑レベルを含む執筆者の履歴調査 - 見えてる爆弾と言われればそれまでなんですが特定利用者+新人・他言語版利用者であればまだ「拡張承認」「自動承認」などの資格制による突破口は見えてきます。現状では複数名の常習者が「拡張承認」レベルにおり資格による自動付与は無理だろうという状況です。
  4. ざっくり「記事」で総当たり - 翻訳自体の問題対処としては必要ですが、まずコンテンツ翻訳の機械翻訳という供給源を止めるのが先でしょうか。ただ、「すべての新着記事をチェック」やったことありますけど、物理的に疲弊して何も出来なくなるんですよね……。
  5. 常習者に対する警告・コメント依頼・ブロック依頼 - システムではなく「人」基準で考えるならこれも有りかなぁと。知らずにやらかしてる人なら一度で止まるでしょうし長期・反復ならもうブロック直行でしょう。実際の所問題のある翻訳者はブロックされる前に逃げるため「問題利用者の同種」扱いできない事が蔓延の原因でもあるので、後始末せずに消えてる利用者複数のブロックは有効に働くと思われます。
それと一過性という言い逃れ封じも兼ねて2月以降/12月以前も見ていくという地道な対策も考えられそうです。さすがに対訳ツールとしてのコンテンツ翻訳までだめっぽい(DeepL単独利用は多分こちらなので)ってのは想定外でした。いつまでも利用者ページでは負担が大きいので過去の井戸端にあった案のような「PJ:翻訳検証」作るべきでしょうか。--Open-box会話2022年2月18日 (金) 15:30 (UTC)[返信]
具体的な方策提案ありがとうございます。
  1. 削除依頼は私の方でも気づいたときに出しているのですが、なかなかペースが追い付きません。レビュー作業に加えて、削除依頼提出も随時皆様にお力添えいただけると助かります。本レビュースペースでの検証を理由として一括で削除依頼を出す手もありますが、削除実績を交渉材料にするのであれば通常通りの手続きで一つずつ丁寧に依頼を出していった方が良いのでしょうかね。
  2. これは早急に手を付けたいですね。ガイドラインの表記が変われば、削除依頼や機械翻訳利用者への通知の手間がぐっと減るはずです。DeepL翻訳が事実上利用不可であることは最近でも各所で論じられている通りで、実際にそれを理由とした削除も行われていますので、ガイドラインは提起すればすぐ改訂へ持っていけるでしょう。
  3. 確かに利用資格にかかわらず、またベテランでも今回のレビューで引っかかった方はいらっしゃるようですね。「DeepLは駄目」というコンセンサスが広まれば、初心者以外の機械翻訳使用はある程度抑えられるかもしれませんが・・・。
  4. まずできる所から、少しでも不適当な記事の割合を減らしていくのが重要ですね。
  5. 「逃げた」だけでブロックというのはできないと思いますが、たまに指摘を無視してしれっと編集活動に戻ってきたり、酷い時にはまた機械翻訳立項を再開するような方もいらっしゃるので、そのような方には対話拒否や方針無理解を理由として厳しく当たった方が良いのかもしれませんね。
ソース編集でもDeepL翻訳を使うような方はたびたびいるので、個人的にはコンテンツ翻訳自体に罪は無いと思いたいところです。挙げていただいた対策はコンテンツ翻訳に限らず記事翻訳一般について有効なので、それである程度おさまればよいのですが。プロジェクト設立には私は賛成です。その前段として、このレビュースペースでは利用者ページなのをいいことに自分で急いで勝手にルールを作ってしまったので、どなたか枠組みや運用を改良してくださる方がいると嬉しいです。--McYata会話2022年2月20日 (日) 10:54 (UTC)[返信]

Template:Page使用の提案

[編集]

検証作業おつかれさまです。最近あまり参加できていなくてすみません。

さて、検証作業時の皆様のクリック数を少しでも減らせないかという観点から、対象記事リストにTemplate:Pageを使ってみてはどうかと思いますが、いかがでしょうか。

勝手ながら、試しに2/22分のリストをこれで作成してみましたので、使用感なども合わせてご意見いただければと思います。--Leukemianwalt会話2022年2月27日 (日) 21:43 (UTC)[返信]

賛成 確認が遅くなって申し訳ありません。少しリスト追加の手間が増えるかもしれませんが、使えるなら使った方が良いと思います。プロジェクトに場所を移す時にはぜひ全面的に導入しましょう。--McYata会話2022年3月5日 (土) 03:05 (UTC)[返信]
返信 ご賛同ありがとうございます。ただ、(他意ないものと思われますが)テストの趣旨で使ってみた2/22分についても他の方に通常の内部リンクに戻されてしまっておりまして、もしかしたら実作業上使いづらかったかと少々反省しているところでもあります。せっかくですが、もう少し幅広にご意見を伺いたいと思います。--Leukemianwalt会話2022年3月5日 (土) 03:26 (UTC)[返信]

3月以降の方針はどうなったのでしょうか。

[編集]

なかなかの力作ですね。ところで、利用者:McYata/コンテンツ翻訳レビュースペースの告知には「議論の要約:1月の暫定集計、および今後の運用について」とありますが、今後の運用についての議論の結論が見当たりません。利用者:McYata/コンテンツ翻訳レビュースペースの状況を見るとなし崩し的に2月いっぱいで終了ということにしたようにも見えるのですが、そう判断してよいのでしょうか。それともどこか別の場所に引っ越したのでしょうか。--36.11.228.43 2022年3月12日 (土) 16:30 (UTC)[返信]

すでに3月も終わろうとしておりますので、私も気になっております。McYataさん、どうでしょうか。個人的に、報告の手間が非常に大きいと思うので、コンテンツ翻訳ツールにおいて自動翻訳を禁止させる提案をPhabricator? に持ち込み実施してしまうか、Botの導入を検討するかがあると思いますが、いかがでしょうか。なお、削除の方針G-3新設については大詰めです。--Sethemhat会話2022年3月31日 (木) 13:54 (UTC)[返信]
まる1か月Wikipediaを離れておりました。放置してしまっていて大変申し訳ありません。発起人である私のせいで時機を逃してしまったような雰囲気もありますが、どうしましょうか。当初の目的であった自動翻訳禁止提案のための材料としてはこの2か月分で十分だとは思いますが、問題ある記事が洗い出せただけで、修正や削除がまだ進んでいません。できればメタへの提案と並行してこれも進めていきたいところです。またレビューそのものも続けていく価値があるというご意見がありましたが、私が動かないとどうしようもない利用者ページ内での運用は終わりにして、早いとこプロジェクトに移行しbot化もしたいところです。
上の節で提起したことの繰り返しにはなりますが、何分私が浦島状態なので、Sethemhatさん、Leukemianwaltさん、Open-boxさん、Tze Chiang Haoさん、(あ)さん、Merlibornさん、Alicia jawikiさん、Junknoteさん、利用者:紅い目の女の子さんなど、これまでご協力いただいた方々に、今のお気持ちやお考えを伺いたいです。(皆様突然通知を飛ばしてすみません。もう興味はないという方はスルーしていただいて構いません。)--McYata会話2022年5月2日 (月) 06:14 (UTC)[返信]
コメント 2月分までの修正あるいは削除手続を完結させるのか、3月以降(実質5月分?)からピックアップを再開させるのか、McYata氏が今後も旗振り役として進展を見出せそうでしたら自分のできる範囲内での協力は惜しみません。コンテンツ翻訳機能に何らかの規制・制限は必要であるという考えには変わりないので。--Tze Chiang Hao会話2022年5月5日 (木) 03:56 (UTC)[返信]
コメント 私もリアルに振り回されて活動が大幅に低下しておりあまり大きな事が言える状態ではないのですが、3月以降再開なされるのでしたら、Tze Chiang Haoさんと同様に協力を継続するつもりです。プロジェクトに参加していない者が言うのもなんですが、そろそろプロジェクト:翻訳に間借りしてもいいかなとは思っています。検証プロジェクトが出来たらサブページも移動でもいいですし、検証プロジェクト側からリンクを張って移動を省略することも出来ますね。--Open-box会話2022年5月5日 (木) 12:39 (UTC)[返信]
  • コメント 現在リアルとJawpの二足の草鞋を履きつつ、Jawp上でも私的に議論を多く抱えて(しまって)いるSethemhatです。削除の方針G-3策定の件にはコメントができずに申し訳ありません。すべて拝読しておりますので、時間ができればそちらのほうにも意見を述べたいと思います。私も上のお二方と同様、可能な限り機械翻訳問題に対処していきたいと思っております。
さて、まずコンテンツ翻訳内において「機械翻訳が使用可能な状態になっている」件に関しましては、私が3月31日に述べました通りとっととコンテンツ翻訳の改装を実施してしまって異論はないと思います。少なくとも私は賛成です。
ここで、このレビュースペースで不可が出ている記事群に関しては、G-3策定後に、立項当初から状況が変わっている可能性もかんがみて複数人でもう一度記事に目を通した上で、「レビュースペース内で不可判定が出た記事」として一覧で削除依頼に持ち込めばよいと思います。正直なところ、1, 2月でこれだけの「不可」記事が出ているなら3, 4月も大体同じ量の雑翻訳が転がってそうでげんなりするのですが、その部分はbotで読み込ませるなどの手段をとって少しでも人間の負担を減らしたうえで対処していくしかないと思っています。私はBotに疎いので詳しい方に要相談でしょうが。
さらに、「通常の削除依頼」に参加されているような方の削除票を待っていては追いつかない可能性もありますので、複数人の、過去に翻訳実績のある「翻訳検証者(仮)」の設置を前向きに検証すべき段階とも思います。これは、プロジェクト‐ノート:翻訳#下位プロジェクト「プロジェクト:翻訳検証」作成提案にある案を実行する形です。こちらのほうも詰めていかなければいけませんね...山積みです。G-3のち翻訳検証者議論でしょうか。...これウィキメディア財団から給料出てもいいくらいの仕事なのではとひそかに思ったりしています。--Sethemhat会話2022年5月5日 (木) 13:50 (UTC)[返信]
  • コメント 私も皆様と同意見で、利用者ページで継続、プロジェクトへ移行のいずれにしても、可能な範囲でご協力させていただければと存じます。また「コンテンツ翻訳における機械翻訳の制限」についても賛同致しますが、類似案件と思しき、アラビア語版におけるautoreviewフラグを持たない利用者の機械翻訳の無効の提案(phab:T255022)が全く進行していないようですので、メタへの提案方法に考慮が必要かもしれません。--Junknote会話2022年5月6日 (金) 00:35 (UTC)[返信]
  • コメント 基本的には皆様の意見に異存ありません。ただレビューを今後進める場合は、botの活用など、可能な限り運用コストを減らす手立てをする、プロジェクト:翻訳に間借りする等建付けをちゃんとする、あたりを進めてからの方が良いと思います。現状の運用を続けても、参加してくださる方に負荷がかかりすぎる可能性もあるので。一旦レビュースペースの当初の目的である、どの程度低質な翻訳記事がありそうか、という部分の検証はできたので、今後継続するに当たって目的が変化するのであれば、それに合わせた準備が必要かと。このあたりはMcYataさんが継続して旗振りをするのが難しいのであれば、他の利用者が巻き取ってもよいと思います(私も忙しくはありますが、議論の提起などであれば時間取れると思います)。また、どの名前空間でレビューを進めるかは些末な問題だとは思います。プロジェクトの同意が得られずMcYataさんの利用者ページ配下で継続する場合でも、McYataさんの同意が得られるのであれば他の方がメインの管理を担ってもよいのですから。
コンテンツ翻訳の機械翻訳禁止については、本格的に進めるのであれば真っ先に先行事例の調査が必要かと思います。アラビア語版の提案がスタックしている理由がかなり気になりますね。技術的な問題なのか、はたまたリソースの問題なのか、それとも合意が不十分だと思われているのか……。事情に合わせて日本語版での進め方も変わるでしょう。五月雨ですが以上です。今後も協力させていただきます。 --紅い目の女の子(会話/履歴) 2022年5月10日 (火) 01:20 (UTC)[返信]
また半月ほど間を空けてしまいすみません。皆様コメント本当にありがとうございます。それでは、なんとか計画を進めてまいりましょう(あと、出来るだけ早い段階で「誰でも進められる」体制を作りたいところです)。まずは皆様から頂いた「やるべきこと」をまとめてから、それぞれについてコメントいたします。
  • まず(コンテンツ)翻訳レビューは、今後も続けてまいりましょう。出来る範囲でご協力いただけるとありがたいです。ただ、3月以降のレビューを再開する前に、活動する枠組みをしっかり整備しておきたいところです。
    • その場所については、以前プロジェクト‐ノート:翻訳#下位プロジェクト「プロジェクト:翻訳検証」作成提案で提案したように新プロジェクトを設立するのが良いかと思っています。設立を提案してから3か月半が経ち、活動内容こそ議論があっても立ち上げ自体には反対意見がありませんでしたので、プロジェクト:翻訳検証をひとまず立ててみました。皆様の同意が得られれば、このレビュースペースを議論含めて丸ごとプロジェクト管轄下に移動したいのですが、いかがでしょうか。最低でも、McYataの個人サブページで何か事を動かしている状況は早いとこ解消したいです。
    • 3月分、4月分、5月分は、ひとまずサブページとテンプレートだけ作っておきます。もしどなたかが以前の月に合わせて項目を整備してくだされば非常にありがたいですが、bot化できるかどうかはっきりしてからでも良いかもしれません。
  • 運用コストの削減について。定期的にbotで月次サブページやその中身を整備できれば一番ですね。Wikipedia:Bot作業依頼で技術的に可能かどうか聞いてみます。
  • コンテンツ翻訳の機械翻訳機能とメタへの交渉について。Junknoteさん、アラビア語版の情報共有ありがとうございます。決が取られたページを見ると(これこそ私は機械翻訳使わないと何も分からないのですけど)、「機械翻訳機能がある限り粗悪な翻訳記事の乱立は止められない」「コンテンツ翻訳ツール自体は有用」といった議論がされていました。我々とほぼ同じですね。ただ仰る通り、メタウィキではここ2年の動きが分からず、コンテンツ翻訳内でも未だに機械翻訳を使える状態のようです。当時の議論に関わっていた方にメタで事情を聞いてみます。
  • 削除方針G-3は、慎重派の方と紅い目の女の子さんが意見をすり合わせて下さったおかげで、より多くの方に受け入れられる方針に持って行けそうですね。重ね重ねありがとうございます。こちらもそろそろけりをつけましょう。
いったんここまで。--McYata会話2022年5月15日 (日) 11:49 (UTC)[返信]
作成ありがとうございます。少し余裕が出来たから積み残しをと思ったら、結局削除依頼に追い回されています……。こちらは1/2月分として移動でよろしいのではないでしょうか。--Open-box会話2022年5月15日 (日) 14:52 (UTC)[返信]
  • 翻訳検証のプロジェクトへの移行

皆様の同意が得られれば、このレビュースペースを議論含めて丸ごとプロジェクト管轄下に移動したい

これを見逃していました。私は問題ないと考えます。
  • botによるコンテンツ翻訳記事の洗い出し
Wikipedia:Bot作業依頼での議論も確認していました。こちらはどうしましょうか。どなたかに依頼してもよいですし、私はVPSサーバを契約しておりPythonもそれなりに書けますので、プロジェクト参加者の範囲でミニマルにスタートするという意味では、私がbot運用する選択肢もありそうです。 --紅い目の女の子(会話/履歴) 2022年5月17日 (火) 02:03 (UTC)[返信]
  • レビュースペースのプロジェクト下への移動の件、特に問題はないと思いますので、賛成します。また、記事リスト作成の件ですが、私はVBAを使ってMediaWiki APIからデータを収集するツールを作成済で、手動更新でも殆ど手間はかかりませんので(ソースを公開したので興味のあるかたはどうぞ。)、botでの作業が難しそうな場合には、手動更新も選択可能かと思います。--Junknote会話2022年5月17日 (火) 06:22 (UTC)[返信]
    皆様ありがとうございます。また間が空いて申し訳ありませんが、いくつか作業したので報告します。
    • コンテンツ翻訳レビュースペースをプロジェクトの下位ページに移動しました。
    • 一応外面だけでもしっかりさせようかと、プロジェクトロゴとTemplate:Project 翻訳検証Template:User PJ:TRANSIを作りました。ご自由にお使いください。なお画像はなかなかに酷い出来ですので、何か代替となるものを募集しております。
    • Botについては紅い目の女の子さんやJunknoteさんのコメント、またBot作業依頼での議論からも、可能ではありそうなのですね。私も興味はあるのでJunknoteさんのソースで勉強しようと思いますが、まだ詳しいことはわからないので、お二人にお任せしてよろしいでしょうか。レビュースペース用の3,4,5月分ページは作りました。
    • アラビア語版の件で、2年前の機械翻訳動議にかかわっていた管理者の方に聞いてみたところ、「アラビア語版内での合意形成後は特に進展が無く、開発チームからの返答を2年間待ち続けている状況」とのことでした。単に忘れられていてハッパをかければ動く話なのか、意図的に無視されているのかはよく分かりませんが・・・。より中心的な役割を果たしていた方にもメンションを送って、返信を待っている所です。--McYata会話2022年5月21日 (土) 16:34 (UTC)[返信]
  • コメント ひとまず手動更新での実証を兼ねて、ツールを使用しレビュースペースの5月20日までのリスト更新をしてみました。Excel上でのリスト抽出はすぐに完了しますので、ワークシートからコピペして公開するだけの作業で所要時間は2か月分+20日分で5分ほどです。--Junknote会話2022年5月21日 (土) 22:59 (UTC)[返信]
    Junknoteさん、ありがとうございます!Template:Pageで綺麗に並べられてますね。あとは移動や削除でリンク切れを起こしている記事をその都度手動で修正すればよいだけですね。数分とはいえJunknoteさん個人にお願いし続けるのもなんなので、できればこの仕様のままbot化できると良いのですが・・・。--McYata会話2022年5月22日 (日) 02:37 (UTC)[返信]
  • (インデント戻します)そこまで手間が掛からないため、私が定期的に手動更新することは特に問題ないのですが、ずっと更新を続けられるという保証もないので、botでの自動更新化には賛成です。ただ残念ながら、私はbotを運用できるような自前サーバを持たないため、どなたかにお願いできればと存じます。以下、1日1回更新での運用であれば、例えば、2022年5月22日分を更新する場合(赤文字が変数)、
  1. 「https://ja.wikipedia.org/w/api.php?action=query&format=json&list=logevents&utf8=1&ledir=newer&lenamespace=0&letag=contenttranslation&leprop=title%7Ccomment&letype=create&lelimit=max&lestart=2022-05-22T00:00:00Z&leend=2022-05-22T23:59:59Z」にアクセスしてAPIからJSON形式のデータを取り込み
  2. データを成形 -format:" # {{Page|記事名}}(翻訳元): "
  3. 「コンテンツ翻訳レビュースペース/2022年5月」が存在するかチェック、なければ作成
  4. 「コンテンツ翻訳レビュースペース/2022年5月」の最下部に5月22日のレベル3の見出しとデータを書き込む
こんな感じのロジックでいけそうに思います。--Junknote会話2022年5月23日 (月) 07:55 (UTC)[返信]
ありがとうございます。私の契約しているサーバはまだ余力がありますので、自動化に当たっては私が巻き取ります。
今週末までは少し忙しいので、週明け以降対応に入ります。 --紅い目の女の子(会話/履歴) 2022年5月24日 (火) 02:12 (UTC)[返信]
上記Junknoteさんが仰っていたロジックでほぼほぼ実装ができましたので、間に合えば今晩から、間に合わなければ明日以降、自動化処理の対応に入りたいと思います。自動化処理は利用者:Akaime botから実施します。
現時点で対応できていない点として、下の節でご相談した点とは別に、以下があります。
  • 月次の検証ページ新規作成の際、プロジェクト:翻訳検証/コンテンツ翻訳レビュースペース#一覧への追記が、自動化できていません。ごりごり書けばなんとかできそうな気もしましたが、使用したライブラリの理解が足りず、あまりにスマートでないコードになってしまいましたので、対応を外しました。
  • コンテンツ翻訳を使用する事例として、新規作成のほかにリダイレクト起こしなどが想定されますが、今回はページ作成をトリガーに対象記事を拾っていますので、リダイレクト起こし対応していません。これに対応するには最近の更新をウォッチする必要があると思いますので、今後こちらもログを拾う必要があるとなれば、別途改修しようと思います。 --紅い目の女の子(会話/履歴) 2022年5月30日 (月) 08:33 (UTC)[返信]
報告 日本時間で日付が変わるまでに作業が終わるか不安だったのですが、よくよく考えましたらUTCで日付変更後に自動処理に入れば良いので、明朝から対応に入ります(順調に行けば5/30分のコンテンツ翻訳による新規作成記事がアップデートされるはず)。なお、5月21日~5月30日分は別途対応中です。今回作成したスクリプトの念のための挙動確認も兼ねて、1日分ずつ更新しております。ウォッチされている方など、ログを埋めてしまっていましたら申し訳ありません。 --紅い目の女の子(会話/履歴) 2022年5月30日 (月) 14:58 (UTC)[返信]
  • bot実装ありがとうございます。5月30日分の更新まで見た限り、うまく稼働しているようで何よりです。一覧への追記の件、リンクの有無の確認であれば、このAPIで文字列を含むか判定するという手段もありますし、書き込み位置の取得であれば、一覧部分をサブページにして参照読み込みさせれば簡素化できそうに思えます。(見当違いであればすいません。)リダイレクト起こし取得の件は、最近の更新を取得するmw:API:RecentChangesからコンテンツ翻訳タグを抽出してリダイレクト解消タグ「mw-removed-redirect」を検索する方法で可能です。イメージとしてコンテンツ翻訳で加筆された記事をレビュースペースのように成形してみました(利用者:Junknote/コンテンツ翻訳加筆記事)。コンテンツ翻訳の加筆自体の件数が少ないため、現行のレビューに付加しても大きな負担増とならないこと、また加えて、最近の更新(RecentChanges) は1か月前までしかデータ取得できないという問題もありますので、個人的にはコンテンツ翻訳での加筆の検証は進めても良いのではないかと思います。--Junknote会話2022年5月31日 (火) 02:09 (UTC)[返信]
    ご提案ありがとうございます。色々見ていたのですが、本文中の特定のセクション部分だけを取得するのが少々面倒で、難儀していました。一覧部分をサブページとして読み込むのは、かなり楽ができそうです。
    件数も少ないかつ後から遡るのは技術的にできないということですので、折角ですから、コンテンツ翻訳による加筆についてもログを拾って反映するようにします。 --紅い目の女の子(会話/履歴) 2022年6月1日 (水) 02:00 (UTC)[返信]

LingoCloudについて

[編集]

「中国語専用」とありますが、たぶん報告者の操作ミスによる間違いです。調査の上修正してください。--27.85.205.19 2022年5月24日 (火) 17:27 (UTC)翻訳元と翻訳先の組み合わせに制限があるようなので、日本語に翻訳できるのは中国語だけだという意味なのかもしれません。もしそうならば、そのことがはっきりわかる文章に修正してください。--27.85.205.19 2022年5月24日 (火) 17:36 (UTC)[返信]

ここで行うのは「日本語」への翻訳検証なので、他言語は関係ありません(典型的なのがPapago、これ自作をkoに持ち込むときはライセンス上問題なく使えるんですよ)。日本語との翻訳機能は中国語しか備えていないことは容易に判明することです。--Open-box会話2022年5月25日 (水) 01:22 (UTC)[返信]

コンテンツ翻訳以外の検証

[編集]

気になっているのですが、翻訳検証をプロジェクト化するにあたり、コンテンツ翻訳以外の翻訳記事の検証をどうするか、という課題があると感じています。例えば私は基本的に記事を立項する際は、全く一から書き上げるよりは、英語版の翻訳をベースに改変していくことが多いです(もっとも、大抵は新たな出典を追加したりして、それに沿うように書き換えるので、原形が残らないことも多いのですが)。そして私の場合には、初版をsandboxに投稿して手直しした上で投稿しますので、これまで翻訳検証をされたことがありません。このような手順を踏むのは、テンプレートの整備だったり体裁崩れがコンテンツ翻訳では気になるというのが理由です。従って、必ずしも翻訳文をじっくり手直ししたいという意図ではなく、体裁などを整えたいという目的でコンテンツ翻訳を利用していない方は一定数いるのではないかと思います。そういった目的の場合には、コンテンツ翻訳と同様、機械翻訳が過度に入り込んでいないか確認を要するはずです。 今回ご相談したいのは、コンテンツ翻訳記事作成の自動取得にあたり、コンテンツ翻訳を用いない通常の翻訳記事も取得すべきか?ということです。Junknoteさんご提案の方法で、編集の要約欄も取得することができますので、この際に「翻訳」「訳」「他言語版へのリンク」「他言語版へのリンクの平文」あたりをひっかけるようにすれば、履歴継承を行っているものや要約欄で翻訳であることを示しているであろう記事は、取得することができそうです。履歴継承をそもそも行っていないような記事は難しいですが、いかがでしょうか。 他にも、新規立項以外の大幅な翻訳加筆なども、取得対象にするべきか、など検討事項となりそうです。 --紅い目の女の子(会話/履歴) 2022年5月25日 (水) 01:40 (UTC)[返信]

  • 情報 判断材料として、どれくらいリストアップされるのかを調査してみました。サンプルとして2022年4月分の記事を抽出し、bot作業を想定して、要約欄から判別するという方法で確認したところ、新規記事4754件の内、コンテンツ翻訳を除く翻訳記事として520件が抽出されました。(紅い目の女の子さんがご指摘されたとおり、WP:AESなどの履歴継承されていない記事は判別できないため、実数としてはさらに多くなります。)この期間中のコンテンツ翻訳記事は207件のため、比率は約2.5倍となります。--Junknote会話2022年5月26日 (木) 03:17 (UTC)[返信]
  • コメント 私も、ご心配の事象は確かに話し合っておくべき内容と思います。結論から申しますと将来的にはリソースの許す限りすべての翻訳記事を検証できるのが理想です。Junknoteさんご提示の実際の数はよい資料で、現在は2.5倍の翻訳記事を「取りこぼしている」ことが明確に示されています。
私の考えとしては、「コンテンツ翻訳で機械翻訳が安易に利用できるうちはコンテンツ翻訳のみを対象にし、機械翻訳が禁止されたらばその時通常記事も検証する」というのがよいと思います。
また、「よく翻訳立項をされているが、どの記事も十分に改訳されたものを投稿する利用者」を通常とは別枠で表示することができれば、より効率的に粗悪記事が洗い出せるものと思います。いずれにせよ翻訳検証者の人的リソースが問題です。広く参加者を募りたいですね。変な人は来てもらっては困りますが。--Sethemhat会話2022年5月26日 (木) 09:33 (UTC)[返信]
理想論だけ突き詰めると最終的には査読制って程ではないので巡回制とでも呼ぶべきものになるんですよね……ただそこまで行くと「この主題は気に入らないから不可」的な事が出来てしまうので(これはDraftにも共通する問題です)角を矯めて牛を殺す危険性が現段階では高いかと。それはさておき、この方向ですと「日本語版オリジナル」を含む全記事に発展しそうでして、そこまで行くと「PJ:巡回」かなぁと。さすがにそこまでやるリソースが到底足りませんし、2.5倍ですら難しいですから、当面は「コンテンツ翻訳」、問題が解決するか比較データが必要になったら+「発見した翻訳」ぐらいでいいのではないかなと思います。--Open-box会話2022年5月26日 (木) 14:45 (UTC)[返信]
  • コメント 紅い目の女の子さんの懸念はもっともですし、人力リソースが増えればという前提でならJunknoteさんがピックアップされたコンテンツ翻訳以外のものも将来的に正式に査読対象とするのはアリだと思います。現状ではコンテンツ翻訳に絞りつつ、特別:新しいページで気になった翻訳記事を任意でピックアップ→査読→レビュースペースに手書きで追加報告程度ならできそうですが…。--Tze Chiang Hao会話2022年5月26日 (木) 15:17 (UTC)[返信]
  • コメント 将来的にはもちろんコンテンツ翻訳外の記事も対象にできればいいなと思っています。ただ現時点でも人的リソースが限界で、2月までのレビューもかなり時間がかかっていましたので、手を広げるのはまだ早いのかなとも。またこれまでにプロジェクトに参加してくださった方々が、本来ならばご自身の執筆力や翻訳力を活かして良い記事を増やしているはずの時間を、これ以上翻訳検証に費やしてしまうのもどうなのかな、と(言い出しっぺのくせに)考える時もあります。もう少しコンテンツ翻訳レビューを続けていけば、もう少し検証方法を洗練させられる、何なら英語ができない方でも判断を下せる手順が作れるのではないかと思っています(これはG-3とも連動する問題なのですが)。我々が経験を積み、検証手順を確立し、より多くの参加者を巻き込めるようになってから、検証対象の幅を広げるのでも良いのではないでしょうか。--McYata会話2022年5月27日 (金) 12:46 (UTC)[返信]
    • コメント 皆様、ご意見を頂きありがとうございます。現状では確かにリソースが足りておらず、コンテンツ翻訳より外側に広げるのは現実的ではありませんね。下の節でMcYataさんも提起してくださっていたり、以前からTze Chiang Haoさんが議論してくださっているような、NG検証の手順化を優先して進めるべきという意見に賛同します。検証手順については週末少し考えた上で改めてコメントします。 --紅い目の女の子(会話/履歴) 2022年6月3日 (金) 02:14 (UTC)[返信]
  • 報告 なかなかコメント/レビューできずにすみません。少しずつ進めてはいる(問題利用者の立項した記事を検証しています)のですが、なかなか困難ですね。さて、問題はまだありますが、ひとまず報告させて頂きたいことがあります。「URL直貼り翻訳」の存在です。今日、新着記事に推薦されてしまった1871年のロサンゼルスの中国人虐殺ノート / 履歴 / ログ / リンク元の履歴とノートを見るとお分かりの通りです。さらに、この利用者(IPなので余計に問題記事の特定が困難。今回は有志の方がノートにリストアップしてくださいました)は複数の機械翻訳を併用しているようです。このような記事の対処方法も決めねばならないと思いました。取り急ぎ共有まで。--Sethemhat会話2022年6月14日 (火) 14:43 (UTC)[返信]
    そうですね、コンテンツ翻訳を使わないで作成された翻訳記事はとりあえずレビュー対象外とする、という話はありましたが、だからといって1871年のロサンゼルスの中国人虐殺のようなG-3削除相当の記事を見逃すのもよろしくないですね。本来なら気付いた方が自分で削除依頼を出してくださるのが一番簡単なのですが、削除依頼やG-3の要件が面倒、あるいは検証の仕方がわからないからプロジェクト:翻訳検証に任せたい、というニーズもあるでしょう。まずはその「1871年~」のノートでリストを作ってくださった方などが報告できるページを作りましょうか。同じところに機械翻訳記事を見分け検証する簡単な手引きを置いておけば、報告しに来た方が検証にかかわりやすくなり、翻訳検証や削除依頼提出に協力してくださるようになるかもしれません。ひとまずアイデアだけ。--McYata会話2022年6月15日 (水) 10:02 (UTC)[返信]

NG記事への対処方法を追加しました

[編集]

皆様のご協力のおかげでレビューが進み、またケースG-3という根本的な対応策も成立しました。あらためて御礼申し上げます。さて、これまでこのレビュースペースでは「判定」を中心に作業してまいりましたが、そろそろ「NG」判定が出た記事への対処も進めていきたいと考えています(「削除実績が無い」と財団に言われたインドネシア語版の轍を踏まぬためにも)。そこで、自分の利用者ページから公式プロジェクトに移動した後なのに勝手ではあるのですが、NG判定記事について何らかの対処をとったことを報告できる手順を作ってみました(プロジェクト:翻訳検証/コンテンツ翻訳レビュースペース#NG対処)。先ほどG-3を使った削除依頼(Wikipedia:削除依頼/ゲット エド)を提出したところでもあるので、さっそくこれを使って経過報告していこうと思います。改善案や指摘などをお待ちしています。

なお上の節でも提起しましたが、「形の上では修正されているが問題がある」記事を判定し、改訳者を募ったり削除依頼を出したりするプロセスはまだできていません。ここが「翻訳検証」の肝になるという気もしていますが、どんなやり方が良いでしょうか。--McYata会話2022年6月2日 (木) 08:59 (UTC)[返信]

  • コメント とりあえず、1~3月分の大量のNG記事をひとつづつ削除依頼出すのは明らかに不毛な作業のため、それぞれ×つけた人とは別にもう一人が×つければ、記事をまとめて"PJ:翻訳検証により不可が出た記事1月分"として処理するようにしませんか。肝は、例えば一週間分など、「まとめてG-3で削除依頼を提出する」点と思います。すくなくとも、コンテンツ翻訳での自動翻訳使用が差し止められるまで簡便な処理を行うべきと思いますが、皆様いかがでしょうか。
翻訳出力原文ほぼそのままのですます調残留記事ならば、一回削除してもすぐ作り直せるため問題は少ないはずです。これは、あまりにも問題が明白なため、二段階検証抜きでそのまま出すのもありかもしれません。「修正を試みたが途中で力尽きた系記事」に関しては十分告知をする必要があると思いますので、順次プロジェクト‐ノート:翻訳検証#テンプレート改定案での議論を進めましょう。「形の上では修正されているが問題がある」記事は、ひとまず後回しで、先に明らかに問題のあるものをかたづける仕組みを作るのがよいのでは。
(追記) 翻訳に問題のある利用者が量産した粗悪翻訳記事の処理も進める必要があることを思い出しました。PJ:翻訳検証の下に例えば「利用者ごとの検証」等のページを作り、そこでするようにしませんか。形式は現在のレビュースペースの形式を踏襲し、だいたい利用者:Sethemhat/sandboxのようにしようと思います。--Sethemhat会話2022年6月5日 (日) 10:04 (UTC)[返信]
たしかに、どう見ても機械翻訳そのままの記事はほぼ確実にG-3削除できるので、まとめて提出してもいいかもしれません。Wikipedia:削除依頼/ゲット エドWikipedia:削除依頼/Reactor パターンを提出してそれぞれ処理してもらいましたが、正直面倒でした。語尾と固有名詞しか修正していないものも含めてよいかもしれません。「形の上では修正されているが問題がある」記事は、ひとまずこのレビューで洗い出せたのを当面の成果として、個別検証の手続きは後のち考えるというので良いのかもしれません。
利用者をリストアップするページも、仰る通り必要ですね。何度も苦情が入っているのに改善されない方、ブロックされたり活動休止したりして自己修正が期待できない方などは、名前と執筆記事を並べて早急に対処していく必要があるでしょう。欲を言えば、レビュー作業効率化のためNG判定記事を書いている利用者もリストアップしたい(改善に応じてくださった方はリストから除去する)ところですが、さすがにそこまですると晒上げとか目的外利用だとか言われるかもしれないですね。--McYata会話2022年6月15日 (水) 09:53 (UTC)[返信]
  • コメント 「利用者ごとの検証」について賛成します。botでレビュースペースに追加されたコンテンツ翻訳使用記事および、コンテンツ翻訳以外でも悪意の有無にかかわらず悪目立ちする利用者(LTA含む)については末尾に単独節として独立、bot追加後に移動するなどで、見通しをよくしたほうがよさそうです。--Tze Chiang Hao会話2022年6月20日 (月) 14:21 (UTC)[返信]

財団の方が、jawpがコンテンツ翻訳に疑問を持っていることに驚いて、意見を聞かせてほしいそうです

[編集]

突然申し訳ありません。Kizhiya と申します。主にロシアの歴史記事を、ほぼ日本語資料を元に書いております。英語はろくにできませんが、皆さんの活動に敬意を抱き、時々覗かせていただいていました。 プロジェクト:ウィキメディア財団を主催するRottenApple777さんが、井戸端に、Wikipedia:井戸端#コンテンツ翻訳における自動翻訳機能についてという項目をおたてになっています。

日本語版の利用者の間でもコンテンツ翻訳における自動翻訳機能に対して疑義があがっていたことは財団側にしてみれば寝耳に水だったようで、驚いて何が問題なのか話が聞きたいとのことでした。

よろしければ井戸端の項目を覗いて、ご意見をいただけないでしょうか。何卒よろしくお願いいたします。--Kizhiya会話2022年6月3日 (金) 17:32 (UTC)[返信]