2020/11/01

機械翻訳スパムサイトに思うこと

最近増えている、機械翻訳でStackOverflowを機械翻訳した内容を掲載しているサイトや英語の公式ドキュメントを機械翻訳し無断転載しているサイトについて思っていることについて書きました。

きっかけ

2週間前くらいに、久しぶりにNginxを使う機会があったので、Googleで適当なワードを検索したところ、以下のツイートのような記事がヒットしました。

何か違和感があるなと感じ、Googleの検索結果を見返してみると、似たような記事があり見比べてたら、機械翻訳して無断転載しているサイトだと気が付きました。

サイトの実態

このスパムサイトは日本語だけでなく、ロシア語、フランス語などにも機械翻訳しており、Googleに2万5千件近くのページが登録されています。

恐らくGoogleの検索結果の上位にヒットする記事を優先的に翻訳/転載しているものと思われます。

もちろん作者の目的は大量に貼られた広告による収益でしょう。

翻訳の元記事は上記のツイートの場合はDegitalOceanの解説記事ですが、スパムサイトのシステムの都合か、確実に著作権に侵害になるためか、画像は転載されていません。

元記事の画像は以下のように文字列になっています。そのため、非常に読みにくく感じます。

spam

結構見ている人も多い?

このスパムサイトのURLをTwitterで検索してみたところ、普通に「参考になりました!」のようにツイートしている人が結構いた事に驚きました。

スパムサイトと気づいている人もいましたが、多くの人が疑いもなく利用しており、ある程度の需要はあるようです。Google検索で日本語で表示されると、自分もついクリックしてしまうので、機械翻訳による違和感を感じなければそのまま読んでいるのでしょうか…

また、ツイートを見ると昨年の11月にこのサイトを見つけた人もいるようなので、1年以上存在していることになります。

Googleの対応は…?

実は、2週間前にこのスパムサイトを見つけたときにGoogle検索のスパムの報告フォームに送ってみたのですが、現状何も対応されていない状況です。

そもそも機械翻訳した文章は無断転載には当たらないのかもしれません。文章や単語は他言語ですし…

ただ、内容的には同じコンテンツですし、翻訳結果が見たければユーザが元サイトで翻訳するべきだと考えます。それに、スパムサイトには画像が欠けているので元記事を機械翻訳したほうが読みやすいでしょう。

僕個人としては、非常に検索結果の邪魔なのでいち早く除外されることを祈ります。