今年の4月頃の話を思い出しながら書きます。
自分のブログのコピーサイト見つけた。まるっとスクレイピングしてコピーしていそうな雰囲気だなぁ。
— Y.Namikawa / id:rx7 (@namikawa) April 7, 2020
昔から自分の作業ログ的に、このブログを使っていることもあって、こういう場合どうやるのだっけなぁ、と自分自身のブログコンテンツを探すときにもググったりするのですが、その時に自分のブログサイトに書いたはずのコンテンツが、違うドメインのサイトに丸々と掲載されているのを見つけた場合・・・!の話。
ためしにエントリーのタイトルで検索してみる
何が起こったのかよくわからなかったので、そのブログエントリーのタイトルをそのまま入れてみて Google 検索をしてみたところ・・・、
検索結果には、自分のブログサイトが1番目に出てきましたが、上から4番目にコピーサイトが出てきます。これは何・・・?
Domain Name: chge.top Registry Domain ID: D20191202G10001G_27074413-top Registrar WHOIS Server: dnspod.cn Registrar URL: http://dnspod.cn Updated Date: 2019-12-02T10:41:38Z Creation Date: 2019-12-02T10:39:28Z Registry Expiry Date: 2020-12-02T10:39:28Z Registrar: DNSPod, Inc. Registrar IANA ID: 1697 Registrar Abuse Contact Email: abuse@dnspod.com Registrar Abuse Contact Phone: +86.95716
当時 whois してみるとこんな感じ。2019年12月...
尚、今も尚、このドメインは更新されていて、Expiry Dateが1年延びていました。
このドメインにアクセスしてみると、、、中身は完全に自分のブログですね。
テキスト自体は、完全にこのドメインから配信されている感じ。で、画像ファイル等は直リンクされているような状況。
試しにブログを更新したら、即座にこのサイトにも反映されていたので、まるっとコピーしているというよりは、リバースプロキシみたいな感じに、このドメインにアクセスすると、裏側で本物のコンテンツを取得して、それをそのまんま返しているような挙動に見えました。
ので、このドメイン経由のアクセスをブログ配信を行なっているサーバ側で弾くような設定を入れれば良いのですが、このブログははてなブログを使っているので、そんなことは出来ないし、そもそもこの対策方法はイタチごっこになるので、まぁ正当な手段を取るしかないよな、と。
ちなみに、このコピーサイトのサーバのIPアドレスを調べて、このIPアドレスにHTTPでアクセスすると、以下のようなコンテンツが表示されます。
この画面、昔もどこかでみかけたことあるなぁ・・・。何かそういう (プロキシ的な簡易コピーサイトが作れるような) ソフトウェアが公開されているのかしら。
このサイトのIPアドレスで検索すると、同じようにコピーされていると思われるコンテンツ・サイトがいくつか出てきますね・・・。
Google へ著作権侵害の申し立て (DMCA申請)
正直、こういうことされるのは気持ちの良いことではないし、意図せぬ重複コンテンツをそのままにしておく事は、ドメインやそのSEOというコンテキストでは、自サイトへのトラフィックにも影響があるし、Googleのインデックスから削除してもらう事が一番と思ったので、それならばと著作権侵害の申請を行うことに。
まず、以下のサイトへアクセスします。
https://www.google.com/webmasters/tools/dmca-notice
(※ Google Search Console へのログインが必要となります。)
上記サイトに記載されている指示に従って、必要事項の記入を行います。
ちなみに、Google様によると、デジタルミレニアム著作権法 (DMCA) の推奨フォームに沿ったフォーマットだそう。
著作物侵害の記入欄について、私は上記のように記載しました。
必要事項の記入を全て行ったら、最後に送信して、あとは待つ感じです。
しばらく待つ。待つ。
コピーサイト見つけた件、昨日 Google に著作権侵害による削除申請をしておいたけど、今のところまだ返事はない。そんなにすぐ対処されるわけでもないか。
— Y.Namikawa / id:rx7 (@namikawa) April 8, 2020
上記は申請翌日の tweet ですが、まぁ、そんなにすぐには対応してもらえません。
著作権侵害の申請に関するステータスは、以下のサイトで確認できますので、状況が気になった場合は確認してみると良いです。
https://www.google.com/webmasters/tools/legal-removal-dashboard?hl=ja&pid=0&complaint_type=1
こんな感じですね。申請してすぐは保留中になっています。おそらく審査待ち。
審査完了のメールが届く
申請してから約2週間後に、インデックスからの削除が完了した旨のメールが、Google様から届きました。
すっかり放置されているなぁと思っていた、Google様への著作権侵害による削除申請ですが、2週間経って、削除完了の連絡がきた。ありがたい。
— Y.Namikawa / id:rx7 (@namikawa) April 22, 2020
削除ステータスの確認ページを見ても「承認されたURL」としてカウントされていますね。
改めて、冒頭で確認したタイトルでGoogle検索してみましたが、確かにインデックスから削除されているようで、コピーサイトは表示されませんでした。他のコンテンツも同様です。
・・・それからしばらく経った後、このドメインにアクセスすると、自分のサイトが表示されることはなくなっていました。
トラフィックが無くなったことに気づいた?のですかね・・・。
今時点で、コピーサイトのドメインへ改めてアクセスしてみるとSQL(MySQL)のシンタックスエラーが表示されています。
まぁ、上記は今となってはどうでもよいことですが、また新しいコピーサイトが生み出されなければよいなとは思います。
参考: 著作権問題によるコンテンツ除外のレポート
さすがGoogle様というか、こうした著作物の権利侵害に関して透明性を担保するためのレポートを公開してくれています。
https://transparencyreport.google.com/copyright/overview?hl=ja
上記レポートによると、本日時点までで除外リクエストのURL数は49億件にのぼるようですが、こうした数値的な統計情報や、削除リクエストを検索して確認できるようになっています。
(例えば、実際に私が上記でリクエストした内容についても、誰からでも確認できるようになっています。)
と、こんなことがあったよ、っていう記録と、もし同じことが未来に起きた場合に、慌てずに対処できるようログとして、残しておきます。
たまに、こんな感じで、自サイトのコンテンツをググってみたりして、コピーされていないかチェックしてみてもよいかもしれませんね。こういうのをチェックしてくれるサービスとか既にありそうですがw
それでは!=͟͟͞͞(๑•̀=͟͟͞͞(๑•̀д•́=͟͟͞͞(๑•̀д•́๑)=͟͟͞͞(๑•̀д•́