archive.is(Wayback Machine)の魚拓とボットを拒否する

◆robots.txtを簡単に設置する方法

IPは良く変わるようですので当記事が正確だとは全く言えませんことご了承ください

まずは検索

Google Admin Toolbox Dig

確認できるだけでドメインが5つありますが、全て Wayback Machine でおなじみの「Internet Archive」が運営しています。

archive.is217.79.184.91
archive.ec104.247.81.53
archive.fo217.79.184.91
archive.li217.79.184.91
archive.today217.79.184.91

まごのてツールズ

archive.isIP変換不可
address:Bilkova 16 Prague
Stare Mesto 11000 CZ
phone:+420 775168924
e-mail:domains@dns.li
archive.ec185.53.177.53
Country:NL(オランダ)
archive.fo
archive.li217.79.181.101
country:DE(ドイツ)
archive.today

ラッコツールズでIPアドレスを検索するとこんな感じでした。

217.79.184.91Germanyf217.fuchsia.servdiscount-customer.com
104.247.81.53Canada

.htaccessでIP拒否

コメント # は酔っぱらった時に「なんだこれは」を防ぐためにいちいち書いています。

# archiveblock
deny from 217.79.184.91
deny from 104.247.81.53
deny from 185.53.177.53
deny from 217.79.181.101

ドメインで制御したい場合はこちらを付け加えます。

deny from archive.is

※「Order allow,deny allow from all」はApacheの古いバージョンの書き方になります

参考サイト
archive.is サーバーIPアドレス一覧 – REIMA’s Blog

archive.orgのボットを拒否

robots.txtに記述

あまり効果はないようですが…私は一応載せています。

# archivebotblock
User-agent: archive.org_bot
User-agent: ia_archiver
Disallow: /

◆robots.txtを簡単に設置する方法

.htaccessに記述※Apache 2.4

# archivebotblock
SetEnvIf User-Agent "archive.org_bot" denybot
SetEnvIf User-Agent "ia_archiver" denybot
<RequireAll>
Require all Granted
Require not env denybot
</RequireAll>

削除してほしい場合

DMCA申請を行うことで検索結果から削除が可能です。

著作権侵害の報告

タイトルとURLをコピーしました