archive.is(Wayback Machine)の魚拓とボットを拒否する



Wayback Machine は昔のサイトを見れるので便利なのですが、サイトをくまなくパクっていくので、robots.txt と .htaccess に記述してお断り申し上げました。

Wayback Machine さん25周年 Internet Archive 25th Anniversary

.htaccessでドメイン拒否

.htaccessがある場所と書き方

全て Wayback Machine の「Internet Archive」が運営しています。
機能していないドメインもありますが一応追記してあります。

# archiveblock
deny from archive.fo
deny from archive.is
deny from archive.is
deny from archive.li
deny from archive.md
deny from archive.ph
deny from archive.today
deny from archive.vn

※一時、IPでも拒否していたのですが、コロコロ変わるので止めました
※「Order allow,deny allow from all」はApacheの古いバージョンの書き方になります

ボットを拒否

いつからか効果が薄れました。どうしようか思案中。

robots.txtに記述

robots.txtを設置する方法

# archivebotblock
User-agent: archive.org_bot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: special_archiver
Disallow: /

.htaccessに記述

こちらの方が効果があるようです。

# archivebotblock
SetEnvIf User-Agent "archive.org_bot" denybot
SetEnvIf User-Agent "ia_archiver" denybot
SetEnvIf User-Agent "special_archiver" denybot
<RequireAll>
Require all Granted
Require not env denybot
</RequireAll>

削除してほしい場合

著作権侵害の報告(DMCA申請)を行う、もしくはメール「info@archibe.org」に「削除してほしい」旨を伝えることで検索結果から削除が可能です。