Apache(.htaccess)で迷惑Botクローラーなどのアクセスを拒否



Apacheで拒否

.htaccessがある場所と書き方

SEO関連のBot(解析ツール)は拒否するようにしています(魚拓関係はrobots.txtで拒否したり)

# block bot
SetEnvIf User-Agent "archive.org_bot" denybot
SetEnvIf User-Agent "ia_archiver" denybot
SetEnvIf User-Agent "special_archiver" denybot
SetEnvIf User-Agent "AhrefsBot" denybot
SetEnvIf User-Agent "bidswitchbot" denybot
SetEnvIf User-Agent "BLEXBot" denybot
SetEnvIf User-Agent "CriteoBot" denybot
SetEnvIf User-Agent "DataForSeoBot" denybot
SetEnvIf User-Agent "Scrapy" denybot
SetEnvIf User-Agent "GrapeshotCrawler" denybot
SetEnvIf User-Agent "ias-sg" denybot
SetEnvIf User-Agent "MegaIndex" denybot
SetEnvIf User-Agent "MJ12bot" denybot
SetEnvIf User-Agent "Pinterestbot" denybot
SetEnvIf User-Agent "proximic" denybot
SetEnvIf User-Agent "SemrushBot" denybot
SetEnvIf User-Agent "SerendeputyBot" denybot
SetEnvIf User-Agent "SMTBot" denybot
SetEnvIf User-Agent "Superfeedr" denybot
SetEnvIf User-Agent "trendictionbot" denybot
SetEnvIf User-Agent "VelenPublicWebCrawler" denybot
SetEnvIf User-Agent "WooRank" denybot
SetEnvIf User-Agent "ZoominfoBot" denybot
<RequireAll>
Require all Granted
Require not env denybot
</RequireAll>

尚、上記の <RequireAll>~</RequireAll> の部分をこのように書く方法は、古い Apache になります。

order Allow,Deny
Allow from all
Deny from env=denybot

拒否したBot

AhrefsBot

フランスの SEO 関連のクローラー。

Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

bidswitchbot

ads.txtを見に良く来ています。ads.txtを利用した詐欺もあるようなので拒否(ads.txt を悪用した詐欺、再び発生:その名も「 404bot 」 DIGIDAY)。

"GET /ads.txt HTTP/2.0" 403 1334 "-" "bidswitchbot/1.0"

BLEXBot

サイトのコンテンツを分析するサイト。

Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

CriteoBot

フランスかな?SEO関連。良く来ます。

CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)

DataForSeoBot

Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)

DotBot

SEO関連。

Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)

GrapeshotCrawler

最近来ていないけど一応。

Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +https://www.grapeshot.co.uk/crawler.php)

ias-sg

ias-sg/3.1 (+https://www.admantx.com/service-fetcher.html)

ここはかなり怪しい。

MegaIndex

ロシアのSEO関連のクローラー

Mozilla/5.0 (compatible; MegaIndex.ru/2.0; +https://megaindex.com/crawler)

MJ12bot

「高速で効率的なダウンロード可能な分散型クローラーを備えた検索エンジンを構築」とのこと。

Mozilla/5.0 (compatible; MJ12bot/v1.4.8; https://mj12bot.com/)

SemrushBot

最近来ていないけど一応。

Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)

Pinterestbot

画像を「Pin」の名目で盗っていくサイト。

自分のサイトのコンテンツがピンされるのを防ぐ方法 Pinterest ヘルプ

Mozilla/5.0(Pinterestbot/1.0、+https://www.pinterest.com/bot.html

proximic

2022年も1時間に3回は来ている。

Mozilla/5.0 (compatible; proximic; +https://www.comscore.com/Web-Crawler)

SerendeputyBot

ニュースフィードエンジン。Twitterと関連付けるみたい。最近は来ていないっぽい。

SerendeputyBot/0.8.6 (http://serendeputy.com/about/serendeputy-bot)

SMTBot

SimilarWebの Bot。以前に使ったことがあるけど別に要らないかな。最近は来ていないっぽい。

Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/68.0.3440.75 Safari/537.36 
(compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)

Superfeedr

feedデータを取得している模様。最近は来ていないっぽい。

Superfeedr bot/2.0 http://superfeedr.com - 
Make your feeds realtime: get in touch - feed-id:*****

trendictionbot

ルクセンブルグ。1日1回しか来ないみたいだし悪そうではないけど。

Mozilla/5.0 (Windows NT 10.0; Win64; x64; trendictionbot0.5.0; trendiction search; 
http://www.trendiction.de/bot

VelenPublicWebCrawler

Mozilla/5.0 (compatible; VelenPublicWebCrawler/1.0; +https://velen.io)

WooRank

サイトの解析ができる。14日のフリートライアルの後は有料だし要らないかな。

Mozilla/5.0 (compatible; woorankreview/2.0; +https://www.woorank.com/)

ZoominfoBot

アメリカのSaaS企業。Feedly を利用してデータを GET しているんじゃないかと。巨大なデータベースを誇り大企業も利用しています。ちなみに上場企業。あのZOOMとは無関係。

"GET /comments/feed HTTP/1.0" 200 716 "-" 
"ZoominfoBot (zoominfobot at zoominfo dot com)"

動作確認

後日アクセスログを確認して「拒否したBotが403(Forbiddenエラー)」になっていれば設定OK です。

検索エンジンやSNSのBotは拒否しない

AdsTxtCrawler

文字通り「ads.txt」クローラー。アドセンスのクローラーだと困るので外してみました。
ちなみに、これを使えば動かせるみたい。

AdsTxtCrawler/1.0.2

Baiduspider

中国の検索エンジン

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

coccocbot

ベトナムの検索エンジン

Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine)

facebookexternalhit

Facebookクローラー

facebookexternalhit/1.1;line-poker/1.0

Linespider

LINEクローラー

Mozilla/5.0 (compatible; Linespider/1.1; +https://lin.ee/4dwXkTH)"

SeznamBot

チェコの検索エンジン

Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)

Twitterbot

Twitterクローラー

Twitterbot/1.0

YandexBot

ロシアの検索エンジン

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

DuckDuckGo-Favicons-Bot

ブラウザDuckDuckGo

Mozilla/5.0 (compatible; DuckDuckGo-Favicons-Bot/1.0; +http://duckduckgo.com)

PetalBot

中国ファーウェイの Bot

Mozilla/5.0(compatible;PetalBot;+https://aspiegel.com/petalbot)
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) 
Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)

閉鎖したっぽいBot

  • e-SocietyRobot(早稲田大学のBot)
  • integralads
  • jet-bot
  • Linguee
  • ltx71
  • Mappy Crawler
  • RSiteAuditor
  • SISTRIX crawler

archive.is(Wayback Machine)の魚拓とボットを拒否する

いやだなーと思うアクセス

python-requests

Webスクレイピングってやつですね。
wlwmanifest.xml とか eval-stdin.php とか調べてどうする気だよ。

"GET /wp-includes/wlwmanifest.xml HTTP/1.1" 
301 255 "-" 
"python-requests/2.26.0""GET
"GET /vendor/phpunit/phpunit/src/Util/PHP/eval-stdin.php HTTP/1.1" 
404 96929 "-" 
"python-requests/2.22.0"

Scrapy

サイトから情報を抜き出すツール。

Scrapy/2.4.1 (+https://scrapy.org)