Apacheで拒否
SEO関連のBot(解析ツール)は拒否するようにしています(魚拓関係はrobots.txtで拒否したり)
# block bot SetEnvIf User-Agent "archive.org_bot" denybot SetEnvIf User-Agent "ia_archiver" denybot SetEnvIf User-Agent "special_archiver" denybot SetEnvIf User-Agent "AhrefsBot" denybot SetEnvIf User-Agent "bidswitchbot" denybot SetEnvIf User-Agent "BLEXBot" denybot SetEnvIf User-Agent "CriteoBot" denybot SetEnvIf User-Agent "DataForSeoBot" denybot SetEnvIf User-Agent "Scrapy" denybot SetEnvIf User-Agent "GrapeshotCrawler" denybot SetEnvIf User-Agent "ias-sg" denybot SetEnvIf User-Agent "MegaIndex" denybot SetEnvIf User-Agent "MJ12bot" denybot SetEnvIf User-Agent "Pinterestbot" denybot SetEnvIf User-Agent "proximic" denybot SetEnvIf User-Agent "SemrushBot" denybot SetEnvIf User-Agent "SerendeputyBot" denybot SetEnvIf User-Agent "SMTBot" denybot SetEnvIf User-Agent "Superfeedr" denybot SetEnvIf User-Agent "trendictionbot" denybot SetEnvIf User-Agent "VelenPublicWebCrawler" denybot SetEnvIf User-Agent "WooRank" denybot SetEnvIf User-Agent "ZoominfoBot" denybot <RequireAll> Require all Granted Require not env denybot </RequireAll>
尚、上記の <RequireAll>~</RequireAll>
の部分をこのように書く方法は、古い Apache になります。
order Allow,Deny Allow from all Deny from env=denybot
拒否したBot
AhrefsBot
フランスの SEO 関連のクローラー。
Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/
)
bidswitchbot
ads.txtを見に良く来ています。ads.txtを利用した詐欺もあるようなので拒否(ads.txt を悪用した詐欺、再び発生:その名も「 404bot 」 DIGIDAY)。
"GET
/ads.txt HTTP/2.0" 403 1334 "-" "bidswitchbot/1.0"
BLEXBot
サイトのコンテンツを分析するサイト。
Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/
)
CriteoBot
フランスかな?SEO関連。良く来ます。
CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/
)
DataForSeoBot
Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot
)
DotBot
SEO関連。
Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot
;help@moz.com
)
GrapeshotCrawler
最近来ていないけど一応。
Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +https://www.grapeshot.co.uk/crawler.php
)
ias-sg
ias-sg/3.1 (+https://www.admantx.com/service-fetcher.html
)
ここはかなり怪しい。
MegaIndex
ロシアのSEO関連のクローラー
Mozilla/5.0 (compatible; MegaIndex.ru/2.0; +https://megaindex.com/crawler
)
MJ12bot
「高速で効率的なダウンロード可能な分散型クローラーを備えた検索エンジンを構築」とのこと。
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; https://mj12bot.com/
)
SemrushBot
最近来ていないけど一応。
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html
)
Pinterestbot
画像を「Pin」の名目で盗っていくサイト。
自分のサイトのコンテンツがピンされるのを防ぐ方法 Pinterest ヘルプ
Mozilla/5.0(Pinterestbot/1.0、+https://www.pinterest.com/bot.html
)
proximic
2022年も1時間に3回は来ている。
Mozilla/5.0 (compatible; proximic; +https://www.comscore.com/Web-Crawler
)
SerendeputyBot
ニュースフィードエンジン。Twitterと関連付けるみたい。最近は来ていないっぽい。
SerendeputyBot/0.8.6 (http://serendeputy.com/about/serendeputy-bot
)
SMTBot
SimilarWebの Bot。以前に使ったことがあるけど別に要らないかな。最近は来ていないっぽい。
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)
Superfeedr
feedデータを取得している模様。最近は来ていないっぽい。
Superfeedr bot/2.0 http://superfeedr.com - Make your feeds realtime: get in touch - feed-id:*****
trendictionbot
ルクセンブルグ。1日1回しか来ないみたいだし悪そうではないけど。
Mozilla/5.0 (Windows NT 10.0; Win64; x64; trendictionbot0.5.0; trendiction search;
http://www.trendiction.de/bot
VelenPublicWebCrawler
Mozilla/5.0 (compatible; VelenPublicWebCrawler/1.0; +https://velen.io)
WooRank
サイトの解析ができる。14日のフリートライアルの後は有料だし要らないかな。
Mozilla/5.0 (compatible; woorankreview/2.0; +https://www.woorank.com/
)
ZoominfoBot
アメリカのSaaS企業。Feedly を利用してデータを GET しているんじゃないかと。巨大なデータベースを誇り大企業も利用しています。ちなみに上場企業。あのZOOMとは無関係。
"GET /comments/feed HTTP/1.0" 200 716 "-" "ZoominfoBot (zoominfobot at zoominfo dot com)"
動作確認
後日アクセスログを確認して「拒否したBotが403(Forbiddenエラー)」になっていれば設定OK です。
検索エンジンやSNSのBotは拒否しない
AdsTxtCrawler
文字通り「ads.txt」クローラー。アドセンスのクローラーだと困るので外してみました。
ちなみに、これを使えば動かせるみたい。
AdsTxtCrawler/1.0.2
Baiduspider
中国の検索エンジン
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html
)
coccocbot
ベトナムの検索エンジン
Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine
)
facebookexternalhit
Facebookクローラー
facebookexternalhit/1.1;line-poker/1.0
Linespider
LINEクローラー
Mozilla/5.0 (compatible; Linespider/1.1; +https://lin.ee/4dwXkTH
)"
SeznamBot
チェコの検索エンジン
Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/
)
Twitterbot
Twitterクローラー
Twitterbot/1.0
YandexBot
ロシアの検索エンジン
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots
)
DuckDuckGo-Favicons-Bot
ブラウザDuckDuckGo
Mozilla/5.0 (compatible; DuckDuckGo-Favicons-Bot/1.0; +http://duckduckgo.com
)
PetalBot
中国ファーウェイの Bot
Mozilla/5.0(compatible;PetalBot;+https://aspiegel.com/petalbot
)
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko)
Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot
)
閉鎖したっぽいBot
- e-SocietyRobot(早稲田大学のBot)
- integralads
- jet-bot
- Linguee
- ltx71
- Mappy Crawler
- RSiteAuditor
- SISTRIX crawler
archive.is(Wayback Machine)の魚拓とボットを拒否する
いやだなーと思うアクセス
python-requests
Webスクレイピングってやつですね。wlwmanifest.xml
とか eval-stdin.php
とか調べてどうする気だよ。
"GET /wp-includes/wlwmanifest.xml HTTP/1.1" 301 255 "-" "python-requests/2.26.0""GET
"GET /vendor/phpunit/phpunit/src/Util/PHP/eval-stdin.php HTTP/1.1" 404 96929 "-" "python-requests/2.22.0"
Scrapy
サイトから情報を抜き出すツール。
Scrapy/2.4.1 (+https://scrapy.org
)