アクセスしてくる各botが本物かどうか

ユーザーエージェントはそれっぽくくるが、あまりにアクセスが多く本物か怪しい場合のお供に。

Bingbot

公式手順

検証ツールが置いてある。

https://www.bing.com/toolbox/verify-bingbot

Googlebot

公式手順

手順内容

host XXX.XXX.XXX.XXX

で調べた結果で判断

本物

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

偽物

$ host 23.100.109.213
Host 213.109.100.23.in-addr.arpa. not found: 3(NXDOMAIN)

facebookクローラー

公式手順

手順内容

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route

で調べた結果のIPかどうか。

多いので、大抵/24かもうちょいくらいなので、第2オクテッドとかで検索する。

本物

$whois -h whois.radb.net -- '-i origin AS32934' | grep ^route | grep "102.132"
route:      102.132.96.0/20
route:      102.132.96.0/24
route:      102.132.97.0/24
route:      102.132.99.0/24
route:      102.132.101.0/24
route:      102.132.102.0/24
route:      102.132.104.0/24
route:      102.132.105.0/24
route:      102.132.106.0/24
route:      102.132.107.0/24
route:      102.132.109.0/24
route:      102.132.110.0/24
route:      102.132.100.0/24

偽物

$whois -h whois.radb.net -- '-i origin AS32934' | grep ^route | grep "20.191"
$

まだあれば追記予定