ユーザーエージェントはそれっぽくくるが、あまりにアクセスが多く本物か怪しい場合のお供に。
Bingbot
検証ツールが置いてある。
https://www.bing.com/toolbox/verify-bingbot
Googlebot
手順内容
host XXX.XXX.XXX.XXX
で調べた結果で判断
本物
$ host 66.249.66.1 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
偽物
$ host 23.100.109.213 Host 213.109.100.23.in-addr.arpa. not found: 3(NXDOMAIN)
facebookクローラー
手順内容
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
で調べた結果のIPかどうか。
多いので、大抵/24かもうちょいくらいなので、第2オクテッドとかで検索する。
本物
$whois -h whois.radb.net -- '-i origin AS32934' | grep ^route | grep "102.132" route: 102.132.96.0/20 route: 102.132.96.0/24 route: 102.132.97.0/24 route: 102.132.99.0/24 route: 102.132.101.0/24 route: 102.132.102.0/24 route: 102.132.104.0/24 route: 102.132.105.0/24 route: 102.132.106.0/24 route: 102.132.107.0/24 route: 102.132.109.0/24 route: 102.132.110.0/24 route: 102.132.100.0/24
偽物
$whois -h whois.radb.net -- '-i origin AS32934' | grep ^route | grep "20.191" $
まだあれば追記予定