Cloudflare はいろんな方法でbotを検知しているらしい
- IP address reputation
- HTTP request headers
- TLS fingerprinting (TLSの実装はOSやブラウザに依るが、UAとミスマッチがあれば偽装とバレる)
- CAPTCHAs
- Canvas fingerprinting
- JavaScript challenge
- ...
もしクローリング等で Cloudflare に bot とばれないようにしようと思うと、上記をクリアしないといけない
JavaScript challenge では JS でゴニョゴニョ計算して本当にブラウザからのアクセスかどうかをチェックするらしい 記事ではそれのリバースエンジニアリングについて書いてある
まぁ Automated Browsers を使えばいいんだろうけど、パフォーマンス的な問題があるんだろう