方舟智能分析
产品功能SDK指南API
  • 产品简介
  • 快速上手
    • Step 1 安装部署
    • Step 2 激活系统创建项目
    • Step 3 开启您的分析旅程
      • 1. 集成 SDK
      • 2. 可视化埋点
      • 3. 创建分析模型
    • 附:埋点方案设计
    • 附:数据分析思路
  • 产品更新日志
    • V5.3.3 UI 升级、分布分析重构、维度表动态更新、细节优化等
    • V5.2.0 新增归因分析、消息中心、重构埋点方案、优化看数据体验……
    • V5.1.0317 体验优化& Bug修复
    • V5.1.0 升级可视化埋点、增强权限控制……
  • 我要反馈
  • 🐱Part I 产品功能说明
    • 名词解释
    • 指标说明
    • 看板
    • 分析
      • 事件分析
      • 渠道分析
        • 渠道相关名词解释
        • 来源识别规则
        • 搜索引擎
        • 社交媒体
        • 小程序场景值
        • Session 规则
      • Session 分析
      • 实时分析
      • 留存分析
      • 转化漏斗
      • 智能路径
      • 归因分析(Beta)
      • 热图分析
        • Web/H5 热图
        • APP 热图
      • 分布分析
      • 间隔分析
      • 属性分析
      • 自定义查询
    • 用户
      • 用户探查
      • 用户分群
      • 用户标签
        • 标签体系
        • 标签加工
          • 如何自定义SQL创建标签
        • 标签生命周期管理
        • 标签体系应用概览
      • 单用户档案
    • 运营
      • 电子邮件
      • 短信
      • 消息通知
      • 广告跟踪
      • App 推广监测(Beta)
    • 项目管理
      • 项目概览
      • 项目角色管理
      • 项目成员管理
      • 数据接入管理
        • 埋点方案
        • 可视化埋点
        • 集成SDK接入数据
        • 数据验证
        • 用户数据导入
      • 元数据管理
        • 元事件
        • 虚拟事件
        • 事件属性
        • 用户属性
        • Session 管理
        • 页面组管理
        • 维度表
      • 服务集成配置
      • 监控告警
        • 智能监控
        • 自定义监控
    • 平台管理
      • 企业概览
      • 项目管理
      • 成员管理
      • 安全设置
      • 企业设置
      • 日志管理
      • 帐号设置
  • 🐵Part II 技术文档
    • 技术接入准备工作
      • 部署环境检测工具
      • 数据模型
      • 数据格式
      • 预置事件和属性
        • App预置事件/属性
        • JS 预置事件/属性
      • 如何准确识别用户
      • 如何设计埋点方案
      • 分平台上报数据 vs 跨平台打通
    • SDK 指南
      • Android SDK
        • 快速集成
        • 全埋点模块
        • 消息推送模块
        • Android Hybrid模式
        • SDK Gradle集成方式
        • 多渠道打包
        • 易观小工具
        • 合规相关
      • iOS SDK
        • 快速集成
        • 全埋点介绍
        • iOS Hybrid模式
        • 消息推送模块
      • JS SDK
        • 快速集成
        • JS SDK基础版
        • JS SDK插件
      • 微信小程序 SDK
        • 快速集成
        • 微信小程序标准版
        • 微信小程序插件版
        • 微信小程序通用框架版
      • 支付宝小程序 SDK
        • 支付宝小程序标准版
        • 支付宝小程序通用框架版
      • 字节跳动小程序 SDK
        • 字节跳动小程序标准版
        • 字节跳动小程序通用框架版
      • 百度小程序 SDK
        • 百度小程序标准版
        • 百度小程序通用框架版
      • 钉钉小程序 SDK
        • 钉钉小程序标准版
        • 钉钉小程序通用框架版
      • QQ小程序 SDK
        • QQ小程序标准版
        • QQ小程序通用框架版
      • 快应用 SDK
      • 华为WeCode小程序
        • WeCode SDK 标准版
        • WeCode SDK插件
      • PhoneGap SDK
      • mPaaS SDK
      • ReactNative SDK
      • Flutter SDK
      • Java SDK
      • Python SDK
      • PHP SDK
      • C++ SDK
      • C# SDK
      • Node JS SDK
      • Lua SDK
      • Golang SDK
      • SDK FAQ
        • identify与alias的区别
        • 爬虫数据如何识别?
        • 页面停留如何获取时间?
        • 如果获取SDK及更新日志
        • 代码埋点和无埋点有什么区别
        • Web页面中发现丢失某一个事件
        • 自研 SDK 注意事项
        • 页面时长统计功能
    • 数据验证
      • 客户端埋点验证
      • Debug 数据验证
      • 数据入库验证
    • 数据导入
      • 接口导入
      • JAVA工具包
        • 标准json文件导入
        • csv格式导入
      • 数据导入FAQ
    • 数据导出
      • JAVA工具包
        • 事件数据导出
        • 用户数据导出
      • 直接从Kafka中消费数据
      • 使用程序访问数据库
    • 脚本工具
    • API
      • 分析API
        • 事件分析
        • 留存分析
        • 转化漏斗
        • 属性分析
        • Session分析
        • 渠道分析
        • 分布分析
        • 自定义查询
      • 用户API
        • 分群查询
        • 用户档案
        • 分群管理
      • 管理API
        • 权限管理
        • 元数据管理
        • 埋点方案管理
        • 维度表管理
      • 运营API
        • 广告跟踪
      • 平台管理API
        • 项目管理
        • 成员管理
    • 第三方登录
      • OAuth2.0登录
      • LDAP登录
    • GDPR 合规
  • �� Part III 常见问题
    • License 许可
    • 产品试用及采购
    • 参与贡献
由 GitBook 提供支持
在本页
  • 识别爬虫的正则表达式
  • 常见的爬虫来源

这有帮助吗?

  1. Part II 技术文档
  2. SDK 指南
  3. SDK FAQ

爬虫数据如何识别?

上一页identify与alias的区别下一页页面停留如何获取时间?

最后更新于4年前

这有帮助吗?

易观方舟JS SDK 会根据数据中的 UA 信息来识别的是上报的事件是否是爬虫产生的,方便在分析时根据事件中的爬虫属性来过滤掉这部分非真实用户产生的数据。

识别爬虫的正则表达式

`/(bot|crawler|spider|scrapy|dnspod|ia_archiver|jiankongbao|slurp|transcoder|networkbench|oneapm|PhantomJS|BingPreview)/i`

常见的爬虫来源

  1. 百度:Baiduspider Mozilla/5.0 (compatible; Baiduspider/2.0;+)

  2. 百度图片:Baiduspider-image+(+)

  3. 百度PC: Mozilla/5.0 (compatible; Baiduspider-render/2.0; +

  4. 百度移动端:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +)

  5. 谷歌:Googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +)

  6. Google图片:AdsBot-Google-Mobile (+) Mozilla (iPhone; U; CPU iPhone OS 3 0 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile Safari

  7. 360蜘蛛:360Spider 360搜索 Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);

  8. 360网站安全:360spider ()

  9. Bing爬虫: bingbot Mozilla/5.0 (compatible; bingbot/2.0; +)

  10. 腾讯搜搜蜘蛛:Sosospider Sosospider+(+)

  11. 搜搜图片: Sosoimagespider+(+)

  12. 雅虎蜘蛛:Yahoo! 雅虎英文 Mozilla/5.0 (compatible; Yahoo! Slurp; )

  13. 雅虎中国:Mozilla/5.0 (compatible; Yahoo! Slurp China; )

  14. 有道蜘蛛:YoudaoBot Mozilla/5.0 (compatible; YoudaoBot/1.0; ; )

  15. 搜狗蜘蛛:Sogou News Spider Sogou web spider/4.0(+)

  16. 搜狗图片:Sogou Pic Spider/3.0(+)

  17. 瑞典 Speedy Spider: Speedy Spider Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider ()

  18. 俄罗斯 yandex : YandexBot Mozilla/5.0 (compatible; YandexBot/3.0; +)

  19. MSN蜘蛛:msnbot/msnbot-media msnbot/1.1 (+)

  20. 必应蜘蛛:bingbot/compatible Mozilla/5.0 (compatible; bingbot/2.0; +)

  21. 听云爬虫:networkbench Mozilla/5.0 (Windows NT 10.0; Trident/7.0; rv: 11.0;NetworkBench/-5774440-2481662) like Gecko

  22. Alexa蜘蛛:ia_archiver ia_archiver/8.9 (Windows NT 3.1; en-US;)

  23. 宜sou蜘蛛:EasouSpider Mozilla/5.0 (compatible; EasouSpider; +)

  24. 华为赛门铁克蜘蛛:HuaweiSymantecSpider HuaweiSymantecSpider/1.0+DSE-; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR ; )

  25. 七牛镜像蜘蛛:qiniu qiniu-imgstg-spider-1.0

  26. DNSPod监控:DNSPod DNSPod-Monitor/2.0

  27. 俄罗斯 LinkpadBot:LinkpadBot Mozilla/5.0 (compatible; LinkpadBot/1.06; +)

  28. 英国 MJ12bot:MJ12bot Mozilla/5.0 (compatible; MJ12bot/v1.4.0; )

  29. 即刻蜘蛛:JikeSpider

  30. 一淘网蜘蛛:EtaoSpider Mozilla/5.0 (compatible; EtaoSpider/1.0; EtaoSpider)

  31. 人工智能爬虫:crawler Mozilla/5.0 (compatible; 008/0.83; ) Gecko/2008032620

  32. Scrapy爬虫: scrapy

  33. 监控宝:jiankongbao Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; JianKongBao Monitor 1.1)

  34. OneAPM爬虫:OneAPM FFAgent Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0: OneAPM FFAgent)Gecko/20100101 Firefox/39.0

  35. PhantomJS:PhantomJS Mozilla/5.0 (Unknown; Linux x86_64)AppleWebKit/538. 1 (KHTML,like Gecko)PhantomJS/2.1.1 Safari/538.1

  36. BingPreview:Mozilla / 5.0 + (Windows + NT + 6.1; + WOW64) + AppleWebKit / 534++(KHTML, +like + Gecko) + BingPreview / 1.0 b

🐵
http://www.baidu.com/search/spider.html
http://www.baidu.com/search/spider.htm
http://www.baidu.com/search/spider.html
http://www.baidu.com/search/spider.html
http://www.google.com/bot.html
http://www.google.com/mobile/adsbot.html
http://webscan.360.cn
http://www.bing.com/bingbot.htm
http://help.soso.com/webspider.htm
http://help.soso.com/soso-image-spider.htm
http://help.yahoo.com/help/us/ysearch/slurp
http://misc.yahoo.com.cn/help.html
http://www.youdao.com/help/webmaster/spider/
http://www.sogou.com/docs/help/webmasters.htm#07
http://www.sogou.com/docs/help/webmasters.htm#07
http://www.entireweb.com/about/search_tech/speedy_spider/
http://yandex.com/bots
http://search.msn.com/msnbot.htm
http://www.bing.com/bingbot.htm
8.0.1.309
http://www.easou.com/search/spider.html
support@huaweisymantec.com+(compatible
http://www.huaweisymantec.com/cn/IRL/spider
http://www.linkpad.ru
http://www.majestic12.co.uk/bot.php?+
http://www.80legs.com/webcrawler.html