Digger是用纯Golang开发的配置式分布式跨平台爬虫系统,支持使用Javascript编写插件来实现各种你想要达到的目标。Digger及相关组件能够以极低的资源开销运行在各种廉价服务器和开发板上,如树莓派。
Digger没有复杂的依赖,部署十分简单,支持Linux和Windows平台,目前支持的CPU架构有:amd64
, arm
, arm64
您可以在 Demo演示环境 快速体验功能。
由于资源有限,请合理使用演示环境,定时任务会在每天0点清理数据。
支持使用Css选择器和Xpath选择器
支持多种结果类型:plain text,html,array等
web在线调试爬虫配置,精准定位问题
支持插件功能
实时浏览爬虫日志
结果在线浏览、导出,一键生成数据库schema(postgres和mysql)
定时任务
支持暂停任务
分布式worker实例,有效避免爬虫被block
支持任务和worker标签匹配调度功能
支持配置导入导出
邮件通知功能
钉钉通知功能(TODO)
DiggerHub支持爬虫配置分享(TODO)