Skip to content

Latest commit

 

History

History
14 lines (6 loc) · 562 Bytes

README.md

File metadata and controls

14 lines (6 loc) · 562 Bytes

byrSpider

因为爬虫都是一类项目,故将写过的所有爬虫都放在这里

当前目录

当前目录的爬虫为对北邮人论坛的爬取,如果不做任何改变想让代码运行,需要配置好redis和mongo环境,爬虫为有状态的爬取,即一次启动会完成上次未完成的爬取,主要借助于redis

wikipedia

本目录为帮同学完成的en.wiki.org 的爬取,获取所有到特定页面的路径,使用了内缓存,同样的页面不会多次爬取,遇到环能够智能从新的页面开始