byrSpider 因为爬虫都是一类项目,故将写过的所有爬虫都放在这里 当前目录 当前目录的爬虫为对北邮人论坛的爬取,如果不做任何改变想让代码运行,需要配置好redis和mongo环境,爬虫为有状态的爬取,即一次启动会完成上次未完成的爬取,主要借助于redis wikipedia 本目录为帮同学完成的en.wiki.org 的爬取,获取所有到特定页面的路径,使用了内缓存,同样的页面不会多次爬取,遇到环能够智能从新的页面开始