Skip to content

m.byr.cn 的爬虫,全量爬取和增量爬取,使用mongo和redis。en.wikipedia.org部分内容爬取

Notifications You must be signed in to change notification settings

wxyBUPT/byrSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

byrSpider

因为爬虫都是一类项目,故将写过的所有爬虫都放在这里

当前目录

当前目录的爬虫为对北邮人论坛的爬取,如果不做任何改变想让代码运行,需要配置好redis和mongo环境,爬虫为有状态的爬取,即一次启动会完成上次未完成的爬取,主要借助于redis

wikipedia

本目录为帮同学完成的en.wiki.org 的爬取,获取所有到特定页面的路径,使用了内缓存,同样的页面不会多次爬取,遇到环能够智能从新的页面开始

About

m.byr.cn 的爬虫,全量爬取和增量爬取,使用mongo和redis。en.wikipedia.org部分内容爬取

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages