模拟拉勾app系列---python爬虫系列
本项目是本人在闲暇时间编写的一个初级引导项目,麻雀虽小五脏俱全,所使用的东西绝大多数在开发中都能用得到,但难免会存在很多地方需要完善。
由于近期要备战法考,且工作繁忙,没有时间维护,还存在很多BUG或需要优化的地方,希望多多提出(有空了就改),当然能给个star什么的就更好了.
为了方便访问,也加入了mock数据,但不是很全,若需要完整体验,请按照下方步骤实现。
前端项目由Vue框架编写,其余部分涉及到node、python等可移至下方项目或自行查阅。
职位数据爬取√公司数据爬取√评论数据爬取√用户数据爬取√文章数据爬取√话题数据爬取√城市及地铁数据爬取√数据格式化及相应处理√
前端:
- vue全家桶
- es6
- scss
- mint-ui
- mockjs
- jquery
转发服务器:
- node
- express
实际api服务器:
- python3
- mongodb
爬虫:
- python3
ps:还有更多的设置就不截图了,有点大,有兴趣的clone下去看看吧
前端地址:https://github.com/qianbin01/lagou_vue
代理api地址:https://github.com/qianbin01/lagou_node
api地址:https://github.com/qianbin01/lagou_python_api
爬虫地址:https://github.com/qianbin01/lagou_spider
ubuntu 16.04
必备步骤:
- 运行爬虫项目
- 运行python-api项目
- 运行node-api转发项目
- 运行本项目
本项目步骤:
- git clone https://github.com/qianbin01/lagou_spider.git
- cd lagou_spider
- pip install -r requirements.txt
- 搭建mongodb服务
- 修改代理服务器ip,如何自搭代理服务器戳 这里
- 根据不同系统设置定时任务
schtasks语法:schtasks /create /tn 设定定时运行的名字 /tr “运行程序” /sc daily /st时间
demo:
schtasks /create /tn 定时运行 /tr "notepad" /sc daily /st 12:30(12:30时运行记事本)
crontab –e 设置
crontab –l 查看
cmd:
分 时 天 周 月 命令(*代表当前单位的所有时间)
* * * * * command
每天9点运行一次语句为:
0 9 * * * /usr/bin/python3 /home/qb/do_something.py
- 测试地址: http://114.67.151.31:5010 (单机勿压。感谢)
- ps:拉勾头条的地址找不到,暂用36kr代替
知乎专栏:https://zhuanlan.zhihu.com/c_1010582778160779264
掘金:https://juejin.im/user/5b8291bce51d4538ab043911
思否:https://segmentfault.com/u/qishidexinxin
希望对大家有帮助
大佬们赞助一波续费服务器吧
MIT