智能信息抓取后端系统
项目简介:
使用了以下相关的技术:
主要功能:
我负责的部分:
web爬虫的设计与开发 该通用爬虫系统满足多种形式的的内容爬取,采用分布式任务队列Celery,每小时的爬取次数达50万+次,保证1.5万+的数据源,每个数据源在一分钟内至少能被抓取1-3次。
微信爬虫的设计与开发 微信爬虫系统可以同时容纳5个微信爬虫同时进行数据爬取,即能同时监控5000个公众号,实时地获取公众号推送。
正文爬虫的设计与开发以及优化
独立爬虫的开发
后续小组人员变动主动接管智能信息抓取后端系统,承担主要开发责任,以及负责项目维护和优化,掌握整个智能信息爬取后端系 统的运作流程,以及技术开发难点。
智能文章拼接系统
使用了以下相关的技术:
后端web框架:Django
主要功能:
我负责的部分:
原创文章转载监控系统
使用了以下相关的技术:
主要功能:
我负责的部分: