上海数据采集与分析工程师 - 外包人才简历详情

数据采集与分析工程师

驻场外包人员

工作年限：2年意向城市：北京浏览：1次发布时间：近期

技能标签

Python开发爬虫技术分布式系统数据库优化反爬策略数据清洗机器学习网络协议 XPath解析正则表达式

专业技能

精通分布式爬虫架构设计，掌握Scrapy、Apache Nutch等开源框架原理及调优策略。熟练运用Python进行数据清洗与特征工程，具备机器学习模型构建经验。深入理解MySQL与MongoDB数据库优化技术，擅长索引设计与查询性能调优。熟悉网络协议与反爬机制，精通正则表达式、XPath等数据解析技术。

工作履历（脱敏处理）

主导某互联网科技公司数据采集项目，设计分布式爬虫架构，实现微信公众号、豆瓣读书等多源数据采集，日均处理数据量达50万条。优化数据存储方案，通过分库分表设计提升查询效率30%。开发反爬策略模块，成功突破目标网站的IP封禁机制。参与构建数据清洗流水线，采用Pandas进行数据标准化处理，数据准确率提升至99.8%。

项目经验（脱敏处理）

【微信公众号数据采集系统】基于微信公众号开放平台API开发分布式爬虫，采用Scrapy-Redis实现任务分发与结果存储。设计动态请求拦截机制，通过模拟浏览器指纹和IP代理池突破反爬限制。采用MongoDB分片集群存储数据，通过分库分表策略提升查询性能。项目成果支持多搜索引擎扩展，日均采集数据量达10万条，数据准确率99.5%。

【豆瓣读书数据采集与分析】构建基于Scrapy的豆瓣读书爬虫系统，实现图书信息抓取与评分排序。开发数据清洗模块，采用正则表达式与XPath进行结构化处理。设计Excel存储方案，通过pandas实现数据透视分析，输出图书推荐榜单。项目成果支持多维度数据筛选，数据处理效率提升40%。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

2年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求，欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

扫描二维码添加商务对接

立即申请人才对接

IT人力外包人才简历库