IT人力外包人才简历库

返回列表

数据采集工程师

驻场外包人员
工作年限:1年 意向城市:杭州 浏览:1次 发布时间:近期

技能标签

HTTP请求 数据提取 正则表达式 XPath解析 数据库操作 爬虫框架 反爬策略 文本处理 分布式采集 Session管理 验证码识别 请求频率控制 数据结构化 网络协议分析 异常处理

专业技能

精通HTTP请求库(Requests/Urllib)与分布式爬虫框架(Scrapy),熟练掌握数据提取技术(正则表达式/XPath/BeautifulSoup),具备MySQL与SQLite数据库操作能力,熟悉文本数据清洗与结构化处理,掌握反爬虫策略应对方案,具备多平台数据采集系统开发经验

工作履历(脱敏处理)

专注数据采集系统开发与维护,主导多个数据采集项目实施。设计并实现豆瓣电影排行榜采集系统,攻克反爬机制与验证码识别难题;开发微博内容采集模块,完成动态Token处理与Session保持;搭建笔趣阁小说采集平台,解决动态加载内容解析问题;优化腾讯新闻采集系统,实现IP代理与请求频率控制。持续优化采集策略,提升数据采集效率与稳定性,保障数据质量与系统可靠性。

项目经验(脱敏处理)

1. 豆瓣电影排行榜采集:使用Requests实现请求头伪装与参数加密,通过XPath解析HTML结构,结合正则表达式提取影片信息,解决反爬虫机制下的数据抓取问题。

2. 微博内容采集:开发基于Session的登录模块,处理动态Token生成与验证,实现用户关注内容的持续采集与数据存储。

3. 笔趣阁小说采集:采用Selenium模拟浏览器操作,解析动态加载的章节内容,构建小说章节结构化存储方案。

4. 腾讯新闻采集:设计分布式采集架构,实现IP代理池管理与请求频率控制,应对复杂的反爬虫策略,保障数据采集稳定性。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

1年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

微信咨询二维码

扫描二维码添加商务对接

立即申请人才对接