IT人力外包人才简历库

返回列表

数据采集工程师

驻场外包人员
工作年限:2年 意向城市:杭州 浏览:1次 发布时间:近期

技能标签

Python Scrapy Pyppeteer Linux MongoDB Redis Requests 正则表达式 分布式爬虫 反爬虫技术 数据清洗 自动化测试 Shell脚本 数据库优化 网络协议分析 浏览器自动化

专业技能

精通 Linux 系统操作与 Shell 脚本编写,熟练掌握 HTML/CSS/JavaScript 前端技术栈,熟悉 Ajax/JQuery 动态交互机制。精通关系型数据库(MySQL)与非关系型数据库(MongoDB/Redis)的架构设计与调优,深入理解 Cookie 机制与网站登录原理。熟练使用 lxml/XPath/JSON/正则表达式进行结构化数据提取,精通 Requests 模块与 Scrapy 框架开发,掌握 Scrapy-Redis 分布式爬虫架构。熟悉 Pyppeteer 框架实现浏览器自动化,具备反爬虫策略破解能力(包括滑块验证绕过)。熟悉分布式任务调度、IP 池构建及 User-Agent 池管理技术。

工作履历(脱敏处理)

主导电商平台数据采集系统开发,设计基于 Scrapy-Redis 的分布式爬虫架构,实现日均百万级数据抓取。开发浏览器自动化模块,成功破解淘宝滑块验证机制,提升数据采集效率300%。构建动态 IP 池与 User-Agent 池系统,有效规避反爬虫策略,降低被封禁风险。设计数据清洗流程,通过正则表达式与 JSON 解析技术实现结构化数据存储,支撑业务端数据可视化分析。优化数据库索引与查询语句,使数据存储效率提升40%。

项目经验(脱敏处理)

基于 Pyppeteer 开发电商平台自动化登录系统,通过浏览器指纹模拟实现淘宝滑块验证绕过,建立稳定 Cookie 机制。构建分布式爬虫架构,集成 Scrapy-Redis 实现任务分发与结果聚合,支持多节点并行采集。开发反爬虫解决方案,结合 IP 池、User-Agent 池及请求间隔控制,有效应对目标网站的封禁策略。设计数据采集流程,使用 XPath 与正则表达式提取商品信息,通过 MongoDB 存储结构化数据并导出 CSV 文件。实施数据监控系统,实时分析商品价格趋势,为促销策略提供数据支撑。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

2年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

微信咨询二维码

扫描二维码添加商务对接

立即申请人才对接