1、负责公司数据采集需求对接和采集方案设计工作;
2、根据业务需求设计并开发分布式爬虫系统,对不同网站上的多源异构数据进行抓取,同时进行必要的数据清洗、处理、去重等操作;
3、研究各类反爬机制(如验证码、滑块等)与防屏蔽机制(如代理池、模拟登录等),并形成一套可复用的组件、工具,提高系统的稳定性、成功率;
4、对爬虫系统进行定期维护,确保程序正常运行、数据正常获取;
5、参与大数据平台产品的建设,专注于垂直领域数据抓取;
6、积极主动思考探索爬虫在实际业务中的价值,参与设计数据有效利用策略,从数据合理性、完整性角度提供建议。
任职要求
1、 本科及以上学历,计算机相关专业,3年以上爬虫开发工作经验;
2、 熟悉linux、docker部署,掌握常用的操作命令 ;
3、 能够独立解决封账号、封IP、验证码、字体反爬等问题;
4、 熟悉html/css/xpath/ajax/xml等技术,熟悉HTTP传输协议,精通网页/App/小程序等抓取原理和整合技术,熟悉正则表达式和xpath解析,有验证码识别技术数据抓取经验者优先;
5、 熟练掌握Python语言,熟悉常用爬虫框架,如Scrapy、pyspider等;
6、 熟练掌握Mysql、Oracle等关系型数据库,熟悉Redis、MongoDB等非关系型数据库;
7、 具备一定的文案能力,能够通过图文结合方式清晰展现分析成果;
8、 能够与人融洽相处,善于团队合作。
公司介绍
山东辰华科技信息有限公司(简称辰华科技)2013年始建于泉城济南,是一家致力于科技服务业与大数据、云计算及人工智能等新一代信息技术深度融合、创新与应用的高成长型国家高新技术企业。公司主导业务包括企业战略咨询、项目咨询、财税咨询、知识产权服务、科技成果转移转化及科技资源管理大数据平台定制开发等。
公司组织机构健全、管理规范,现有员工150余人,研究生以上学历人员近20%。历经多年创新发展,辰华科技现包含有科技信息公司、专利代理公司及数据科技公司,已形成科技咨询服务、知识产权服务及其大数据管理平台开发等业务融合共进发展新业态。
作为科技服务新业态引领者,公司属国家高新技术企业、山东省级“专精特新”企业、济南市瞪羚企业、山东省级技术转移服务机构、山东省大数据协会副会长单位、济南市科技服务业联盟副理事长单位、济南市工业互联网创新联盟成员单位等,相继获评“影响济南”科技人物、“山东优质品牌服务”、“山东省服务业高端品牌培育企业”等,2021年入选山东民营企业创新100强。
公司组织机构健全、管理规范,现有员工150余人,研究生以上学历人员近20%。历经多年创新发展,辰华科技现包含有科技信息公司、专利代理公司及数据科技公司,已形成科技咨询服务、知识产权服务及其大数据管理平台开发等业务融合共进发展新业态。
作为科技服务新业态引领者,公司属国家高新技术企业、山东省级“专精特新”企业、济南市瞪羚企业、山东省级技术转移服务机构、山东省大数据协会副会长单位、济南市科技服务业联盟副理事长单位、济南市工业互联网创新联盟成员单位等,相继获评“影响济南”科技人物、“山东优质品牌服务”、“山东省服务业高端品牌培育企业”等,2021年入选山东民营企业创新100强。

