PRODUCT
中国电信广西公司政企营收同比增加25%中国电信广西公司政企营收同比增加25%
一、项目名称
中国电信广西省互联网数据采集项目
二、建设背景
聚焦商机预测、重点专题等核心应用需要,在已有的政企大数据能力体系基础上,扩充企业工商信息、酒店信息等数据源,探索多类型互联网数据整合、异构数据源整合解决方案,为核心能力建设打好数据基础,为重点模型、精益外呼、交叉营销等提供更全面的数据支撑。
三、建设目标
聚焦省政企事业部重点行业解决方案,持续夯实数据基础能力,部署互联网数据爬虫能力,采集全省企业工商数据和经营酒店信息,补全企业和酒店经营数据。
提高潜在商机/新注册企业识别度,支撑省公司政企部在商机跟踪率和转化率的考核工作。
通过企业经营业务范围识别以及招投标实体识别,实现工商企业客户的精准识别,提升潜在客户的挖掘精准性。
三、总体建设方案
1、建设思路:
部署分布式爬虫能力,满足用户互联网上灵活采集所需的酒店信息、企业信息,提供可配置化的简易操作前台界面,使用户快速操作和执行数据采集任务。
2、建设方案
开发酒店/企业信息自动化采集模块:封装爬虫基础功能(抗反爬策略、网站页面元素自动存储、采集监控等),定制采集任务可配置化前台,可提供条件配置,自动采集目标数据。
酒店信息自动化采集模块:封装目标数据源网站(去哪儿、携程、艺龙酒店)页面解析规则,可快速配置所需的数据范围(采集省份、采集地市)、任务执行时间、采集频次等条件。
企业信息自动化采集模块:封装目标数据源网站(天眼查)页面解析规则,可快速配置所需的数据范围(企业关键词、地市、注册时间、企业状态、行业分类)、任务执行时间、采集频次等条件。
检查更新引擎:定期更新采集目标数据源,逐步累积增量数据,与资源池比对,监测互联网数据变动,保障数据一致性。
四、应用效果
系统上线后已在广西电信大数据中心使用,已成为互联网数据采集的标准工具,定期采集数据实时下发到政企部门和分公司,数据质量得到了使用者的一致好评。解决了“数据服务能力跟不上分公司业务需求的增长”难题,实现了数据实时更新实时采集实时使用的全新政企营销流程,为政企客户的营收提升提供了强有力的支撑。截至目前,已采集200W+条企业数据和1W+条酒店数据,从中挖掘新商机300+条,政企客户营收同比前一个年度增长25%。
五、客户评价
爬虫工具轻量化部署,运算效率高,节省环境资源;配置界面人性化,操作简易,非技术人员也能轻松操作,大大节省了人力。网站界面规则解析技术先进,可准确过滤无效数据,萃取关键信息,数据质量得到了运维和市场部门数据使用者及领导的高度赞扬。