通过学习使用网络爬虫工具获取行业客户数据,掌握采集方法和Xpath表达式,能够熟悉爬虫的使用方法和基础的数据清洗方法。
晴空科技有限公司是一家专注于移动端数据监测和分析的第三方平台。公司总部位于北京,旗下产品覆盖移动广告效果监测、用户行为分析、广告素材洞察、广告防作弊等领域,为行业客户提供流畅、安全、高效、便捷的数据分析及决策服务,让数据创造出更高的价值。晴空科技在大数据系统采集技术、数据挖掘算法、用户行为分析建模及数据应用领域拥有非常丰富的行业经验。凭借强健、稳定、可靠和安全的系统和及时的服务,赢得了众多行业客户的信赖。
最近公司的某个项目需要收集本地搜网站上江苏企业的信息,假如你是公司的爬虫工程师,请利用公司的网络爬虫工具,完成企业信息的收集,每次采集企业信息数据为50。
需要采集的信息有:
1.公司名称
2.联系人
3.联系电话
在网页信息爬取过程中,想要批量地获取网页中公司的有效信息,需要寻找公司列表页,从公司列表页中提取公司详情页的链接。获取公司详情页链接后,便可以通过Xpath获取公司页面中的具体字段信息。
列表页多是用分页的形式展现,因此首先需要查看不同列表页的GET请求地址,总结列表页请求规律。比如本地搜公司第二列表页的GET请求地址参数为“page=2”,第三列表页的请求地址参数为“page=3”,则可以构造GET访问地址来请求多个列表页。在该公司的爬虫工具中,通过使用分页变量“[page]”来构造。
内容页需要收集的字段,可以通过浏览器的F12检查元素模式,获取FullXpath表达式。获取相应的信息后,通过爬虫工具的删除和修改功能,完成收集数据的清晰工作。