天眼查是一个可以查询企业信息的网站,如果我们想把上面的数据都抓取下来,要怎么做呢?
除了可以用python 这种高级工具,我们还可以用一款chrome 插件来解决。这个插件的名字是:Web Scraper。
![image.png](https://i.typlog.com/jikeyoumin/8369952091_900872.png)
比如我想抓取含有“机器人”关键词的企业,先搜索一下:
![image.png](https://i.typlog.com/jikeyoumin/8369952064_577374.png)
可以看到这张图中和机器人相关的企业非常多,有100000+ 之多,那么把这些企业都下载到本地,包括企业名称,法人,电话。
打开chrome 的开发者工具中,可以看到Web Scraper 插件。
1、先新建你要抓取的项目名称,URL 就是搜索页的网址。
![image.png](https://i.typlog.com/jikeyoumin/8369952007_36129.png)
![image.png](https://i.typlog.com/jikeyoumin/8369951985_795729.png)
填好后,点击“Create Sitemap” 创建。
2、接着,开始抓取第一步,选择你要抓取的大框架。
![image.png](https://i.typlog.com/jikeyoumin/8369951907_684494.png)
![image.png](https://i.typlog.com/jikeyoumin/8369951880_541172.png)
id,随便写个名字 Type:数据类型,选择“Element”,元素
![image.png](https://i.typlog.com/jikeyoumin/8369951866_3827095.png)
Multiple:打勾。因为我们要选择多个元素。
Delay:2000。模拟人工操作,设置延时。
点击“Select”,开始选择网页中要抓的部分。
![image.png](https://i.typlog.com/jikeyoumin/8369951851_81705.png)
框选中2个,才能自动把下面的同类型的框都选中。
![image.png](https://i.typlog.com/jikeyoumin/8369951159_120091.png)
![image.png](https://i.typlog.com/jikeyoumin/8369951789_006134.png)
然后保存。
![image.png](https://i.typlog.com/jikeyoumin/8369951755_466978.png)
3、大框架选择好了以后,就开始选择你真正要抓取的那几项了。
点进去,新建小的选择项,
![image.png](https://i.typlog.com/jikeyoumin/8369951742_557858.png)
点击“Add new selector”
![image.png](https://i.typlog.com/jikeyoumin/8369951725_35282.png)
id:要抓取的项名字 Type:Text。选择文本。 如何就是选择你要抓的内容了,见下图
![image.png](https://i.typlog.com/jikeyoumin/8369951703_056136.png)
黄色框是之前的大框架,红色框就是要选择的内容,点中。
保存。这样公司名这一项就选择好了。
![image.png](https://i.typlog.com/jikeyoumin/8369951686_137259.png)
还要抓取法人和联系方式,继续新建。
![image.png](https://i.typlog.com/jikeyoumin/8369951664_2857.png)
![image.png](https://i.typlog.com/jikeyoumin/8369951651_473736.png)
建好了,如下:
![image.png](https://i.typlog.com/jikeyoumin/8369951633_439738.png)
4、大功告成,开始抓取吧。
![image.png](https://i.typlog.com/jikeyoumin/8369951620_435528.png)
start scraping 。程序就自动开始抓取了,会弹出一个抓取的窗口。
![image.png](https://i.typlog.com/jikeyoumin/8369951590_847359.png)
这是程序的小bug ,刷新refresh 。
![image.png](https://i.typlog.com/jikeyoumin/8369951546_123744.png)
结果展示出来了,可以选择导出。
![image.png](https://i.typlog.com/jikeyoumin/8369951517_058341.png)
导出格式为CSV 。
![image.png](https://i.typlog.com/jikeyoumin/8369951502_34276.png)
![image.png](https://i.typlog.com/jikeyoumin/8369951490_509657.png)
点击Download 下载数据表。
![image.png](https://i.typlog.com/jikeyoumin/8369951474_626433.png)
ok,这就是用Web Scraper 抓取天眼查数据的过程。