Jan 07, 2019

用爬虫抓取天眼查数据

天眼查是一个可以查询企业信息的网站，如果我们想把上面的数据都抓取下来，要怎么做呢？

除了可以用python 这种高级工具，我们还可以用一款chrome 插件来解决。这个插件的名字是：Web Scraper。

比如我想抓取含有“机器人”关键词的企业，先搜索一下：

可以看到这张图中和机器人相关的企业非常多，有100000+ 之多，那么把这些企业都下载到本地，包括企业名称，法人，电话。

打开chrome 的开发者工具中，可以看到Web Scraper 插件。

1、先新建你要抓取的项目名称，URL 就是搜索页的网址。

填好后，点击“Create Sitemap” 创建。

2、接着，开始抓取第一步，选择你要抓取的大框架。

id，随便写个名字 Type：数据类型，选择“Element”，元素

Multiple：打勾。因为我们要选择多个元素。

Delay：2000。模拟人工操作，设置延时。

点击“Select”，开始选择网页中要抓的部分。

框选中2个，才能自动把下面的同类型的框都选中。

然后保存。

3、大框架选择好了以后，就开始选择你真正要抓取的那几项了。

点进去，新建小的选择项，

点击“Add new selector”

id：要抓取的项名字 Type：Text。选择文本。如何就是选择你要抓的内容了，见下图

黄色框是之前的大框架，红色框就是要选择的内容，点中。

保存。这样公司名这一项就选择好了。

还要抓取法人和联系方式，继续新建。

建好了，如下：

4、大功告成，开始抓取吧。

start scraping 。程序就自动开始抓取了，会弹出一个抓取的窗口。

这是程序的小bug ，刷新refresh 。

结果展示出来了，可以选择导出。

导出格式为CSV 。

点击Download 下载数据表。

ok，这就是用Web Scraper 抓取天眼查数据的过程。

极客游民

All rights reserved

Except where otherwise noted, content on this page is copyrighted.

Read This

如何从知乎引流

Archive

Powered by Typlog