集搜客爬取数据全过程—招聘数据案例分析
1、明确目标
- 爬取杭州地区数据分析岗位的相关招聘情况
2、分析情况
- 结合集搜客网站教程和招聘网站的页面分析之后,发现了以下问题
- 1、从招聘网站主页上进行岗位搜索和地区定位后,所有岗位以列表形式排列
- 2、点击岗位之后才能进入到更加详细的岗位详情页面,获取详细信息。
- 3、数据量肯定是不止一页,要想采集完整,要翻页采集至最后一页。
3、具体操作
- 结合上述的情况采取以下三个步骤进行
- 采集列表数据
- 设置翻页采集
- 采网址进行层级采集
3.1采集列表数据
- 采集列表数据是对网页上的所有列表进行采集,网站教程参考 https://www.gooseeker.com/doc/article-330-1.html
- 首先是进行规则的设定,选取需要采集的基本信息;
- 将一个样本的规则做好后,进行样例复制;点击第一个样例里的任一内容,可以看到,在下面的DOM窗口,光标自动定位到了一个节点,右击这个节点,选择 样例复制映射→第一个。然后,点击第二个样例里的任一内容,同样,在下面的DOM窗口,光标自动定位到了一个节点,右击这个节点,选择 样例复制映射→第二个。
- 样例复制完成后进行测试,确保数据显示无误。如果显示出现错误,可以调整定位信息进行尝试。
- 该网页上列表信息就会采集完毕。
3.2 设置翻页采集
- https://www.gooseeker.com/doc/article-334-1.html
- 采集的列表数据仅仅是采集了一页的信息,网站上的内容不仅仅是一页,这个时候要设置翻页,让他连续采集。
- 关键步骤两个:选定翻页区,设定翻页标记
- 设定翻页标记时要注意,翻页标记是> 符号还是“下一页”,不同的翻页标志,需要定位的位置不同。
3.3 层级采集
https://www.gooseeker.com/doc/article-343-1.html
- 由于列表中采集到的数据无法满足我对于数据的需要,所以还需要进一步点入岗位详情的链接进行采集。
- 在刚刚设定的第一级规则中找到进入到下级网页的链接,设定为下级,此时要设定第二层级的整理箱名称,务必记住。进行测试,测试无误后,保存规则。
- 切换网页的浏览状态,进入到第二层级定义规则,整理箱名称必须与刚刚设定的保持一致,定义好规则后,测试。
需要重点关注的细节
- 1、翻页设置
- 我之前准备爬取boss直聘的数据,但是由于boss的翻页区是 > 符号,在设置翻页的时候总是有问题,于是更换为与网站教程同步的“下一页”翻页标志
- 2、样例复制
- ,切记做好一个完整的样本再进行复制,否则会导致采集到的数据不完整。
- 3、第二层级数据抓取
- 由于第二层级的数据抓取时间很慢,所以为保证正确性,建议先采用集搜采集少量数据查看。
- 4、第二层级整理箱名称
- 第一层级的链接设定是与第二层级的链接,此处设定下级名称的时候要记清,保证设定第二层级的整理箱名称与此相同,才能将一级数据传输到二级数据。
- 5、修改规则
- 想要修改规则的话,可以打开工作台,点击【搜规则】,找到要修改的主题名称,右键加载,加载完成后点击【规则】后续分析,找到之前定义的规则进行修改。