爬虫 (计算机网络)

网络爬虫（Crawler）又称网络蜘蛛，或者网络机器人（Robots）。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。换句话来说，它可以根据网页的链接地址自动获取网页内容。如果把互联…

管理

切换为时间排序

网络爬虫-基本库-正则表达式的使用和理解-04

统计猿

学负五车

本节主要是想讲解关于网络爬虫的HTTP基本库以及一些正则知识,帮助我们更好的模拟用户请求和爬虫数据结构，结合之前的文章，网络爬虫-小白 - 统计猿的文章 - 知乎 https://zhuanlan.zhihu.com/p/596815605 ；爬虫网页-xpath运用 - 统计猿的文章 - 知乎 https://zhuanlan.zhihu.com/p/611373925 ；网络爬虫-自动化-影刀 - 统计猿的文章 - 知乎 https://zhuanlan.zhihu.com/p/611490653 ；我们基本可以爬取一些简单的网站，并且进行一些简单的项目实战，那么我们相要进一步学习爬虫就要好好跟…

使用Selenium爬取目标网站被识别的解决之法

小白学大数据

宁为代码类弯腰，不为bug点提交

在进行网络数据抓取和爬取时，Selenium是一个常用的工具，它可以模拟人类用户的行为，自动化地操作浏览器进行页面的访问和数据的提取。然而，随着网站对爬虫的检测能力不断提升，很多爬虫程序在运行过程中经常会遭遇被目标网站识别的问题，导致爬取失败或者被封禁。本文将介绍Selenium爬虫技术的概述、优势，以及一些应对被识别的解决方案。 Selenium爬虫技术概述Selenium是一个自动化测试工具，最初用于Web应用的功能测试，后来…

我是如何开始能写python爬虫的？给入门python小白一条清晰的学习路线

奔放小青年

职业教育行业从业人员

重要的事说三遍：不要从看书开始，不要从看书开始，不要从看书开始！~~ 爬虫这么有意思的东西，看书多没有乐趣，从网上找个视频，直接跟着写，然后再根据视频，按照自己的想法写个爬虫，爬取自己想要的东西，多么有意思。这里我推荐进群获取python爬虫教程，按照里面爬虫的教程写几个程序，会对爬虫有新的认识。写一下我自己从零开始写python爬虫的心得吧！我刚开始对爬虫不是很了解，又没有任何的计算机…

小白如何入门 Python 爬虫？

朱卫军

Python话题下的优秀答主

本文针对初学者，我会用最简单的案例告诉你如何入门python爬虫！想要入门Python 爬虫首先需要解决四个问题熟悉python编程了解HTML了解网络爬虫的基本原理学习使用python爬虫库一、你应该知道什么是爬虫？网络爬虫，其实叫作网络数据采集更容易理解。就是通过编程向网络服务器请求数据（HTML表单），然后解析HTML，提取出自己想要的数据。归纳为四大步：根据url获取HTML数据解析HTML，获取目标信息存储数据重复第一步这会涉…

SOCKS5 代理及其在网络安全与爬虫中的应用

老王爱玩梗

灵魂段子手

在当今数字化时代，网络安全和数据获取成为了互联网时代的重要课题。为了实现安全的网络连接和高效的数据采集，各种代理技术应运而生。本文将深入探讨 SOCKS5 代理及其在网络安全和爬虫领域的应用，同时比较其与其他代理方式的优势与劣势。 [图片] 1. SOCKS5 代理概述 SOCKS（Socket Secure）是一种网络协议，用于在客户端与服务器之间建立代理连接。SOCKS5 是 SOCKS 协议的第五个版本，相对于之前版本，它具有更强大的功能和更好的性…

如何入门 Python 爬虫？

谢科

硅谷程序员 | creator of 卡拉云

“入门”是良好的动机，但是可能作用缓慢。如果你手里或者脑子里有一个项目，那么实践起来你会被目标驱动，而不会像学习模块一样慢慢学习。另外如果说知识体系里的每一个知识点是图里的点，依赖关系是边的话，那么这个图一定不是一个有向无环图。因为学习A的经验可以帮助你学习B。因此，你不需要学习怎么样“入门”，因为这样的“入门”点根本不存在！你需要学习的是怎么样做一个比较大的东西，在这个过程中，你会很快地学会需…

从E绅士（Ehentai）47万条本子数据看各国死宅的兴趣爱好。

ShuiQu

拉黑一切在非必要的场合下明示、暗示自己性别为女的用户

E绅士我也用了3年了，但是E绅士的用户都知道，E绅士并没有什么按收藏排序之类的功能，导致平时就只能翻来翻去刷些老物。所以我萌生了写一个E绅士爬虫，获取E绅士所有本子数据的想法。我自学python已经一年了，期间写过不少玩具程序，玩具爬虫也写过几个，这次对E绅士的爬虫差不多算是这一年里写过最大的python程序了（虽然回头去看程序一点也不python）。 P.S：这个文章已经是一年前的了，2017年一年间，E绅士的中文用户数量有…

这届网友已经开始用爬虫互相贴标签了

硅星人

科技话题下的优秀答主

十几天前，在为C端用户提供拓展脚本的论坛网站Greasy Fork上，一位开发者做了一款“原神玩家指示器”。据开发者留下的公开信息，此拓展脚本主要应用于B站视频的评论区，安装了该工具的用户可以识别出发言的网友是否为原神玩家。 [图片] 识别的方式也很简单，经过拓展脚本的筛选，符合条件的网友会在其头像与昵称的后面，被标注上“原神玩家”几个字。 [图片] 这款拓展脚本一经发布，就引起了游戏玩家的强烈反响。在Greasy Fork这个较为小众的用…

如何应对网站反爬虫策略？如何高效地爬大量数据?

Kevin Zhang

南京大学理学硕士

说个故事吧，15年的时候，我们团队想爬工商数据，但是官方的验证码太恶心了（现在更恶心，大家没事可以登录全国企业信用公示系统试试看），于是就找到一家做第三方服务的公司，现在他们发展得挺不错了，当时还没什么名气。刚开始爬的时候，他们几乎没有反爬措施，我们也没有什么反反爬经验，只是简单的用了httpClient库，模拟一下浏览器头。开了八个线程，晚上扔服务器上开爬。第二天来看，晚上八九点就全断了，登录对方网站想…

有免费的网络爬虫软件使用吗？

刘宝强

数阔创始人&CEO

（好多人点赞，我就把我的回答再好好的完善一下）免费的爬虫软件，目前最好用的就是八爪鱼采集器。现在全球100万的用户都选择八爪鱼采集器，口碑就是最好的证明。市场上那么多采集器可以选，为什么选择八爪鱼呢？选择一款好的免费采集工具到底最终要的衡量标准是什么呢？ 1. 必须能采集任何网站，如果弄了半天你想采集的网站不支持那就悲剧了，八爪鱼是市面上采集网站覆盖最广的工具，支持任何网站的采集，而很多其他采集器只能…

公司让爬Robots.txt声明了不允许爬的网站应该怎么办？

Angry Bugs

2022 更新：你法我笑.jpg 请忽略分割线下的原答案。在你居住的这片土地，law 并不存在。所以我现在的建议是：对于小网站，只要你良心过得去，可以随便爬；对于大公司，谨言慎行吧，法律是他们那边的工具，不是你的挡箭牌。你们这些人既没有写过爬虫，也不懂 robots.txt 就在这里瞎答一气，动不动就是像个复读机一样开始「爬虫爬进了监狱」，真是误人子弟！ robots.txt 说白了是个「君子协议」，没有任何技术约束，更被说法律效…

关于爬虫，就此封键盘

xlzd

Python话题下的优秀答主

昨晚在微信收到一个小伙伴的问题，关于之前的几篇爬虫相关的文章。由于上一份工作中写了大量的爬虫，顺便写了几篇入门级的爬虫相关文章，本来计划再多写点爬虫相关高难度技巧的，但是不想再碰爬虫，就作罢了。这里将过去写过的相关文章列举如下，以后应该再也不碰爬虫相关的任何问题了（声明：由于时间原因，所以不保证文中的方法现在依然可用，也不保证其准确性，仅供参考~）：爬虫必备——requests 01. 准备 02. 简单的尝试 …

12306 网站的根目录下为什么连 robots.txt 文件（反爬虫协议）都没有？

RobertLu

https://robberphex.com/

robots.txt其实应该叫爬虫协议。另外，robots.txt确实可以申明某些页面不允许爬虫索引，但这只是一个技术约定，还是挡不住信息被采集的。其次，robots.txt有一个很大的缺点就是很多链接直接暴露出现了，比如一看你的robots.txt，基本上就可以确定这个网站的一些敏感页面了。（比如你申明/admin不能索引，那么大家就猜到后台大概就是/admin页面了）有一段时间知乎就是在robots.txt中标注了很多敏感回答，然后大家有针对性的去…

有什么好的python3爬虫入门教程或书籍吗？

崔庆才丨静觅

《Python3网络爬虫开发实战》作者，公众号：进击的Coder

2022.2.13 更新：现在我的《Python3网络爬虫开发实战（第二版）》已经在 2021 年底正式上市了！！!之前第一版的爬虫书《Python3网络爬虫开发实战》在 2018 年出版，上市三年来，一直处于市面上所有爬虫书的销冠位置，豆瓣评分 9.0 分，销量 10w 册。如今，这本书现在又进一步做了升级，第二版将案例进行了全面升级，自建了案例平台防止代码过期，同时增加了非常多的新技术、新知识的介绍，比如异步爬虫、JavaScript 逆向、安卓…

新一代爬虫利器 -- Playwright

tcpisopen

[图片] 最近，微软开源了一个项目叫「playwright-python」，作为一个兴起项目，出现后受到了大家热烈的欢迎，那它到底是什么样的存在呢？今天为你介绍一下这个传说中的小白神器。 Playwright 是针对 Python 语言的纯自动化工具，它可以通过单个API自动执行 Chromium，Firefox 和 WebKit 浏览器，连代码都不用写，就能实现自动化功能。虽然测试工具 selenium 具有完备的文档，但是其学习成本让一众小白们望而却步，对比之下 playwright…

在学习python的过程中，遇到的最大的困难是什么？

数学建模钉子户

公众号、B站账号“数学建模钉子户”有数学建模视频课程

我认为学习Python是一个由浅入深的过程，或者说学习任何一样东西都是分阶段的，在不同的阶段会面对不同的困难。下面就以我自己在学习利用Python进行数据分析的过程为例子，讲讲我在各个阶段学习Python时遇到的困难。我在学习Python数据分析的第一个阶段是学习一些基本的数学知识，主要内容集中在高等数学和线性代数以及概率论方面。其实我的想法是如果想要精通数据分析，只懂得如何编程和处理数据是远远不够的，基本的数学知识…

讨论量

12.9 万