首发于 Antenna的python学习笔记

《Python网络爬虫与信息提取》笔记(12)

实例4:股票数据Scrapy爬虫

1.实例介绍

功能描述

数据网站的确定

获取股票列表:

获取个股信息:

2.实例编写

步骤:

3.实例优化

如何进一步提高scrapy爬虫爬取速度?

4.小结

5.实践

1.建立工程和Spider模板

2.编写Spider

代码:

spiders/stocks.py 课程中的网站发生了变化,我更换了获取股票列表的网站

3.编写pipelines

配置pipelines.py文件,定义对爬取项(Scraped Item)的处理类

在settings.py中配置ITEM_PIPELINES选项

4.执行

5.可选优化选项

(1)配置headers,防止网站反爬

在settings.py中配置:

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    # 'teststock.middlewares.TeststockDownloaderMiddleware': 543,
    'teststock.middlewares.RandomUserAgentMiddleware': 400,
}

USER_AGENT_LIST=[
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
# ---------------------
# 作者:后青春诗ing
# 来源:CSDN
# 原文:https://blog.csdn.net/weixin_42812527/article/details/81366397
# 版权声明:本文为博主原创文章,转载请附上博文链接!

在Middlewares.py中配置

(2)控制爬取速度,防止网站反爬

在settings.py中配置,设置自动控制爬取速度:

也可以手动设置爬取速度:

观察发现,自动控制的就挺好。

(3)后续优化

后续可以继续研究怎样设置代理、爬取动态网站等,参考资料:



6.执行效果:

玻璃钢生产厂家肇庆玻璃钢种植池价格萍乡商场美陈哪家好吕梁玻璃钢天花吊顶价格曲靖玻璃钢花槽批发乌海玻璃钢花箱制作吉安玻璃钢机械外壳公司东营玻璃钢坐凳定制六安不锈钢花盆制作濮阳玻璃钢树池批发呼和浩特商业美陈生产厂家东营玻璃钢树池忻州玻璃钢种植池制作宣城玻璃钢家具生产厂家温州玻璃钢景观雕塑公司伊春玻璃钢花池定做衡水玻璃钢人物雕塑制造成都玻璃钢种植池哪家好武威玻璃钢前台多少钱林芝玻璃钢花坛定做鹤岗玻璃钢茶几公司永州玻璃钢前台生产厂家白银不锈钢家具定做天津玻璃钢坐凳价格来宾玻璃钢装饰工程批发周口商场美陈济宁玻璃钢树池哪家好山西不锈钢雕塑厂家直销六安玻璃钢产品价格沈阳玻璃钢垃圾桶加工襄阳玻璃钢加工香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化