国外课栈 - 跨学科知识视角栈
Scrapy:使用 Python 进行强大的网页抓取和爬网
Scrapy:使用 Python 进行强大的网页抓取和爬网
概述

学习如何使用 Scrapy、Splash 和 Python 抓取网站并构建强大的网络爬虫

  • 在 Scrapy 中创建网络爬虫

  • 将 Spider 部署和调度到 ScrapingHub

  • 抓取单个或多个页面并抓取数据

  • 将 Spider 部署和调度到 ScrapingHub

  • 使用 Scrapy 登录网站

  • 将 Scrapy 作为独立脚本运行

  • 将 Splash 与 Scrapy 集成以抓取 JavaScript 呈现的网站

  • 在特殊情况下使用 Scrapy 和 Selenium,例如抓取 JavaScript 驱动的网页

  • 构建 Scrapy Advanced Spider

  • Spider is Done with Scraping 后 Scrapy 提供的更多功能

  • 编辑和使用 Scrapy 参数

  • 将 Scrapy 提取的数据导出为 CSV、Excel、XML 或 JSON 文件

  • 将 Scrapy 提取的数据存储到 MySQL 和 MongoDB 数据库中

  • 几个现实生活中的网络抓取项目,包括 Craigslist、LinkedIn 和许多其他项目

  • 可以下载本 Scrapy 教程中所有练习的 Python 源代码

目录(10h49m)

  • Scrapy与其他Python网页抓取框架的比较

  • Scrapy安装

  • 用Scrapy构建基本的Spider

  • XPath语法

  • 问答

  • 使用Scrapy构建更高级的Spider

  • 网页抓取最佳实践

  • 你想抓取特定的网站吗?

  • 在ScrapingHub上部署和调度Scrapy Spider

  • 使用Scrapy登陆网站

  • Scrapy作为独立脚本

  • Scrapy使用Selenium

  • Scrapy使用Splash-JavaScript网站

  • Scrapy爬虫

  • 更多关于Scrapy信息

  • 导出到文件

  • Scrapy项目#1 :在纽约抓取Craigslist End工作

  • 将数据提取到数据库 - MySQL和MongoDB

  • Scrapy项目#2:网页抓取课 - Central.com

  • Scrapy高级主题

  • Scrapy项目#3:网页抓取动态网站 eplanning.ie

  • 项目#4:从API请求中抓取价格

  • 项目#5:网页抓取LinkIn.com

  • 已解决的网页抓取练习

  • 使用API提取数据

  • 用Beautiful Soup,Requests和Selenium的网页抓取