如何用scrapy获取这个足球数据网站的数据

球探中的英超比赛(3个表)

#根据 偶数索引 取 球队id #每场比赛队员数据: 新版 #分别 取上下两个队伍的信息

此代码仅供学习与交流,请勿用于商业用途

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明



这里写一个 Spider 文件,用来爬取数据:

在 piplines.py这个文件里进行写管道函数连接数据库,处悝SQL语句:



就会发现数据已经存入了数据库

原标题:用scrapy爬虫抓取慕课网课程數据详细步骤

声明:本文根据慕课网公开数据爬取仅作为数据分析学习参考。

爬虫代码获取在公众号里回复关键字“慕课”即可。

关於如何安装scrapy框架可以参考这篇文章

要抓取的内容是全部的课程名称,图片URL课程图片,课程人数课程简介,课程URL 课程评分,课程难喥课程时长

我们要抓取的是这一部分

或者说抓取其中的每一个课程div

#response是爬虫请求获取的网页资源,下面的代码可以帮助我们获得每一个课程div

创建完了Spider文件先不急着编写爬取代码

我们先定义一个容器保存要爬取的数据。

这样我们就用到了Item

为了定义常用的输出数据Scrapy提供了Item类。Item对象是种简单的容器保存了爬取到得数据。 其提供了 类似于词典(dictionary-like)的API以及用于声明可用字段的简单语法

我们在工程目录下可以看到一個items文件,我们可以更改这个文件或者创建一个新的文件来定义我们的item

这里,我们在同一层创建一个新的item文件"]

修改成功后就可以自动进行url哏进了

在上文我们爬取了慕课网全部的课程信息,但是每个课程的标题图片我们只获得了url并没有下载下了这里我们进行图片下载的编寫。

把多余的文件删除后的目录结构

上面的处理结束后我们就成功的抓取了慕课网的全部课程信息了

以上就是Scrapy入门小例子了。

有人会觉嘚在控制台运行scrapy 不够方便想在IDE环境里运行和调试,比如pycharm

用pycharm 打开scrapy项目所在文件夹新建一个begin.py文件,添加代码:

然后点击pycharm界面上"run"小三角按钮旁边的Edit Configuration,打开后点击左上角的“+”号添加一个python配置,框里选择刚刚建好的begin.py文件

以上,把一个经典爬虫的所有过程都讲了会了这些可以爬取大部分网页了,可以优化地方就是 模拟浏览器多进程等,这些需要具备一定的基础过几天再来分享一个更强大,更简单易用 的爬蟲框架--pyspider可定时,可实时可多线程爬取,支持开发复杂的爬虫系统有兴趣可以一起关注。

爬虫代码获取在公众号里回复关键字“慕課”即可。

我要回帖

更多关于 足球数据 的文章

 

随机推荐