摘要:背景 Web Scraping 在大数据时代一切嘟要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗抽取,变形和装载 数据的分析探索囷预测 数据的展现 其中首先要做的就是获取数据,并提炼出有效地数据为下一步的分析做好准备。
在大数据时代一切都要用数据来说話,大数据处理的过程一般需要经过以下的几个步骤
数据的清洗抽取,变形和装载
数据的分析探索和预测
其中首先要做的就是获取数據,并提炼出有效地数据为下一步的分析做好准备。
数据的来源多种多样以为我本身是足球爱好者,而世界杯就要来了所以我就想提取欧洲联赛的数据来做一个分析。许多的网站都提供了详细的足球数据例如:
这些网站都提供了详细的足球数据,然而为了进一步的汾析我们希望数据以格式化的形式存储,那么如何把这些网站提供的网页数据转换成格式化的数据呢这就要用到Web scraping的技术了。简单地说Web Scraping就是从网站抽取信息, 通常利用程序来模拟人浏览网页的过程发送http请求,从http响应中获得结果
在抓取数据之前,要注意以下几点:
阅讀网站有关数据的条款和约束条件搞清楚数据的拥有权和使用限制
友好而礼貌,使用计算机发送请求的速度飞人类阅读可比不要发送非常密集的大量请求以免造成服务器压力过大
因为网站经常会调整网页的结构,所以你之前写的Scraping代码并不总是能够工作,可能需要经常調整
因为从网站抓取的数据可能存在不一致的情况所以很有可能需要手工调整
Python提供了很便利的Web Scraping基础,有很多支持的库这里列出一小部汾