中超角球榜数据;故障诊断方法分几方面?

【图片】【转】2012中超数据分析【大连阿尔滨吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0可签7级以上的吧50个
本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:142,253贴子:
【转】2012中超数据分析
分析了一系列的数据,包括,中日韩三国俱乐部排名分析,中超2012赛季球队、球员效率值分析,中超2012球队的实力状态分析、进攻防守状态分析,中超240场比赛技术统计的广义线性模型,等等。几乎全是点几个按钮就即时出来结果的傻瓜操作,除了实力状态分析、进攻防守状态分析(因为会运用到扩展卡曼滤波和马尔可夫链蒙特卡洛)。数据分析的难度主要在于抓取数据,不太熟悉抓取网页数据,临时学了学,用python写了个。数据来源于csldata以及sohu。数据分析容易,写文章麻烦,数据早就分析完了,一直懒的写文章,拖了一个月,不想拖了,遂慢慢更新。楼主使用的统计模型,包括、非线性状态空间模型、广义线性模型等。通常来说,足球数据可以用参数统计和非参数统计方法处理,说了句废话,参数统计方面,可以把足球比赛的数据当作适用二项分布或多项分布的属性数据(例如比赛结果、是否红牌),也可以把足球比赛的数据当作适用负二项分布或泊松分布的计数数据(例如比分),当然足球比赛还有符合正态分布的数据(例如射门数),非参数统计方面,数据包络分析是个不错的模型,这个模型主要分析效率,又说了句废话。好吧,慢慢分析。
买熔融石英,找徐州赛诺石英
1、中日韩三国俱乐部排名分析使用的模型是处理有序数据(胜负平)的简单累积概率模型。模型如下:小于等于负的概率=累积函数(阈值1-(主场球队A的实力-客场球队B的实力))小于等于平的概率=累积函数(阈值2-(主场球队A的实力-客场球队B的实力))小于等于胜的概率=1模型的思想来源于董秋荻,董秋荻经常比较谁是第一联赛时往往拿出他们相互交锋的战绩作为论据,而董秋荻经常谈的另一个词是胜率,例如曼联对的胜率有多大啊,所以,本模型假设,球队之间的实力决定他们比赛的胜负概率,而球队之间现实中的交手战绩是基于这个胜负概率的样本,以此估计出球队的实力。亚洲俱乐部排名基于2012赛季全赛季,第一循环(因为第二循环有只二逼队退赛,为了减少我的工作量,我决定第二循环数据全部舍弃),三国交锋战绩,当然为了更好的衡量排名,还引入了亚冠权重,毕竟相比较联赛,亚冠还是有些重要的,否则恒大也不会请了,亚冠权重的计算是世界级难题,我这里用自己的脑袋给了一个权重。最后,只计算三国交锋战绩显然遗失了三国与其他国家球队交锋的信息,所以还纳入了亚冠全部球队交锋战绩计算三国实力排名。模型的缺陷在于,不管怎样,排第一的肯定是联赛冠军,也许其他算法可以更好的衡量排名。排名如下:无权重排名中,基本包圆了,有权重排名中,中超也基本全集中在后25名,造成这样的原因很简单,不给力呗。
2、2012赛季球队进攻效率、防守效率模型:产出导向的CCR模型,超效率模型。CCR模型是一个线性规划模型,有兴趣的可以百度。模型的主要思想是球队的进攻投入(例如控球,射门),得到的产出是进球,例如某只球队的进攻能力很强,比如,另外一只球队进攻能力也很强,比如,假设皇马的进球数逊色于巴萨,我们设定进球更多的巴萨的进攻效率为1,那么经过计算皇马的进攻效率也许只有90%多。效率值就是这么大概计算出来的。选择产出导向的CCR模型,是因为没有哪只球队会为了控球而控球(可能是奇葩),为了射门而射门(可能是奇葩),足球比赛控球或射门的目的是取得进球,所以毫无疑问,产出导向的模型符合足球的思想和规律。对于进攻效率模型,我选择了射门、进入30米区域、射正、传中总次数、场均控球率(其实最好的变量是赛季活球控球时间)作为投入变量,而进球作为产出变量。防守效率与之类似,只是csldata没有给出免费的被传中次数。结果如下:score是效率得分,当有多只球队效率得分为1,采用超效率模型计算排名。进攻效率防守效率呵呵,由效率排名可以看出,教练当选实至名归。广东恒大的防守效率仅次于江苏舜天,但是进攻效率忒么低,这可是拥有、、球队啊,而且跟其进球数中超第一的地位很不符合,难道不擅调教进攻?
3、2012赛季中超球队实力状态分析模型:非线性状态空间模型。状态空间模型分为观测方程和状态方程,观测方程即中日韩三国比较模型,而状态方程为:球队第N轮的实力=球队第N-1轮的实力+高斯白噪声,高斯白噪声符合均值为0、方差为某确定值的正态分布。高斯白噪声的方差决定了球队实力的变化范围。模型的思想主要是球队的实力是变化的,正所谓人不可能两次踏入同一条河流……16只球队的状态都已计算出来,图是Excel画的,虽然很丑,但是简单,可以省却我不少麻烦。由图,根据统计计算结果,恒大的赛季状态一直轻微下滑,而里皮是第10轮上课,恒大解雇李章洙真的是明智选择?由图,北京国安赛季中有低谷,赛季末上扬。大连阿尔滨的赛季一路走高,堪称奇葩啊。
4、2012赛季中超进攻状态和防守状态分析模型思想与上类似。先列出恒大的进攻状态走势,看看李章洙和里皮治下的恒大有没有区别。从图上可以很清楚的看见李章洙的恒大和里皮的恒大有个明显分界点,而里皮治下的恒大其进攻状态竟然持续走低,在加上恒大进攻效率仅仅为中超第6,许家印请了一个防守出名的教练调教孔卡、巴里奥斯、穆里奇,还有即将到来的埃尔克森,对于志在称霸亚洲的许家印,你的钱花在攻击性球员身上值吗?
5、2012赛季中超每场技术统计的广义线性模型中超联赛每场比赛会产生大量的数据,而我们能免费得到的数据少的可怜,尽管如此,我们依然可以从媒体施舍给我们的那些微薄数据中分析中超的比赛内容。而这部分内容,既是通过建立每场比赛技术统计数据的广义线性模型,分析比赛的伪决定因素!楼主依然选择累积概率模型研究比赛胜负与技术统计的关系,另外为了分析进球与这些数据的关系,楼主还使用了简单的泊松回归模型(实际上稍复杂的泊松模型拟合优度更加,但是我需要手动编程计算参数显著性,妈的,这工作量太大,免了)。考虑到存在江苏舜天这个靠防守反击拿到联赛第二的奇葩,模型的参数估计方法是稳健估计。of course,在参数估计之前要检验我最痛恨的多重共线性(相关矩阵没有0.8以上、kappa值20多、主成份分析变异方差比较均匀,VIF最大是4),理论上来讲,我们可以认为这些数据没有共线性或轻微共线性……,实际上,实际上,算了……,拥有多个解释变量的广义线性模型是一个让我感到异常痛苦的模型,更何况这些解释变量无法降维,假如我用傻瓜式的方法(即列出所有可能性模型,大概3万个)检验哪个模型的拟合优度最佳,我这辈子也不用干其他事了。所以我采取了稍简单的方法,减少了模型的数量,并得到了拟合优度最佳的模型,如果有高人知道更精确的方法,请告诉哈。拟合优度最佳的模型估计值,如下:顺便说一声,0代表负、1代表平,这个与我们的足球常识一致。需要强调的是,因为有些比赛直到末尾才会有红宝石卡的派发,红牌变量的显著值毫无疑问被低估了,所以姑且不管红牌变量的显著值高于0.05。好了,观察以上变量,结论不言而喻,符合印象流的是射正、攻入前场30米区域和红牌这三个变量,射正不用说了,,攻进前场30米区域次数越多,获得比赛胜利的概率越高,也符合董秋荻的一贯思想,同样,如果你得到了一张红牌,你输掉比赛的概率同时也在增加。不符合印象流的结论有:1、少控球者胜的概率高;2、多越位者胜的概率高;3、少远射者、少获得角球者、少获得界外球者胜的概率高。这是为什么呢?因为已经使用了稳健估计,避免了极端值的影响,所以我推测出现这三个结论的原因:中超技术含量低,控球打法易失误,还不如防守反击呢,中超保守,领先立马转入防守反击,导致落后方面对铁桶阵只能狂轰远射狂制造角球。进一步分析需要更细致的进球时间数据,还是慢慢来。主队进球与每场比赛技术统计的拟合优度最佳泊松模型,如下:客队进球与每场比赛技术统计的拟合优度最佳泊松模型,如下:从进球与每场比赛技术统计来看,这中超还真是保守的联赛,对坐镇主场球队来说,低控球率反而进球概率高!总体来说,处理这种不知道有没有实际意义的比赛技术统计数据让我很累,如果有高手可以更优秀的方法处理多个不知道有没有现实意义的解释变量的广义线性模型,请告知哈。6、球员效率分析NBA的球员效率值烂大街了,是个人都能编写自己的一套效率算法。足球的没有,因为足球数据的商业市场太TM大了,那些数据公司施舍(其实也不是施舍,是媒体购买的,然后媒体免费提供给看客)的免费数据太弱智了,作为一门以传切配合为基础的运动,传球乃是最重要的数据,可惜像欧冠这样的传球数据
csldata不免费提供……,强烈呼吁csldata免费提供上面这样的传球数据。不过,现在,好吧,就已现成的数据评价球员。6.1中超球员进球效率分析进球效率思想基于董秋荻,董秋荻对于C罗的诟病在于其喜欢浪射,而且董秋荻喜欢计算进球射门比。所以对球员进球效率的计算我选择三个参数,射门数、进球和球员上场时间。因为常识上射门越多,上场时间越多,进球会越多(实际上有时间上场时间增多会降低球员的进球时间比,因为有时候球员会参与防守或体力耗尽,但是因为射门是绝对的越射进球越多,所以不考虑BCC模型),所以使用产出导向的超效率CCR模型。球员的选取标准是上场时间》200分钟,上场次数》5场,进球》4个。前20名(第20名被水印挡住的是孔卡)结果如下:本模型没有剔除点球,因为我懒。从模型可以看出,有些进球时间比高的球员,因为浪射,而排名下滑,例如孔卡进球时间比高于其上面大多数前锋,但是浪射了81脚,再例如雅库布,进球效率比阿塞姆高,但是浪射了42脚。6.2中超球员防守效率分析对防守效率的计算,我考虑的是分析防守所需要的技术能力,对足球防守来说,铲球、头球、抢断、解围似乎都是必备的,除此之外还需要考虑防守球员的传球功底,毕竟球抢下来你不能乱搞是吧。所以,楼主把出场时间当作投入变量,把传球成功率、铲球成功率、头球成功率、抢断成功次数、解围次数当作产出变量。模型选择超效率BCC模型。因为传球成功率、铲球成功率和头球成功率会随着出场时间的增加会略微下降。样本的选取范围是出场时间》200分钟、上场次数》5场,铲球成功次数》20。前30名结果如下所示。从结果来看,排除前3名上场时间只有1000多分钟(不及全赛季一半时间)的外援后卫,本土后卫郑铮乃中超最佳防守球员!
马克之 晚上慢慢看
有些术语太专业了,看不懂
国外都不自己买车,都是租车出行,简单又经济!
罗神防守还是不错的
技术帝啊!膜拜!
贴吧热议榜
使用签名档&&
保存至快速回贴Copyright & 1998 - 2017 Tencent. All Rights Reserved

我要回帖

更多关于 角球数据查询 的文章

 

随机推荐