收集球员和足球比赛球员数据统计数据的意义是什么?哪些数据是有意义的

当前位置:& &
数据OR录像 究竟哪个更接近真相?
&&&|&&|&正文背景色:
&&&&很多时候人不得不对自然界的神奇表示出我们的敬畏,人脑是一个很了不起的机器,人们可以再很短的时间内从获得信息,到对信息进行分析、总结,到得到结论,最后还要作出决策,自然界给了人们一个很好的机器,但是,自然界提供的,只是硬件,而人们从信息来源,分析过程,得到什么样的结论等等,却受到了人的知识、经验、喜好等等很多的因素影响,所以,同样的信息,不同的人可以得到不同的结论,人的思想也因此而多姿多彩。
&&&&同时,人脑工作过程的这些因素也会欺骗人,人们更容易关注自己知道的东西,大脑的记忆也会停留在自己感更关注的信息(不论是喜欢还是讨厌),并且只信任自己已知的知识会帮助自己得到正确的结论,而事实是,人们得出的结论往往是自己希望得到的那个结论,而不是所谓的“真正的结论”,当然,可能没有人能够真正得出一个“真正的结论”,那么如何更接近于“真正的结论”,避免犯错,便成了人类一直追求的东西。
&&&&同样的,一场篮球比赛、一个球员的表现、一次攻防、一次投篮,由于球迷对篮球的认识、经验的不同,在每个篮球迷眼中都会有他们自己的看法和结论,不同的教练也同样会有不同的看法,如何让这些的信息在不同的人之间有相同的语言进行交流,人们找到了在很多领域同样应用广泛的工具――数据。然而,影响一场比赛、一个球员的表现、一次攻防、一次投篮的因素多如牛毛,任何一个小小的因素都有机会影响到一场比赛的进程,就如人们经常说的蝴蝶效应,如何把每一个因素用数据表达出来,方便人们的分析呢?这时候你不得不再次对自然界的神奇产生敬畏,不管人脑的分析结论是否正确,至少人脑能够在这样短的时间内把各种有关的、无关的信息加以收集、识别、分析,并得出结论,那是多么了不起的工作。
&&&&显然,要建立起一套类似人脑系统的信息收集和处理系统是不可能的,那么是不是就没办法利用数据进行分析呢?也不尽然,让我们回到起点,找到决定一场比赛胜负最根本的东西――比分,从比分出发,我们再找到影响比分的因素――进攻和防守的数据,然后,篮球比赛就有了数据统计――得分、篮板、助攻、盖帽、抢断等等,然后还可以往下再细分,可是,分到最后,那怕这些数据都是可以收集到的,我们仍然面临着另外一个问题,那就是这些数据和比分的对应关系,比如,一个篮板最后可以转换为多少分?天才知道!不过,聪明的人类还是可以找到一些解决方法,那就是用经验值。仍然用篮板举个例子,比较简单的做法就是,在以往大量的比赛中,假设每次进攻有效命中率是50%,再假设一个篮板提供了一个进攻机会,一次进攻机会平均得2分,那么,一个篮板算1分的价值,可是,这可能仍然不合理,因为这1分的功劳还要分给投篮的球员,于是,有了很多建立这些对应关系的方法,产生了不同的数据评价体系,目的都是希望客观地用数据说话。
&&&&但是,正是由于数据统计和分析的不完整,任何数据都不可能真正反映一场比赛,一个球员的表现,甚至出现了所谓刷数据的现象,数据好看却输了比赛的情况,同样的两分,暴扣奥尼尔得两分和冷射得两分意义可以相同,又可以不同,毕竟有能力暴扣奥尼尔还是不一样的,虽然不管你得分的难度系数由多高,不同得分方式得到的两分是不会有区别的,但是,起码在反映球员能力方面,却完全不一样。
&&&&同样的,对不同的对手,和不同的队友配合,等等,同样的数据比如同样的比分,意义也可以是不同的,于是,NBA有了球员在场和不在场的数据来看球员对场上比赛的影响程度,有了不同球员配合时球队的数据来看球员之间的相互影响,而球员由于上场时间长短不一,比赛数据的意义又不一样,于是又有了折合成40分钟或者48分钟的数据来统一统计样本数量,阿南的分钟效率数据有点类似于这种折合成40分钟或者48分钟的数据,可是,是不是统一时间就完全反映了球员之间的差别呢?当然不是,因为像打炮轰的球队,由于进攻次数多,那么,他们球员的48分钟的数据可能会高,更合理的做法可能是按照平均每次攻防效率数据来比较,可是同样反映不出炮轰球队的跑动能力,而且,替补和主力在面对对手的强弱程度也不一样,相同的数据意义可能不同。也就是说,我们肯定没有一个绝对准确和公平的数据来评价比赛、球队和球员的表现。
&&&&那数据是不是完全没有用呢?当然不是,数据不是没有用,是看你怎么用。比如说,某人职业生涯3分命中率30%, 那么,教练会不会把他作为队内的主要三分投手来使用呢?又比如某人职业生涯3分命中率30%,可是他仍然投了很多三分,那么,我们就需要去问个为什么了,就会去看他的投篮选择是不是有问题,队友能力是不是有问题,还是个人的打法有问题,这时候,就要去统计他投篮时更多的数据,或者是看现场的表现,但是有一点,如果有某人职业生涯3分命中率30%却投了大量的三分,不是个人出了问题,便是球队出了问题。又比如,某主力球员,比如上赛季伤后的阿联,一直数据不好,那么在结合他在场上的状况,教练仍然会把他从主力阵容拿下来,而不会说因为阿联对阵的是对方的主力球员的原因,而给阿联的表现给予原谅。 也就是说,数据可以在大方向上帮我们看出些趋势,特别是长期数据,由于长期数据对个别的小因素不敏感,相对来说就更为合理,所以用长期数据的分析会更有说服力。
&&&&总的来说,冰冷的数据还是相对可以信任的,因为对于每个人来讲,数据都不会因为球迷的不同而不同,数据不会受观察者本身的影响而相对来说比较客观,但是,由于上面提到的,冰冷的数据也不能完全反应比赛的过程和全部,结合经验和知识,把数据和现场结合起来进行比赛分析,无疑会减少一些偏差,但是,无论是数据或者是现场表现,都不可能得到“真正的结论”,也不可能真正做到什么“公平评价”,数据和现场表现分析,对于球迷来讲,增加球迷看球的乐趣,对于教练来讲,增加教练指挥比赛和训练的依据,但是,这些肯定不是篮球的全部。
下一篇: [实习编辑:罗国锋]
收视指南:  我开发了一个叫做“好斗值”的数据,以此为衡量标准,我们来看看头名和垫底都是谁,以及它和防守贡献值的联系。
  作为球迷,我们常常按照自己的标准将球员加以归类,有时无非是老一套的东西,无聊的很,但有时候这种分类就能真正定义一名NBA球员的角色。最常见的一个分类是:防守悍将、防守工兵、蓝领、或者游走于犯规边缘的“恶汉”。
  这样一名球员可以有无数多个,但你明白我说的是谁,因为在大多数情况下,仅仅从直观上便能认出这位防守悍将。不过,如果能用某种方法来量化球员的“好斗性”,岂不是更好?
  引入“好斗值”数据
  还好给我们提供了球员数据统计,包括积极拼抢和跑动速度的数据,我利用这些弄了一个叫“好斗值”的新数据,目的在于衡量一名球员在防守端的“好斗性”,计算公式如下:
  好斗值=(破坏对方球权的次数[译注1]*0.49)+抢断数+活球争抢[译注2]+造进攻犯规数+防守时的平均跑动速度
  [译注1]:指防守球员在对手非投篮时碰到球,如破坏传球,争球等
  [译注2]:指球员拼抢一个不属于任何球队的活球,比如争抢地板球
  这个公式很简单,只是把各种数据拼凑在一起,但是这里面有一些细微的差别(例如有个0.49的系数),稍后我会给你解释。因为可能涉及专业的角度,你可以先跳过,直接看结果。
  数据整理
  我收集了这赛季所有454位NBA球员的抢断、积极拼抢和速度数据。这些都是赛季总和,不是场均或是每分钟的数据。接着我筛选出场均上场时间大于12分钟且出场数大于或等于15场的球员,一共有328名。
  我选择的变量当然是:破坏对方球权的次数、抢断数,活球争抢,造犯规数和平均跑动速度。如果我只把这些数据简单的加和,那么数值很大的数据,比如破坏对方球权的次数和抢断数,将会占据主导,数值较小的数据,比如造犯规数和平均跑动速度,对整个结果的影响就很小了。于是我对每个数据进行标准化处理,换言之,对于每个数据点,我都减去该变量的平均值,同时除以其标准差。这样一来,所有的变量都有同一个标准,以“0”为中心排列在两侧。
  此外,我觉得“破坏对方球权的次数”需要加权,因为它没有其他数据那么重要。抢断数,活球争抢及造犯规数导致回合的一个改变,而破坏对方球权的次数并不意味着造成对方的失误,因此它们可能比它更加重要。为了找到一个合适的“权重”,我运行了一个简单的线性回归:自变量为破坏对方球权的次数,因变量为抢断数。结果得出一个具有统计意义的系数:0.49。它的意义是:破坏对方的球权每增加一次,抢断数平均增长0.49。我相信这个“权重”足够合理,破坏球权一次基本相当于0.49次抢断。要想真正了解破坏对方球权次数的意义,我们需要更为密集而难获取的数据。我没有对“防守者的平均速度”这一变量进行类似的处理,因为就其他变量而言,它的价值根本无从知晓。
  整个过程就是把变量标准化,其次在“破坏对方球权的次数”前乘以0.49,最后将每名球员的数据都套到此公式中,求得“好斗值”。
  结果展示
  下表是本赛季“好斗值”排名前20的球员。
  表格里有很多名字都与预想的一致。不过斯蒂芬-库里“意外地”在这个排行榜上位列第三,要知道他最多被看作是一名平均水准的防守者,主要原因是被认为球风偏软和缺乏运动能力,但是回过头来看看他的数据:活球争抢、抢断数和破坏对方球权的次数分别排在联盟第1、5、7位。
  榜单上的另一个亮点是两位大个子德马库斯-考辛斯和格雷格-门罗。尤其是门罗的防守,在整个生涯被人广为诟病,这赛季,他在替补位置表现出色,也更加注重防守。可能有人认为篮板是“好斗性”的一部分,对此我表示同意,可如此一来大个子就会称霸榜单了。德马库斯-考辛斯的两项数据――破坏对方球权的次数和造犯规数为他拿到了不少分数,他也自然占据了一席。
  如果你很感兴趣,下面有本赛季“好斗值”排名倒数前10位的球员。
  我认为说这些球员没有投入到防守中是个很正当的,他们的移动不算特别慢,但他们无法触碰到球,不懂得如何制造对手的失误。我真心希望何塞-巴里亚的排名再高点,然而这种老套的想法实在无趣。
  我想在“好斗值”数据的基础上更进一步,我便把它除以总上场时间,得到每分钟的“好斗值”数据。因为原始的“好斗值”是以赛季总和为依据,有利于那些拥有更多上场时间的球员。每分钟的“好斗值”消除了这一缺陷,显示出更多积极防守的效率表现。下表是本赛季每分钟“好斗值”排名前20位的球员。
  除了一些新入围的球员,所得的结果和之前相比基本一样。德安德鲁-利金斯的名字耀眼无比,他位列第二,因为JR-史密斯的受伤,他最近才在骑士的轮换中获得上场时间。此外,托尼-阿伦和TJ-麦康奈尔的入选也在预料之中,他们那强悍的防守可是出了名的。格雷格-门罗一跃至第三,“防守至上”的转变再次得到证实。
  对比“好斗值”与防守贡献值
  最后,我们把“好斗值”与一个全面评估球员的数据――防守贡献值作一下比较。理想情况下,这两种统计应该是相似的,但并非完全相同。为了找出他们之间的关系,我对好斗值”与防守贡献值进行简单的线性回归分析。结果表明两者的相似度为15%,一个不高不低的数值。另外,在预测防守贡献值的时候,“好斗值”是一个具有统计意义的变量。下面有防守贡献值和“好斗值”的对比图,你可以直观地感受一下,红色的线是最吻合的线。虽然每个点的分布相当零散,但两者之间有明显的正相关关系。
  显然“好斗值”并不是很完美,然而至少有一点,它是任意数值的随机加和;最重要的是,它给我们提供了一个新鲜的(我希望还是独特的)角度去解读防守。不仅如此,“好斗值”的建立发掘了数据统计的功用,我们不再受制于依靠直观判断的传统思维方式。老实说,我的想法源于浏览之时,我想探索一块未曾涉及的新领域。或许这说明,眼前的数据所呈现的,一是其简单粗暴的一面,另一种则是人们看到的“假数据”,至于真相如何,我也不清楚。
  以上数据取自。
  虎扑篮球
  翻译团
  bball-fyt
  喜欢这篇文章?长按二维码关注我们
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈}

我要回帖

更多关于 足球球员比赛数据分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信