收集球员和足球比赛球员数据统计数据的意义是什么？哪些数据是有意义的

点击联系发帖人 时间：2016-11-21 06:11

足球球员比赛数据分析

当前位置：& &
数据OR录像究竟哪个更接近真相？
&&&|&&|&正文背景色：
&&&&很多时候人不得不对自然界的神奇表示出我们的敬畏，人脑是一个很了不起的机器，人们可以再很短的时间内从获得信息，到对信息进行分析、总结，到得到结论，最后还要作出决策，自然界给了人们一个很好的机器，但是，自然界提供的，只是硬件，而人们从信息来源，分析过程，得到什么样的结论等等，却受到了人的知识、经验、喜好等等很多的因素影响，所以，同样的信息，不同的人可以得到不同的结论，人的思想也因此而多姿多彩。
&&&&同时，人脑工作过程的这些因素也会欺骗人，人们更容易关注自己知道的东西，大脑的记忆也会停留在自己感更关注的信息(不论是喜欢还是讨厌），并且只信任自己已知的知识会帮助自己得到正确的结论，而事实是，人们得出的结论往往是自己希望得到的那个结论，而不是所谓的“真正的结论”，当然，可能没有人能够真正得出一个“真正的结论”，那么如何更接近于“真正的结论”，避免犯错，便成了人类一直追求的东西。
&&&&同样的，一场篮球比赛、一个球员的表现、一次攻防、一次投篮，由于球迷对篮球的认识、经验的不同，在每个篮球迷眼中都会有他们自己的看法和结论，不同的教练也同样会有不同的看法，如何让这些的信息在不同的人之间有相同的语言进行交流，人们找到了在很多领域同样应用广泛的工具――数据。然而，影响一场比赛、一个球员的表现、一次攻防、一次投篮的因素多如牛毛，任何一个小小的因素都有机会影响到一场比赛的进程，就如人们经常说的蝴蝶效应，如何把每一个因素用数据表达出来，方便人们的分析呢？这时候你不得不再次对自然界的神奇产生敬畏，不管人脑的分析结论是否正确，至少人脑能够在这样短的时间内把各种有关的、无关的信息加以收集、识别、分析，并得出结论，那是多么了不起的工作。
&&&&显然，要建立起一套类似人脑系统的信息收集和处理系统是不可能的，那么是不是就没办法利用数据进行分析呢？也不尽然，让我们回到起点，找到决定一场比赛胜负最根本的东西――比分，从比分出发，我们再找到影响比分的因素――进攻和防守的数据，然后，篮球比赛就有了数据统计――得分、篮板、助攻、盖帽、抢断等等，然后还可以往下再细分，可是，分到最后，那怕这些数据都是可以收集到的，我们仍然面临着另外一个问题，那就是这些数据和比分的对应关系，比如，一个篮板最后可以转换为多少分？天才知道！不过，聪明的人类还是可以找到一些解决方法，那就是用经验值。仍然用篮板举个例子，比较简单的做法就是，在以往大量的比赛中，假设每次进攻有效命中率是50%，再假设一个篮板提供了一个进攻机会，一次进攻机会平均得2分，那么，一个篮板算1分的价值，可是，这可能仍然不合理，因为这1分的功劳还要分给投篮的球员，于是，有了很多建立这些对应关系的方法，产生了不同的数据评价体系，目的都是希望客观地用数据说话。
&&&&但是，正是由于数据统计和分析的不完整，任何数据都不可能真正反映一场比赛，一个球员的表现，甚至出现了所谓刷数据的现象，数据好看却输了比赛的情况，同样的两分，暴扣奥尼尔得两分和冷射得两分意义可以相同，又可以不同，毕竟有能力暴扣奥尼尔还是不一样的，虽然不管你得分的难度系数由多高，不同得分方式得到的两分是不会有区别的，但是，起码在反映球员能力方面，却完全不一样。
&&&&同样的，对不同的对手，和不同的队友配合，等等，同样的数据比如同样的比分，意义也可以是不同的，于是，NBA有了球员在场和不在场的数据来看球员对场上比赛的影响程度，有了不同球员配合时球队的数据来看球员之间的相互影响，而球员由于上场时间长短不一，比赛数据的意义又不一样，于是又有了折合成40分钟或者48分钟的数据来统一统计样本数量，阿南的分钟效率数据有点类似于这种折合成40分钟或者48分钟的数据，可是，是不是统一时间就完全反映了球员之间的差别呢？当然不是，因为像打炮轰的球队，由于进攻次数多，那么，他们球员的48分钟的数据可能会高，更合理的做法可能是按照平均每次攻防效率数据来比较，可是同样反映不出炮轰球队的跑动能力，而且，替补和主力在面对对手的强弱程度也不一样，相同的数据意义可能不同。也就是说，我们肯定没有一个绝对准确和公平的数据来评价比赛、球队和球员的表现。
&&&&那数据是不是完全没有用呢？当然不是，数据不是没有用，是看你怎么用。比如说，某人职业生涯3分命中率30%, 那么，教练会不会把他作为队内的主要三分投手来使用呢？又比如某人职业生涯3分命中率30%，可是他仍然投了很多三分，那么，我们就需要去问个为什么了，就会去看他的投篮选择是不是有问题，队友能力是不是有问题，还是个人的打法有问题，这时候，就要去统计他投篮时更多的数据，或者是看现场的表现，但是有一点，如果有某人职业生涯3分命中率30%却投了大量的三分，不是个人出了问题，便是球队出了问题。又比如，某主力球员，比如上赛季伤后的阿联，一直数据不好，那么在结合他在场上的状况，教练仍然会把他从主力阵容拿下来，而不会说因为阿联对阵的是对方的主力球员的原因，而给阿联的表现给予原谅。也就是说，数据可以在大方向上帮我们看出些趋势，特别是长期数据，由于长期数据对个别的小因素不敏感，相对来说就更为合理，所以用长期数据的分析会更有说服力。
&&&&总的来说，冰冷的数据还是相对可以信任的，因为对于每个人来讲，数据都不会因为球迷的不同而不同，数据不会受观察者本身的影响而相对来说比较客观，但是，由于上面提到的，冰冷的数据也不能完全反应比赛的过程和全部，结合经验和知识，把数据和现场结合起来进行比赛分析，无疑会减少一些偏差，但是，无论是数据或者是现场表现，都不可能得到“真正的结论”，也不可能真正做到什么“公平评价”，数据和现场表现分析，对于球迷来讲，增加球迷看球的乐趣，对于教练来讲，增加教练指挥比赛和训练的依据，但是，这些肯定不是篮球的全部。
下一篇： [实习编辑:罗国锋]
收视指南：　　我开发了一个叫做“好斗值”的数据，以此为衡量标准，我们来看看头名和垫底都是谁，以及它和防守贡献值的联系。
　　作为球迷，我们常常按照自己的标准将球员加以归类，有时无非是老一套的东西，无聊的很，但有时候这种分类就能真正定义一名NBA球员的角色。最常见的一个分类是：防守悍将、防守工兵、蓝领、或者游走于犯规边缘的“恶汉”。
　　这样一名球员可以有无数多个，但你明白我说的是谁，因为在大多数情况下，仅仅从直观上便能认出这位防守悍将。不过，如果能用某种方法来量化球员的“好斗性”，岂不是更好？
　　引入“好斗值”数据
　　还好给我们提供了球员数据统计，包括积极拼抢和跑动速度的数据，我利用这些弄了一个叫“好斗值”的新数据，目的在于衡量一名球员在防守端的“好斗性”，计算公式如下：
　　好斗值=（破坏对方球权的次数[译注1]*0.49）+抢断数+活球争抢[译注2]+造进攻犯规数+防守时的平均跑动速度
　　[译注1]：指防守球员在对手非投篮时碰到球，如破坏传球，争球等
　　[译注2]：指球员拼抢一个不属于任何球队的活球，比如争抢地板球
　　这个公式很简单，只是把各种数据拼凑在一起，但是这里面有一些细微的差别（例如有个0.49的系数），稍后我会给你解释。因为可能涉及专业的角度，你可以先跳过，直接看结果。
　　数据整理
　　我收集了这赛季所有454位NBA球员的抢断、积极拼抢和速度数据。这些都是赛季总和，不是场均或是每分钟的数据。接着我筛选出场均上场时间大于12分钟且出场数大于或等于15场的球员，一共有328名。
　　我选择的变量当然是：破坏对方球权的次数、抢断数，活球争抢，造犯规数和平均跑动速度。如果我只把这些数据简单的加和，那么数值很大的数据，比如破坏对方球权的次数和抢断数，将会占据主导，数值较小的数据，比如造犯规数和平均跑动速度，对整个结果的影响就很小了。于是我对每个数据进行标准化处理，换言之，对于每个数据点，我都减去该变量的平均值，同时除以其标准差。这样一来，所有的变量都有同一个标准，以“0”为中心排列在两侧。
　　此外，我觉得“破坏对方球权的次数”需要加权，因为它没有其他数据那么重要。抢断数，活球争抢及造犯规数导致回合的一个改变，而破坏对方球权的次数并不意味着造成对方的失误，因此它们可能比它更加重要。为了找到一个合适的“权重”，我运行了一个简单的线性回归：自变量为破坏对方球权的次数，因变量为抢断数。结果得出一个具有统计意义的系数：0.49。它的意义是：破坏对方的球权每增加一次，抢断数平均增长0.49。我相信这个“权重”足够合理，破坏球权一次基本相当于0.49次抢断。要想真正了解破坏对方球权次数的意义，我们需要更为密集而难获取的数据。我没有对“防守者的平均速度”这一变量进行类似的处理，因为就其他变量而言，它的价值根本无从知晓。
　　整个过程就是把变量标准化，其次在“破坏对方球权的次数”前乘以0.49，最后将每名球员的数据都套到此公式中，求得“好斗值”。
　　结果展示
　　下表是本赛季“好斗值”排名前20的球员。
　　表格里有很多名字都与预想的一致。不过斯蒂芬-库里“意外地”在这个排行榜上位列第三，要知道他最多被看作是一名平均水准的防守者，主要原因是被认为球风偏软和缺乏运动能力，但是回过头来看看他的数据：活球争抢、抢断数和破坏对方球权的次数分别排在联盟第1、5、7位。
　　榜单上的另一个亮点是两位大个子德马库斯-考辛斯和格雷格-门罗。尤其是门罗的防守，在整个生涯被人广为诟病，这赛季，他在替补位置表现出色，也更加注重防守。可能有人认为篮板是“好斗性”的一部分，对此我表示同意，可如此一来大个子就会称霸榜单了。德马库斯-考辛斯的两项数据――破坏对方球权的次数和造犯规数为他拿到了不少分数，他也自然占据了一席。
　　如果你很感兴趣，下面有本赛季“好斗值”排名倒数前10位的球员。
　　我认为说这些球员没有投入到防守中是个很正当的，他们的移动不算特别慢，但他们无法触碰到球，不懂得如何制造对手的失误。我真心希望何塞-巴里亚的排名再高点，然而这种老套的想法实在无趣。
　　我想在“好斗值”数据的基础上更进一步，我便把它除以总上场时间，得到每分钟的“好斗值”数据。因为原始的“好斗值”是以赛季总和为依据，有利于那些拥有更多上场时间的球员。每分钟的“好斗值”消除了这一缺陷，显示出更多积极防守的效率表现。下表是本赛季每分钟“好斗值”排名前20位的球员。
　　除了一些新入围的球员，所得的结果和之前相比基本一样。德安德鲁-利金斯的名字耀眼无比，他位列第二，因为JR-史密斯的受伤，他最近才在骑士的轮换中获得上场时间。此外，托尼-阿伦和TJ-麦康奈尔的入选也在预料之中，他们那强悍的防守可是出了名的。格雷格-门罗一跃至第三，“防守至上”的转变再次得到证实。
　　对比“好斗值”与防守贡献值
　　最后，我们把“好斗值”与一个全面评估球员的数据――防守贡献值作一下比较。理想情况下，这两种统计应该是相似的，但并非完全相同。为了找出他们之间的关系，我对好斗值”与防守贡献值进行简单的线性回归分析。结果表明两者的相似度为15%，一个不高不低的数值。另外，在预测防守贡献值的时候，“好斗值”是一个具有统计意义的变量。下面有防守贡献值和“好斗值”的对比图，你可以直观地感受一下，红色的线是最吻合的线。虽然每个点的分布相当零散，但两者之间有明显的正相关关系。
　　显然“好斗值”并不是很完美，然而至少有一点，它是任意数值的随机加和；最重要的是，它给我们提供了一个新鲜的（我希望还是独特的）角度去解读防守。不仅如此，“好斗值”的建立发掘了数据统计的功用，我们不再受制于依靠直观判断的传统思维方式。老实说，我的想法源于浏览之时，我想探索一块未曾涉及的新领域。或许这说明，眼前的数据所呈现的，一是其简单粗暴的一面，另一种则是人们看到的“假数据”，至于真相如何，我也不清楚。
　　以上数据取自。
　　虎扑篮球
　　翻译团
　　bball-fyt
　　喜欢这篇文章？长按二维码关注我们
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈}

叫阿莫西中心