足球什么知道球员跑了多少?

平凡雨平凡雨最佳答案最佳答案

这是数据挖掘的问题,也是机器学习领域的问题。其实这个问题很早就有了,所以答案也很成熟。 首先需要明确一点事实:目前的技术手段无法实时采集到每一脚踢球的数据,也就是说在比赛进行的过程中无法确认每一个动作的具体参数(当然也无法要求每一个参赛队员都穿着紧身衣来采集数据)。现在所有能够使用的数据都是赛后或者场内利用机器视觉采集的。因此所有的分析都是在有限样本的前提下进行的。

其次你需要一个数据库,里面包括每一场比赛的所有比赛数据,以及每个运动员的基本信息(身高、体重、脚下技术特征等等)。这些信息都可以从互联网公开获取。 最后就是模型建立的过程了。可以基于已有的数据库建立统计模型,也可以利用机器学习方法从一个新数据库进行学习。无论哪种方式,其核心步骤都是提取特征然后建模。对于非结构化数据,比如文字和数据,一般采用泛函映射的方法,把原始数据映射到一个高维空间,然后在新的空间中构造出一个合适的统计模型或机器学习算法。对于像足球比赛这样连续的事件序列,由于难以直接抽取特征,通常的做法是采用视频图像的方法,把整个比赛的视频逐帧转换为图片,再使用计算机视觉的方法从中提取特征,最后输入到学习算法中进行训练学习。

当训练完成后,就可以把运动员的行为特征和模型的计算结果输出比较了。当然这个过程中还可以引入诸多优化的概念。这里就不多阐述了。 以上只是建模的过程,事实上实现起来还有很多麻烦的事情,比如如何确保数据库的完整性(保证没有缺失值),怎么过滤掉无用和重复的数据,如何区分正常数据和异常数据等等。如果要做神经网络或者支持向量机这一类的学习算法,还有初始权值的选取,训练停止准则的选择等问题要解决。否则的话,建立一个粗糙的线性回归模型可能就要简单很多了。 我做过一些类似的研究,不过用的数据是自己采集的,和题主的问题不同。但我可以参考我的经验说一说怎样找到合适的数据(也就是特征)用来建模。

一般来说,影响模型复杂度(即模型的拟合能力)的因素主要有样本数量(n)和样本多样性(d)两个指标。当n很大时,模型的复杂性是可以接受的;但是当n较小且d较大时,则需要调整模型的结构和参数的取值,否则模型可能会过拟合。这时,可以通过增加样本的数量或者降低样本的多样性两种方式之一来解决。 举个例子来说,假设我要为某个运动员的跑动行为建一个模型,用他的跑动距离、跑动速度和时间作为特征(当然这些特征还需要进一步处理)。如果我采集了100个运动员的行动特征,每个运动员都有100个真实值(也就是实际跑动的距离和时间)和100个预测值(根据模型的计算结果),那么我就有100*100组数据可以用来训练/测试模型。假如这100个运动员只能代表10种不同的运动类型,那么样本的多样性d=10。这时如果我想建立一个能够实现95%预测正确的模型,我就需要让n达到10000,因为10000=5000(满足条件n>5000)+5000(满足条件n<5000)。

我来回答
请发表正能量的言论,文明评论!