北京冬奥走出一项AI黑科技:实时动捕三维姿态误差不到5毫米

毕竟这届奥运会不仅为我们带来了运动健儿们在雪场、冰场上的卓越风姿,还频频曝出各种让人眼花缭乱的黑科技,宛如一场为期十余天的视觉盛宴。

不过你知道吗?其实前沿科技对于这场运动盛会的渗透,还体现在我们目所不能及的地方。

以速度滑冰项目为例,利用视频动捕技术,AI可以实现运动员三维姿态重建,对起跑、加速等动作进行精准量化评估,测量误差可以控制在5毫米以下。

要知道,速度滑冰作为一项纯速度较量的比赛项目,把动作优化到极致、不断逼近人体极限是运动员取胜的关键所在。

从去年冬季开始,中国速度滑冰队便已经在日常训练中用上了这套视觉动捕系统。

而这次北京冬奥会上,中国速滑队在打破奥运纪录的同时,赢得了中国历史上首枚冬奥会男子速度滑冰金牌。

我们以速度滑冰500米个人项目为例,介绍一下这项动作追踪技术怎么帮运动员训练的。

参赛选手两两为一组,在400m长的赛道上角逐,每滑过一圈交换内外道以平衡距离的差异。

两位选手之间几乎没有PK要素,追求极致速度,相当于冰雪运动里的田径项目。

速度滑冰选手最高时速可达50-60千米,选手之间的成绩差距往往只在毫秒之间。

为赢得这一眨眼的差距,每一个动作、每一瞬的姿势、每一处细节都要优化到极致。

近年来,运动员们逐渐用上了动作追踪技术来辅助训练。采集数据、分析量化的方法能帮助提高每一次训练的效率。

第一,AI根据摄像机拍下的视频,提取运动员的关键骨骼点信息、身体关键部位的姿态、运动轨迹和位置信息等,并进行三维重建。

第二,生物动力学(Biomechanics)算法对数据做分析,计算出运动员和教练员关注的参数。

先说起跑阶段,整个人要从静止状态变到移动并尽量获得高速度,突出一个爆发力。

预备姿势上,要考虑双脚与起跑线的夹角,双腿蹲屈的幅度,双臂的位置,重心的摆放甚至视线的焦点。

迈出的第一步叫做“起动”,极为关键。踏冰第一脚的速度、力量、冰刀的内外摆动都影响整场比赛的结果。

这里面步频、蹬冰时间、悬空时间和地面时间,细到膝关节的角速度都可以通过计算得到。

疾跑动作体力消耗巨大,难以全程维持。达到一定速度后要以最小的代价衔接过渡到正常滑跑。

过渡后就进入直道阶段,总的来说需要上体前倾,视比赛距离选择摆臂还是手背后。

上体与冰面夹角、大腿与小腿夹角、小腿与冰面夹角都要保持在一定范围内,一是为了尽量减少空气阻力,再是增加蹬冰时腿部能伸展的距离。

每一步的蹬冰、收腿、摆腿、冰刃着冰都有技术要领;时不时还要利用惯性延续前进,给下一次蹬冰的腿一个放松的机会;再加上摆臂和头部位置也要有配合。

有了数据,可以得到核心关节、膝关节、髋关节的旋转角度和角速度,以及运动员的质心的轨迹和加速度,帮助运动员分析姿态对蹬冰质量和效率的影响。

接下来,还有弯道阶段身体倾斜的角度、转弯半径,冰刀是否沿切线着冰,最后冲刺阶段的滑跑和最后一步更早让冰刀触及终点线等,这里不再一一详述。

多次训练数据积累起来,纵向能总结某一个运动员自身的习惯和特点,横向能比对不同运动员间的长处与短板。

根据这些结果,就可以有针对性地改进调整,不断优化到极致,向着更好成绩冲刺。

以上这些训练细节,部分来自滑冰教程和体育学术论文,部分来自英特尔公布的资料。

英特尔正是中国速度滑冰队的签约合作伙伴,提供的这套技术叫做英特尔 3DAT运动员追踪系统。

之所以叫它黑科技,是因为它不同于此前的动作捕捉技术,不需要什么专用摄像机,如高分辨率红外摄像机,也不需要被捕捉者穿戴任何传感器。

只用普通单反,甚至手机拍摄视频,就能通过精心设计和优化的AI算法导出三维运动姿态并进行精准的数据分析。

像以上这样利用AI帮助运动员抠动作细节,现在已经成为了中国速度滑冰队的日常。

最早在去年年初,这套名为3DAT的视频动捕系统就被试验性地用在了辅助训练上。经过半年多的磨合,在2021年冬天,它正式成为了训练队中的一员。

3DAT不仅可以捕捉到运动员的三维动作姿态,甚至还能实时将这些画面展示在教练员眼前。具体究竟有多厉害?我们一起来看。

首先,区别于传统光学捕捉、惯性捕捉,3DAT无需运动员佩戴任何设备,就能捕捉到他们在高速运动时的动作姿态。

而且也不需要搭建专业的摄影棚,在训练场旁边架设最普通的摄像机就OK,对摄像头数量的要求也不高。

像花样滑冰1800平方米这样大的场地,2-4个摄像头就能采集到运动员在此范围内的所有动作。

据幕后技术人员透露,甚至连普通的手机摄像头,也能很好支持3DAT完成动捕。日常训练中所需的相机数量,完全取决于教练员需要查看多少精度的细节。

不仅支持1080P、4K等画质,还能以高于每秒100帧的速度解码。测量误差可以压低至5毫米级别,角度误差也控制在7-8度左右。

另一方面,3DAT还可以把以上捕捉到的效果,实时展现给教练员,大幅提升了指导的效率。

并且它会采集记录下每一位运动员的数据,形成单独的数据库,方便教练员回看和调取记录,以此来分析制定训练计划。

通过收集大量三维运动姿态图像,AI算法可以提取出人体骨骼的关键信息特征,然后再通过检测或回归的方式输出特征图或坐标点。

在这里使用了英特尔 OpenVINO 视觉工具套件,它可以提供深度学习推理套件(DLDT),从而将各种训练好的模型进行线上部署。

其中,模型优化器可以将训练好的模型转化为推理引擎可以识别的中间表达,推理引擎则完成高精度分析视频的工作。

也就是说,3DAT不只可以辅助速度滑冰一个项目训练,像花样滑冰、越野滑雪等项目,只要有训练好的模型,就能通过OpenVINO完成部署。

据英特尔的技术专家介绍,采集5万张左右图像就能训练好适配一项运动的模型。

总之,只要有了数据,需要分析什么参数全看运动员和教练员提的需求,算法这边可以根据需求调整。

此外,由于要及时给出结果,3DAT需要高算力、高吞吐,因此在硬件上也有仔细考量。

首先是计算方面,3DAT使用的是第三代英特尔 至强 可扩展处理器,它可用于云计算、高性能计算、数据分析和AI等应用场景,拥有8-40个内核,支持8通道DDR4,64条PCI EXPRESS 4.0通道。并且专为AI应用的加速,集成了英特尔 深度学习加速技术,让CPU加速AI不仅成为可能,而且在优化到位的情况下还可以媲美专用AI加速芯片的效果。

像开幕式上“和平鸽雪花”节目中超过600人实时动捕,其实只用了4颗第三代英特尔 至强 可扩展处理器就搞定了。而且时延还做到远低于预定的目标,就是用到了OpenVINO+第三代英特尔 至强 可扩展处理器对INT8模型的加速能力。

存储方面则使用了英特尔 傲腾 技术,可以提供持续型内存、大型内存池、快速缓存和快速存储,以此来保证数据的低时延处理。

同时应用的英特尔 Scalable Video Technology还能对相机拍下的画面进行高效编码,进一步降低视频数据的压缩存储和上云的带宽需求。

据技术人员介绍,未来这种计算还可以迁移至云上进行,对设备的要求还能进一步降低。使用者基本只需自备视频拍摄的设备,如手机即可。

诚然,以上视觉动捕在专业运动项目的应用、帮助人类不断突破体能极限,还只是科技助力体育发展的一隅。

比如三分球“变态准”的库里,就在训练中用过一种穿戴设备来捕捉投篮的姿态;美国职业橄榄球运动员们亦是如此,同样在用AI来辅助了解自身运动状态……“人机合一”或“人机共生”俨然已经成为体育圈内的一种大势所趋。

尤其是在人类已经将自身极限逼向极致的当下,仅仅依靠传统训练手段,想要寻求新的突破已经变得难上加难。此刻,科技便成为人类走向“更高、更快、更强”的一条新路径。

不过,类似3DAT这种AI科技流淌的速度和范围,其实还要超乎人们的预期和想象。它在本次冬奥会开幕式中,以及在专业运动训练中的表现,更像是一种啼声初试。

据英特尔技术团队透露,3DAT在本次冬奥会的开幕式和部分训练中成功应用后,已经有很多合作伙伴或用户。乃至是体育运动领域外的伙伴和用户,也在考虑这项技术在他们业务场景中的应用价值。

接下来,我们或许很快就会看到这项黑科技从专业运动领域渗透到人们的日常生活中。比如仍然与运动相切相关的体育教育、个人健身以及康复训练。抑或是与运动关系不大,但对动捕应用需求旺盛的游戏、虚拟现实、线上购物、数字艺术创作等领域。

光是想想就觉得刺激,过去只有好莱坞大牌片厂才能制作的高逼线D角色或偶像,不久之后在你家书房里,只靠手机+电脑就能做出来,这是一种怎样的体验?