近日,英特尔中国研究院举办了一场媒体沟通会,现场英特尔中国研究院院长宋继强介绍了他们的研究方向和目前取得的一些成果,射程涵盖 HERO 智能机器人平台,人脸分析及情感识别技术,神经拟态芯片,当然,还有 5G 和 VR。
说起来,英特尔很早便开始关注 VR 了。从 2016 年开始,他们对外发布过 Project Alloy VR 硬件参考开放平台(今年 9 月宣布放弃该计划),2017 年年初的 CES 上展示过一段六自由度视频,六月份的 E3 大展期间亮相过 VR 无线方案,甚至还宣布将为多届奥运会进行 VR 直播,以及还有很多他们没有公布的事情。
对 VR 的研究,英特尔下了不少功夫。而在这次的媒体沟通会上,来自英特尔中国研究院通信架构实验室的研究员详细地介绍了 5G 和 VR 的结合,未来 5G 将如何助力 VR 的发展。
演讲全文整理如下。
通信架构实验室主要是致力于无线通信基础架构的研究,我们主要是采用通信和计算结合的方式打造高效的端到端的通信系统,提升用户体验。今天我给大家介绍的主题主要是汇报我们 5G 和 VR 结合的工作——“通信和计算融合,引领VR未来”。
主要介绍三个部分:
- 第一,5G 主要面对的数据洪流,从架构上怎么支持 5G 的数据洪流。
- 第二,介绍研究院对于远程沉浸式互动的愿景。
- 第三,通信与计算融合解决移动 VR 关键问题。
我们研究工作的重点主要是通信和计算融合的方式,为什么需要通信和计算融合呢?大家如果从互联网厂商的角度可能认为通信系统基本上对我来说是透明的,我不需要知道你通信到底做了哪些事情,只需要把信息从一端传到另一端就可以,为什么通信和计算要结合起来,有什么好处?
5G 如何应对庞大的数据流
主要的出发点是数据,怎么处理数据和传输数据,特别是 5G 将来所要面对的数据洪流。大家肯定都是对摩尔定律非常熟悉,宋院长(英特尔中国研究院院长宋继强)也介绍摩尔定律如何实现每18个月我们芯片的能力翻一番。
而在通信领域,通信系统通信速率的发展以及我们对移动通信数据的需求,甚至是超过了摩尔定律。比如说 2016 年全球的移动数据通信量是增长了 63%,如果按照这个速度下去,两年实际上就翻了 2.5 倍左右。它的增长速率甚至超越了摩尔定律的发展。为什么?借用十九大的一句话,满足我们日益增长的对美好文化生活的需求。这是一个指数定律。
按照这个速率增长下去,到 2020 年 5G 部署的时候我们将面对什么呢?我们将面对 50EB 数据的流量,每个月的移动数据流量在今天的基础上再增长5倍。EB 是 10 的 18 次方。同时,我们知道 5G 支持物联网的应用,特别是我们提的自动驾驶,自动驾驶的汽车每天产生的数据是 4 个 TB,如果大家对硬盘比较熟悉,一天产生的数据容量要充满非常大的硬盘,每年 365 天需要买 365 个硬盘来存储整个自动驾驶的数据。特别是自动工厂智慧城市里的互联工厂,一天的数据量,像芯片厂、封装厂一天的数据流量就是 1TB,一天要买几百块硬盘来装满你的数据。对于 5G 来说我们所要面临的数据洪流是非常巨大,对整个通信系统和计算系统来说都是一个巨大的挑战,当然也意味着巨大的商机。
今天围绕的主题是VR和5G,为什么VR需要特别大的数据容量,为什么VR在数据洪流里会占据大量的流量呢?目前互联网的最主要的传输内容是视频,将来VR是代表更高质量视频的未来。
举个例子,如果大家看一张很高清的图片,放在手机上或者是放在电视上会觉得现在的清晰度已经超出你的想象,非常的清楚。但是如果你把一个同样的图片放在一个VR眼镜上,同样的分辨率会变得非常模糊,为什么?主要是视角的原因,我们在手机和电视机上看图片的时候,你的视角只有10到30度左右,在VR眼镜上拓展到100度、120度、150度,一下子增加了好几倍,纵向还有增加的倍数。为了达到非常好的高清要求,对VR的显示来说需要25倍到40倍的分辨率增加,这样它的流量会变得非常高。
比如我们要打造一个非常好的VR系统,现在的系统是达不到这个要求,你需要16K到24K超级高清的VR。不压缩的话,容量会达到500Gbps,每个月的容量是1Gbps,如果是500Gbps,可能是十几年的容量一秒钟就过去了,即使压缩之后也达到1Gbps,同时VR对显示的延迟非常敏感,对传输的容错性也是非常敏感。所以对5G来说,特别是高质量的虚拟现实和增强现实,对5G的通信系统和计算系统来说都要着力应对。
我们主要研究系统架构,在5G系统架构里面怎么样满足一个速率洪流的要求,主要是采用计算和网络融合的方式,在端到端的部署、计算和网络系统来满足数据处理和传输的要求。
在3G、4G时代,网络是网络,数据和云计算是云计算功能,对于一个云计算的应用来说,网络基本上是透明的,它的传输容量在接入网端的传输容量和核心网的传输容量,骨干网的传输容量是一致的,你发的任何一个请求都会到云计算中心处理,然后再把结果返回给你,这样在整个容量是一个一致的管道的容量。
大家应该都有亲身的体验,如果你宽带扩容了50兆,然后再扩到100兆或1Gbps,其实你的感觉并不明显,你的容量并不是受限于接入网端,而是在核心网、骨干网或者数据中心里面,没有办法支持那么高速率的应用。如果你的小区里面放一个视频服务器,你去访问视频服务器的时候会感觉看起高清大片来特别流畅,主要是因为内容下沉。
在4G的后半期我们已经引入了边缘计算,边缘计算的目的主要是应对在网络边缘的数据传输和处理的要求。我们加入边缘计算,可以对很多边缘产生的数据进行实时的处理和反馈,比如智能汽车产生的数据,智能工厂产生的数据,这样就不需要把所有的数据传到云计算中心再进行处理。它有两点非常明显的好处,第一是时延非常低,满足物联网的应用。第二是减少核心网的带宽。虽然我们的5G会将边缘的容量扩展得很大,比如说100倍到1000倍左右,核心网不可能扩展到1000倍。
在5G和下一代会是什么样?会发生什么呢?在第三阶段的时候,我们认为它的计算能力会进一步的下移到智能终端。比如,车或者手机实际上就是一个智能终端,家里的传感器和路上的传感器很多都可以连到智能终端上,5G的网络会把整个物联网设备、智能终端和边缘计算的能力、云计算的能力统一起来,所以我们能够打造一个端到端的网络,同时也是一个端到端的计算平台,来应对5G的数据洪流。
大家肯定是对AR/VR非常熟悉,我们对未来AR和VR的认识和愿景是什么。我们主要是提出远程沉浸式互动的未来,什么意思?未来,你带着一个VR眼镜,我们可以用5G的网络把你和一个智能的机器人连接起来。
中国研究院也有非常多的智能机器人方面的研究,我们把网络和机器人连接起来,同时机器人能够把360度视频和声音实时的传输到客户端,你可以对机器人进行控制和真实的世界进行互动。这能达到什么效果呢?就好像在任何时间你都会瞬间的转移到世界上任何一个角落,和一个真实的环境进行互动,这是我们设想的一个超越目前AR和VR远程沉浸式互动的未来。
能支持什么样的应用呢?我们觉得非常多的应用,像远程购物,你现在是在北京,你可以一下子就跑到美国的超市里进行购物,从货架上亲自把你想要的东西选下来,你就再也不用担心假货。还有远程的旅游,比如说你在一个你喜欢的时间和地点,比如说慕田峪刚下过雪,或者夕阳西下的时候,一下子跑到那里,可以亲自体验一下那个美景。
还有社交的功能,大家回家都非常少,在外地工作的时候,有了我们这个系统可以瞬间转移到你的家里,和你的父母进行聊天,好像你真的回到家里身临其境一样,这是我们设想的远程沉浸式互动的未来。我们用什么样的技术实现呢?下面跟大家介绍一下。
VR最主要的肯定是要做内容,我们刚才也说目前的VR内容2K、4K,它的清晰度还差得很远,我们怎么样产生高质量VR的内容呢。如果你体验过VR的视频可能会有一些体验,目前的VR视频除了是好莱坞制作的大片,基本上VR视频内容都是2D的,因为3D VR视频生成是非常复杂的,制作难度也大。
所以,我们英特尔中国研究院研究的目标聚焦两点:
第一,3D VR视频能实时合成,能够产生高质量的内容。
第二,怎么实时产生内容满足我们对远程沉浸式未来的要求。
我们的设备大家可以看到它有非常多的摄像头,有17个,每个摄像头是2K的分辨率,为什么需要这么多的摄像头,实际上主要是为了在水平方向能够在任意方向差值生成一个3D的内容,需要每个摄像头之间有比较多的重合区域,所以需要非常多的摄像头。
3D VR的合成算法非常复杂,特别是产生一个没有瑕疵的3D视频,你要消除它的鬼影效应,消除拼接的瑕疵,采用非常复杂的光流算法,即使是目前最强大的服务器和最强大的台式机也很难完成实时性的功能。
我们开发了分布式的处理平台,是非常高密度的分布式处理平台,是2.5U高的机箱,在这里可以插入12个至强CPU卡,同时插入12块FPGA卡,中间有600G左右的互联能力。对视频VR处理来说,对实时合成来说一个主要的功能就是怎么样实现精准的同步,从处理的角度实现精准的同步,这个平台也可以支持。通过我们算法的研究,通过实时处理的加强,希望我们能够真正的达到产生一个非常高质量的,比如说现在产生8K的高清的内容,满足将来的要求。
我们有了内容之后,下一个面临的问题是怎么样把这些内容传输到客户端。刚才说了VR的传输要求是非常高,整个的带宽需要是100兆到1Gbps。同时,延迟需要非常低,只有十几毫秒到二十多毫秒。目前的网络基本上是没有办法满足这个要求,所有移动的网络是有接入网,有核心网,有骨干网,所以在任何的两个用户之间传输,即使你是在离得很近的两个用户传输,实际上要走一大圈,中间需要经过非常多的设备,即使优化得很好,最好的效果只能达到50毫秒到100毫秒。
在这种情况下怎么能够满足VR处理实时性的十几毫秒的要求,特别是移动的时候跟上你的显示速度,这只有十几毫秒。我们提出一种方法——边缘计算,通过通信和计算结合的方法,采用边缘计算的能力能够使VR达到实时传输的要求,解决从显示到头显的要求,解决从带宽到时延的要求。
首先,我们生成VR的视频内容之后,把360度的全景视频通过压缩传到边缘服务器,在边缘服务器端有整个全景的内容,可以同时服务多个用户。每个用户会把自己的视角信息,你在看哪个方向传给边缘服务器,边缘服务器把视角信息的内容发给用户。
这样有两个特别显著的好处:
一是通过通信和计算结合的方式,采用边缘服务器能够显著降低从移动到显示的时延,本来是50到100毫秒,现在只是10到20毫秒。
二是能够大大降低无线通信带宽的需求。如果不采用这种方法需要1Gbps带宽,采用这种方法可以降低2到3倍。通过这种方法我们能够打造一个高效的5G网络传输系统。
还有一点比较重要的:可靠性。因为VR的传输它对数据传输的可靠性要求非常高。一个视频如果离得很远,看电视的时候突然有一些瑕疵可能感觉比较明显,但不会感觉特别不舒服,但是如果一个VR眼镜在显示一个视频的时候,如果突然感觉有一帧丢失了,就需要很长的时间才能恢复出来,这时候会感觉到特别的不舒服。
怎么样满足这个要求呢?当然,如果我们仅仅从通信设计的角度去设计一个速率非常高,延时非常低,同时容错性非常好的系统,这也是可以做得到的,但是整个的成本和效率就会非常低。我们也提出用通信和计算结合的方式,我们把整个头显端的计算功能增强,在头显端做一些容错性处理,比如把异步时间扭曲的功能加到头显端。
举个例子,通过边缘服务器或者是个人的笔记本,把视频、游戏传到头显端,第一帧会正确接收,当第二帧传输失败的时候,头显端会用前一帧的内容根据目前头显的位置信息和视角信息进行旋转,重新生成第二帧的内容,这时候用户对整个传输失败的感觉不会太明显,甚至没有丢失的感觉,这样用户体验会大大提升。我们将这种增强异步时间扭曲的功能加入到移动VR头显端,特别是加入到手机端。通过增强头显端和手机端的功能,提高整个系统的可靠性和体验,显著的降低VR带宽的需求和整个设计的难度。
这是我们录的两段视频,左边是英特尔的移动VR系统,右边是第三方的系统。可以看到左边的系统是我们用手机拍摄下来的,是非常流畅,但是右边因为是完全靠这种PC的功能,手机端的功能比较弱,会显得非常卡顿。
还有另外一点最重要的,也是做研究经常容易忽略的一件事情,你的应用在哪里来。如果我们做了一个VR系统,所有的应用要重新写,所有的内容要重新生成,那是没有办法建立起一个生态系统的。
我们做的事情就是怎么把我们的移动VR移植到PC端、边缘服务器端和主流的平台上,我们开发了VR无线适配,可以无缝的接到Steam平台,Steam运行的游戏和内容就可以在移动VR上播放和运行。我们把显示内容从PC或者边缘服务器显示到移动VR端,同时移动VR端的感知信息,比如传感器的信息会发给Steam平台,能够将一个PC VR的体验和基于云计算VR的体验带到真正的移动VR端。
最后总结一下,我们通信架构实验室主要是在5G和VR结合方面的研究,通过通信和计算融合的方式打造一个高效的通信和计算系统,能够将来解决一些移动VR端的关键问题,通往我们所设想的远程沉浸式互动的未来。