关于虚拟现实的科技论文2000字范文(2)
关于虚拟现实的科技论文2000字范文
关于虚拟现实的科技论文2000字范文篇二
人机交互:在虚拟与现实之间
电影《哈利·波特》里,魔法世界的报纸上每一张图片都是会动的,可以随着阅读幻化成一段影像,打开的是报纸,看到的却像电视。被誉为天才少年的普拉纳夫·米斯特里展示的发明,已经可以把电影里的奇幻图景变为现实。当他随意打开一张报纸,如果是体育版,比赛的照片就变成比赛的视频;如果是时政版,官员的照片就变成了他们演说的现场。
普拉纳夫使用的不是魔杖和咒语,而是现代科技。这套被他命名为“第六感”的装置,包括了集合了包括摄像头和投影设备的可以挂在脖子上的长条装置、指尖的四色识别胶条和一部可以连接互联网的智能手机。摄像头捕捉着手指的动作,识别周围的环境和动作的意义,并做出反馈;通过投影设备,任何物体表面都可以成为显示屏,将反馈的结果呈现出来。这些识别和反馈,都是计算,完成这些复杂计算的,也不是魔法,而是通过智能手机连接到的“云端”——通过互联网实现链接的拥有强大计算能力的服务器。
在普拉纳夫的装置里,每一项技术都不是前所未有,但他把这些技术集成起来完成创新的想法,却是前所未有的天才。所以,当他在TED的印度大会上展示完这项发明的时候,全场起立,掌声雷动。TED是英语中三个单词的缩写:技术、娱乐和设计,它是美国的一家私有非盈利机构,宗旨是“用思想的力量来改变社会”,它不仅创立了基金会,还在全球运营TED大会,召集科学、设计、文学等多个领域的杰出人物,来分享他们的前沿思考。“第六感”两次出现在TED的演讲视频里,一次是普拉纳夫在麻省理工学院的导师主讲,然后请他以发明者的身份上台稍作演示;另一次就是TED的2009年印度大会,普拉纳夫单独上台,更完整地展示了他的创想。
通过“第六感”装置,普拉纳夫不仅可以把任何物体表面变成他的显示屏,更了不起的是,在真实世界和虚拟世界之间的随时切换。他不仅可以在纸上看视频,在墙上玩游戏、进行文档处理,还可以只用四个手指组成一个取景框就完成拍照,在手腕上做一个画手表的涂鸦动作,就真的能在手腕上投射出一个有指针的手表看时间。与一个陌生人见面,就能通过网络搜索分析,将对方的个性关键词解析出来并投射在对方身上;对一本实体书的任何一段文字或图形做一个简单的抓取动作,就能让它们呈现在虚拟的显示屏里……
“第六感”装置与笔记本电脑或者智能手机在本质上并没有区别,也是一种计算能力的载体,只不过,人们可以用更简单的操作,更自然地完成与机器的互动。其实,自从计算机发明以来,人机交互,也就是人类与机器的“对话”就一直是科学家们在研究的课题,最自然的人机交互模式是什么样子?不仅局限于我们现有的技术能力,更取决于我们的想象力。普拉纳夫自己的思考是:“我们的下一代天然就会在任何屏幕上点击、在纸质照片上做缩放的动作……他们看待物质世界的方式与我们截然不同。所以,思考下一代的媒介时也必然要跳出盒子,同时从虚拟世界向物理世界思考。” 与机器“对话”
从计算机诞生开始,人与机器的对话也就开始了。还记得简陋的DOS界面下那些必须死记硬背的命令代码吗?早期,人机对话的“门槛”很高,要经过专门的学习,掌握特定的复杂操作指令,才能让计算机明白人们的简单需求,输出简单的结果。“在早期的命令语言用户界面时代,人和计算机的交互主要是通过键盘来完成的。此时的计算机主要是大型机,用来进行科学计算,接受文本命令。”中科院自动化研究所模式识别国家重点实验室研究院陶建华说,“后来,道格·恩格尔巴特发明了鼠标,施乐公司提出了图形界面的交互方式,计算机由此进入了个人PC时代,WIMP范式成为电脑所采用的界面典范。”
“WIMP是由视窗(Window)、图标(Icon)、菜单(Menu)以及指针(Pointer)所组成的缩写。”陶建华解释说,“这种命名方式也指明了它所倚赖的四大互动元件,在人机互动领域之中,WIMP范式堪称标准和典范。”不管是微软的Windows、苹果电脑的MacOS,甚至其他以X-Window为基础的操作系统,都采用WIMP范式。但随着计算机硬件设备的进步和软件技术的发展,WIMP界面的缺点逐渐地体现出来。“比如平板电脑和智能手机,屏幕小,而且为了携带方便,就不适宜再配置鼠标,焦点自然就聚集到了下一代的用户界面的研究上。”用户界面技术的每一次飞跃,都是为了完成同样的目标:帮助计算机了解用户,帮助用户更好地使用计算机,实现计算能力的延展。 道格·恩格尔巴特和他发明的鼠标
除了键盘输入,鼠标点击,我们还能用什么方式与机器互动?苹果智能手机和平板电脑系列的诞生,让我们看到了另一种可能性——触屏、语音和手势、动作识别,在术语里,它们都被统称为“人机交互模式”。不过,这些交互模式真的是苹果的独创吗?答案是否定的。“早在10年前,新的交互模式就已经出现了,但是在苹果手机出现之前,没有任何产品能取得同样的成功。”陶建华分析说,“第一个原因,是传感器技术当时还不够发达,触摸控制设备很早就有了,不过早期是电阻式触摸屏,靠作用的力来改变屏幕的电子属性,完成输入,所以一般都配有专门的触控笔,或者需要用手很用力地按压屏幕,而苹果手机使用的是电容式触摸屏,通过静电感应来完成输入,从电阻屏到电容屏,在技术上并非质变,但在用户体验上,却完全不同。”
“另一个原因,是语音识别技术和对话管理技术的发展。”陶建华解释说,“早期的语音识别系统很不完善,识别率低,体验感也不高。”陶建华已经从事了近30年语音交互技术的研究,他回忆说,“研究早期,除了像IBM和微软这样的大机构,对世界上其他许多研究机构来说,计算机信息资源都受到诸多限制,在语音识别系统上,缺乏声音数据资源来进行训练,能使用的服务器群组也非常有限。声音数据的采集,要耗费大量的人力物力,还要由专业机构进行文字转换和处理,再变成机器能识别的语言。早期我们能有几百个小时的声音数据就很不容易了,哪里像现在,动辄就是1万多个小时的声音数据。”数据的丰富,意味着机器可以完成更多的模型训练,能更好地识别声音的不同特征。而互联网的发展,推动了“云识别”技术的进步,通过云端更为庞大的服务器和计算模型的创新,“我们不仅拥有了更丰富的数据,也拥有了更强大的数据处理能力”。 大数据时代的未来 普拉纳夫·米斯特里在演示“第六感科技” 2011 年2 月28 日,德国汉诺威CeBIT 展会上,牵头开发“沃森”的IBM 公司科学家费鲁奇(左)向参会者展示这款超级电脑
语言是人类交流时最主要的信息方式,那么我们与计算机之间是否也可以同样实现?陶建华已经从事了近30年的语音交互模式研究,在他的记忆里,“语音技术的发展经历过三次高峰”。“第一次是上世纪70年代到80年代,一个短暂的高峰,计算机已经能做语音识别处理,但技术远远未能达到应用层面。曾经最为著名的贝尔实验室,花费了许多的人力物力投入到语音拨号的研究中,结果也未能成功。”“第二次高峰是90年代,统计计算模型的引入。早期的语音处理虽然能够建立规则,但是识别僵化,而隐马尔可夫模型的引入,使得理想状态下的整个识别结果的准确率一下子超过了90%,这是惊人的进步,不仅仅大机构在投入研究,也因此诞生许多相关的科技公司,包括后来开发出SiRi系统的公司。”“第二次的高潮持续到2000年左右,随互联网泡沫的低潮进入低潮,尤其是2000到2005年这一段时间,整个国际上对语音技术的研究投入都很少,直到苹果公司买下SiRi专利,在发布的新款手机上推出了这个系统。从2009年开始,语音技术的研究进入了新的热潮,除了手机,还有车载语音系统、无人值守电话等领域。”陶建华很清楚地记得他在比利时参加的一场语音技术的国际会议:“现场展出了一款高档车的语音系统,导航、仪表控制等等,都实现了语音控制,我印象最深的是,为了实现车内的降噪,每辆车里的若干个麦克风设置都是无比精准的。”
这三次高峰里呈现出两个规律,如果产生了新的计算模型,计算机的计算能力得到质的飞跃,就能极大地推动语音技术的发展,与此同时,新的成功的应用,反过来也会推动技术研究的进步。中国的语音技术研究,“如果说90年代还没有跟上国际步伐,那么从2005年左右开始,我们已经基本跟国际同步了”。陶建华欣喜地看到了语音识别技术准确率的不断提高,“这几年的识别准确率一下子提高了好几个百分点,从93%飞跃到了96%以上,这在过去是不可思议的。当准确率提升到90%以后,每增长一个点都是非常非常难的,过去十几年,也没有提高一个点,但现在我们可以做到了”。作为研究者,他也意识到这背后更值得思考的问题:“这种提升,是因为另一种计算方法的出现,‘深度机器学习方法’,这是加拿大人Hinton的研究做出的革命性的引领。深度机器学习方法与隐马尔克夫统计模型的结合,实现了这几年的准确率提升。但是,虽然深度机器学习方法是一种创新,但是在大的框架上,我们还没能突破最初的统计计算模型,未来的技术发展,最终还是要取决于计算模式上的根本性创新。”
不过,计算模式的根本性突破,显然是更为艰难和漫长的道路,所以,在比较近期的未来,我们更可能看到的还是各种新型应用的产生。陶建华举例说:“比如像谷歌眼镜这样的产品,主要就是通过语音控制,眼镜接受特定的语音指令实现开机、打电话,完成拍照、摄像和在社交网络实时分项等功能。”类似这样的产品,“过去也有人在研究,在眼镜上加上麦克风和摄像头等等,但是和苹果手机一样,在谷歌眼镜之前,并没有一款产品能够被人记住”。在他看来,这些产品的成功都有同样的原因,“应用构思如此巧妙,交互模式如此友好”。
这些产品的出现,也一再印证了同一个规律,“创意的原型来自科研机构,但是,最成功、成熟的创意往往来自大公司,因为他们更接近应用,而且拥有更强大的研发实力”。 机器的“智能思考”
当年深蓝计算机的出现,实现了人机对弈时的戏剧性变化,机器与世界冠军之间分出了胜负。深蓝被比喻成具备了“5岁孩子的智力”。现在,随着大数据时代研究的进展,拥有更高智力的计算机已经出现。它亮相于美国家喻户晓的一档游戏节目《危险地带》,与下棋不同,这是一个多人参与的现场抢答节目,这就意味着,计算机远不止要能进行语音识别,它既要能听懂问题,还要能做出及时判断。从观感上,人类与这个计算机之间,已经能够进行顺畅的交流。这个计算机是IBM的沃森解决项目,在计算方法上的创新,是“智慧计算”的尝试,它的研发目的是用于医疗。
IBM沃森项目研发团队介绍说:“沃森一个重大的特点是基于事实的、基于已经记录下来的事实所推演出来的答案。”“沃森非常擅长从一个大量的知识体当中寻找答案。沃森本身是不具有所谓的直觉,也不具有主观的意见,所以虽然它能力很强,但是永远不会取代医生和其他的专业人士,这些专业人士他们的特长是具有丰富的经验和专业的直觉。人类的专家的特长或者特别的价值就在于找到从前从未发现的知识,从前从未回答过的问题。”“人类在给出答案的时候,也许对于事实没有那么广泛的掌握,对于事实的话可能也没有那么持久的记得,往往是以印象、直觉、主观的意见来给出答案,沃森是完全基于事实给出的答案。在很多场景之下,往往会出人意料地给出一些答案,这些答案事实上也都是基于事实的。”
最有价值的,自然是智慧计算的尝试和努力,IBM的沃森团队介绍说:“这使得我们把计算从一种线性的计算模式转成一种大型的计算,能够同时考虑多个因素的一种大型计算。用一个例子来解释什么是单纯的线性计算到考虑综合因素的计算的变化。”“认知计算,把整个计算的水准又大大提升了一步,它其中一个显著因素是把一些类似于人类的推理推导和理解的能力加入到计算当中来,增加对预期期望的因素,这就变得更加智能,能够把一些不是直截了当所表达的因素和环境的知识能够同时加入到计算当中来,综合利用这些因素,能够得到一些更为精准和更为智慧的答案。这些答案都往往不是事先编制在系统当中的,而是由类似于人类的推理推导而带来新的见解。”
不过“从本质上来讲,沃森并不在模拟人脑的运算模式,尽管是从效果的角度来讲,达成了某些类似的效果,尤其是在对于语言的处理上”。“在沃森里有一个模块,有一个硬件是用了神经计算的能力,除此之外我们并没有在沃森的技术里面过多用神经系统的领域。神经计算有很大的潜力,是值得大家关注的,可是人类是如何思考、思维和推理之间是有很大的不了解的地方,真正达成在一个计算机里的电子和半导体当中的流转到最后如何通过电脑能够获取知识,达成结论,得到理解,这个距离是一样远的。所以总而言之,神经计算是值得关注的计算领域,它的一些工作也得到一些应用,可是在目前沃森里面还不是一个主流。从机器计算到人脑计算之间还有一个遥远的距离,我们还不知道进展的时间表是什么。”
看了“关于虚拟现实的科技论文2000字范文”的人还看: