人机交互将彻底变革计算机的未来

http://www.gkong.com 2011-05-26 17:14 来源：《周末画报》

　　这不是梦想。

　　一场由自然用户界面带来的革命，

　　不仅改变我们和计算机交互的方式，

　　更将彻底变革计算机的未来。

想想当你拿起钢笔记笔记、拿起铅笔画素描、拿起刀刻下字母的时候，手里怎么握触这些工具？微软亚洲研究院的年轻研究员曹翔发现其中的差异很有门道，人们使用不同工具的握姿各不相同，有可能改变长期以来困扰计算机输入的一个问题。

　　这位专门从事人机交互研究的小伙子制造了一个数字笔，上面附加了多点触摸和方向感应，可以识别用户握持笔的方式。于是，在用户变换握持数字笔的方式时，这支笔可以根据其手势，自然而然地实现钢笔、画笔、素描铅笔、刀和圆规等不同工具、不同功能之间的切换，无需切换按钮，如同使用实际工具一样自然。

　　在一年一度素有“计算机研究领域的盛宴”之称的微软技术节上，计算机领域内的各路专家围着曹翔这个简单又巧妙的项目啧啧称赞。曹翔则称自己的点子来自人们的实际需求。尽管如曹自己坦承，这个被称为“所握即所得的数字笔”的小项目尚不能被称为“革命”，但是无数类似的，从人的本身需求出发、强调人与计算机进行更自然互动的交互方式，正推动计算机科学处在一场彻底变革的前夕。

　　感同身受

　　“计算机领域的下一个重大趋势和革命将会是自然用户界面(Natural User Interface，简称NUI)。”微软首席研究及战略官Craig Mundie最近在清华大学发表演讲时指出。Mundie所言的“自然用户界面”，其宗旨是让计算机用户能够综合地使用语音、触摸和手势等行为与计算机进行更自然的交互。

　　这确实是一场历时长久的发展。计算机行业一直积极开发一种更加自然的用户界面，来取代统治这个行业已十多年的图形用户界面(GUI)。在图形界面时代，人们利用键盘和鼠标实现与计算机间的互动。而在自然用户界面时代，人们与计算机的互动，应该像人与人打交道一样亲切而自然，可以是手势、语音或者简单的触摸。

　　Mundie在清华大学演讲时，现场布置了一台演示样机。Mundie通过样机演示了在自然用户界面下，未来的建筑设计师的工作界面：建筑设计图纸投影在桌面，设计师可以用手随意翻动投影在桌面的“图纸”，用手拨动图纸上的线条来改变设计，甚至可以随手“拽取”部分数据，组成图表，用三维的形式投影在工作台上。一切宛如《少数派报告》里的场景。

　　尽管这台样机更多用于虚拟演示，但其中很多技术已经得以实现。Mundie访问中国前不久，微软刚刚庆祝体感游戏设备Kinect销售突破1000万台，成为微软旗下新的一个销售额超过10亿美元的产品，也是迄今为止整个科技行业销售速度最快的消费类电子产品。

　　Kinect体感控制游戏（图片来自网络）

　　这个产品突破了以往的游戏机都要求游戏人通过手柄控制游戏的模式，转而让游戏参与者通过简单的手势与动作参与游戏。例如，在赛车游戏中，游戏人只需模拟握着方向盘，做出相应的转动方向盘的动作，就可实现在游戏中操控汽车的转向；在球类游戏中，游戏人只需做出扑地动作，便可以在游戏中救起排球，或挥动手臂，便可以在游戏中举拍击球。

　　利用手势和语音这种自然的行为控制游戏机，显然已经是人机互动一个巨大的突破。Kinect采用的自然用户界面技术不仅能够运用到各种类型的产品中，而且也能实现计算机感知、互动和预测的新方式。

　　从“感”到“知”

　　让计算机拥有像人类一样的“感觉”，只是自然用户界面需要解决的一部分内容。更关键的，是计算机如何对从各种传感器获得的信息进行分析，从而像人类一样可以“识别”和“理解”各种信息。

　　“以Kinect为例，最困难的部分不是获取3D图像信息，而是如何处理这些信息，如何界定这些3D信息代表什么意思。”微软高级副总裁、微软研究院院长Rick Rashid对《周末画报》说，“人们往往把目光集中到Kinect的3D摄像头上，但这个摄像头是不能独立工作的。”在他看来，Kinect这种用手势及体感与计算机交互的方式，实质是一种实时3D计算机视觉技术。

　　几年前，来自微软Xbox游戏机产品组的同事找到Rashid。他们希望利用微软研究院的一些技术雏形，把3D摄像头投入使用，使之成为游戏控制器，开发一种新型的体感游戏机。但他们面对一个难题：如何将来自3D摄像头的原始图像信息转化成可靠的控制器用于视频游戏，而且下至儿童上至老人都能使用。

　　这其中的技术难点在于，如何界定这些3D信息：是谁站在3D信息系统之前？他身体的哪一部分在做何种动作？如果家里的小狗突然跳到游戏者面前，系统能否正确判断它是不是游戏者身体的一部分？如果只考察其底层的3D信息，是无法区分各种情景的。“这实际上是一个非常复杂的机器学习问题。”Rashid介绍说，因为它必须识别身体的不同部分、处于游戏场景中的玩家身份、连续不断地实时跟踪身体各个部位的运动状态，并且不被其他物体干扰。

　　例如，微软亚洲研究院在身份识别方面的技术，让3D摄像头识别出游戏人成为可能。“其中不仅靠人脸来识别，我们还要考虑到穿着的衣服、身高等信息。”微软亚洲研究院院长洪小文介绍说，目前正式发布的Kinect已经可以在同一场景下识别出4个不同的游戏者，但实际上，微软亚洲研究院的技术可以让同一场景下识别8个不同人成为可能。

　　“我们大量运用机器学习的技术才能让Kinect如此成功。而也正是这些能够让计算机像人类一样看得见、听得到的技术让计算机识别出不同的场景和情境，从而让计算机拥有人类的感官，能够像我们一样互动和思考。”Rashid说。

　　“想”你所想

　　从“识别”和“感知”出发，计算机除了能提供自然互动之外，微软的研究团队希望走得更远，让计算机的角色越来越多地从“执行你的命令”，转变为“代表你来工作”。

　　Eric Horvitz是微软研究院从事人工智能研究的工程师，在他位于微软总部雷德蒙的办公室外有一个机器“助理”。那看上去是一台显示器，显示的是一个3D模拟的女性形象——关键是，“她”可以和前来拜访Horvitz博士的每个人自如对话，和你谈论天气、确认与Horvitz博士约定的会议是否准时。更神奇的是，如果是多人一同到达前台，“她”甚至可以从人们的行为举止判断出其中几个人是否是同伴，把来客区分成不同的组别，依次问候并安排相应的事务——这俨然具有人类的模糊判断能力。

　　“很多人一谈到自然用户界面，就认为他们需要明确地指示计算机去做某些事情，或者去控制什么设备。一直以来，计算机的主要任务是执行人们的直接命令。”微软高级副总裁Rashid说，“实际上，我们可以通过提高计算机对人类意图的理解能力，使它们的行为更像人类的‘助手’，甚至接近人类本身——能够了解人们的想法，预测人们的需求，并妥善执行任务。”而这一切随着计算机计算能力的极大提升，以及云计算和社交计算的普及而成为可能。

　　微软亚洲研究院院长洪小文指出，计算机有可能从收集到的大量用户行为、习惯信息和数据上进行分析和判断，从而识别出特定请求是在何种情境下提出的，并根据这种情境，预想到用户的需要，做出适当的反应。

　　“人机一体”正逐渐成为现实。微软有一个研究小组专门考察人们的驾驶习惯。研究人员发给测试者GPS定位器，用于跟踪他们驾驶汽车的动向等信息。在获得这些信息的基础上，研究人员开发出了一套系统，当用户启动车辆后，系统就能迅速推测出用户想去的地方。其实原理并不复杂，就如同一对夫妇共乘一辆汽车，即便开车的丈夫不告诉乘车的妻子汽车开向何方，通过汽车经过的桥梁、高速公路等标志性地标，并结合丈夫的驾车习惯，妻子通常可以推测出目的地是哪里。

　　研究人员开发的这套系统正是这样，通过各种信息及用户习惯判断出用户想去的地方。在分析出目的地这个关键信息之后，系统很容易根据实时交通信息，向驾驶者推荐最佳路线——在今天显然是种非常成熟的应用，但是对于主动判断出目的地方向，则是一个极大的进步。

　　在Rashid看来，“如果我们能够让系统更聪明地理解用户，并建立良好的人类行为模型，系统就能够更好地执行使命，为人类服务，这样自然用户界面也会有更显著的现实意义。

人机交互将彻底变革计算机的未来

相关新闻

编辑精选

工控原创