人机大战再对决沃森将人工智能推向新阶段

http://www.gkong.com 2011-02-21 11:54 来源：中国计算机报

　　深蓝余波未尽，沃森热浪又起。超级计算机系统再次与人类对决，究竟谁能获胜?刚刚结束的美国智力竞赛节目《危险边缘》的人机对战中，IBM超级计算机系统沃森战胜了人类冠军!沃森是20多名IBM研究人员4年心血的结晶，正是他们突破性地给予了沃森理解自然语言和精确回答问题的能力，才将人工智能推向新的阶段。所以，尽管沃森取得了比赛的胜利，但是人类才是最终的智者。

　　“在20年前，可能所有人都会认为机器在智力问答中战胜人类是不可能的。”图灵奖获得者、斯坦福大学人工智能专家Edward Feigenbaum就曾发出这样的感叹。但是，今天它变成了现实!

　　在美国家喻户晓的电视智力竞赛节目《危险边缘( Jeopardy!)》中，IBM超级计算机系统沃森(WATSON)在北京时间2月17日上午战胜了该节目有史以来最优秀的两位人类冠军Ken和Brad，圆满结束了这场历时三天的人机大战。

　　相较1997年人机大战第一役中的主角深蓝，沃森可谓是另一个里程碑式的超级计算机系统。和它的前辈相比，沃森的计算能力已不可同日而语，更大的差异还在于它们所应对的算法挑战。第一次人机大战，深蓝对国际象棋的精熟曾让世人震惊，因为国际象棋定义明确，主要涉及数学方面的处理能力，计算机可以轻易计算每一个游戏状态及相应步骤。然而，《危险边缘》节目中的智力问答，则要求计算机必须理解人类的语言。与国际象棋不同，人类语言是完全开放式的，往往模棱两可，需要上下文才能理解其意思。虽然IBM的研究人员可以轻松理解人类语言，但开发理解人类语言的超级计算机系统却极具挑战性。

　　尽管存储了大量的百科全书和其他信息，但《危险边缘》的问题并不会让沃森轻易地找到答案，因为寻找答案从来不是计算机的强项。搜索引擎没法回答问题，只能给出符合搜索关键词的成千上万个似是而非的可能答案，而沃森要通过各种不同的算法对所有的候选答案取得更多的证据支持，再根据证据的强度对每个候选答案给出其置信度，最后根据置信度来决定是否向用户提供置信度最高的唯一答案。这一过程是极其复杂的，因此需要动用几千个处理器的超级计算机来处理一个问题。

　　沃森需要掌握大量的知识，并在相关和不相关的信息中发现线索。对计算机来说，这是一个巨大的挑战。因为人类可以在瞬间辨别出事物之间的联系，但是电脑却必须并行地考虑所有事情，从而得出结论。

　　这次人机大战，沃森胜利了。这意味着IBM掌握了对人类信息需求和问题给予更准确响应的技术能力，并预见到了这个领域存在巨大商机。这项成果还将被广泛应用于多个领域，例如更快、更准确地进行医疗诊断，研究潜在的药物交互作用，帮助律师和法官寻找案例，在金融领域实现“假设”场景分析和法规遵从，帮助公司培养更精明的销售人员……沃森的出现，颠覆了此前简单的人机关系，并将带来一个崭新的人机合作时代。

　　沃森善思

　　尽管IBM沃森项目语义分析部门负责人David Ferrucci表示：“我们的目标并不是模拟人类大脑，而在于开发一台能更好地理解并通过语言与用户交流的计算机，它理解和交流的方式并不需要与人一样。”不过，我们仍然希望知道沃森到底是如何思考问题的，它思考问题的过程和人类有什么区别?

　　沃森首先要理解问题。一个问题可能有多种理解，沃森会针对不同的理解，在存储的信息里寻找可能的答案;而这又会得到多个答案，对于每个答案，沃森需要研究相应的证据;因为证据的数量是庞大的，所以沃森需要为所有的答案根据其证据的关联强度进行比较和排除;最后，根据其答案的信心级别决定是否向外提供答案。

　　最了不起的是，沃森是一个能够与人类回答问题的能力相匹敌的超级计算机系统，具有足够的速度、精确度和可信度，并且能使用自然语言回答问题。而对人类自然语言的理解，也是超级计算机系统所要解决的核心问题，特别是如何更快地利用各种非结构化和结构化的知识来帮助其进行自然语言的理解。这其中涉及到语义分析处理、计算机自学习能力、大规模并行计算等多个领域，IBM把这些技术整合在一个体系架构下，帮助沃森来应对自然语言理解的巨大挑战。

　　理解自然语言

　　沃森的问世与三大领域的进步密不可分：计算机自然语言的进步、巨大的计算能力、海量的数字化全球信息。

　　沃森的第一大突破正是，在回答以自然语言提出的针对各个知识领域的问题方面取得的巨大成功。自然语言是人类实际使用的语言，包含双关语、俚语、行话、缩写，甚至在错误语境中使用的词汇。计算机非常擅于计算，但是自然语言具有模糊、与语境高度相关、模棱两可，甚至不严密等特点，特别是《危险边缘》节目的设计，向IBM研究人员提出了更大的挑战。这项比赛的题目涉及各个知识领域，需要分析人类语言中微妙的含义、讽刺口吻、谜语等，这些通常是人类擅长的方面，而计算机对此则毫无优势。沃森的DeepQA(深度开放域问答系统)采用突破性分析技术，能够理解问题的内容，分析海量的信息，然后根据它找到的证据，给出最佳答案。

　　精确回答问题

　　沃森的第二大突破在于，它通过高级分析技术对信息需求和问题给予更准确的响应。在《危险边缘》的比赛中，有一个问题是“一种出现在14世纪的有色彩的瘟疫，后被阿瑟·米勒改写成了著名戏剧”，其正确答案应该是《推销员之死》。

　　当沃森被问到一个问题的时候，数百种算法会通过不同的方式对问题进行分析，并给出可能的答案以及选择它们的证据，而这些分析都是同步进行的。对于每个候选答案，沃森都会找出支持以及反对这个答案的证据。因此，这上百个答案中的每一个又都会有数百条证据，然后由数百种算法对这些证据支持答案的程度进行评估。证据评估的结果越好，置信度也就越高，其中置信度最高的一个答案会最终成为被沃森挑中的答案。在比赛中，如果置信度最高的答案没有达到或超过阀值，它可能会根据情况决定不进行抢答，以免输掉奖金。这所有的一切计算、选择与决策，都必须在三秒钟之内完成。

　　中国团队的分析力量

　　值得一提的是，在研制沃森的全球团队中，IBM中国研究院的团队也是重要的力量。IBM美国总部的研究团队主要研究如何利用非结构化知识源来进行统计和分析，破解对人类语言进行理解的难题。但是，研究人员对从非结构化知识源中所获得知识的准确性和可靠性，通常很难把握，而结构化知识源则能够提供一个互补的帮助。中国团队的任务之一，就是尽可能利用结构化的知识来帮助沃森回答问题，更准确地评估答案的可靠性。

　　IBM研究院沃森团队的高级经理潘越表示：“在计算机科学和人工智能领域，即使是针对一个固定结构的完全可靠的知识，如何用它来回答自然语言的提问也仍然是一个难题。”最重要的是，如何理解问题，并在大量的结构化知识中根据问题定位答案并评估其可靠性。其中一个重要的内容就是评估答案的类型与问题所问的类型是否匹配，这样就可以帮助沃森排除那些“愚蠢”的答案。。

　　但是，这种类型的排斥和重叠不是绝对的。例如，问：邓布利多教授的哪个学生打败了伏地魔?问题所问的类型是“学生”。这就需要评估“哈利·波特”是“学生”类型的可靠性。这对人来说轻而易举，而对于计算机来说就需要在各种结构化知识中进行匹配。例如，在电影数据库中会发现，这是电影名称也是角色名称;在小说数据库中会发现，这是小说名称;可是很难找到一个列有世界上所有学生名称的数据库。因此在结构化知识中，“哈利·波特”的类型不包括“学生”。在这种困难的情况下，算法一方面要避免给沃森错误的信号，另外一方面，甚至要告诉沃森结构化知识不排除“哈利·波特”是“学生”的可能，因为“角色”类型和“学生”类型是有重叠的。

　　神秘的自学习能力

　　对人类来讲，最重要的是大脑储存的知识，而对计算机而言，就是后台的数据库了。如果沃森可以像人类一样具有自我学习的能力，也能通过读书、看报、浏览互联网获得新的知识，那么计算机将变得更加智能。

　　对计算机自我学习能力的研究，是计算机科学和人工智能领域的一个重要课题。令人惊喜的是，沃森目前已经具备了一定的学习能力。《危险边缘》节目的“粉丝”创建和维护了大量的关于该节目的数据，其中就包括所有往期节目的问题和答案。如何让沃森从往期节目的问题和答案中学习提高，是研发过程中的一个关键。

　　据潘越介绍，每次沃森在分析和解答往期问题时，都会产生大量的数据。有的时候，一次实验就会产生几百GB的数据，中国团队试验和研究了各种不同的数学模型和方法，并把它们应用到实际数据中。其中，中国团队关于“两阶段”的学习方法被证明十分有效，全球团队还把这一方法扩展成复杂的多阶段学习，应用在沃森项目中，极大地提高了它的学习能力。

　　不过，目前沃森还是得依靠专家来决定收录何种信息源，因为互联网具有海量的信息，这些信息源良莠不齐，信息的完整性和可靠度也很难保证。目前沃森还没有自动评估信息源可靠度的能力，而是依靠专家来决定收录何种信息源，当然这也是因为涉及到信息源的版权问题。IBM研究人员期望，将来沃森可以根据问题的类型，来自动评估信息源的相关度和可靠度，从而自己决定是否收录。这样将它连入互联网，就可以很快更新知识，提高解决问题的能力。

　　沃森其“人”

　　虽然沃森能在智力问答中挑战人类，但它与人类依旧有很多区别。不妨让我们看看，超级计算机系统和人类相比的优劣势。

　　性格激进

　　和人类相比，沃森最缺少的是什么?毫无疑问是人类特有的性格要素和情感。如果非要沃森有所表示，只能看到它在比赛过程中，一直在动态变化的图表。观众可以从中看到沃森对答案的自信程度，数字阈值将决定它是否回答问题。环绕中央核心的彩线和思维射线在不停根据游戏过程中发生的情况，改变颜色和变换速度。例如，当沃森觉得对答案充满信心，射线会变为绿色;答错时，射线则会变为橙红色，这也许可以代表沃森“脸红了”。当沃森回答某个问题时，观众会看到图表动画的速度明显加快，表明它正在努力思考。

　　从某种角度讲，沃森也有自己的“性格”。它回答问题的声音是颇具磁性的男士嗓音，在面对不同奖金选择题目的分值时，它的行为表现也和普通人不同，沃森的战术相当激进。比如，它一开始可能就会选择奖金数额较大的问题，因为它毫无人类的心理压力，而且这样还会给它的人类对手带来更大的压力。

　　胆大心细

　　虽然沃森的战术激进，但它却从不鲁莽行事。这是因为，在IBM沃森项目组中，专门有策略团队负责研究博弈与投注策略。《危险边缘》的游戏规则相当复杂，例如组别不同、问题分值不同，答错要扣分，有的问题可以让现有分值双倍增加，而最后一个问题则可自行投注，最高可与现有分值相等，可谓步步惊险，翻盘机会甚多。比如进行到决赛的最后一题需要自行投注时，由于沃森已经领先两名人类选手较高分值，所以它就“胆小”地选择了很小的投注额，恰好这个问题它回答错误，扣分后也未能影响比赛结果。又如，一般情况下，沃森只抢答结果高于信息级别阀值的问题，但是当比分落后的情况下，它也会“大胆”回答信心级别低的问题。在第二天的比赛中就有这样一个问题：

　　问：2003年这个古老的“Lion of Nimrud”在这个城市的国家博物馆被偷，一起丢失的还有很多其他东西。(文化组别题，还是复式下注题)

　　答：巴格达。(这就是正确答案)

　　点评：此题沃森答案的置信度只有32%，但由于得分并不领先，所以它还是抢答了这道题。互联网中关于“Lion of Nimrud”(象牙浮雕艺术品)只有很少的网页提及，而包含正确答案巴格达的网页则更少。沃森在没有联网的情况下，居然根据很少的信息准确找到了答案，得到了让人惊喜的结果。

　　由此可见，沃森确实“胆大心细”。精确的计算为沃森取得胜利提供了重要的策略支持，而人类选手基本不可能在短时间内综合计算出精确投注分数。

[page_break]

　　语文欠佳

　　沃森在语义理解上相比其他计算机获得了重大突破，它能够处理很多难题，如具有双关语的问题和字谜类的问题等。但是，这个聪明的机器，依旧无法与人类相比，因为人类的语言天赋是与生俱来的。

　　沃森的短板在于对语义的理解上，尤其是在《危险边缘》这样复杂的智力比赛中，与语言相关的问题，它回答的准确度远比不上其他组别的问题。比如，沃森在第一天的比赛中，就一连答错了数个与语言有关的问题。

　　问：来自拉丁语，意思是“end”，火车也可以从这里出发。

　　答：finis(正确答案是英文单词terminal)

　　点评：问题里面包含了多条线索，沃森只能利用拉丁语“end”这条线索，而起到关键性作用的“火车也可以从这里出发”却没有用到，沃森把带双引号的词作为更重要的线索了。

　　“聋盲”沃森

　　沃森在功能上听不到、看不见，它不能回答以往《危险边缘》中以音频或视频呈现的问题，为此在沃森参与的游戏中这些都被放弃了。特别是与人类的主观体验相关的问题，沃森还难以应对。在第一场的题目中就有这样一题：

　　问：这是生理的奇观，1904年，美国体操运动员George Eyser赢得了双杠的金牌。

　　答：腿。(正确答案是他少了一条腿)

　　点评：这是一道最高奖金1000美元的问题。Ken抢到了第一次，但“他只有一支手”的答案是错的。沃森抢到了第二次，回答的是“腿”，但却不是“少了一条腿”。因为“奇闻”是一个比较主观的词，对于缺少主观意识的计算机来说，理解奇闻的确切意义是不容易的。他不仅需要知道Eyser少了一条腿，还需要知道这是一件奇闻，这是很困难的。

　　沃森闯关

　　图灵测试，这是人工智能之父——阿兰·图灵在1950年的著名论文《机器能思考吗》中，提出的一种测试计算机人工智能的方法。这篇论文第一次提出“机器思维”的概念，并提出一个假想：即一个人在不接触对方的情况下，通过一种特殊的方式，和对方进行一系列的问答，如果在相当长的时间内，他无法根据这些问题判断对方是人还是计算机，那么就可以认为这个计算机具有同人类相当的智力。沃森赢得了比赛胜利，它能通过图灵测试吗?答案就在《危险边缘》决赛的智力问答中。

　　问：第一个现代的填字游戏发布&奥利奥饼干出现。(年代类别题)

　　答：1920年。(正确答案是1910年)

　　点评：其实，Ken第一次抢答的答案就是1920年，主持人已经表示错误，这样沃森才获得了再次抢答的机会，但它居然又把错误答案重复了一遍。对人类来说，这是不可能出现的情况。但由于IBM研究人员在设计沃森的时候，认为分析对手的错误答案是没有必要的，所以沃森不能“听到”或“看到”Ken 之前的错误答案，导致它出现了这样的低级错误。难怪沃森回答问题的时候总是“旁若无人”。

　　问：彭布罗克学院和伊曼纽尔学院的小礼堂是这个建筑师设计的。(剑桥类别题)

　　答：克里斯托弗·雷恩。(这就是正确答案)

　　点评：答案本身并无可非议，关键在于这是一个可以复式下注的题目。不同于人类的是，沃森下的赌注是6435美元，以至于现场的观众都笑了起来。要知道，人类下注一般更喜欢用整数，很少精确到个位，而沃森则使用了一个数学模型来计算如何冒最小的风险获得最大的收益。这也体现了计算机和人类的不同。

　　问：这座城市的最大机场是以二战中一个英雄的名字命名的，而它的第二大机场则是以二战中一场战役的名称命名的。(美国城市类别题。是第一场比赛的《最终危险边缘》题目，不少选手可以借助这样的赛点翻盘)。

　　答：多伦多。(正确答案是芝加哥，多伦多是加拿大城市)

　　点评：沃森给出了一个可笑的答案，以致主持人在第二场比赛的开场白中打趣地说道：“感谢沃森让多伦多加入到了美国城市的行列。”引起现场一片笑声。的确，在美国民众看来，这是一般人类不会出现的常识性错误。

　　IBM研发人员分析认为，沃森答错有以下几点原因：第一，这道题在美国城市类别中，而题目本身并没有提到美国城市一词。《危险边缘》的类别经常不能给任何提示，因此IBM研究人员将其作为重要性很低的线索，但恰恰这道题中类别是重要的限制条件;第二，也许只有沃森知道，美国的确有叫多伦多的地方，还不止一个，只不过没有大到有机场的地步，但这成了沃森答题的“噪音信息”;第三，沃森也没有找到足够的证据将城市机场和二战关联起来。

　　由此可见，虽然沃森在比赛中获胜，并以大比分超出人类冠军;虽然沃森可以接受人类自然语言，并能够用磁性的男声抢答问题，但是它仍然会犯人类认为很简单的错误。

　　链接

　　真正的沃森

　　IBM超级计算机系统"沃森"以 IBM 创始人 Thomas J. Watson 的姓氏命名。虽然在比赛中它以"智慧地球"的形象出现在舞台上，但舞台背后的机房中，拥有多个庞大的机身的设备才是沃森的本来"面目"。

　　它通过 10 台由 IBM POWER7 系统组成的冰箱大小的机架提供动力，运行 Linux 操作系统，包含 15 TB 内存和 2880 个处理器内核，运行速度高达 80 Teraflops，即每秒执行 80 万亿次浮点计算。沃森能够快速回答棘手的问题完全得益于采用了 IBM POWER 7 系统作为分析引擎。POWER7 系统经过专门的工作负载优化，能够同时处理大量信息并且运行数千个分析任务，以便跟上参赛者的速度，通过分析微妙的含义、讽刺口吻、谜语等理解线索并提供准确的答案。沃森能够在不到三秒钟的时间内研读存储在内存中的约 2 亿页自然语言内容(相当于100万本书)，并找到问题的确切答案。

　　为什么还是IBM?

　　1997年IBM深蓝战胜卡斯帕罗夫，2011年IBM沃森赢得《危险边缘》大赛，这并非偶然。从上个世纪40年代到80年代，人工智能曾一度被认为是未来计算机的制高点，无数专家学者投入其中，但始终没有获得突破。在漫长的低潮期中，多数商业公司停止了对人工智能的研究，但IBM却是少数坚持投入的企业之一。

　　它还是一家专注未来20 年创新的公司，每年都要投入约 60 亿美元用于研发和聘请全球顶级研究人员。在分析能力方面，IBM在过去 4 年投资超过 110 亿美元，进行了20 余次收购;超过200名IBM研究院的数学家在专门从事分析工作;迄今为止，IBM 已收到近500项与分析相关的专利。分析能力正是沃森核心的DeepQA所需的技术基础。IBM预计在 2015 年之前将在业务分析及优化方面创造160 亿美元的收入，此次“沃森”的成功无疑将为IBM回报更多的社会和商业价值。

人机大战再对决沃森将人工智能推向新阶段

相关新闻

编辑精选

工控原创

人机大战再对决 沃森将人工智能推向新阶段

相关新闻

编辑精选

工控原创

人机大战再对决沃森将人工智能推向新阶段