您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
wsc是什么意思(wsc是啥)
人工智能,人类,语言wsc是什么意思(wsc是啥)
发布时间:2016-12-08加入收藏来源:互联网点击:
3354——人工智能真的能听懂人类语言吗?
现在的人工智能似乎很容易理解数据,但事实证明,很难设计出一个测试机器是否真的“理解”人类语言的测试。2010年,来自IBM的沃森人工智能在一次人工智能挑战赛中获得冠军,随后IBM宣称:“沃森可以理解人类自然语言的所有歧义和复杂”。过去十年,社会各界都在唱衰人工智能,但计算机科学家通过长期研究发现我们幸福还为时过早!
虽然这十年人工智能在各个行业发挥了巨大的优势,但是经过十年的发展,人工智能可能会再次面临瓶颈期。科学家后来在“用沃森人工智能彻底改变医学”的过程中失败了。最近,研究人员发现,就像沃森人工智能的医学失败一样,人工智能处理人类语言的能力实际上是在“表面理解”和实际理解人类语言是不一样的。
自然语言理解一直是人工智能研究的主要目标。在人工智能发展的早期阶段,研究人员试图通过人工编程让机器理解人类的新闻故事、小说或人类可能表达的任何东西。但这种方法是徒劳的。要写下理解文本所需的所有规则和假设是不可能的,不管是书面的还是非书面的。
随着机器神经网络的快速发展,人工智能建立了一种新的语言识别模式。3354通过神经网络,机器可以自己学习和理解语言,只需要训练大量的文本,为机器学习预测词。这是目前建立语言模型的基本方法。
基于大型神经网络的人工智能,如OpenAI的GPT-3,这种模型甚至可以生成令人难以置信的人类散文和诗歌,似乎能够进行复杂的语言推理。
虽然GPT-3从成千上万的网站、书籍和百科全书中训练文本,但GPT-3只是超越了沃森的“肤浅理解”模型吗?GPT-3真的理解它生成的语言所表达的推理吗?目前这是AI研究中分歧明显的一个话题。
这样的讨论曾经是哲学家的职权范围,但在过去的十年里,人工智能已经从generate中的学术泡沫中脱颖而出,进入了现实世界。它对现实世界的不了解可能会产生真实的甚至是毁灭性的后果。
科幻电影-机械公敌海报
在IBM的沃森人工智能应用于医疗实践中,研究人员发现,沃森多次向患者提出极不安全和不正确的治疗建议,谷歌的机器翻译系统在为非英语患者翻译医疗说明书时也出现了重大错误(事实证明,对于医疗药物的英文说明书,你不能依赖机器翻译,因为它可能会让你“吃错东西”)。
但是我们如何确定机器在实践中是否能被理解呢?1950年,计算的先驱艾伦图灵(Allen Turing)试图用他著名的《模仿游戏》(The Imitation Game)来回答这个问题,这本书现在被称为图灵测试。一台机器和一个人隐藏在幕后,只允许对面的测试者通过对话来判断哪个是真人。如果测试者分不清哪一个是人类,那么我们应该认为机器在以人类的方式思考。3354其实是在理解人类语言。
可惜,高估机器的不是图灵,而是人类。比如20世纪60年代的机器心理治疗师伊莱扎(Eliza),就是一个非常简单的聊天机器人,它也欺骗人们相信自己在和正常的人类对话。很难理解的是,即使人们知道他们交谈的伙伴是一台机器,许多人仍然相信对面是一个人!
在2012年的一篇论文中,计算机科学家提出了一个更客观的测试,叫做“Winograd”模型挑战。这种测试已经广泛应用于人工智能语言领域。作为评价机器理解能力的有效方式,可能是最好的方式3354虽然并不完美。这个句型由一对只有一个单词不同的句子组成,每个句子后面都有一个问题。
�威诺格拉德模式挑战(Wei Nograd Model Challenge):英文:Winograd Schema Challenge,缩写为WSC,是多伦多大学计算机科学家提出的一种机器智能测试。该测试是对传统图灵测试的改进。在机器无法使用谷歌搜索(或类似搜索引擎)正确回答问题的前提下,通过向机器提出专门设计的选择题来测试人机交互的智能水平]
这里有两个例子:
示例1
第一句话:我把瓶子里的水倒进杯子里,直到杯子满了。问题:什么是满的,瓶子还是杯子?我把瓶子里的水倒进杯子里,直到杯子空了。问题:什么是空的,瓶子还是杯子?
示例2
第一句话:乔的叔叔打网球还是能赢他,尽管他已经30岁了。问题:谁年纪大,乔还是乔的叔叔?尽管乔的叔叔比他小30岁,但他打网球还是能赢他。问题:谁更年轻,乔还是乔的叔叔?
基于神经网络的语言模型在测试中取得了巨大的成功。
约 97% 的准确率,这大致相当于人类的表现。在每个句子对话中,一个词的差异可以改变代词所指的事物或人。正确回答这些问题似乎需要常识性的理解。“威诺格拉德模式挑战(Winograd)”正是为了测试这种理解而设计的,目的是尽量减少人工智能对人类语言的误解和理解上的脆弱性。
随着大型神经网络语言模型的出现,人工智能程序解决 Winograd 模式的能力迅速提高。2020年,OpenAI的GPT-3通过Winograd测试的准确率达到90%,在专门针对这些任务进行训练后,其他语言模型的表现甚至更好。最近的人工智能语言理解竞赛SuperGLUE,某神经网络语言模型达到了约 97% 的准确率,这种准确性接近人类的水平。
这是否意味着神经网络语言模型已经达到了人类的理解水平?
不必然,尽管竞赛创建者尽了最大的努力使竞赛的问题无法通过谷歌或其他引擎搜索,但是这些挑战,就像许多其他当前的人工智能语言理解测试一样,对于神经网络在不理解的情况下也能表现良好成绩是允许的(高分低能)。
例如,句子“跑车超过邮车因为它开得更快”和“跑车超过邮车因为它开得更慢”。通过庞大英语词、句语料库上训练的语言模型将吸收“跑车”和“快”之间以及“邮车”和“慢”之间的数学相关性。因此,仅仅根据大量数据训练出来的关联性不用借鉴任何理解也能正确的回答类似问题。目前各类类似SuperGLUE的比赛中无法排除利用统计相关性作答正确的情况。
当前神经网络语言模型已经变得越来越大,而且它们越大在这种挑战中的得分就越高。目前最好的神经网络语言模型——已经在TB级文本上进行训练,然后在数千个WinoGrande(Winograd等增强版本)示例上再进一步训练——已经能够接近90% 的正确率(人类获得大约 94% 的正确率)。这种性能的提高几乎完全是由于神经网络语言模型及其训练数据大小增加的。
理解语言需要理解世界,而只接触语言的机器无法获得这样的理解。
这些越来越大的神经网络语言模型最终是否达到了人类的常识性理解?部分科研人员认为这不太可能。WinoGrande竞赛的结果带有一些重要的警示意义。例如,由于挑战赛的句子依赖于人工编写,因此编写的质量和连贯性参差不齐。此外,用于剔除“谷歌搜索”句子的方法可能过于简单,人工又无法发现大型神经网络所有的统计捷径。
当前的问题关键在于理解语言需要理解世界,而只接触语言的机器是无法获得这样的理解。人类理解“跑车超过邮车因为它开得更慢”的含义相比机器要广泛和深层的多。“跑车超过邮车因为它开得更慢”的人类理解含义是:开跑车的人嫌邮车开得慢,人的理解是建立在人驱动车的基础上,而不是跑车与快、邮车与慢的关联性统计。语言真正代表的是人类思想的表达,而不是当前人工智能数据关联性的统计。
上一篇:wps自动保存在哪里(wps的个性化设置保存在哪里)
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |