您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
新推出的AI语音理解基准测试SuperGLUE,较GLUE有多大的提升?
任务,模型,基准新推出的AI语音理解基准测试SuperGLUE,较GLUE有多大的提升?
发布时间:2019-02-08加入收藏来源:互联网点击:
SuperGLUE 与 GLUE 的两项共同任务是:识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)。此外,SuperGLUE 还添加了测试模型问答、执行共指消解和执行常识推理能力的任务。
5、SuperGLUE 基准也设置了一个总体评估指标:SuperGLUE 分数。该分数即是在以上所有任务上所得分数的平均。对于 Commitment Bank 和 MultiRC,会首先先取该任务在各项指标上的平均,比如对于 MultiRC,会首先先平均 F1m 和 F1a,之后在整体平均时将所得结果作为单个数值纳入计算。另外,GAP 的偏见(bias)分数不会纳入 SuperGLUE 分数的计算;原因是在性别平衡的 GAP 上训练的大多数系统在偏见分数上都表现良好。
6、为了进一步挑战AI系统,SuperGLUE还首次引入了长篇问题回答数据集和基准测试,这需要AI能提供长而复杂的答案,这是此前没有遇到过的挑战,有助于发现了当今最先进的NLU系统的一些局限性。
7、目前的问答系统专注于琐事类型(trivia-type)的问题,例如“水母是否有大脑”。新的任务将更进一步要求系统对开放式问题的深入解答进行详细的阐述,需要系统能够回答“水母如何在没有大脑的情况下运作?”
现有算法与人类的水平还相差很远,这一新挑战将推动AI合成来自不同来源的信息,并提供开放式问题的复杂回复。
除了新的测试基准外,纽约大学还同时发布了相关的PyTorch语言理解工具包Jiant。
回答于 2019-09-11 08:43:50
Facebook 人工智能研究员和 Google 旗下的 DeepMind、华盛顿大学、以及纽约大学合作,于今日正式推出了 SuperGLUE 。
作为一个严格的语义理解基准测试项目,其能够针对现代高性能语义理解 AI 的性能,展开一系列的基准测试。
当然,SuperGLUE 投入使用的前提,是某会话 AI 的深度学习模型已经触及了天花板,并希望接受更大的挑战。
【图自:SuperGLUE,via VentureBeat】
SuperGLUE 使用谷歌的 BERT 作为性能基准模型,因为早在 2018 年的时候,它就已经在多方面被认为是最先进的、甚至打败了新一年的诸多竞争对手,比如微软的 MT-DNN、谷歌自家的 XLNet、以及 Facebook 的 RoBERTa 。
SuperGLUE 的前身,是纽约大学、华盛顿大学和 DeepMind 研究人员于 2018 年 4 月推出的针对语义理解 AI 的‘通用语义理解评估’(GLUE)基准测试。
发展到现在的 SuperGLUE,它能够评估比 GLUE 更复杂的任务表现,鼓励构建能够账务更复杂或细微差别的语义理解模型。
据悉,GLUE 能够根据 AI 对自然语言理解(NLU)系统给出的九个英语短句的识别处理表现,而给出该模型的分值,比如在线影视评论数据集中提取情感细节的斯坦福情感树库(SST-2)。
目前 RoBERTa 在 GLUE 基准测试数据库中的得分为榜上第一,但 9 项 GLUE 任务中拿到了 4 项最高分。不过 SuperGLUE 包含了在一系列困难的 NLP 任务中测试创造性解决方案的新方法。
Facebook AI 研究人员在一篇博客文章中称:这些任务侧重于机器学习在诸多核心领域的创新,包括高效采样、转运、多任务、以及自我监督学习。
为向其他研究人发出挑战,SuperGLUE 选择了各种形式的任务、更加细致的问题、尚未被最先进方案所解决的内容、以及很容易被人类理解的题目。
简而言之,新基准测试包括了八项任务,用于测试 AI 语义理解模型是否遵循基本的因果关系、或者是否在做阅读理解时出现了偏差。
此外,SuperGLUE 包含了性别偏见检测工具 Winogender 。至于最终的排行,将在 super.gluebenchmark.com 官网上发布。感兴趣的朋友,可以阅读 5 月和 7 月份的修订版论文。
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |