您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
(亚马逊开源了超过470万个单词的Topical)-Chat数据集
亚马逊,数据,知识(亚马逊开源了超过470万个单词的Topical)-Chat数据集
发布时间:2020-12-06加入收藏来源:互联网点击:
早在4月份,亚马逊就宣布了其打算向参与年度Alexa奖Socialbot Grand Challenge竞赛的团队发布众包人类对话的数据集-Topical Chat数据集。今天,它终于实现了这一承诺,在GitHub上发布了超过235,000句话,包含4,700,000多个单词,并声称它将支持“高质量”和“可重复”对话系统的研究。
亚马逊Alexa AI小组DilekHakkani-Tür的高级首席科学家写道: “主题聊天的目的是通过应对其他公开数据集无法解决的艰巨挑战,从而实现基于知识的神经反应生成系统的创新研究。” 博客文章。“我们已经看到大学开始在Alexa奖Socialbot Grand Challenge中解决这些挑战,包括以自然的方式在主题之间转换,知识选择和丰富化以及将事实和观点整合到对话中。
为了编译语料库,Hakkani-Tür和同事们在与Alexa奖聊天机器人的对话中经常出现的八个不同主题类别中,确定了300个命名实体(即人,地点或事物)。根据实体在信息源中的同时出现,将它们分为三个组,对于集群中的每个实体,还收集了几个其他信息源,并分别与每个集群相对应。
然后,数据被传递给亚马逊机械特克公司中的成对众包的工人,他们有时会收到相同的信息,而有时却只得到其中的一部分。有时,Alexa AI团队会拆分数据,以便让配对的工人拥有互补的知识。
根据研究人员的指示,机械土耳其人的工人就收到的知识集进行即时消息对话。对于他们自己的每条消息,都要求他们指出信息的来源并评估消息的整体情感(例如,高兴,悲伤,好奇,恐惧等),并要求其聊天伙伴的消息。评估他们的素质(即,他们是否适合对话)。
本文到此结束,希望对大家有所帮助呢。
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |