您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
天下无贼主题曲(知识图谱在小米的应用与探索)
实体,图谱,小米天下无贼主题曲(知识图谱在小米的应用与探索)
发布时间:2019-02-08加入收藏来源:互联网点击:
第三种方法是基于子图检索,该方法依赖于实体的关系路径。具体第一步query做实体链接,把实体转化为实体ID,第二步根据实体周围的属性筛选出候选路径。第三步对输入文本与候选路径进行实体语义相似和排序,取top结果。
以姚明老婆的国籍是啥为例子,第一步用实体链接找到用到接接到知识图谱姚明这个实体;第二步就是找到姚明这个实体周边的候选的属性路径,如姚明的配偶的国籍,姚明配偶的身高,姚明配偶的类型,姚明教练的出生日期,姚明队友的出生地等;第三步用bert计算候选路径和目标路径的相似关系,除了相似度外,引入了像类型过滤这样的条件约束,过滤给出排序分值然后取一个最大值。
以上都是基于图谱的结构化的问答场景,对于非结构的, 比如:天空为什么是蓝色的,怎么控制猫的饮食量,青蛙王子是不是安徒生的童话,这三种为什么,怎么样,是不是,类型的问题,以上方法无法解决,需要通过基于搜索的FAQ的方式,这里就不介绍了。
3. 应用场景:智能客服第二个是知识图谱到智能客服的场景。目前智能客服已经落地小米网和小米金融等业务场景下。PPT中是智能客服团队用NL2SQL的方法在基金客服上的一个落地场景。
知识图谱在智能客服中的技术框图体系,第一层是数据标准化层,主要包括数据仓库,数据治理,数据融合,第二层是AI引擎层,有实体抽取引擎,属性集合引擎、知识图谱引擎等,第三层是数据共享交换层,第四层是数据服务,数据分析等。
4. 应用场景:小米商城&游戏中心第三个应用场景是在小米商城和游戏中心的应用,目前商品图谱和游戏图谱已应用到小米商城,有品商城,游戏中心等业务下。已落在有品商城/小米商城的场景词搜索发现、用户sug引导、商品评价的用户观点的的用户观点的抽取及聚合,及游戏的评论的观点抽取及聚合业务上。在小米的商品图谱取得不错的效果,已助力商品转化率、用户购买转化率及游戏下载率至少有30%的提升。
5. 应用场景:AI虚拟助手
另外小米知识图谱还在多模态图谱应用场景下做了尝试,与AI虚拟助手合作探索了图片态与文本态实体语义关联,目前已上线植物识图的功能,后面会持续的扩展。小米知识图谱的落地场景很多,这里只介绍了一部分,后面是小米知识图谱积累的一些关键技术。
02
小米知识图谱关键技术
1. 小米知识图谱赋能各业务场景目前小米知识图谱已经具备20 关键能力,比如实体链接,实体融合,概念图谱,实体推理,实体分类,知识理解,实体关联,用户理解等等,后面挑出实体链接,实体融合,概念图谱挖掘三个关键技术和大家分享探讨。
2. 关键技术:实体链接实体链接 ( Entity Linking ),也叫实体链指,该任务要求我们将非结构化数据中的表示实体的词语(即所谓mention,对某个实体的指称项)识别出来,并将从知识库 ( 领域词库,知识图谱等 ) 中找到mention所表示的那一个实体所以实体链接的任务定义:就是给定文本mention,判定指代知识图谱中的实体首先第一个是实体链接 ( Entity Linking )。
举个例子:
比如说刘德华的天下无贼主题曲那一天是谁唱的,实体链接需要把刘德华,天下无贼,那一天三个mention联接到知识图谱的实体上。以方便应用到如主题分析,语义的信息检索等更深度的应用场景下。
常见的实体链接如PPT流程。包括中文的切词,命名实体识别,候选实体选取,实体消歧,实体排序,判空几部分。第一步中文切词有很多方法,比如像结巴等一些开源的工具,我们的做法是整合了已有的实体名、实体同义词名,及开放锚文本信息做为词典,用维特比算法构造了切词功能。除了切词外我们还用的序列标注的方式做了命名实体识别,把实体词表与NER的结果合并。
其中NER用的是BERT CRF。在NER的训练数据集构造上,起初用远程监督的方法构造训练集的方法,但是发现在句子中有多个实体词的情况,远程监督的方式只能标注出部分实体词,这样对模型的召回影响比较大。所以我们利用开放比赛的标注数据作为数据集,再加上部分远程监督的数据和人工标注的数据作为最终的训练样本。这种方式的训练结果比只有远程监督的样本训练的结果提升10个点左右。
接下来第二步是候选实体选取,我们离线挖掘了大量的同义词,别名,缩写词等,放在图谱实体。命中label,alias,同义词,缩写的作为候选对象。但是调研中发现过多的候选词不一定有好的效果,比如:长尾的,互动比较少、丰富度比较少的实体引入会造成很多噪声并且很影响处理性能。因此我们利用用户使用的热度,实体的流行度,实体丰富度等对候选实体做了筛选和过滤。精简后准确率提升了3%,召回下降0.4%,预测速度提升50%。
接下来是实体消歧,实体排序,判空这三块。这三块不好解耦,所以可以一块来说。这里用到了两处种特征,第一种是上下文无关的,第二种是语义相关联的特征。
上下文无关的特征包含:实体流行度,用户热度,实体丰富度等等。语义相关的特征包括三部分:
① 对输入实体mention预测实体类型, 用到的18年Raiman, J. R., & Raiman, O. M.发表的"DeepType:用神经网的分类系统演化来做多语言实体链链接"的方法,该方法基于当我们知道了候选实体的类型之后,这个消歧的任务便被解决得差不多了的假设将实体链接过程看成是分类获取的过程。分类的过程是针对知识库中的分类体系设计了一个DeepType的预测系统。具体是用输入数据文本通过bert编码取CLS 位置的向量、候选实体对应开始和结束位置对应的特征向量,三个向量连接,经过全连接层,最后softmax激活得到候选实体的类别得到分类。
② 是DeepMatch部分,参照18年 Le, P., & Titov, I的一种通过候选实体与mention之间的潜在关系建模来提升实体链接的效果。该文章提出了将实体链接问题转化为文本语义匹配问题,构建了一个DeepMatch模型来匹配输入语句的上下文和候选实体的描述信息对。把待消歧文本作为text_a,每个候选实体的SPO全部连接起来组成一段文本text_b,计算text_a和text_b的相关性 。训练时选取连接到的实体作为正例,在候选实体里选取负例。两个句子长度最大选取为256,负样本选取了3个。取CLS 位置向量、候选实体对应开始和结束位置对应的特征向量,三个向量连接经过全连接层,最后sigmoid激活得到候选实体的概率得分。
③ 除了这两个特征外还有共现、协同推断等特征。最后把是否存在多个同义词指向同一个实体、其他mention是否出现在该实体的信息里、LinkCount、DeepMatch模型的相似度、DeepType模型的相似度等经过MLP得到一个分值,排序取 top1的实体,如果top1的分值大于阈值就判定该实体,如果小于阈值则为空。
小米知识图谱通过该方法参加了2020CCKS比赛,很荣幸拿到了总决赛的第一名,F1的值达到了0.8954。但是这种方法在我的业务场景,准确率召回可以达到96%以上。
上一篇:给狗狗起名字大全(毛茸茸的宠物狗名字大全且拥有力量-可爱点)
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |