您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
天下无贼主题曲(知识图谱在小米的应用与探索)
实体,图谱,小米天下无贼主题曲(知识图谱在小米的应用与探索)
发布时间:2019-02-08加入收藏来源:互联网点击:
另外,除了效果,这里在业务上有会有处理性能的问题,所以这里用到三种方法加速,第一是引用了tensorflow的batching serving,第二是把bert中的transformer 用nvidia的faster Transformer替换,第三是用Fp16的方法量化, 这种加速效果比较明显的QPS从30提升到1200。
3. 关键技术:知识融合第二种关键技术,是知识融合,该任务的定义是,给定实体集合,识别并合并等价实体 ( 注:等价定义为待融实体指代了现实世界中同一事物或概念 ) 。举这个例子,花木兰电影有来自腾讯,爱奇艺,优酷,豆瓣,电视猫, 维基的数据。需要把实体化后的小实体,找到归一组,合并融合生成新的实体,更新至知识库图谱中这一过程中称为知识融合。
基于任务定义,把这种任务,拆解成了实体对齐和实体择优两部分。
实体对齐的方法目前包含成对的实体对齐,集体实体对齐,大规模集体实体对齐及知识库与知识库之间的模式层的实体对齐。小米着重做的是成对对齐,现在用了就两种的方法:
第一种方法是传统的方法,基于观察的先验,比如:
① 类别间的属性重要度是不同的 ( 比如人物中,出生时间,出生地点,性别,职业很重要;地点类的,经度,纬度很重要;视频: 上映时间,演员,导演,角色很重要;生物:种属科目纲很重要等 )。
② 文本中的时间,地点很重要,( 比如一些infoxbox中未覆盖的事件的时间及地点等 ) 基于这两个经验,我用一些tfidf的方法计算一些属性在不同类中的重要性,并找文本中的时间/地点做为一个重要的文本特征,并计算对应属性值相似度,目前用对一些相似度主要是一基于字粒度的文文相似度,及token粒度的主题相似度等。
第二种方法用基于embedding的deep Match方法,主要参照了2018年ACM SIGMOD 的方法做了一些改进,该方法把实体中的每个属性下的O的Value concate成一个句子,通过双向LSTM等一模型encodeing成向量,计算每个属性下的emdming的相似度,最后经过一个分类模型,判断是否是同一个实体。该方法没有考虑类别中的属性重要度的差异,所以准确与召回效果都不太理想,我们也在考虑更多的方法尝试改进。
以上两种方法是针对对于结构化实体对齐的方法,如果是开放文本要依赖实体链接技术。
知识融合第二部实体择优,是在经过实体对齐后,把实体属性的差异性或者冲突性做消解。目前的做法基于以下几个方面对实体的质量进行控制控制:
实体的更新时效性权威性,不同来源,权威性不同的,比如,人民网的权威性要比一般咨询类的站会要高 丰富性,不同来源O的值缺失程度是不同的共现频次,当多源有冲突时,可以用投票的选出不同来源中出现最多的属性4. 关键技术:概念图谱概念图谱的概挖掘目前小米图谱基本三种方式构建。
第一种是在本体模式层构建了分类体系, 分类体系参照了一些开放的行业和分类标准,还参考了一些人工整理的行业的标准体系。
第二种是基于autophrase的方法,是实例层的ISA关系的挖掘,该方法是2017年一篇论文中采用海量文本挖掘的方法,该方法通过主要是用短语挖掘的方法来挖掘概念。这种方法需要满足四个条件:
流行度:质量短语应该出现的频率足够高一致性:token在高质量短语中的搭配出现的概率明显高于预期信息性:短语可以表达一个特定的主题或概念完整性:一个短语可以在特定的文档上下文中解释为一个完整的语义单元这个模型的训练用实体的长文本和内容文本、远程的Wikipedia/cn_probase拿到的开放的的高质量的短语及根据不同领域标注的高质量的词语三个输入作为输入语料。第二步用n_gram的候选筛选,出正样本与负样本,正样本是N_grame频率大于阈值和人工标注的领域短语及人工cnproese匹配的高质量短语;剩余是负样本。由于负样本中掺杂大量的正样本,所以后面是从负样本中使用集成分类器训练了多个加分器来从负样本中强化出正样本。为了保证概念短语的质量,方法通过词性分析过滤不符合语法的短语。
针对概念挖掘的第三种方法是基于序列标注的方法。分为两步。第一步做一个分类,针对实体长文本描述进行句子拆分,之后判断 否有这个概念相关的一个实体词。第二步使用Bert BiLSTM CRF的方式作序列标注,标注出SPO的值。
上面三种方法都是概念挖掘,对于实体与概念的关联,可以用实体分类的方法把模式层的与实体挂接,用实体链接的方法把开放词中的短语与体挂接。
5. 关键技术:自动化构建技术除此之外呢,小米图谱还在工程构建已有了一套完成的自动化构建技术,可以支持用户定制,自动实体化,自动实体关系等。
03
小米行业知识图谱探索
小米知识图谱的关键技术还有很多,我们在这里只给大家介绍典型的几个关键技术,有兴趣的话可以线下交流。最后我们看一下小米知识图谱在行业的一些探索。
1. 商品图谱第一个业务场景的探索商品图谱,主要的应用场景是小米商城,小米品的搜索和推荐场景,目标就是辅助电商平台精准的搜索。
现在商品图谱已在商品分类体系的建设、主商品词提取、商品同义词挖掘、上下位体系构建、场景概念挖掘五个方向构建完成。其中分类体系是在模式层的构建;主商品词提取和商品同义词挖掘用于精确匹配与召回;上下位体系结构用于用户推荐;场景概念挖掘用于搜索发现及场景推荐。
场景挖掘以泰国旅游为例,可以与沙滩鞋,电话卡,浮潜装备等商品有关联,烧烤场景可能与烧烤架,木炭,食材等商品关联。
目前商品图谱已把这五个方向的数据和技术落地到小米商城,有品商城上。用户转化率和商品转化率都有不错的提升。
2. 上位词上位词挖掘的方法分为三部分:
第一部分是上位词判定,用bert加上分类模型从用户日志的query中提取出来确识别是否是商品词或者上位词。第二部分通过层次化的分类器,对挖掘到的上位词合并到分类体系中,这里用的了HMC的多分类器。第三部分是把商品与上位词关联,用商品名做texta, 上位词做textb,把关联问题转化为文本分类问题。
目前用这种方法挖掘出的上位词,平均每个商品覆盖10.5个上位词。
3. 同义词商品图谱涉及到的还有一个就是同义词挖掘。我们是从商品标题中抽取同义词,在调研中发现,很多商铺为了尽可能多的命中搜索词,会把可能多的把相同相近或者同义的词堆砌到商品名中。所以基于这个假设,我们把同义词的挖掘,转化为一个序列标注问题。
其中训练数据用人工标注 ( 通用图谱 同义词库 ) 远程数据作为训练样本。商品title做为texta, 候选的词做为textb最后标注出BIOS。因为店铺除了堆砌到同名商品外,还会打包买一些东西,比如锅盘垫与炒锅盖打包卖,所以这样做会有准确的问题。为了这种问题,我用了以下三种方法去噪:
检测上位关系是否冲突,锅盘垫->餐具->餐垫,炒锅盖->锅具->锅盖等用词向量相似度用bert相似度计算分类判断是否同义上一篇:给狗狗起名字大全(毛茸茸的宠物狗名字大全且拥有力量-可爱点)
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |