poi是什么(地图POI类别标签体系建设实践)-周公解梦-零零导航工具

您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识

poi是什么(地图POI类别标签体系建设实践)

样本,标签,文本poi是什么(地图POI类别标签体系建设实践)

发布时间：2019-02-08加入收藏来源：互联网点击：

导读

POI是“Point of interest”的缩写，中文可以翻译为“兴趣点”。在地图上，一个POI可以是一栋房子、一个商铺、一个公交站、一个湖泊、一条道路等。在地图搜索场景，POI是检索对象，等同于网页搜索中的网页。在地图客户端上，用户选中一个POI，会有一个悬浮的气球指向这个POI。

如上图左边，这家商场内的屈臣氏是一个POI；而所谓类别标签，就是在类别维度对POI属性的一种概括，比如，屈臣氏的类别标签化妆品，而屈臣氏所坐落的凯德mall，类别标签是商场；右侧则是商场query搜索召回的一系列POI，都具有和query相匹配的类别属性。

上图也展示了类别标签的两种主要使用场景：为用户提供丰富信息和支持决策，一方面在前端为用户显示更丰富的信息，另一方面支持搜索的类别搜索需求，主要是在地图场景query和POI双方都具有丰富的多义表达，通过传统的文本匹配引擎或者简单的同义词泛化是难以达到目的的，因此挖掘标签作为召回和排序依据。

我们的类目体系建设主要依据以下几点：

最终每个大类将构建一个多层的多叉树体系，比如购物类别的划分：

类别标签建设的难点

我们的目标是打标，就是将POI映射到上面类目树体系的各个节点上，很显然这是一个分类问题，但又不是一个单纯的分类问题：

此外，应用方对于标签的准召和产出速率也有较高的要求：打标准确率低，则可能导致用户搜索时召回错误POI；覆盖率低，则可能导致用户期待的结果被漏掉；而待建设的大分类有20 ，同时每个大分类有数十个子标签，大小标签总量上千。则必须使用高速高效、准召均有保障的方法进行打标，才能有效落地收益。

综上，我们要解决的类别标签打标的主要问题，是一个多标签分类问题，主要使用文本进行识别，但有必要引入其他非文本特征或手段，才能比较完满的解决。

技术方案

整体方案设计

如图，为了高效完成打标，我们设计了主要的流程模块，具体描述如下：

后面将重点介绍业务的主要难点，在样本和模型上的主要工作。

样本工程

样本来源&清洗

样本方面，经过一些实验论证，标签数量多，每个标签需要的样本量大，人工标注几乎不可能满足要求，因此考虑主要使用点击日志和一些现成的外部资源：

通过引入这两方面的样本，我们很快得到了数百万的原始样本，这么大量级的样本，即使清洗依然是一个及其巨大的工作量，为了高效地清洗样本，我们设计了结合主动学习的两级模式：

在两方面的初始样本引入后：

通过一种类似主动学习的方式，使人工标注的价值最大化，避免低信息量重复样本的反复标注造成人力浪费。

下面具体介绍点击样本的挖掘思路。

点击样本挖掘

搜索点击日志凝聚了无数用户的需求与智慧，大多数的搜索业务都能从中挖掘最原始的训练样本。具体到当前的挖掘业务，首先要解决的问题是样本表达形式的不一致问题。具体描述为：

点击数据：query -> POI需要样本：tag -> POI解决方案：tag -> query -> POI

如下图，要挖掘内衣的样本集，人工定义了该标签的映射的query集合seed query，再通过这个query集合去召回对应的click样本，就可以直接作为标签内衣的样本。

在实际操作中，我们增加了seed query到泛化集合的映射，即由人工定义的高频query集合泛化到一个更大的同义集合后，再由同义集合进行click样本的召回，其出发点在于：

高频的query主要点击集中于高频的样本，要解决的问题难点在于低频表达的挖掘，因此对query进行从高频到低频的泛化，以期通过低频query召回低频的样本表达，比如丝袜到休闲棉袜，内衣到维密、都市丽人等方面的扩展。

query泛化过程：

query的泛化，需要通过高频集合获得近义的低频表达，同时又要保证不会过度的语义扩散，导致泛化集合偏离了标签原本的语义。我们主要尝试了以下方案：

相关链接
特长怎么写（个人简历样本范文） 2020-12-06 群标签大全(个性群标签大全) 2020-12-06 房租收据样本(房租收据样本简单) 2020-12-06 收款收据填写样本图片(收款收据怎样写才正规) 2020-12-06 入党申请书格式样本（入党申请书格式样本及范文） 2020-12-06 我被绑架到贵族学校当庶民样本这件事第一季樱花动漫 2020-12-06 pe管道焊工证样本（今日pe管焊接证书） 2020-12-06 技术服务费合同（技术服务合同书样本） 2020-12-06 中国泽州(山西泽州：共建共治共享乡村振兴的“川底样本 2020-12-06 前期物业(转载：北京市《前期物业服务合同》和《物业服 2020-12-06

网友回复（共有 0 条回复）