基于POI和查询似然的微博用户地理位置推演
2021-12-08 22:00:00 Author: mp.weixin.qq.com(查看原文) 阅读量:19 收藏

原文作者:Yimin Liu, Xiangyang Luo, and Han Li
原文标题:Microblog User Location Inference Based on POI and Query Likelihood Model
原文链接:https://link.springer.com/chapter/10.1007/978-3-030-86890-1_26
笔记作者:[email protected]
文章小编:[email protected]

简介

该文为发表于ICICS 2021的Microblog User Location Inference Based on POI and Query Likelihood Model。目前,微博用户的位置信息对于灾害监测、舆情追踪等应用具有重要意义。但是仅根据用户未公开位置信息,而仅通过其发布的文本信息来推断用户位置是相当困难的。在这项工作中,作者提出了一种基于POI和查询似然模型的微博用户位置推断算法,命名为PaQL。该方法首先基于电子地图构建各区域的POI(Point of Interest)模型。然后,从用户博客文本的分词结果中,提取出位置定向性较强的POI作为用户特征。最后基于查询似然模型计算用户与候选区域之间的相关性,将相关性最高的候选区域作为用户的推断位置。

方法

整体框架图如下所示,PaQL主要分为5大步骤。作者首先构建候选区域的POI库。基于电子地图API获取候选区域19类POI信息,构建POI-region地图。其中19类POI包括地图中的餐饮、旅馆、美容、运动、文教、交通、金融、政府等组织的名称、地址和类型信息。例如,漫语融合餐厅就是河南郑州的一个餐饮类POI。在此基础上,分别建立POI到其区域的映射和候选区域到其POI的映射。以城市级作为候选区域为例,其映射情况如下表示。之后作者将每个用户发布的文本按时间顺序收尾相连,再经过一些常规的预处理操作后,得到用户发布文本的词汇表。再根据得到的POI与地理区域的映射,找到用户发布文本与POI中相关的内容,并使用词袋进行建模,构成POI向量。最后,PaQL训练分类器模型以计算查询似然模型的概率(包括POI的逆区域频率和POI在每个候选区域中被提及的条件概率)。查询似然模型是一种用于信息检索的语言模型。该算法为集合中的每个文档构建一个语言模型。然后根据给定查询的特定文档的概率对每个文档进行排名,从而挖掘在给定查询的情况下文档间的相关性。在本论文中,作者以用户的POI向量为查询,计算向量与候选地理区域POI文档的相关性,将相关性最高的区域作为推断位置。

实验

实验阶段,作者分别针对省级数据和城市级数据进行验证。数据量如下表所示。其实验效果如下表所示,各项指标均由于已有的地理位置推演算法:GP-FLIW,GP-LIWTF和WC-EFS。

安全学术圈招募队友-ing, 有兴趣加入学术圈的请联系secdr#qq.com


文章来源: http://mp.weixin.qq.com/s?__biz=MzU5MTM5MTQ2MA==&mid=2247486926&idx=1&sn=d99797e279ef3c871216aaf87c8db5d9&chksm=fe2ef245c9597b53a7fe9843fcf9fe806ae49f89409a9556fb9552961dd62c1b296898a7c03f#rd
如有侵权请联系:admin#unsafe.sh