缩略图

一种基于内容和用户行为的遥感影像数据智能推荐方法

作者

慈萌 周箭 陈雪华 孙赫

北京市遥感信息研究所,北京,100000

摘要:本文针对传统的检索方式无法满足用户对海量遥感影像数据访问需求的情况,提出了一种基于内容和用户行为的遥感影像智能推荐方法。该方法采用协同过滤思想,从用户和项目两个维度考量,将相似用户感兴趣的景及与用户曾经访问的景相似的景进行组合,形成用户的个性化推荐数据集,提升用户访问效率。

关键词:协同过滤;智能推荐;用户行为

1引言

随着遥感技术的不断发展,各类卫星产生的遥感影像数据总量呈现出爆发性增长态势,对影像数据管理和服务能力提出了更高的要求。传统的基于用户主动输入的遥感影像数据筛选模式效率较低,已不能满足用户在海量遥感影像数据中的访问需求。因此,探索基于各种当前主流技术的影像数据智能推荐方法就成为了数据管理服务人员的必修课。文献[1]设计了一种顾及用户画像的遥感信息智能推荐方法,通过构建用户画像模型并将其与待分发数据进行匹配,实现遥感数据的智能推荐。文献[2]提出了一种融合注意力机制的深度交叉空间变换网络,实现遥感信息的主动、即时、智能推送。文献[3]提出了一种基于图神经网络的挖掘潜在偏好图的推荐算法,通过构建用户—实体关系图,增强推荐性能。文献[4]提出了一种基于深度特征融合的协同推荐算法,改善了传统深度神经网络存在的数据稀疏性难题和推荐精度不高的问题。文献[5-11]分别介绍了不同领域中应用的各类推荐方法。上述文献中提出的方法,除文献[1]外,都属于其他领域,其应用场景与遥感数据中心的服务场景存在较大差异,因此不能很好地满足遥感影像推荐的需求。文献[1]仅从拍摄时间、空间范围、载荷、分辨率、产品级别5个维度构建用户画像,在精确度上还存在差距,无法准确反映用户的兴趣点;另外,仅考虑待分发数据与用户兴趣的关联度,判断维度较为单一。因此,本文针对遥感数据中心对外提供数据服务需求,提出了一种同时考虑内容和用户行为的协同过滤推荐方法。

2协同过滤推荐算法

目前应用比较广泛的协同过滤算法是基于邻域的协同过滤,包含以下两种算法:基于用户的协同过滤和基于项目的协同过滤。

基于用户的协同过滤算法可以概括为:给用户推荐和他兴趣相似的其他用户喜欢的物品。其主要思路是分析两个用户的相似度,若用户A、B在相同的物品的评分相近,那么用户A对物品的打分也非常有可能与B的打分相似(文献[11])。

基于项目的协同过滤可以概括为:给用户推荐和他之前感兴趣的项目相似的项目。其主要思路是从用户的历史交互数据(如用户与项目的交互行为等)中捕捉用于推荐的协作信号,建立用户行为特征模型,通过计算当前数据与用户特征模型的相似度来进行推荐。

协同过滤算法性能稳定,推荐结果符合用户的个性化需求,但也存在一些不足之处,如容易受到数据稀疏性的影响。当用户行为数据稀少或用户之间的相似性关系不明显时,协同过滤的推荐效果可能会下降。遥感数据中心长期对外提供数据访问服务,积累了大量的用户行为数据,因此选择协同过滤算法可以获得良好的推荐性能。

3基于内容和用户行为的遥感影像数据智能推荐方法

3.1数据采集

本文提出的智能推荐方法通过采集用户的行为,对用户的喜好进行分析,形成用户特征模型。采集的数据包括用户在遥感影像数据服务平台的下单记录(景标识,坐标信息,任务信息,关注点信息,下单时间等),浏览记录(景标识,坐标信息,任务信息,关注点信息,浏览时长,浏览时间等),筛选记录(筛选卫星型号,筛选段标识,筛选景标识,筛选时间等),采集的信息记录在数据库中。另一方面,也采集近期的景信息(景标识,坐标信息,任务信息,关注点信息等),综合计算成本及用户使用习惯,采集近14天的景信息即可满足大部分用户的使用需求。

3.2数据向量化

3.2.1数值信息向量化

数值类信息如景坐标,浏览时长,需要进行归一化处理。

景坐标信息包含了各个点的经纬度信息,在实际中经纬度是均匀分布的值,且有固定的最大值和最小值,因此经纬度与最大值的比值,即可作为坐标信息的归一化结果。而浏览时长是没有固定最大值的,浏览时间越长表明用户对该景的兴趣度越高,但当浏览时长超过一定值后,其时长不再具有特别的意义,因此采用评议后的logistic函数进行变换将数值约束在[0,1]的区间。

3.2.2中文语句处理

采集的信息中包含一些中文描述信息,例如任务信息、关注点信息等,在智能推荐程序中采用jieba算法对这些中文句子进行分割,得到单个的词汇,构成一个词汇表。

jieba算法主要思路如下:首先基于前缀词典对词进行扫描,将句子中汉字所有可能成词情况所构成的有向无环图(DAG),然后采用动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法。jieba算法的开发者提供了他们已经统计好的词典,其中记录了大量词汇,每行包括了(词汇 词频 词性)的组合,jieba算法读取该词典后生成一个前缀词典。然后输入需要转换的句子扫描前缀词典构造有向无环图,每个有向无环图从起点到终点的路径构成一种候选分词方案。

最后再通过查找最大概率路径(最优路径)获取最后的分词结果,具体方法则是通过计算每种分词的概率,将最大概率结果输出,如p1(“今”,“天天”,“气”,“不错”)和p2(“今天”,“天气”,“不错”),根据词频计算两者的概率,p2大于p1,则最终将输出p2的分词结果。

通过jieba算法分词后,采集数据中的中文句子信息将分割为单个词语,以便后续对这些信息进行向量化。

结束语

本文提出的基于内容和用户行为的遥感影像智能推荐服务,能够有效筛选出符合用户兴趣点的数据景,提升用户在海量遥感影像中的访问效率,改善用户体验。

参考文献:

[1]龙恩,吕守业,岑鹏瑞,等.顾及用户画像的多源遥感信息智能推荐方法[J]. 测绘学报,2023,52(2):297-306.

2、彭染姝,陈实,陈宇.改进深度交叉网络的遥感信息即时智能推荐方法[J]. 测绘学报,2024,53(3):537-547.

第一作者简介:慈萌(1987—),女,汉,辽宁省新民市人,硕士,北京市遥感信息研究所,工程师,研究方向为遥感数据管理与服务。