信息检索学术论文(2)
信息检索学术论文
信息检索学术论文篇二
优惠信息检索与分析
摘 要 处在一个信息时代,越来越多复杂且紊乱的信息充斥着我们的生活。如何从繁多散乱的信息中找到顾客需要的、感兴趣的优惠信息成为一个难点。我们的课题致力于寻找局部地区的优惠信息并将其汇总在一个平台上,通过顾客的点击率等方式挖掘数据分析顾客偏好。
关键词 优惠信息;搜索;关联规则;平台
中图分类号 TP39 文献标识码 A 文章编号 1674-6708(2016)161-0099-02
在如今的信息时代,随着internet网络的迅速发展以及信息化水平不断的提高,网络上产生了许多关于打折优惠的信息。越来越多的复杂且紊乱的优惠信息充斥着我们的生活。大部分人需要并且对优惠信息感兴趣,然而目前优惠信息是零散分布在各个地方,没有集中在一个地方发表。这既没有最大化商家的利益,也没有造福于顾客。如今如何更好地利用和挖掘出有价值的优惠信息从而更好地服务于顾客,是它要急需解决的问题。
1 优惠信息需求分析
优惠信息依靠不同的介质大面积存在,而顾客针对优惠信息有不同的需求和偏好,我们通过生活的一些现象,发现需要将受顾客欢迎的优惠信息收集起来,便于顾客查看和选择。网上和现实同时进行了一次简单的问卷调查,问卷调查范围主要是青年人,采用不同的统计表达形式,分析数据后得到以下信息。65%的人会主动寻求优惠信息,而且大部分人会知晓优惠信息后主要去尝试,由此可以看出青年人尤其是大学生财力不够,没有自己的收入或者工资不高。他们出于这些原因会希望获得优惠信息,不仅是节省而且可以以有限的财力来体验更多的生活。其中美食类的优惠信息更得大众欢迎,休闲娱乐类第二,购物类第三。大家更多关注的还是丰富自己的精神生活,提升生活档次,享受生活。当然这也与年轻人自身的偏好有关。他们生长于物质和精神都更为丰富的社会,比之年长者更容易接受新事物。
就目前优惠信息分布情况来看,基本没有人或极少数人认为其分布是集中的。大家感受到生活中的优惠信息是零散的。而大众获取优惠信息的渠道多种多样,最广泛使用的是通过微信等App发现,其次为朋友告知。调查发现微信对大家的影响越来越深,在生活中的应用愈加广泛。
2 平台建立
通过日常观察和问卷调查,很多用户常用微信最为日常工具,因此,建立一个微信平台来发布我们的优惠信息在一定程度上是可行的。
将收集的优惠信息分类,归为美食、休闲娱乐、购物等多种类别,类别名称由编码代替并定时发布在微信平台上。有目的性查找优惠信息的顾客可以通过选择不同编码,进入到不同类别的优惠信息页面中去,再可以点击相关的推送来查看具体的优惠信息内容。平台上每天会发送新的优惠信息,可以方便关注我们平台的顾客随意点击。在发布信息的同时,定时删除过时的优惠信息,不浪费顾客时间。
在顾客使用我们平台的时候,我们将采用数据挖掘等方式来发现顾客的偏好,之后,我们将在顾客偏好的优惠信息上加大收集力度。
3 信息收集
3.1 优惠信息要求
通过查找感兴趣的优惠信息这一途径,顾客能利用相同的价值去体验更多的生活感受。为了确保这些优惠信息的实用性,收集到的信息必须具备以下要求。
3.1.1 时效性
很多优惠信息都是伴随着某种活动产生的,例如节日、店庆等较为隆重的日期,可想而知,这类优惠信息必定存在一定的期限,或长或短,时间不定。而分享给顾客的时候必须保证优惠信息不过时,在提早发送消息的同时还要定期处理过期的优惠信息。
3.1.2 真实性
有些商家为了得到更多顾客的关注,会编造一些虚假优惠信息,需要运气才能获得,但前提是顾客关注或者转发,事实却是完全没有这个活动。有些优惠信息又存在于宣传的有差距的诈骗。这些现象明显属于欺骗消费者行为。所以信息的真实性是必备因素。
3.2 优惠信息收集途经
3.2.1 走访商家
作为一种存在时间最长的收集方式,也是最基础和保险的收集方式,与商家面对面的洽谈存在其优点和缺点。走访地区内各户商家,与商家进行协议,体现诚意,便于建立长期合作。但是过程费时费劲,因此我们并不主要依靠这个方法来收集信息。
3.2.2 网络收集
处在一个互联网高速发展的时代,互联网提供给用户极大的便利。网络信息便是其中占据大比例的存在。通过网络收集各类优惠信息是一个更为方便简单的方法。其中主要由搜索引擎查找、微信等平台查找构成。
1)搜索引擎。观察互联网用户使用较多的搜索引擎,百度、Google、雅虎等,尝试在不同的搜索引擎中打入相同的关键词,例如:“优惠信息 松江大学城”,可以看到,不同的引擎产生的网页是完全不同的。在百度的搜索引擎中出现在首页的是多为松江大学城团购,且存在少量独立商家的优惠信息。而通过谷歌,可以看到大部分为松江大学城租房或买房的优惠。两个搜索引擎,相同的关键词产生了差异较大的结果,这取决于网页排序的规则。
网页多采用链接分析的算法,链接分析排序原理启发与文献引文索引机制,分析网页之间的链接结构,若一个网页被引用的次数越多,表示该网页越受大众的欢迎;被越权威的网页引用,表示该网页质量越高。这么看来,从这两方面来说,这个网页的价值越高。常见的算法有PageRank算法、HillTop算法、HITS算法等。根据不同的算法,会导致网页结果的排序不同[ 1 ]。
例如,Google搜索引擎的最主要网页排序算法就是PR算法,计算网页的PR值,判断网页的重要性。若A网页有个链接指向B网页,那么B网页将得到A贡献给它的分值,值的大小取决于A的重要性。引用的网页数量越多,质量越高,排序越前面。
通过对算法原理的简单认识,我们可以分析得到,之所以百度的搜索引擎查到的信息更丰富,这归结于在这个搜索引擎中,这些网页的价值较高,从总的基数来看,被引用的次数较多,链接的网页价值也不错。而在谷歌这个全球常用的搜索引擎上来看,同样的网页被引用的次数太少,而且相关链接的网页价值不高。因此,在用搜索引擎来查询优惠信息时,要注意使用的搜索引擎和关键词的使用。其中,关键词的使用需格外注意,指明针对性。 一般以“优惠信息 松江大学城”为关键词的搜索结果范围仍旧极大,这不利于我们仔细排查一些小商家的信息。我们尝试先利用百度地图寻找松江大学城附近的商家信息,努力收集各个商家的官方公众网络。随时关注商家的动态信息变化,收集商家的优惠活动,判断商家活动的真实性,汇总在我们平台上。如果能在发现商家的官方网页的同时取得商家的联系方式,可以与之线上商谈,争取成为长期合作伙伴。
2)微信等平台搜索。有些小众的网络平台同样收集着一些值得尝试的优惠信息。而这些信息存在于不同的平台上,顾客看到的较少。我们提供相关的链接,与那些小众优惠信息搭建一个桥梁,方便顾客查看。许多商家的微信公众平台同样发布着一些消息,有时候会在朋友圈大范围传播,这个途径收集起来的信息虽然不全面,但是也是一种较为常见的方式。
4 顾客行为信息分析
随着平台的不断推广,顾客涌入。在微信公众号后台,可以用直观看到订阅人数,每条推送消息的点击数。因此可以获取大量的顾客消费行为数据。利用数据挖掘技术可以分析大量的数据,对顾客进行细分,还可以从已有的历史数据中发现有价值的潜在的知识,为顾客提供个性化的商品信息推荐。
建立模型以及分析:
经过对数据的预处理,我们发现利用关联规则挖掘来对数据进行处理比较好。关联规则可以发现不同事务之间隐藏的联系。我们在进行关联规则挖掘时,主要做了两步,第一找出频繁项目集,然后根据频繁项集产生满足最小可信度的关联规则。
从微信公众平台获得的数据,我们对其进行整理。在事务数据库中,事务的项目集为人们检索的优惠信息类别编号,事务ID为人的编号。由此我们得到了事务数据库D。
在挖掘关联规则时我们运用了Apriori算法,使用“K?项集”产生“1K +?项集”的迭代方法[3]。扫描所有的事务,对每种优惠信息类别出现次数计数。这里,假定最小事务支持计数为20,由此我们可以确定频繁1-项集的集合。使用来产生候选集,再次扫描数据库中事务,计算中每一个候选集的支持度计数。具有最小支持度的里面的候选2?项集组成了频繁2?项集的集合。反复进行上述步骤,由于Apriori算法性质,频繁项集的所有子集必须是频繁的,因此我们计算过程中会剪去一些项集。一直反复进行下去,直至1K +?项集为空集,我们得到K?项集为最大的频繁项集{1、2、5},也就是为{美食、休闲娱乐、购物}。
对于每个频繁项集L,我们列出所有它的非空子集,对每一个非空子集X,计算它的可信度。在这里,我们假设最小可信度(min_conf)为60%,最终得到了4条关联规则。在进行数据整理时,我们发现在每日推送的各种优惠信息中,美食类的点击量一直居高不下。这完全符合我们问卷调查的结果。
通过关联规则等对顾客的行为数据进行分析,我们发现人们往往会希望在休息娱乐比如看电影和购物之后享受一顿美味大餐。在享受的同时也希望获得优惠信息,以较小的代价获得高品质生活。
参考文献
[1]邓维婕.网络搜索引擎的原理、技术和发展[J].电脑与电信,2008(5):12-14.
[2]姚明.浅谈网络搜索引擎的研究[J].电脑知识与技术:学术交流,2007,4(19):83-84.
[3]陈安,陈宁,数据挖掘技术及应用[M].北京:科学出版社,2006.
看了“信息检索学术论文”的人还看:
2.如何搜索学术论文