全站搜索
基于Web的信息过滤技术
作者:管理员    发布于:2015-11-11 08:51:58    文字:【】【】【

  情报技术*基于Web的信息过滤技术*苏云马慧芳(兰州大学管理学院信息管理系兰州730000)(西北师范大学兰州730070)就是为了克服上述现象,减少用户在荻得信息过程中的负担,同时向用户提供数量适宜、质量优良的信息应运而生的。

  从信息过滤技术的三个方面给出过滤要点,特别提出了文档存储的重复信息的预过滤的方法。

  随着网络技术的发展与普及,利用Web网站获取信息已成为人们的共识。同时,WWW本身作为一个庞大的分布式异构超文本文档库,从诞生至今,其信息容量急速倍增,人们从信息缺乏时代过渡到了信息爆炸时代,而Web搜索引擎技术的出现与发展,为人们获取信息指明了方向。

  然而,尽管搜索引擎的出现在很大程度上帮助用户定位了信息的位置,现存的搜索引擎存在一个极大的问题是返回的结果不理想,包含太多的不相关或相关度极低的信息,大量的无关结果使用户无所适从,解决这个问题应该从搜索引擎的工作原理来考虑分析。

  搜索引擎的基本工作原理是:通过机器人程序,在范围的Web服务器上定期搜索网页;将搜索到的网页进行分析、整理,提取组后,放入搜索引擎的索引数据库中;用户向搜索引擎的界面输入组进行查询。从搜索引擎的工作原理可以看出,其基本的功能可以分为Web数据采集器、索引器、检索器和检索界面4个部分。

  从搜索引擎的工作原理来看,为了解决丰富的信息资源和低能的检索能力之间的矛盾,应该使用一定的机制进行信息过滤。所谓信息过滤机制,实质是利用某种检索模型和通过用户兴趣来描述数据,以此减小检索结果的冗余度。它通常包括三个部分:用户需求模型(用户模板)和文档的表示技术;匹配技术;相关反馈的利用技术。

  1用户需求模型和文档的表示技术用户需求模型(用户模板UserProfile)实质上是指用户向公共的搜索引擎提交自己需求的关键字,是对用户检索兴趣的一种描述,它表明了用户对什么样的信息感兴趣和对什么信息不感兴趣,通常由用户自己建立并给出所关心的特征项和权重。

  用户输入时通常输入感兴趣的词,而很少输入那些应该被排除的词,因此,一般用户描述数据只是表达了用户感兴趣的内容。

  对获取到的文档存储方式的改进可以看作是信息过滤的步,在文档存储时应注意对大量重复文档进行预处理,这样可以消除重复文档。文档的重复分为显性重复和隐性重复。

  显性重复是指完全相同的文档,这是因为因特网上多个超链接指向同一篇文档的可能性很大;隐性重复是指虽然不是同一篇文档,但它们的内容是重复的。对于种情况,完全相同的文档内容主要应该由文中的决定,可以利用向量空间模型方式来计算文档相似度。若向量夹角是0,即两篇文档的信息含量完全相同,那么选择其中一篇存储入库即可;而第二种情况,可以利用目前文本信息越来越成熟的挖掘技术,动态存储隐性产生的文档。

  由于搜索引擎的数据采集器挖掘的是Web页面中HTML或者XML格式的文档,而这两种不同类型的文档表示的方式有所不同。通常来说,对于HTML格式的文档,首先进行结构分解,获得网址、标题、词汇以及近修改日期等信息。然后进行词汇处理,若为汉语则进行分词处理;若为英语则进行词干映射。同时还要清除停用词,即除去高频常用词和低频罕见词。对于XML的半结构化文档,应该充分利用XML的标签所带来的上下文信息,解析的过程中要完成的工作是把XML文档中的词以及对应的上下文标签抽取出来。

  2匹配技术信息过滤的实质是一种信息检索技术它需要依托于某一种信息检索模型,在用户模板与文档的匹配中选择不同的模型。常见的模型有布尔逻辑模型、向量空间模型、概率模型、神经网络模型和基于命题逻辑的模型等,其中不同的检索模型有不同的过滤方法。

  2.1布尔逻辑模型布尔逻辑模型是指根据用户提交的检索条件是否满足文档表示中的逻辑关系来确定匹配文档。布尔逻辑模型的优点是实现简单、检索速度快,但由于难以对匹配结果进行相关性排序,也无法区分特征项对文档内容贡献的权重,所以实际使用中更多的是布尔逻辑模型的扩展p范数模型。

  基金项目:兰州大学985工程项目4网络信息计量学“的研究成果之情报技术*在p范数模型中,假设文档可表示为d用户查询可表示为c=(Cl,C2,…,Cn),其中di和Ci分别表示第i个特征词条对文档内容和查询内容的贡献程度定义文档与查询间的相似度为:到的实际信息有关,但用户无法影响将来的搜索结果,要进一步过滤采集到的信息,可以采用相关性的反馈技术来改善。相关性反馈技术是在信息检索中改进搜索结果的查询修改技术,常用的相关性反馈技术包括特征项重新加权和查询扩展两方5J.通过选用不同的d、c和/>将获得不同的检索结果。特别是当P取,di取值为0或1,都为1时,p范数模型即变为布尔逻辑颊型。

  利用布尔模型进行文档匹配的过程中,用户的查询是由逻辑符号将用户模板提供的组成,主要看该文档的词条是否满足查询条件。通常来说,使用AND连接的越多,获得文档的数量会越少,并且减少的文档数量也是非常明显,有利于提高查准率。

  2.2向量空间模型向量空间模型(VectorSpaceModel)在实际的文档匹配中是常用的模型之一。通常文档用D(Document)表示,它是由一系列词建立的n维向量空间,信息库中的文本和用户的查询都是用向量来表示,文档向量特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征对含有n个特征项的文本而言,用一定的权重W来表示每个特利用向量模型进行匹配时,用户至少提供一个形成用户模板,以此表明用户的兴趣取向,通常重要性由用户输入板在检索时被看成是一个由n个词组成的向量首先得到同时包括这几个词的,然后逐一比较描述文件向量和向量的相似程度,可以取两个向量的余弦值,根据它们夹角的大小来判断相似程度,后再根据相似程度把命中排序后返回给用户。

  采用向量空间模型可以简单地将文档与模板的表示统一起来,可操作性好,使过滤系统的实现比较容易。但由于将文档特征向量与用户模板之间的夹角余弦作为相似系数,依据选定的相关阈值,筛选符合条件的文档,其结果往往产生大量匹配的信息。

  针对以上两种模型在匹配过程中出现的问题,可以采用一定的方法进行改进。比如利用代理个性化进行搜索,考虑到不同用户的兴趣,利用个人兴趣代理为每个用户维护一个个兴趣剖像,利用它们对搜索结果进行过滤。

  随着检索技术的不断发展,新的检索技术也将不断涌现,出现了诸如并行信息检索系统、演绎信息检索系统、基于超文本技术的信息检索系统、分布式检索系统和智能检索系统等,这些新技术代表了检索技术的未来发展方向。

  3相关反馈技术通过以上两个步骤,搜索引擎查询结果与用户模板和搜集面,其中特征项重新加权是根据回答查询的相关文档和无关文档特征的分布,通过特征项重新加权,可以提高查准率;查询修改是根据原始查询构造一个新的查询,用新的查询来进行相关性反馈。

  此外,通过对服务器端用户个性化研究,采集用户对搜索结果的访问序列来生成搜索引擎的反馈信号,以此来影响搜索结果的生成,使搜索引擎具有更好的自适应能力。系统还需要根据用户的反馈情况对搜索结果进行重新排序,并且给出一个适当的阈值,以此限制某些与用户相关度很小的记录返回给用户,起到信息过滤的作用。

  对于向量空间模型而言,利用查询特征的概率分布构造查询特征权重和文档特征权重计算公式。根据原始查询特征向量、相关文档的特征向量和不相关文档的特征向量、相关文档数和不相关文档数来构造查询修改公式和要生成相关文档的聚类。

  相关文档中的词条权重向量具有一定的相似性,同样,不相关文档和相关文档的词条权重向量差异应该比较大。因此,要对查询词条进行扩展,使得它与相关文档的词条权重向量空间靠近。

  根据相似度的值,文档就可以按相似度从大到小排列起来并返回给用户,相关的文档排在前面。但这种情况下n很大时,返回的信息就相当多。通常定义一个临界值ST来解决这个问题。对不同的ST返回的信息也不同,有时返回大量的信息给用户,而用户不感兴趣,有时返回的信息很少,用户查不到想要的内容。ST的选择很不好确定,为解决这个问题,1965年Rocchb将特征项重新加权与查询扩展结合起来,定义了基于向量空间模型的查询修改方法。

  其中。:Q0=原始查询的特征向量,Ri=相关文档i的特征向量=不相关文档i的特征向量,rM=相关文档数,化=不相关文档数Q1就是原始查询的特征向量、相关文档i的特征向量和不相关文档i的特征向量的向量和。

  信息过滤技术的出现逐渐受到重视,是源于网络用户对信息获取在数量得到满足后的更高的一种要求。在信息过滤中,除了以上谈到的用户的模板与文档表示技术、匹配技术以及相关反馈技术需要进一步优化之外,还应该注意智能过滤Agent和协同过滤(CoUaboratkeFiltering)等过滤机制在搜索引擎中的应用。

访问统计
51客服