全站搜索
基于内容的个性化信息过滤系统的研究与设计
作者:管理员    发布于:2015-10-13 17:26:05    文字:【】【】【

  计算机工程基于内容的个性化信息过滤系统的研究与设计于满泉,许洪波,赵章界,余智华(中国科学院计算技术研究所软件室,北京100080;中国科学院研究生院,北京100039)了“天罗”个性化信息过滤系统,天罗个性化信息过滤系统提供两种过滤方式:基于匹配的过滤和基于内容相似度计算的模糊过滤。从结构上看,该系统分为以下几个部分:(1)内容文档库,集中存储从采集子系统传来的数据。(2)特征子串扫描模块,采用高效的多扫描算法对未经处理的文本快速扫描,高效率筛选掉大量的无关文档。(3)内容提取模块,对未被筛选掉的文档进行格式分析,排除广告、菜单等噪音信息的干扰。(4)过滤模块,采用过滤和模糊过滤方式。(5)过滤结果库,集中存放过滤结果。(6)用户管理模块,对用户进行权限管理,接收用户多种形式的兴趣表达方式;接收用户提供的正、负反馈信息,同时向用户呈现过滤模板,用户可凭借经验手工调整该模板。(7)结果推送模块,向用户推送过滤结果,用户不仅可通过浏览器分层浏览不同级别的内容,还可定制包括E-email、手机短信在内的不同的推送方式。(8)自适应学习插件,根据用户提供的反馈信息自动更新过滤模板,综合采用相关反馈和伪相关反馈的技术。过滤结果显示界面图略。

  (1)多快速扫描。在我们的系统中,需要同时扫描的往往很多,有时达到1000个左右,间还包含着逻辑关系。

  在这种情况下,如何让系统继续高速扫描,是一个很重要的问题。

  多扫描的方法很多,典型的有AC算法、WuManber算法、SBM算法等,不同的方法适宜于不同的场合。在大数据量情况下,(2)多文档类型识别。在网络信息中,文档的格式是多种多祥的,本系统实现了多种格式文档和压缩文档的识别转换,如TXT、HTML、XML、DOC、PDF、ZIP、GZIP、TAR等,并且能够白动补充某些格式文档中缺少的结构信息;对于经过多次压缩的压缩文件,提供了嵌套的解压方式。

  (3)文档内容提取。为了排除网页中大量的广告、菜单等信息的干扰,本文综合利用了HTML页面的视觉属性和篇章布局特征,较地提取出页面的正文和标题,并对标题等醒目字眼赋予较高的权重。例如,为了提取正文,从文本开头开始,进行逐段扫描,直到某一段长度不小于设定的小长度阈值,就假定这段为正文的开头,满足这一条件的后一段为正文结尾。

  (4)用户需求扩展和文本特征选择。在用户需求扩展上,采用了经典的Rocchio算法进行伪相关反馈,用户也可手工参与修改过滤模板。系统根据用户以前提供的反馈信息,统计出能反映用户需求的给用户,由用户确定是否用来进行过滤。用户可指示是否重新训练模板。文本特征选择采取TF-IDF的方法。

  (5)自适应学习机制。系统采用改进的Rocchio算法对过滤规则进行正反例学习,动态调整过滤模板。对于真相关反馈,为了强调反馈种子的重要性,采取每反馈一篇文档就修改一次对应模板的方法,即反馈间隔设为1;对于伪相关反馈,当真相关反馈的文档个数达到10时,进行一次伪相关反馈。过滤阈值采取了简单的固定阈值法。具体的做法可参看。

  2.3系统性能本系统运行在联想万全服务器上,服务器配置为P4/1.9GHz,ft512MB,SCSI 10000|/min,数据库采用SQLServer2000.系统通常每秒能处理100个文件。在系统中,过滤准确率达到1.为了测试模糊过滤和反馈的效果,我们随机选择了文娱、财经、体育3个主题,测试的数据来源于2004年2月21日和22日的人民网、sma、263、21cn4个网站对应的栏目。把数据分为兴趣构造集,反馈集和测试集。首先用构造集构造用户的初始兴趣向量,并用它来测试测试集,得到第1次测试结果;然后用反馈集修正特征向量后再去测试,得到第2次测试结果。

  如表1所示。由此可见,本系统具有较高的处理速度和准确率,并具备一定的智能交互性,因而能够很好地满足个性化服务中用户的实际需求。

  表1模糊过滤及反馈测试结果主题测试数据文娱财经体育兴趣构造集(人民网)正例集负例集反馈集正反馈负反馈总数正确过滤第1次第2次3结束语Web信息的急速膨胀对信息服务提出了巨大的挑战,内容过滤技术则是迎接这一挑战的有力手段之一。随着人们对结果,分配到MDT叶子结点河北压滤机中的类属性决定了哪个基本分类器将用于对例子进行分类。在ODT中,类属性与普通属性在使用上没有区别。

  2.2元属性MDT使用元属性进行归纳,本文使用的元属性是指由基本分类器预测的,反映预测结果的确定性和信任度的类概max C)是基本分类器C为例子x预测的高类概率。

  efropy(x,C)是基本分类器C为例子x预测的类概率分布的熵。

  权重weight(C,x)是分类器C为x估算类分布时使用的训练样本在整个训练样本中所占的比例。在决策树中,叶子结点中样本的权重是对对样本分类的重要依据。

  概率分布的熵和高概率反应了分类器对类值预测的确定性。如果返回的概率分布是高度扩散的,那么,大概率小、熵高,这就表明该分类器对类值的预测是不确定的;相反,如果概率分布高度集中,那么大概率大、熵低,这就表明该分类器对类值的预测是确定的。而权重量化了分类器所预测的类概率分布的可靠程度。是一个用CDP作为普通属性归纳MDT的一个例子。

  与ODT比较,MDT除了更容易理解外,还有一个重要特征是:使用CDP元属性归纳的元决策树,在描述决策树的语言相同和使用的基本分类器集合相同的情况下,该MDT具有领域独立性,即在一个领域归纳的MDT,能够用在任Web服务的种类和质量要求越来越高,单纯的检索服务正在向信息转播、个人代理、主动服务等领域全面拓展。因此,个性化信息过滤的需求越来越重要,将在信息时代人们的生活中扮演重要角色。此外,内容过滤如能跟Web日志挖掘、用户行为挖掘、文本分类聚类等技术相结合,将更能适应互联网信息服务小型化、灵活化、迁移化的发展方向。我们相信,个性化内容过滤的天空将更加广阔。

访问统计
51客服