大汉网络JCMS内容管理系统的信息过滤和热词技术

hanweb · 2008-07-24

1.引言
万维网继续以指数的速度增长，Internet已成为人们获取信息的一个重要途径，网址的复杂度也随着万维网的增长而增长，这就让用户查找资料时要花费更多的时间，遇到更多的困难，帮助用户通过他们的兴趣而查找到他们想要的资料使这些网址更人性化。目前人们主要利用传统的搜索引擎来查询信息。信息检索技术满足了人们一定的需要，但由于其通用的性质，仍不能满足用户个性化的信息需求。所以在信息动态变化的情况下筛选出用户感兴趣的信息，就需要进行信息过滤技术。
另外，随着电子商务应用的日益普及，尽管人们可以更加轻松地买到自己需要的物品，然而人们不得不在琳琅满目的商品中进行痛苦的选择。很多时候，人们很想了解别人的看法，甚至希望有人向他们进行推荐。高科技在给人们带来享受的同时，也给他们带来烦恼：他们不得不花费精力从大量涌入的信息中去挑选自己真正感兴趣的内容。
因此，如何为用户筛选感兴趣的内容已经成为一个重要的研究问题。由于用户兴趣的不同和行为的差异，如何为不同的用户提供不同的服务成为一个具有挑战性的问题。在实现个性化服务中，最主要的就是了解用户的需要，关键问题包括：用户描述文件的表达与更新、资源的表达、个性化推荐和个性化服务体系结构。

2.信息过滤和热词的解释及详细内容
所谓信息过滤是指根据用户提供的一个过滤需求（user Profile），从动态变化的信息流（比如web、e-mail）中自动检索出满足用户个性化需求的信息。就是通过URL过滤、IP过滤、关键词过滤、图像过滤和智能过滤等过滤手段，对互联网用户进行访问控制和管理的技术。目前网络中的信息过滤主要有两种方法：
一是数据库过滤，即依据数据库中的IP地址或URL来判定是否需要过滤掉相应的内容，但这种方法会因为出现几篇含有不安全信息的文章而导致整个网站被封，或者非法网站可以通过改变IP地址，使之能够在一定时期内避免被过滤；
二是基于关键词的过滤，但基于关键词的信息过滤技术，其漏报、错报率高。而且关键词是目前人们常使用的词，有些信息内容的发布者可能有意避开使用这些词，用其他的词替代，使得基于关键词的信息过滤机制不能识别。基于文本内容过滤方法的提出与发展已经为不良信息过滤的研究提供了有效的方式。
热词是一种描述更为具体的新闻关键词，按照这个定义，我们可以可以看到，比如:关于四川汶川大地震的新闻，热词可以是：“汶川四川地震”等。但是热词的意义还不仅仅在此，对于热词的研究也不能仅仅停留在表面意义上。热词的使用充满互动感与个性。通过点击热词您可以方便快速的搜索到关于此热词的新闻，而为新闻或图片添加热词，又增强了您的阅读自主权，热词其实也是一种个性化的信息的过滤技术。
信息的过滤以及信息的热词都是随着人们的个性的需求而产生的技术，信息过滤技术目前应用于各行各业的信息技术中，输入法、产品的选择订购、信息检索系统、信息过滤器、信息过滤平台、垃圾邮件过滤，以及在新闻信息页面、聊天室等互动平台中实现有害信息的过滤（例如反动言论，保护国家安全；谣言，保护社会稳定；色情网站，保护青少年身心健康）。
信息过滤的主要特点：无结构或半结构化的数据；文本数据；对用户PROFILE的描述；既可以用来屏蔽有害信息，也可以用来收集有益信息。当然信息的检索以及一些搜索引擎和信息的过滤技术有一定的差异，但作为个性化服务已经囊括了这一切技术。
个性化服务技术就是针对这些个性的、片面的问题而提出的，它为不同的用户提供不同的服务，以满足他们不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为，从而实现主动推荐的目的。根据推荐方法的不同，个性化服务技术可以分为基于规则的技术和信息过滤技术。信息过滤技术又可分为基于内容的过滤技术（Content-based filtering）和协作过滤技术（Collaborative filtering）。

实现基于内容信息过滤需要跟踪和学习用户的兴趣和行为，并研究用户兴趣的表达方式。首先，需要决定学习的信息源和收集的方式。由于需要用户的参与，考虑到用户信息的敏感性，只能收集用户公开和反馈的信息，因此，必须研究有效的学习机制，从有限的信息中挖掘出有用的信息。另一方面，由于用户兴趣的多种多样和变化不定，需要研究能满足这种要求的用户兴趣的表达，为了把资源推荐给用户，必须选取资源的特征，并采用合适的推荐方式。
基于内容信息过滤技术的原理问题：包括用户描述文件的表达与更新、资源的表达、推荐等；对基于内容信息过滤系统来说，最重要的是用户的参与，为了跟踪用户的兴趣和行为，需要为每个用户建立一个用户描述文件（User Profile），用户描述文件可以包括个人信息、个人兴趣、行为模式、以及用户间的关系等。

基于兴趣的表达方式。用户兴趣需要采用合适的方式来表达，不同系统的用户描述文件各有其特点，用户描述文件的表达从内容上可以划分为：基于兴趣和基于行为两种类型。基于兴趣的用户描述文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模型、书签和目录结构等。基于行为的用户描述文件可以表示为用户浏览模式或访问模式。在具体实现时可以综合基于兴趣和基于行为这两种表达方式。
基本标准包括：①粒度，分为两种：一个用户一个描述，或是一类用户共享一个描述。②更新能力，用户描述文件可以是静态的或是动态的，一个静态的描述文件在与用户的交互过程中不发生改变，而动态的描述文件一旦学习到新的信息就即时修改。静态描述文件可以被预先嵌入到一个系统中，或者在初始会话阶段由用户建立。动态描述文件在整个交互过程中都进行即时修改。③时效性，用户描述文件可以是短期的或长期的。短期描述文件在当前交互过程中建立，当交互过程结束后，可以被抛弃。长期描述文件可以从一个交互过程保持到另一个交互过程。④描述文件的数量，分为单模式和多模式两种，单模式下，一个用户只有一个描述文件，多模式下，一个用户可以拥有多个描述文件。

基于动态更新的表达方式。动态更新用户的兴趣可以提高个性化服务的质量，在用户第一次使用系统的时候，系统可以要求用户注册自己的基本信息和感兴趣的内容，系统也可以隐式地收集用户信息。在定制好一个用户描述文件后，系统可以让用户自主修改，也可以由系统自适应地修改，这样，系统就可以随用户兴趣的变化而变化。

系统要自适应修改用户信息，必须根据学习的信息源分析当前用户的行为，从而调整用户兴趣的权重或调整用户兴趣层次结构。根据学习的信息源，用户跟踪的方法可分为两种：显式跟踪和隐式跟踪。显式跟踪是指系统要求用户对推荐的资源进行反馈和评价，从而达到学习的目的；隐式跟踪不要求用户提供什么信息，所有的跟踪都由系统自动完成，隐式跟踪又可以分为行为跟踪和日志挖掘。显式跟踪是简单直接的做法，系统可以要求用户反馈自己对推荐资源的喜好程度。一般情况下，这种做法很难收到实效，因为很少有用户向系统主动表达自己的喜好。比较实际的做法是行为跟踪，因为用户的很多动作都能暗示用户的喜好。用户行为可以表现为查询、浏览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、前进、后退等等。简单的动作（比如点击鼠标）并不能有效揭示用户的兴趣，而浏览页面和拖动滚动条所花的时间能有效地揭示用户的兴趣。

基于内容的方法是从文档本身抽取信息来表示文档，运用最广泛的方法是矢量空间模型，该模型利用特征词条及其权值来表示文档。对文档来说，关键的问题是特征选取，特征选取要达到两个目标：一是选取最好的词；二是选取的词最少。特征选取的方法很多，比较简单的做法就是计算每个特征的文档频度，选取具有最大文档频度的若干个特征；也可以计算每个特征的信息增量（Information Gain），也就是计算每个特征在文档中出现前后的信息熵之差；还可以计算每个特征的互信息（Mutual Information），也就是计算每个特征和文档的相关性；还可以使用X2统计方法。
基于内容的过滤技术的优点是简单有效，缺点是只能推荐和用户已有兴趣相似的资源，不能为用户发现更多新的兴趣，而且，如果用户的描述文件没有正确表达用户的兴趣，那么该方法推荐的资源可能和用户真正的兴趣根本不相关。其中特征选取方法的影响。

3.信息热词在基于内容上的举例分析
由于数据集中每个文档的描述较少，一般10-30个词语，去除一些连词和介词之后剩余词汇很少，且一般每个特征词在描述文档中只出现一次，故没有用N-gram方法对文章进行关键字的挑选。因此在关键字能否表达文档内容上的精度就下降了。

例如：Arts中的Events类中只有一个资源，存储的格式为：
<ExternalPage about=http://www.history2005.com>
<Title>World Congress of History Producers</Title>
<Description>The fourth annual event will take place in Toronto, Canada, from October 27-30. Includes schedule, online registration, and accommodations.</Description >
<topic>Top/Arts/Events</topic >
将<Title>中的标题内容和<Description>中的描述内容共同作为这个资源的描述文档，去除掉一些连词，介词等，对剩下的词进行赋权值，得到的结果如表3-1所示：
特征词权值
World 0.041666666666666664
Congress 0.041666666666666664
History 0.041666666666666664
Producer 0.041666666666666664
fourth 0.041666666666666664
annual 0.041666666666666664
event 0.041666666666666664
will 0.041666666666666664
take 0.041666666666666664
place 0.041666666666666664
Toronto 0.041666666666666664
Canada 0.041666666666666664
October 0.041666666666666664

由此可见，抽取出的特征词并不都能作为文章的关键词，如will，由于每个词在描述文档中之出现一次，故选出的特征词权值相同，不能精确的体现出该特征词在文档中的权值，在计算相似性的时候，就不能得到用户兴趣和这篇文档准确的相似度，进而影响结果的准确性。
当然，目前的比较基础的信息热词计算方法，都是采用上述的方法，只根据信息KEYWORDS以及DESCRIPTION来判断信息的热词，进而计算信息的相关性，这样的结果固然和实际有了一定的出入；再加上信息的KEYWORDS以及DESCRIPTION的不准确，进而引起信息描述的不准确性。我们可目前大家总结出来的关键词，造出一个热词的数据库，根据遍历文章，来查询关键词出现的频率，根据上例的加权技术，给各个热词加权，进而求出整篇文章信息的热词——即代表整篇文章的简洁表达关键词。

4.结论
在大汉版通JCMS产品中信息过滤主要是实现信息中一些词的替换以及敏感词的过滤。替换词的类型分为六种类型：不替换、完全替换、前相对替换、完全相对替换、没有替换的添加和链接替换。替换词有两种状态：启动和禁用。启动表示在导入信息时要过滤替换词，禁用表示不替换。这样有人性化的实现选择性的过滤很好，可以避免替换一些本该需要显示地方的替换。例如“屏蔽词屏蔽词屏蔽词”这词，在平时的文章中以及人们的留言回复中，我们应该为了一些言论的传播屏蔽或替换掉该词，但在另外的一些公文的发布中应该显示该词。

另外JCMS在实现替换的方式上分为：
（1）导入信息时：将替换词设置好并启用，在信息管理中，导入信息，信息就能自动被替换；
（2）保存信息时：将替换词设置好并启用，在信息管理中，新增信息时，将过滤信息内容打上勾，保存时，自动替换。

目前国内外都在关注和研究信息过滤技术，各种过滤技术的模型都在研究中，布尔模型、向量空间模型、概率推理模型、隐性语言标记等等。对于各种模型中利用的各种信息匹配算法也各有优缺点。另外对于各种过滤系统的评价，我们也尚未找到公认的、有效的评价方法。因此我们应该积极的结合自己的产品的定位，以及客户的特点，研究出自己的信息过滤系统，以及信息的热词的研究。对于信息的敏感词的过滤，我们的产品有一定的应用，并能在一些地方运用的很好，但信息热词的一些技术还有待改善。利用信息过滤、热词等技术，我们可以作一些信息的自动相关性的设置。
当然也可以利用热词技术，在文章信息的页面上自动的标示出热词，并给改热词加上链接地址，提交到相关热词信息的页面，这样当我们浏览新闻内容的时候，自然而然的可以阅读自己喜欢的内容，有选择的进行信息的过滤。当然技术是在发展，实现的方法也是多样的，我们还需探取、摸索。

天纵 · 2008-07-31

先进的分词技术吗 :lol::lol:

leny111 · 2008-08-14

这么长看的头昏

秋水依人 · 2008-09-11

在计算相似性的时候，就不能得到用户兴趣和这篇文档准确的相似度，进而影响结果的准确性。

webren · 2008-09-14

这么强大。

论坛

大汉网络JCMS内容管理系统的信息过滤和热词技术

hanweb New Member

天纵 New Member

leny111 New Member

秋水依人 New Member

webren New Member

快捷检索

大汉网络JCMS内容管理系统的信息过滤和热词技术

hanweb New Member

天纵 New Member

leny111 New Member

秋水依人 New Member

webren New Member