)[摘要]电子商务网站向用户提供及时有效的信息,是提高网站声誉和效益的基??eb挖掘可以通过分析用户的使用偏好,帮助用户高效地检索到所关心的信息。本文深入讨论了Web结构挖掘、Web内容挖掘和Web使用挖掘等技术,并提出了商务网站基于Web挖掘技术为用户提供个性化推荐的一种框架。
一、引言
电子商务站点的成功很大程度上取决于保持已有用户和将随意浏览者转化为现实购买者的能力。因此,怎样在电子商务环境中吸引新用户,并确保自己可以提供足够的产品或服务留住老用户,成为许多电子商务站点所要关注的主要问题。另一方面,用户面对电子商务站点所提供的众多选择,要从中挑选出自己真正需要的产品或服务犹如大海捞针。
人们为了实现从海量Web数据中,查找自己想要的数据和有用信息,提出了Web挖掘(Web Mining)。Web挖掘可以帮助人们从Web文档和Web活动中发现和抽取潜在的、有意义的模式和知识。它将传统的数据挖掘技术与Web结合起来,并综合运用了统计学、计算机网络、数据库与数据仓库、可视化等众多领域的技术,形成了Web结构挖掘、Web内容挖掘和Web使用挖掘的研究与应用体系。
二、Web结构挖掘
由于Web页面具有比纯文本更为丰富的结构,不仅具有文本信息,而且具有表示页面之间关系的链接,所以Web结构挖掘主要是利用Web文档之间的超链结构进行分析。大量的Web超链接信息提供了关于Web页面内容相关性、质量和结构方面的信息,反映了文档之间的包含、引用或者从属关系。引用文档对被引用文档的说明往往更客观、更概括、更准确。它有助于推断出页面的权威性。所谓权威页面是在一个主题内被高度引用或参考的页面,与其相关的另一个概念是枢纽页面,即:那些指向许多权威页面的页面。权威页面和枢纽页面展示了强烈的互增强关系;一个好的枢纽页面指向了许多好的权威页面;一个好的权威页面被许多好的枢纽页面所指。在信息检索中往往将高权威分和枢纽分的页面视为高质量的页面,可以考虑优先提供给用户。
三、Web内容挖掘
Web内容挖掘主要有两种策略:1.直接挖掘Web文档的内容;2.在工具搜索的基础上进行改进。采用第一种策略的有针对Web查询语言利用启发式规则的Ahoy等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。共分为四个阶段:
首先,对文本挖掘对象建立特征表示。为Web文本内容建立特征表示是Web文本挖掘中的基本问题,常用的特征表示方法有:向量空间模型、布尔模型、聚类模型、概率模型和基于知识模型等。
其次,提取文档特征并缩减。在目前所采用的文档表示方法中,共<优麦电子商务论文>同存在的瓶颈就是文档特征向量维数过高。常用的特征提取与缩减方法有:信息增益、互信息、文本证据权、特征频度、文本频度,以及特征熵等。
再次,在完成文档特征向量维数的缩减后,利用数据挖掘的方法(如分类、聚类、关联规则等)提取面向特定应用的知识模式。
最后,对挖掘结果进行评价,若评价结果满足一定的要求则输出,否则返回到之前的某个环节,分析改进后再进行新一轮的挖掘工作。
四、Web使用挖掘
Web使用挖掘的结果通常是用户群体的共同行为和共性兴趣,以及个人用户的检索偏好、习惯和模式等,已经成为当前电子商务个性化推荐的主流方法。Web使用挖掘主要通过分析用户访问Web的记录了解用户的兴趣和习惯,对用户行为进行预测,以便提供个性化的产品信息和服务。Web使用挖掘的方法可以分为两类:
1.基于Web事务的方法
基于Web事务的Web使用挖掘技术通常应用于Web服务器日志文件,引入最大向前引用算法MF,将用户会话分割成一系列的事务,然后采用与关联规则相类似的方法挖掘频繁访问序列,从而取得用户访问模式。Web使用数据的采集和预处理是Web使用挖掘过程中非常关键的步骤。
2.基于数据立方体的方法
基于数据立方体的技术是根据Web服务器日志文件,建立数据立方体,然后对数据立方体进行数据挖掘和联机分析处理。这种方法从多角度、全面地进行挖掘和分析,有利于Web挖掘与数据挖掘技术的迅速融合与发展。
五、语义Web挖掘
语义Web模型的一个重要思想就是以本体来表示语义信息,通过在语义Web中引入本体层来实现语义信息的共享,从而提高网络信息服务的智能化与自动化。语义Web挖掘的主要分为两个层次:其一,探索能够直接处理Web本体的Web挖掘算法;其二,在Web挖掘其他环节利用本体方法,以提高Web挖掘的效能。
要解决现有数据挖掘技术在语义Web环境下应用,关键的问题是要求数据挖掘算法具有几种能力:第一是使用的算法应该具有处理比命题逻辑更有表达力的一阶逻辑的能力;第二是在算法中具有利用背景知识数据进行数据挖掘。
六、结论
电子商务个性化推荐可以根据用户的偏好、历史访问数据,以及相似用户的相关信息,帮助用户完成网上浏览、购买等过程,为用户提供个性化服务。WEB挖掘技术可以从不同的角度和层次对网站信息和用户的使用偏好进行分析,正在成为提高电子商务网站声誉和效益的有效途径之一。