职称论文发表 | 职称论文发表 专业提供:发表论文、论文发表、毕业论文、职称论... | |
住在汉口网 | 住在汉口网是一个专业提供汉口房产信息、车辆服务、生活服务、招... | |
职称论文网 | 职称论文网提供:发表论文、论文发表、毕业论文、职称论等服务。 | |
|
1 Web挖掘技术介绍
1.1 Web 挖掘的概念
Web 挖掘是利用数据挖掘技术从www 的资源 (即Web 文档) 和行为(即Web 服务) 中自动发现并提取感兴趣的、有用的模式和隐含的信息。它是一项综合技术,涉及到Internet 技术、人工智能、计算机语言学、信息学、统计学等多个领域。
1.2 Web 挖掘的分类
Web 数据有3 种类型:Html 标记的Web 文档 数据、Web 文档内的连接的结构数据和用户访问数据。按照对应的数据类型,Web 挖掘可以分为3 类:
(1)Web 内容挖掘:是从文档内容或文档描述中抽取知识的过程。Web 文档内容的挖掘,基于概念索引的资源发现,以及新近的基于软件agent 的分类器方法都属于这一类。Web 内容挖掘有两种实现策略:直接挖掘文档内容和在其他检索工具搜索的基础上进行改进。
(2)Web结构挖掘:是从www的组织结构和链接关系中推导知识。由于超文本文档之间的互连www 也可以提供文档间关联关系所代表的信息。利用这些信息,可以对页面进行排序,发现重要的页面。根据Page2Rank方法,Web页面的重要性与被引用的程度成正比。
(3)Web 访问挖掘:主要是从Web 的访问记录中抽取感兴趣的用户访问模式。www 中的每个服务器都保留了访问日志(Web access log) ,记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。
2 WEB日志挖掘步骤
WEB日志挖掘流程如图所示。
2.1 WEB日志记录的主要内容
WEB服务器日志记录用户访问该商务网站时每个页面的请求信息。
2.2 数据预处理
WEB日志挖掘首先要对日志中的原始数据进行预处理,包括依赖于域的数据净化、
用户识别、会话识别和路径补充等。预处理过程是保证WEB日志挖掘质量的关键步骤。
2.3 模式发现
模式发现是运用各种算法和技术对预处理后的数据进行挖掘,生成模式。这些技术包括人工智能、数据挖掘、统计理论、信息论等多领域的成熟技术。可以运用数据挖掘中的常用技术如路径分析,关联规则、序列模式以及分类聚类等。
2.4模式分析
该阶段实现对用户访问模式的分析,基本作用是排除模式识别中没有价值的规则或模式,从而将有价值的模式提取出来。
3 电子商务中 Web 数据挖掘的应用
3.1电子商务中进行 Web 数据挖掘的数据源
数据挖掘是从大量数据中提取或“挖掘”知识,那么进行数据挖掘首先要考虑从什么样的数据中挖掘知识,也就是说进行数据挖掘的数据源。总体上说,电子商务中数据挖掘技术的数据来源包括以下几种。
3.1.1服务器数据
客户访问服务器就会在服务器上产生相应的服务器数据,这些数据可以分为日志文件和查询数据。其中日志文件又可以分为 server logs、error logs、cookie logs。
(1) Server logs
server logs 有两种格式存储,一种是普通日志文件格式,另一种是扩展日志文件格式。普通日志文件格式以“Date ,Client-IP,User-name,Bytes,Server,Request,Status,Service name,Time, Protocol of –version, User-agent, Cookie<…… 职称论文发表网http://www.issncn.com
职称论文发表网http://www.issncn.com
|