|
职称论文发表 | 职称论文发表 专业提供:发表论文、论文发表、毕业论文、职称论... | |
住在汉口网 | 住在汉口网是一个专业提供汉口房产信息、车辆服务、生活服务、招... | |
职称论文网 | 职称论文网提供:发表论文、论文发表、毕业论文、职称论等服务。 | |
|
电子商务是一种借助于计算机网络技术,通过电子交易手段来完成金融、物资、服务和信息等价值交换,快速而有效地从事各种商务活动的新方法。电子商务的应用有利于满足企业、供应商和消费者提高产品质量和服务质量、加快服务速度、降低营销成本等方面的需求,帮助企业和个人通过网络查询和检索信息来支持决策。
电子商务模式中,采购者都需要通过Web方式与商品的供应商及其合作者之间建立信息流的交互。一方面通过Web方式购买者需要主动、方便、快捷的获得期望主题的信息,另一方面供应商及与之构成广域价值链上的合作伙伴们需要通过他们的集成信息系统,运用知识发现技术把访问者、网上购买者的访问数据从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而实现网络营销的目的。Web数据挖掘技术在电子商务中的应用已经引起了人们的极大兴趣
2、Web数据挖掘概述
Web数据挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web数据挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。典型Web挖掘的处理流程如下:
(1)查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。
(2)信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。
(3)模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。
(4)模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。
Web数据挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构合表达的含义感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。信息获得(IR)和信息抽取(IE)技术的研究已近有很长时间,随着Web技术的发展,基于Web技术的IR、IE得到了更多的重视。在Web环境下既要处理非结构化文档,又要处理半结构化的数据,最近几年在这两方面都有相应的研究成果和具体应用,特别是在大型搜索引擎中得到了很好的应用。
3、Web数据挖掘的分类
根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、 Web结构挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)。
(1)Web内容挖掘。随着WWW上信息的迅猛增长,许多只支持由关键词和超级链接所构成的搜索引擎返回的结果中有许多无用及无关的信息。这就需要开发更为有效的技术来支持Web内容挖掘。Web内容挖掘又可以细化为直接挖掘文档内容和对搜索引擎查询结果的进一步处理,前者采用这种策略比较杰出的Web查询语言有WebOQL,Ahoy等。WebOQL是一个用于Web页重构的查询语言,利用Web文档的图树表示形式,可从在线的文档站点或导游指南中获取信息。而Ahoy则利用像搜索引擎一类的互联网服务来获取与个人有关的服务,利用试探法识别文档中显示该文档作为个人主页的句法特征。
(2)Web结构挖掘。Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。由于超文本文档间的关联关系使得WWW不仅仅可以揭示文档中所包含的信息,同时也可以揭示文档间的关联关系所代表的信息。利用这些信息可以对页面进行排序,发现重要的页面。挖掘Web结构的目的是发现页面的结构和Web结构,在此基础上对页面进行分类和聚类,从而找到权威页面。
(3)Web使用记录的挖掘。Web使用记录挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。这方面的研究主要有两个方向:一般的访问模式追踪和个性化的使用记录追踪。一般的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组织结构。而个性化的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。
4、电子商务中的Web数据挖掘
(1)、Web挖掘的数据预处理。预处理主要由两部分构成:数据清洗(data cleaning)和事务识别(transaction identification)。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据;并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量;再将对模块、页面和文件请求次数,来自不同Internet域请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立data cube;而将文件、图像脚本及多媒体等其他文件转换成可用于Web使用挖掘的数据格式,从而可将数据挖掘技术用于Web流量分析、典型的事件序列分析和用户行为模式分析及事务分析。
(2)、用户访问模式的发现。经过数据预处理阶段后,即可根据不同的需求选择模式发现技术,如统计分析、关联规则、时序模式、路径分析(path analysis)及聚类、分类技术。统计分析通过分析会话文件可对网页视图、浏览时间和导航路径长度给出描述性的统计分析。该分析有助于改进系统性能,增强系统安全性,便于站点修改并可提供决策支持。路径分析可用于发现Web站点中最经常被访问的路径,从而可调整站点结构。基于Web日志的关联规则挖掘则可发现用户与站点各页面的访问关系,可找出在某次服务器会话中经常出现的一些相关网页,即支持度超过预设阈值的一组网页。聚类则多指客户群体聚类和Web网页聚类。客户群体聚类指将具有相似浏览模式的用户分在一组,从而方便电子商务网站为用户提供个性化服务,而Web页面聚类则提供有针对性的网络服务应用。时序模式发现是根据一段时间的Web使用记录分析是否存在一定趋势,以预测未来的访问模式。
(3)、Web挖掘中的模式分析,主要是为了在模式发现算法找到的模式集合中发现有趣模式。开发各种Web分析技术和工具,可辅助分析人员加深理解并使各种挖掘方法得到的模式获得充分利用。如Webwiz(pitkow)系统可将WWW的访问模式可视化;Webminer则采用类SQL 语言的知识查询机制;另外也可以利用存储Web使用数据的数据仓库,采用OLAP方法发现数据中的特定模式。
随着计算机、网络、通信技术的快速发展,信息化已经在全球范围内成为新的经济增长点,我国的商务网站顺应时代发展的趋势如雨后春笋般的涌现出来。但是我们也看到Web上的资源是巨大的、异构的,无论网站的经营者还是上网的用户都无法从繁杂的数据中快速地提炼出知识,从而转化成经济效益或是实现最大化商品效用。Web挖掘很好地解决了从数据到知识转化的问题,为我国的商务网站个性化定制每一个浏览者提供了技术的可行性,并为网站实现经济效益提供了一条发展的新路。 职称论文发表网http://www.issncn.com
职称论文发表网http://www.issncn.com
|
|
|
|