从事点击流日志埋点系统经常会遇到什么问题

点击联系发帖人 时间：2018-07-06 10:05

点击日志

WEB日志的作用和缺陷_百度文库
您的浏览器Javascript被禁用，需开启后体验完整功能，
享专业文档下载特权
&赠共享文档下载特权
&10W篇文档免费专享
&每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
WEB日志的作用和缺陷
一起调研网（又称为一起调查网、17调研网）...|
总评分0.0|
阅读已结束，下载本文需要
想免费下载更多文档？
定制HR最喜欢的简历
下载文档到电脑，同时保存到云知识，更方便管理
加入VIP
还剩3页未读，
定制HR最喜欢的简历
你可能喜欢当前位置： >>
一个基于Hadoop的Web日志分析系统的设计与实现
豪南『大?嘤硕士学位论文一个基于Ｈａｄｏｏｐ的Ｗｅｂ日志分析系统的设计与实现万方数据ＴＨＥＤＥＳＩＧＨＡＮＤＩＭＰＬＥＭＥＮＴＡＴＩＯＮＯＦＡＨＡＤＯＯＰ―ＢＡＳＥＤＷＥＢＬＯＧＳＹＳＴＥＭＫ义龇ＳＩＳＡＴｈｅｓｉｓＳｕｂｍｉｔｔｅｄｔｏＳｏｕｔｈｅａｓｔＵｎｉｖｅｒｓｉｔｙＦｏｒｔｈｅＡｃａｄｅｍｉｃＤｅｇｒｅｅｏｆＭａｓｔｅｒｏｆＥｎｇｉｎｅｅｒｉｎｇＢＹＷＡＮＧＨｅｎｇＳｕｐｅｒｖｉｓｅｄｂｙＰｒｏｆ．ＪＩＮＹｕａｎｐｉｎｇ一一ａｎｄＳ．Ｅ．ＴＡ０ＹｕｈｕｉＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇＳｏｕｔｈｅａｓｔＵｎｉｖｅｒｓｉｔｙＭａｙ２０１４万方数据东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。研究生签名：至恒．Ｉ嗍劢Ｉ垆．‘．；东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布（包括以电子信息形式刊登）论文的全部内容或中、英文摘要等部分内容。论文的公布（包括以电子信息形式刊登）授权东南大学研究生院办理。研究生签名：芈导师签名：期：叁ｆ空：』：生万方数据摘要摘要随着Ｉｎｔｅｍｅｔ的迅速发展和普及，Ｗｅｂ相关组织收集了海量Ｗｅｂ日志数据，其中蕴藏着大量有用的信息和知识，而这些信息和知识可以被用来设计产品、判断客户生命周期、优化Ｗｅｂ应用程序功能、为用户提供更个性化的内容以及在Ｗｅｂ空间找到最有效的逻辑结构等。因此，海量Ｗｅｂ日志数据一直具有重要的实际意义。传统的串行计算方法己难以处理如此庞大的数据，而云计算技术可以有效处理海量数据。Ｈａｄｏｏｐ是Ａｐａｃｈｅ软件基金会旗下的一个开源分布式计算平台。以ＨＤＦＳ和ＭａｐＲｅｄｕｃｅ为核心的Ｈａｄｏｏｐ为用户提供了系统底层细节透明的分布式基础架构，为利用云计算处理海量数据提供了有效的支撑。本文以作者所在公司的实习项目为基础，目标是对海量Ｗｅｂ日志进行分析，重点是研究Ｈａｄｏｏｐ框架与传统数据挖掘的结合，最终完成一个基于Ｈａｄｏｏｐ的Ｗｅｂ日志分析系统，从而可以从用户上网数据中挖掘出有意义的信息。本文主要工作包括：（１）研究了Ｗｅｂ日志数据挖掘的相关背景和意义，以及如何将Ｈａｄｏｏｐ应用到传统数据挖掘中的方法。（２）研究了Ｗｅｂ日志挖掘的预处理过程。（３）利用ＭａｐＲｅｄｕｃｅ实现统计模型。基于ＭａｐＲｅｄｕｃｅ技术，研究并实现三种并行式Ａｐｒｉｏｒｉ挖掘算法。经过对比分析，结合Ｈａｄｏｏｐ框架，提出并实现了一种改进的Ａｐｒｉｏｒｉ算法，并在实际数据集上运行以验证设计的有效性，实验分析表明所设计算法有较高的效率，在实际应用中有较好的可行性。（４）基于上述算法，实现了一个基于Ｈａｄｏｏｐ的Ｗｅｂ日志分析系统。关键词：数据挖掘，Ｗｅｂ日志数据，云计算，Ｈａｄｏｏｐ，ＭａｐＲｅｄｕｃｅ万方数据ＡｂｓｔｒａｃｔＡｂｓｔｒａｃｔＷｉｔｈｔｈｅｒａｐｉｄｇｒｏｗｔｈｏｆｔｈｅＩｎｔｅｒｎｅｔａｎｄｔｈｅｐｏｐｕｌａｒｉｔｙｏｆｔｈｅｎｅｔｗｏｒｋ，Ｗｅｂ－ｂａｓｅｄｏｒｇａｎｉｚａｔｉｏｎｓｃｏｌｌｅｃｔｅｄｍａｓｓｉｖｅｗｅｂｌｏｇｄａｔａｉｎｗｈｉｃｈｔｈｅｒｅａｒｅａｇｒｅａｔｄｅａｌｏｆｕｓｅｆｕｌｉｎｆｏｒｍａｔｉｏｎａｎｄｋｎｏｗｌｅｄｇｅｈｉｄｄｅｎ．ａｎｄｔｈｅｓｅｉｎｆｏｒｍａｔｉｏｎａｎｄｋｎｏｗｌｅｄｇｅｃａｎｈｅｌｐｔｈｅｓｅｏｒｇａｎｉｚａｔｉｏｎｓｄｅｓｉｇｎｐｒｏｄｕｃｔｓ，ｄｅｔｅｒｍｉｎｅｃｕｓｔｏｍｅｒｓ’ｌｉｒｅｃｙｃｌｅ，ｏｐｔｉｍｉｚｅｔｈｅｆｕｎｃｔｉｏｎｏｆｗｅｂａｐｐｌｉｃａｔｉｏｎｓ，ｐｒｏｖｉｄｅｕｓｅｒｓｗｉｔｈｍｏｒｅｐｅｒｓｏｎａｌｉｚｅｄｃｏｎｔｅｎｔｓａｎｄｔｈｅｍｏｓｔｅｆｆｅｃｔｉｖｅｌｏｇｉｃａｌｓｔｒｕｃｔｕｒｅｆｏｒｔｈｅｗｅｂｓｉｔｅ．Ｔｈｕｓ．１ａｒｇｅｖｏｌｕｍｅｗｅｂｌｏｇｄａｔａｍｉｎｉｎｇｉＳｏｆｇｒｅａｔｐｒａｃｔｉｃａｌｉｍｐｏｒｔａｎｃｅ．Ｈｏｗｅｖｅｒ．ｔｒａｄｉｔｉｏｎａｌｓｅｒｉａｌｃｏｍｐｕｔｉｎｇｃａｎＣａｎ’ｔｈａｎｄｌｅｓｕｃｈｌａｒｇｅｖｏｌｕｍｅｏｆｄａｔａ，ａｎｄｃｌｏｕｄｔｈｅｉｏｂｅｆｆｉｃｉｅｎｔｌｙ．ＨａｄｏｏｐｉＳａｎｏｐｅｎＳＯｕｒＣｅｄｉｓｔｒｉｂｕｔｅｄｃｏｍｐｕｔｉｎｇｃｏｍｐｕｔｉｎｇｐｌａｔｆｏｒｌｎｏｆＡｐａｃｈｅｓｏｆｔｗａｒｅｆｏｕｎｄａｔｉｏｎ．ＷｉｔｈＨＤＦＳａｎｄＭａｐＲｅｄｕｃｅａｓｉｔｓｃｏｒｅ，Ｈａｄｏｏｐｄｏｐｒｏｖｉｄｅｓａｂａｓｉｃｄｉｓｔｒｉｂｕｔｅｄａｒｃｈｉｔｅｃｔｕｒｅｗｉｔｈｉｔｓｕｎｄｅｒｌｙｉｎｇｄｅｔａｉｌｓｈｉｄｄｅｎ．ｗｈｉｃｈｐｒｏｖｉｄｅｓａｎｅｆｆｉｃｉｅｎｔｓｕｐｐｏｒｔｆｏｒｕｓｉｎｇｃｌｏｕｄｃｏｍｐｕｔｉｎｇｔｏｐｒｏｃｅｓｓｌａｒｇｅｖｏｌｕｍｅｏｆｄａｔａ．ＴｈｅｍａｊｏｒｏｂｉｅｃｔｏｆｔｈｉｓｔｈｅｓｉｓｉＳｔｏｃｏｍｂｉｎｅＨａｄｏｏｐｗｉｔｈｔｒａｄｉｔｉｏｎａｌｄａｔａｍｉｎｉｎｇｍｅｔｈｏｄｓａｎｄｔｏｍｉｎｅｏｕｔｅｆｆｉｃｉｅｎｔｌｙｕｓｅｆｕｌｉｎｆｏｒｌｎａｔｉｏｎａｎｄｋｎｏｗｌｅｄｇｅｆｒｏｍｔｈｅｍａｓｓｉｖｅｗｅｂｌｏｇｄａｔａｃｏｌｌｅｃｔｅｄｉｎｔｈｅｃｏｍｐａｎｙｗｈｅｒｅｔｈｅａｕｔｈｏｒｗｏｒｋｅｄＴｈｅｍａｉｎｗｏｒｋｉｓａｓｆｏｌｌｏｗｓ：ａｓａｎｉｎｔｅｍ．ｂａｃｋｇｒｏｕｎｄａｎｄｓｉｇｎｉｆｉｃａｎｃｅｏｆｗｅｂｌｏｇｄａｔａｍｉｎｉｎｇａｎｄｈｏｗｔｏａｐｐｌｙｔｏｄａｔａＨａｄｏｏｐｏｒｉｇｉｎａｌｍｉｎｉｎｇｍｅｔｈｏｄｓｉＳｄｉｓｃｕｓｓｅｄ．Ｄｅｓｃｒｉｂｅｄｔｈｅｍｅｔｈｏｄｏｆｄａｔａｐｒｅ．ｐｒｏｃｅｓｓｉｎｇｆｏｒｗｅｂｌｏｇｍｉｎｉｎｇ．（２１（１）Ｄｉｓｃｕｓｓｅｄｔｈｅ（３）ＩｍｐｌｅｍｅｎｔｅｄｓｔａｔｉｓｔｉｃａｌｍｏｄｅｌｉｎｇｗｉｔｈＭａｐＲｅｄｕｃｅ．ＤｅｓｉｇｎｅｄａｎｄｉｍｐｌｅｍｅｎｔｅｄｔｈｒｅｅｐａｒａｌｌｅｌＡｐｒｉｏｒｉｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｓｂａｓｅｄｏｎＭａｐＲｅｄｕｃｅｔｅｃｈｎｏｌｏｇｙ．ＢｙｃｏｍｐａｒｉｎｇｔｈｅｓｅｔｈｒｅｅａｓｕｉｔａｂｌｅｏｎｅｆｏｒＨａｄｏｏｐｂａｓｅｄｉｍｐｌｅｍｅｎｔａｔｉｏｎ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｓａｌｇｏｒｉｔｈｍｓ，ｐｒｏｐｏｓｅｄａｔｈｅｐｒａｃｔｉｃａｌｄａｔａｓｈｏｗｅｄｔｈａｔｔｈｅａｌｇｏｒｉｔｈｍｓｉｍｐｌｅｍｅｎｔｅｄｉｎｔｈｉｓｔｈｅｓｉｓｈａｖｅｐｅｒｆｏｒｍａｎｃｅａｎｄａｒｅｓｕｉｔａｂｌｅｆｏｒｐｒａｃｔｉｃａｌｕｓｅ．ｏｎｂｅｔｔｅｒ（４）Ｉｍｐｌｅｍｅｎｔｅｄｍｅｎｔｉｏｎｅｄａｂｏｖｅ．Ｈａｄｏｏｐ―ＢａｓｅｄｗｅｂｌｏｇａｎａｌｙｓｉｓｓｙｓｔｅｍｂａｓｅｄｏｎｔｈｅａｌｇｏｒｉｔｈｍＫｅｙｗｏｒｄｓ：ＤａｔａＭｉｎｉｎｇ，ＷｅｂＬｏｇＤａｔａ，ＣｌｏｕｄＣｏｍｐｕｔｉｎｇ，Ｈａｄｏｏｐ，ＭａｐＲｅｄｕｃｅＩＩ万方数据目录目录摘要……………………………………………………………………………………………ＩＡｂｓｔｒａｃｔ．…．…．……．．…．…．…．…．…．…．…．．……．…．…．．……．…．…．…………．……．．．．…．…．．．……………．…．…ＩＩ第一章绪论…………………………………………………………………………………．．１１．１课题背景及意义……………………………………………………………………．１１．２研究现状……………………………………………………………………………．１１．２．１Ｗｒｅｂ日志挖掘国内外研究现状………………………………………………１１．２．２云计算国内外研究现状……………………………………………………一４１．３论文主要工作………………………………………………………………………．４１．４论文结构简介………………………………………………………………………．４第二章相关技术研究………………………………………………………………………．．５２．１Ｗｒｅｂ挖掘基本理论…………………………………………………………………．．５２．１．１２．１．２２．１．３Ｗ．ｅｂ挖掘基础…………………………………………………………………５Ｗ．ｅｂ数据的特点………………………………………………………………５２．２Ｗｅｂ数据挖掘的分类…………………………………………………………５Ｗｒｅｂ日志挖掘理论…………………………………………………………………．．５２．２．１预处理………………………………………………………………………一６２．２．２模式发现……………………………………………………………………一７２．２．３模式分析……………………………………………………………………．．８２．３Ｈａｄｏｏｐ体系结构……………………………………………………………………８２．３．１ＨＤＦＳ体系结构………………………………………………………………８２．３．２ＭａｐＲｅｄｕｃｅ体系结构………………………………………………………．１０Ｈａｄｏｏｐ的应用……………………………………………………………………．．１２第三章系统需求分析与总体结构…………………………………………………………１４３．１系统需求分析………………………………………………………………………１４３．２系统总体架构设计…………………………………………………………………１４３．３系统工作流程与模块设计…………………………………………………………ｌ５３．４本章小结……………………………………………………………………………１６第四章Ｗｅｂ日志挖掘预处理………………………………………………………………１７４．１２．４Ｗｅｂ日志挖掘预处理概述…………………………………………………………１７４．１．１数据预处理的重要性………………………………………………………１７４．１．２数据预处理方法……………………………………………………………１７４．２Ｗｅｂ日志挖掘预处理流程…………………………………………………………１９４．２．１数据清理……………………………………………………………………２０４．２．２用户识别……………………………………………………………………２０４．２．３会话识别……………………………………………………………………２１４．２．４路径补充……………………………………………………………………２２４．２．５事务识别……………………………………………………………………２２第五章基于ＭａｐＲｅｄｕｃｅ并行实现的关联规则Ａｐｒｉｏｒｉ算法……………………………．２４５．１关联规则挖掘………………………………………………………………………２４５．１．１相关概念……………………………………………………………………２４５．１．２挖掘步骤……………………………………………………………………２４５．２经典Ａｐｒｉｏｒｉ算法…………………………………………………………………．２５５．２．１Ａｐｒｉｏｒｉ算法思想……………………………………………………………２５ＩＩＩ万方数据５．３Ａｐｒｉｏｒｉ算法实现……………………………………………………………２６Ａｐｒｉｏｒｉ算法的三种并行算法………………………………………………………２７５．３．１ＣＤ算法………………………………………………………………………．２７５．３．２５．３．３５．２．２ＤＤ算法………………………………………………………………………一３０ＣａＤ算法………………………………………………………………………３１５．４Ａｐｒｉｏｒｉ的ＭａｐＲｅｄｕｃｅ实现………………………………………………………．．３３５．４．１数据初始化…………………………………………………………………３４５．４．２迭代实现……………………………………………………………………３６５．４．３实验分析……………………………………………………………………３８５．５产生关联规则………………………………………………………………………３９５．６本章小结……………………………………………………………………………３９第六章Ｗｅｂ日志分析系统的实现…………………………………………………………４０６．１６．２Ｗｅｂ日志分析系统设计……………………………………………………………４０Ｗｅｂ日志分析系统实现……………………………………………………………４１６．２．１数据预处理模块的实现……………………………………………………４２６．２．２模式发现模块的实现………………………………………………………４３６．２．３模式分析模块的实现………………………………………………………４５６．３本章小结……………………………………………………………………………４６致谢…………………………………………………………………………………………………………………………４７参考文献……………………………………………………………………………………一４８ＩＶ万方数据第一章绪论第一章绪论１．１课题背景及意义作为Ｉｎｔｅｒｎｅｔ上最重要的应用之一，Ｗｅｂ（万维网）已经发展成为世界上最大的信息聚集地，其中聚集了海量的Ｗｅｂ数据。据估计，目前Ｉｎｔｅｍｅｔ上己经拥有约３万亿个Ｗｅｂ页面，并且这个数字还在以每天几十亿的速度持续增长。由于数据的异构性，用户要直接从这些Ｗｅｂ数据中挖掘出有用的信息和知识是十分困难的，因此基于Ｗｅｂ的组织就面临着以下这些问题：如何高效地从海量Ｗｅｂ数据中挖掘出有意义的信息；如何获得网络结构，优化网络布局：如何为用户提供更加个性化的服务等【ｌ】。面对海量Ｗｅｂ数据，普通用户迫切需要一种机制快速定位到所需信息。Ｗｅｂ数据挖掘便应运而生，并且伴随Ｗｅｂ的发展而备受关注。Ｗｅｂ数据挖掘建立在信息检索、数据挖掘以及知识管理等技术的基础上，通过对大量Ｗｅｂ文档进行分析来获得隐含的知识和模式。Ｗｅｂ数据挖掘包括Ｗｅｂ内容挖掘、Ｗｅｂ结构挖掘和Ｗｅｂ日志挖掘。其中最重要的就是Ｗｅｂ日志挖掘，即通过对Ｗｅｂ服务器中的日志数据进行挖掘，以发现用户在该站点中的访问模式，从而进一步分析该服务器中的日志文件中蕴含的通用的规律，以改进站点中页面的组织结构，构建智能化的站点，为访问者提供更个性化的服务，从而帮助网站在商业竞争获取优势。同时，由于数据量巨大且不断增长，传统的串行计算方式已经不能满足需求，人们开始将并行计算应用到Ｗｅｂ日志挖掘中。目前最流行的技术就是云计算。云计算是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机和其他设备。在云计算系统的后端，是无数的服务器在同时运行，如何对如此大量的服务器有效的管理，使其计算效率最高便成了一个云计算的挑战。Ｈａｄｏｏｐ成功地设计了分布式计算和存储框架，已经在多个云计算平台上得到了应用。Ｈａｄｏｏｐ是由Ａｐａｃｈｅ基金会开发的一个开源的系统基础架构，具有可靠、可延展、分布式计算等特点【２１。通过Ｈａｄｏｏｐ，用户能够在不了解系统框架内部结构的情况下很方便地开发出分布式程序，所以Ｈａｄｏｏｐ分布式系统架构得到了大量的应用。ＭａｐＲｅｄｕｃｅ编程模式和ＨＤＦＳ分布式文件系统，是Ｈａｄｏｏｐ框架的核心。由于Ｈａｄｏｏｐ是开源的，具有强大的功能和良好的扩展性，现在已有很多机构和企业利用其进行研究和开发。因此，结合Ｈａｄｏｏｐ平台来进行数据挖掘的研究，通过将现有的算法移植到Ｈａｄｏｏｐ平台从而实现大数据的挖掘任务，具有非常重要的意义。１．２研究现状１．２．１Ｗｅｂ日志挖掘国内外研究现状１９９６年，Ｅｔｚｉｏｎｉ第一个提出了Ｗｅｂ挖掘的概念，即：Ｗｅｂ挖掘就是用数据挖掘的技术自动从Ｗｅｂ的文档和服务中发现和抽取信息【３】。与Ｋｏｓａｌａ和Ｂｌｏｃｋｅｅｌ［４】相似ＱｉｎｇｙｕＺｈａｎｇ和Ｒｉｃｈａｒｄｓ．ＳｅｇａｌｌＴＭ建议将Ｗｅｂ挖掘分解成如下组成部分：资源发现：定位Ｗｅｂ上不熟悉的文档和服务。信息选择和预处理：从新发现的Ｗｅｂ资源中自动抽取和预处理特定的信息。概括：发现在个别网站和在多个站点的一般模式。分析：挖掘模式的验证和解释。虚拟化：以一种可视的、容易理解的方式展示互动分析的结果。万方数据第一章绪论Ｋｏｓａｌａ和Ｂｌｏａｋｅｅｌ建议根据数据的种类将Ｗｅｂ挖掘分为三种类型，分别为信息挖掘，链接结构挖掘和用户导航模式挖掘。信息挖掘也称为Ｗｅｂ内容挖掘，指的是从Ｗｅｂ内容中，包括文本、图像、音频、视频等挖掘有用的信息。链接结构挖掘旨在对Ｗｅｂ页面质量整体进行判断，这就是Ｗｅｂ结构挖掘。Ｗｅｂ结构挖掘试图从页面的链接结构中发现通用的模型。模型是在超链接的拓扑结构的基础上的，这些超链接可以带链接的描述或者不带。Ｍａｒｋｏｖ连环模型可以被用来分类Ｗｅｂ页面，同时它也可以被用来生成像不同网页中的相似性和关系之类的信息。最后，用户导航模式挖掘关注的是用户在访问页面时的行为，这就是Ｗｅｂ日志挖掘，指的是从Ｗｅｂ服务器中发现用户访问模式。Ｗｅｂ日志数据包括Ｗｅｂ服务器访问日志、代理服务器日志、用户数据、注册数据、用户会话、脚本、用户查询、收藏夹数据、鼠标点击和滚动或者其他任何交互数据。由于Ｗｅｂ上的半结构化的数据比存储在商业数据库系统中的数据更加复杂和动态化，搜索、理解和使用这些数据是一个更大的挑战。Ｗｅｂ挖掘◆◆◆Ｗｅｂ内容挖掘Ｗｅｂ使用挖掘Ｗｅｂ结构挖掘、ｒ、ｒ１ｒ’ｒ、ｒ、ｒＷｅｂ文本挖掘Ｗｅｂ多媒体挖掘访问模式追踪个性化使用追踪链接挖掘内部结构挖掘ＵＲＬ挖掘图ｌ－１Ｗｅｂ挖掘分类Ｗｅｂ挖掘结构如图１．１所示。Ｈａｒｔ和Ｃｈａｎｇ［６Ｊ认为将数据挖掘应用到Ｗｅｂ页面排序中有助于Ｗｅｂ搜索引擎高效地找到Ｗｅｂ页面，并且可以加强Ｗｅｂ点击率分析。语义数据可以大大提高关键词搜索的质量并且指出研究的问题，从而有效地使用数据挖掘开发网络。语义分析包括挖掘Ｗｅｂ搜索引擎数据和分析Ｗｅｂ上的链接结构，自动分类Ｗｅｂ上的文档，挖掘网页语义结构和页面内容，以及动态挖掘网页。网页动态是在内容、结构和访问模式的背景下网页如何变化的研究。已经有很多发表的论文１７ｄｏＪ都是关于Ｗｅｂ挖掘研究的，包括Ｗｅｂ内容挖掘、Ｗｅｂ结构挖掘和Ｗｅｂ日志挖掘。Ｗｅｂ日志挖掘关注的是在用户与Ｗｅｂ或者与网站的交互中能够理解用户的行为。其中一个目标就是利用信息来帮助网站重新组织或者帮助网站能够更好的适应用户。Ｗｅｂ日志挖掘模型是一种对服务器日志的挖掘，它的目标是通过从日志中得到有用的用户访问信息来使得网站在适应用户需求方面更加完美，更好的服务用户并且得到更多的经济利益。已经有很多Ｗｅｂ日志挖掘的研究１４，１１，１２，１３】存在。已经有很多Ｗｅｂ日志分析工具可以从网页上的日志中挖掘信息。日志记录包含大量有用的信息包括ＵＲＬ、ＩＰ地址和时间等。分析和发现日志可以帮助公司发现更多潜在的用户、页面受欢迎程度（一个页面被访问的次数）等。这些信息可以帮助公司重组网站，使得该网站能够提供更快更便捷的用户访问、提高链接和导航的效率、吸引更多的广告投放、得到更好的网站架构、更有效的监视网站。大多数用来挖掘【ｌｌＪ的数据都是从Ｗｅｂ服务器、客户端、代理服务器或者服务器数据库收集来的，所有这些都会产生噪声数据。因为Ｗｅｂ挖掘对噪声数据是敏感的，所以数据清洗是必须的。ＪａｉｄｅｅｐＳｒｉｖａｓｔａｖａ和Ｒ．Ｃｏｏｌｅｙ将数据预处理分成了几个子任务，２万方数据第一苹绪论并且发现预处理的最终输出数据应该是可以通过页面访问、会话和点击流等唯一识别一个用户的数据。点击流最应当受到关注，因为它们允许用户导航模式的重建。Ｍａｒｋｏｖ模型已经被广泛用户模拟Ｗｅｂ用户在网站上的导航行为。ＪｉａｎｈａｎＺｈｕ和ＪｕｎＨｏｎｇ等人【１４】提出了一个叫做ＣｉｔａｔｉｏｎＣｌｕｓｔｅｒ的聚类算法，这个算法可以将概念上关联的页面聚集在一起。聚类的结果被用来构建网站的概念上的层次结构。基于Ｍａｒｋｏｖ模型的链接预测是和层次结构整合在一起，以帮助用户在网站上的导航。在之前的几年时间里，用户导航会话的收集有很多种表示方式，例如ＨｙｐｅｒＰｒｏｂａｂｉｌｉｓｔｉｃＴｅｘｔ笙［１Ｓｌ寸Ｇｒａｍｍａｒ（ＨＰＧ）、Ｎ?ＧｒａｍＭｏｄｅｌ和ＤｙｎａｍｉｃｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｍｏｒｋｏｖｍｏｄｅｌＯＷｅｂ访问模式树（ＷＡＰ．ｔｒｅｅ）存储着高度压缩的访问顺序，挖掘基于ＷＡＰ．ｔｒｅｅ的频繁访问序列只需要扫描事务数据库两次。然而，在该算法中重复地产生条件ＷＡＰ．ｔｒｅｅ在一定程度上影响了效率。考虑到ＷＡＰ．ｔｒｅｅ的缺点，结合挖掘最大访问序列的需求，ＴＡＮＸｉａｏｑｉｕ、ＹＡＯＭｉｎ等人Ｉｌ６】改进了ＷＡＰ．ｔｒｅｅ并且引入拘束的子树结构来解决大量条件ＷＡＰ．ｔｒｅｅ是建立在传统算法上的问题。现在已经有很多关于Ｗｅｂ日志挖掘算法的研究，这些算法利用Ｗｅｂ日志记录来发现有用的知识从而用于支持商业应用和决策制定。知识发现中Ｗｅｂ日志挖掘的质量取决于算法和数据。Ｙｕ．ＨｕｉＴａｏ和Ｔｚｕｎｇ―ＰｅｉＨｏｎｇ等人的研究开发出了一个新的叫作潜在的浏览数据（ＩＢＤ）的数据源，可用来提高Ｗｅｂ日志挖掘应用的效率。ＩＢＤ是用户浏览网页的一种行为，比如“复制”、“滚动”或者 “保存”，但是这些行为并不保存到Ｗｅｂ日志文件中去。最近，有很多Ｗｅｂ日志挖掘算法【ｌ昏１８Ｊ发表，这些算法是用来挖掘用户导航行为的。分区是一个最早的被应用在Ｗｅｂ日志挖掘中的聚类的方法Ｉｌ引。基于Ｗｅｂ的推荐系统对于向用户推荐网页是非常有用的。Ｗｅｂ日志挖掘推荐系统被提出来去预测用户的意图。我们可以考虑到基础域的语义知识对提高推荐的质量的帮助。整合语义网和Ｗｅｂ日志挖掘可以完成在大量动态网站中的推荐系统【ｌ９。。根据用户的点击流，可以预测用户未来的动向和意图。ＭｅｈｒｄａｄＪａｌａｌｉ和ＮｏｒｗａｔｉＭｕｓｔａｐｈａ等人开发了一个模型，该模型是用来通过Ｗｅｂ日志挖掘系统来在线预测的，并且提出一种方法，该方法用来分类用户的导航模型，从而预测用户的未来意向。这个方法是基于最长相同子串算法来分类当前用户行为的，以此来预测用户的动向。当前预测用户在特定网站意向的推荐系统还不能令人满意。为了有效地提供在线预测，Ｍ．Ｊａｌａｌｉ和Ｎ．Ｍｕｓｔａｐｈａ等人开发了一个叫作ＷｅｂＰＵＭ的推荐系统，这个运用Ｗｅｂ目志挖掘系统来做在线预测的系统，提供了一个新颖的方法来分类用户导航模式，以此来预测用户未来的意向。这个方式是基于新的图像分割算法来为用户的导航模式建模。该模式用最长公共子序列算法来分类当前用户的活动以预测用户的下一个动作。表１．１显示的是Ｗｅｂ日志挖掘方法的总结。表１．１Ｗｅｂ日志挖掘方法作者ＪａｉｄｅｅｐＳｒｉｖａｓｔａｖａ，Ｒ．ＣｏｏｌｅｙＪｉａｎｈａｎＺｈｕ等Ｂｏｒｇｅｓａｎｄ方法统计分析、关联规则聚类算法（ＣｉｔａｔｉｏｎＣｌｕｓｔｅｒ）动态聚类的方法改进的ＷＡＰ树浏览数据的分类基于Ｗｅｂ的推荐系统最长公共子序列算法ＷｅｂＰＵＭ应用个人网站修改等构建网站的一个概念上的层次结构代表用户网络导航会话的集合顺序模式挖掘决策支持预测用户的意图和他们的导航行为预测用户最近动向预测用户最近动向发表日期２０００２００２２００４２００６２００７２００８２００９２０ｌＯＭ．ＬｅｖｅｎｅＴＡＮＸｉａｏｑｉｕ，ＹＡＯＭｉｎ等Ｙｕ―ＨｕｉＴａｏ，Ｔｚｕｎｇ－ＰｅｉＨｏｎｇ等ＭｅｈｄｉＨｏｓｓｅｉｎｉ等ＭｅｈｒｄａｄＪａｌａｌｉ等Ｍ．Ｊａｌａｌｉ等如何快速准确找到用户需要的信息并且提供私人的服务是网络的需求。竞争日益激烈的电子商务逐渐加强了对电子标志的关注。Ｗｅｂ日志挖掘对于电子商务和远程教育平台非常重要。万方数据第一章绪论１．２．２云计算国内外研究现状传统计算方式难以适应海量Ｗｅｂ日志分析，云计算技术则正适合做这项工作。目前，在全世界范围内，最大的云计算使用者和领导者要数Ｇｏｏｇｌｅ了，该公司发表了云计算的三大利器，即ＧｏｏｇｌｅＦｉｌｅＳｙｓｔｅｍ、ＭａｐＲｅｄｕｃｅ和ＢｉｇＴａｂｌｅ，其中ＭａｐＲｅｄｕｃｅ是云计算最核心的技术之一，现在，个人用户可以运用Ｇｏｏｇｌｅ公司开放的ＧｏｏｇｌｅＡｐｐＥｎｇｉｎｅ来进行基于Ｇｏｏｇｌｅ数据中心的云计算的开发。Ｈａｄｏｏｐ已经成为公认的新一代大数据处理平台。Ｈａｄｏｏｐ是一个能够对大量数据进行分布式处理的软件框架。它以Ｇｏｏｇｌｅ发布的ＭａｐＲｅｄｕｃｅ以及Ｇｏｏｇｌｅ的文件系统研究论文为基础。Ｈａｄｏｏｐ充当着众多“大数据”分析工具的底层技术，旨在对由Ｗｅｂ访问、服务器日志以及其它各类数据流所产生的海量数据进行筛选，在分布式环境下提供海量数据的处理能力。分布式系统采用Ｈａｄｏｏｐ架构，使得云计算可以在个人电脑上运行，对硬件要求不是很高，大大节省了硬件的成本，同时，Ｈａｄｏｏｐ架构也比较容易操作，非常适合应用在本系统中。１．３论文主要工作目前已有一些日志分析工具，但是其功能并不完善。本文的系统是基于作者所在实习公司的实际项目，目的在于发现用户浏览网站时的偏好路径，已有的日志分析工具不能达到该目的。本文主要完成一个基于Ｈａｄｏｏｐ的Ｗｅｂ日志分析系统。具体来说，首先对这个系统的预处理进行了分析，结合应用实际说明本系统的预处理过程；然后介绍该系统的关键算法，该系统采用数据挖掘方法对Ｗｅｂ服务器中日志数据进行分析，目标在于寻找用户访问网站时的访问轨迹，即页面之间的跳转关系，所以需要应用数据挖掘中的关联规则方法，本系统中运用关联规则Ａｐｒｉｏｒｉ算法，首先分析了经典的Ａｐｒｉｏｒｉ算法，然后对比分析了三种并行化Ａｐｒｉｏｒｉ算法的实现，接着提出并实现了一种优化的并行Ａｐｒｉｏｒｉ算法，并进行实验说明该算法的可行性和高效率；最后是本系统的实现，分别分析了系统的三个模块的具体实现。１．４论文结构简介本文后续章节内容如下：第二章，主要介绍系统相关技术研究。包括Ｗｅｂ日志挖掘的基本理论和Ｈａｄｏｏｐ的整体架构。首先说明Ｗｅｂ挖掘基本理论；伴随着网络的发展，网络上的上网日志数据越来越多，这些数据蕴含着大量的信息，如何从中挖掘出有意义的信息便成了人们的一个新的关注点，所以本文接着说明Ｗｅｂ日志挖掘基本理论。然后详细阐述Ｈａｄｏｏｐ的整体架构，分别介绍了Ｈａｄｏｏｐ的两个核心技术，ＨＤＦＳ（分布式文件系统）和ＭａｐＲｅｄｕｃｅ（分布式计算框架），同时，指出Ｈａｄｏｏｐ在处理海量数据方面的优势第三章详细介绍了本文的基于Ｈａｄｏｏｐ的Ｗｅｂ日志分析系统的需求分析和总体结构以及系统的工作流程等。第四章介绍日志预处理工作，具体对日志文件中数据进行数据清理、数据继承、数据变换和数据规约等。第五章介绍了本系统的核心算法――Ａｐｒｉｏｒｉ算法。介绍了Ａｐｒｉｏｒｉ基本算法和它的三个经典的并行化实现，以及其结合ＭａｐＲｅｄｕｃｅ的实现，接着对三种实现的算法进行分析，最后提出并实现了一种更适合在Ｈａｄｏｏｐ上运行的Ａｐｒｉｏｒｉ算法。第六章设计并实现了一个基于Ｈａｄｏｏｐ的Ｗ－ｅｂ日志分析系统，并将前面提出的Ａｐｒｉｏｒｉ算法运用于该系统中。４万方数据第二章相关技术研究第二章相关技术研究２．１Ｗｅｂ挖掘基本理论Ｗｅｂ挖掘基础万维网被证明有海量的数据，并且这些数据的总量和用途都在以指数级的形式增长。２．１．１与传统数据挖掘方法相比，Ｗｅｂ数据挖掘方法需要处理异构的、半节构化或者是非结构化的数据【２０１。Ｗｅｂ数据挖掘指的是从海量Ｗｅｂ数据中发现潜在的、有意义的、对现实生活有指导意义的知识的过程，这些知识包括模式、概念、规则、约束、规律和可视化的形式等。２．１．２Ｗｅｂ数据的特点（１）异构数据库环境（２）分布式数据源（３）半结构化（４）动态性强（５）多样复杂性２．１．３Ｗｅｂ数据挖掘的分类根据挖掘的目标数据的种类，一般将Ｗｅｂ数据挖掘分为Ｗｅｂ内容挖掘（ＷｅｂＣｏｎｔｅｎｔＭｉｎｉｎｇ）、Ｗｅｂ使用挖掘（ＷｅｂＵｓａｇｅＭｉｎｉｎｇ）和Ｗｅｂ结构挖掘（Ｗｅｂ（１）Ｗｅｂ内容挖掘（ＷｅｂＣｏｎｔｅｎｔＭｉｎｉｎｇ）ＳｔｒｕｃｔｒｕｅＭｉｎｉｎｇ）。Ｗｅｂ内容挖掘是指从大量Ｗｅｂ页面的内容中提取出对用户有用的信息和知识的过程。Ｗｅｂ页面的内容包括Ｗｅｂ页面上的文本信息、Ｗｅｂ页面上的多媒体信息等。Ｗｅｂ内容挖掘与搜索引擎相似，但是两者之间也有不同。搜索引擎是根据用户的输入关键词进行查询，它只查找页面的内容信息，而Ｗｅｂ内容挖掘可以进行详细的分析和处理，它不仅关注页面内容信息，还关注这些信息的特点以及相互之间的关系，最终可以实现资源的自动搜索功能。ＬｏｇＭｉｎｉｎｇ），是将数据挖掘技术应用到Ｗｅｂ数据中，通过分析服务器中的日志文件，从而找到用户的访问模式的过程【２１１。它可以帮助网站优化结构，为用户提供更个性化的服务，带来更大的商业效益。（３）Ｗｅｂ结构挖掘（ＷｅｂＳｔｒｕｃｔｕｒｅＭｉｎｉｎｇ）（２）Ｗｅｂ使用挖掘（ＷｅｂＵｓａｇｅＭｉｎｉｎｇ）Ｗｅｂ使用挖掘也称Ｗｅｂ日志挖掘（ＷｅｂＷｅｂ结构挖掘指的是从Ｗｅｂ上网页的结构以及页面上的超链接中发现知识和模式。Ｗｅｂ页面文件和普通文本文件不同，它包含了大量的超链接信息，这些超链接信息包含了不同Ｗｅｂ页面间的联系，通过分析这些超链接信息，我们可以发现一个网站内部各个页面之间的联系，也可以发现各个网站之间的联系，在这个基础之上，我们可以根据挖掘出来的超链接信息，对网站上页面之间的组织结构进行优化，以帮助提升用户体验，提高网站的效率。２．２ｗ曲日志挖掘理论如图２．１所示，Ｗｅｂ日志挖掘主要分为三个主要任务，这一节详细讨论这三个主要的任务。万方数据第二章相关技术研究｜至竺三卜―－竺苎苎銎卜―－竺兰坌竺ｌ图２－１Ｗｅｂ日志挖掘过程２．２．１预处理按理来说，预处理过程是Ｗｅｂ日志挖掘过程中最复杂的一个过程，因为日志数据是不完整的。除非，在客户端运用追踪机制，只有ＩＰ地址、代理和服务器端的点击流可以用来辨别用户和服务器会话。下面是几个常见的问题：服务器池，用户可以通过该服务器池来访问因特网。一个独立的代理服务器可能会有多个用户访问一个网站，有可能还会在同一个时间段。ｆ１）单个ＩＰ地址、多个服务器会话一因特网服务提供商（ＩＳＰｓ）通常有一个代理（２）多个ＩＰ地址、单一服务器会话――一些ＩＳＰｓ或者私人工具会将用户的几个ＩＰ（３）多个ＩＰ地址、单个用户――一个用户用不同的机器访问网络，对于每个会话会地址分配给每个请求。在这种情况下，一个服务器会话就会有多个ＩＰ地址。有不同的ＩＰ地址。这便使得追踪同一个用户的多次访问变的困难。（４）多个代理、单个用户――同样，一个用户用多个不同的浏览器，即使是在同一台电脑上，也会显示为多个用户。假设每个用户已经被识别出来了（通过脚本、登陆或者ＩＰ／代理／路径分析），每个用户的点击流必须划分成会话。由于从其他的服务器来的页面请求通常不可用，这就很难判断一个用户是否已经离开了网站。对应用户离开网站，文献【２４Ｊ建议可采用３０分钟的超时机制，以此来将点击流划分为各个会话。当一个会话ＩＤ被嵌入到每个ＵＲＩ时，一个会话的定义就被内容服务器设置了。当存储的是服务器日志中用户请求的行为时，有时候就有必要访问内容服务器里的信息。由于内容服务器可以保存每个活动会话的状态变量，内容服务器中包含了怎样的用户请求信息不是每次都可以在ＵＲＩ中找到。预处理使用数据的最后一个问题是推断缓存的页面引用。表２．１显示的是一个Ｗｅｂ服务器中存储的日志的例子（第一列在实际服务器日志中是没有的，这里加入为了方便叙述）。ＩＰ地址１２３．４５６．７８．９上有三个会话，而ＩＰ地址２０９．４５６．７８．２和ＩＰ地址２０９．４５６．７８．３代表了第四个会话。将引用（Ｒｅｆｅｒｒｅｒ）和代理（Ａｇｅｎｔ）结合在一起，第１．１ｌ行可以分为３个会话，分别是Ａ．Ｂ．Ｆ．Ｏ．Ｇ，Ｌ．Ｒ和Ａ．Ｂ．Ｃ．Ｊ。将路径补充完整，第一个会话为Ａ…ＢＯ…ＦＦ撑ｌＩＰＡｄｄｒｅｓｓｌ２３．４５６．７８．９Ｔｉｍｅ２５／Ａｐｒ／１９９８：０３：０４：４１．０５００２１２３．４５６．７８．９２５／Ａｐｒ／１９９８：０３：０５：３４．０５００２５／Ａｐｒ／１９９８：０３：０５：３９－０５００４ｌ２３．４５６．７８．９２５／Ａｐｒ／１９９８：０３：０６：０２．０５００５ｌ２３．４５６．７８．９２５１Ａｐｒ／１９９８：０３：０６：５８－０５００２５／Ａｐｒ／１９９８：０３：０７：４２．０５００７ｌ２３．４５６．７８．９２５／Ａｐｔ／１９９８：０３：０７：５５．０５００２５／Ａｐｒ／１９９８：０３：０９：５０．０５００ＢＧ，第三个会话变成Ａ．Ｂ．Ａ．Ｃ－Ｊ。如果不用ｃｏｏｋｉｅ，嵌入的ｓｅｓｓｉｏｎＩＤ或者是客户端数据收集方法，就无法判断出第１２行和１３是一个服务器ｓｅｓｓｉｏｎ。表２．１Ｗｅｂ服务器日志例子Ｍｅｔｈｏｄ／Ｉ瓜Ｉ巾ｒｏｔｏｃｏｌ”ＧＥＴＡ．ｈｔｍｌＨ１ＴＰ／１．０” “ＧＥＴＢ．ｈｔｍｌＨ１１Ｐ／１．Ｏ” “ＧＥＴＬ．ｈｔｍｌＨ１ｖｒＰ／１．０” “ＧＥＴＦ．ｈｔｍｌＨ１１＇Ｐ／１．Ｏ” “ＧＥＴＡ．ｈｔｍｌＨ１１＇Ｐ／１．０” “ＧＥＴＢ．ｈｔｍｌＨ１１．Ｐ／１．０” “ＧＥＴＲ．ｈｔｍｌＨ１１’Ｐ／１．０” ”ＧＥＴ２００１４０Ｌ．ｈｔｍｌ２００２００２０００５０Ｓｔａｔｕｓ２００Ｓｉｚｅ２９０ＲｅｆｅｒｒｅｒＡ。ｇｅｎｔＭｏｚｉｌｌａ／３．０４（Ｗｉｎ９５，Ｉ）Ａ．ｈｔｍｌＭｏｚｉｌｌａ／３．０４（ｗｉｎ９５，Ｉ）３ｌ２３．４５６．７８．９２００１３０Ｍｏｚｉｌｌａ／３．０４（ｗｈａ９５，Ｉ）Ｂ．ｈｔｍｌ０９６２９００５０Ｍｏｚｉｌｌａ／３．０４（Ｗｉｎ９５，Ｉ）Ｍｏｚｉｌｌａ／３．Ｏｌ（ＸｌＩ，ＩＲＩＸ６．２，ＩＰ２２）Ａ．ｈｔｍｌ１，６ｌ２３．４５６．７８．９２００Ｍｏｚｉｌｌａ／３．Ｏｌ（ＸｌＩ，ＩＲＩＸ６．２，ＩＰ２２）１，Ｍｏｚｉｌｌａ／３．０４（Ｗｉｎ９５，Ｉ）Ｍｏｚｉｌｌａ／３．０１（Ｘ１１，Ｉ，ＩＲＩＸ６．２，ＩＰ２２）８１２３．４５６．７８．９Ｃ．ｈｔｍｌＨ１ＴＰ／１．０”２００８２０Ａ．ｈｔｍｌ６万方数据第二章相关技术研究（续表２．１）９ｌ２３．４５６．７８．９２５／Ａｐｔ／１９９８：０３：１０：０２．０５００１０１２３．４５６．７８．９２５／Ａｐｒ／１９９８：０３：１０：４５．０５００ｌｌ１２３．４５６．７８．９２５１Ａｐｒ／１９９８：０３：１２：２３．０５００１２２０９．４５６．７８．２２５／Ａｐｒ／１９９８：０５：０５：２２．０５００２５／Ａｐｆｆｌ９９８：０５：０６：０３―０５００ “ＧＥＴＯ．ｈｔｍｌＨ１１Ｐ／１．０” “ＧＥＴＪ．ｈｔｍｌＨＴＴＰ／Ｉ．０” “ＧＥＴＧ．ｈｔｍｌＨＴＴＰ／１．Ｏ” “ＧＥＴＡ．ｈｔｍＩＨ１’Ｉｐ／１．０” “ＧＥＴＤ．ｈｔｍｌＨＴｒＰ／Ｉ．０” ２００２９０２００２２０Ｂ．ｈｔｍｌ２００４３０Ｃ．ｈｔｍｌ２００２７０Ｆ．ｈｔｍｌＭｏｚｉｌｌａ／３．０４（Ｗｉｎ９５，Ｉ）Ｍｏｚｉｌｌａ／３．０１（Ｘｌ１，Ｉ，ＩＲＩＸ６．２，ＩＰ２２）Ｍｏｚｉｌｌａ／３．０４（Ｗｉｎ９５，Ｉ）Ｍｏｚｉｌｌａ／３．０４（Ｗｉｎ９５，Ｉ）Ａ．ｈｔｍｌ１３２０９．４５６．７８．３２００６８０ＭｏｚｉｌｌａＪ３．０４（Ｗｉｎ９５，Ｉ）２．２．２模式发现模式发现是将很多领域的方法结合在一起，比如统计学、数据挖掘、机器学习和模式识别。从别的领域拿来的方法必须要考虑在Ｗｅｂ挖掘中数据抽取方面和先验知识的不同。举个例子，在关联规则发现中，市场一篮子分析的概念不需要考虑事务被选择的顺序。但是，在Ｗｅｂ日志挖掘中，一个服务器会话是一个用户请求页面的一个顺序。再者，由于唯一识别用户会话的难度比较大，会应用到其他的先验知识，详细内容将在第四章中介绍。（１）统计分析在用户上网过程中抽取知识的方法中，统计技术是最常用的一种方法。通过分析会话文件，一个用户在变量上，例如页面访问、访问时间和导航的长度，可以执行不同的描述性统计分析（频率、平均数、中位数等）。很多网络流量分析工具可以产生一个包含统计信息的阶段性的报告，这些统计信息包括最频繁访问页面、一个页面的平均访问时间或者用户在一个网站的平均访问长度。这个报告可能会包含有限的低级错误的分析，包括检测未授权的访问点或者找到最常见的无效的ＵＲＩ。尽管缺乏分析的深度，这种知识可以潜在地提高系统性能、加强系统安全性、便利网站改造任务并且提供市场决策支持。（２）关联规则关联规则的产生会被用于发现相互关联的页面，这些页面是在一个会话中最频繁相互引用的。在Ｗｅｂ日志挖掘环境中，关联规则指的是一系列根据设定特定数值来确定的连续访问的页面。这些页面可能不是直接通过超链接相互连接的。比如，用Ａｐｒｉｏｒｉ算法【２３Ｊ（或者是它的变化）的关联规则发现揭示了用户访问电子产品的页面和运动装备的页面之间的关联性。除了在商业中和市场中的应用，这些规则的出现可以帮助Ｗｅｂ设计者重建他们的网站。关联规则也可以用于启发，当用户访问远程站点时，可以用来预提取文档以此减少用户可察觉的延迟。（３）聚类聚类是一种用来将一系列具有相同特征的物体聚集在一起的技术。在Ｗｅｂ使用领域，有两种有意义的聚类：用户聚类和页面聚类。用户聚类倾向于建立相同浏览模式的用户群组。这些知识在为电子商务应用划分市场而推断用户数量或者为用户提供个性化的Ｗｅｂ内容特别有用。另一方面，页面的聚类会发现有相关内容的分组页面。这些信息对Ｉｎｔｅｍｅｔ搜索引擎和网站协助提供者很有帮助。在这两个应用中，永久和动态ＨＴＭＬ页面可以被创建用来推荐相关链接给用户，这些推荐是通过用户的查询和以往信息需求的历史。（４）分类分类是将一个数据项对应到预先定义好的一个分类中１２剞。在Ｗｅｂ领域，人们的目的是找出特定分类的用户的轮廓。这需要抽取和选择最恰当描述一个给定分类的性质的特征。进行分类，可以利用监督归纳的算法，例如决策树分类树、朴素贝叶斯、ｋ．ｎｅａｒｅｓｔ相邻分类器、支持向量机等。例如，服务器日志的分类可能导致发现有趣的规则，例如：万方数据笙三童塑鲞垫查堕壅将上网顺序设置为／ｐｒｏｄｕｃｅ／ｍｕｓｉｃ的用户，其中百分之三十是在１８．２５岁年龄段，并且住在东部。（５）顺序模式顺序模式发现技术尝试找到ｓｅｓｓｉｏｎ之间的模式，这样一组物体的出现是在另一组之前，是以时间顺序出现的。通过运用这个方法，Ｗｅｂ营销者们可以预测未来访问模式，这将会对瞄准特定用户群投放广告非常有用。另外还有一些可以被用在顺序模式上的分析包括趋势分析、改变点检测或者相似性分析。（６）依赖关系建模依赖关系建模是另一种在Ｗｅｂ挖掘中有用的模式发现。这里的目标是开发一个模型可以表示突出的Ｗｅｂ领域不同变量之间的依赖关系。作为一个例子，一个人可能对建议一个模型感兴趣，这个模型表达的是用户在网店购物时的不同的阶段（例如从一个简单用户到一系列潜在购买者）。这里有几个概率学习技术可以被用来建立用户的浏览行为的模型。这些技术包括隐藏的Ｍａｒｋｏｖ模型和贝叶斯信仰网络。对Ｗｅｂ使用模式建模将不仅提供理论上分析用户行为的框架，而且对预测未来Ｗｅｂ资源消耗有潜在的作用。这样的信息可能帮助开发策略来等价网站的产品的销量或者提高用户导航的便利性。２．２．３模式分析如图２．１所示，模式分析是整个Ｗｅｂ日志挖掘的最后一步。潜藏在模式分析的背后的动机是为了从模式发现阶段发现的集合中过滤掉不感兴趣的规则或者模式。具体的分析方法是由Ｗｅｂ挖掘的应用来决定的。最常用的模式分析的形式是由一个像ＳＱＬ一样的知识查询机。另外一个方法是载入使用数据进一个数据立方体，从而进行ＯＬＡＰ操作。可视化技术，例如图像模型或者将不同颜色赋为不同值，可以经常突出数据的全局模型或者趋势。内容和结构信息可以被用来过滤掉包含特定使用类型、内容类型的页面或者匹配特定超链接结构的页面。２．３Ｈａｄｏｏｐ体系结构整个Ｈａｄｏｏｐ的体系结构主要是通过ＨＤＦＳ实现分布式存储的底层支持，再通过ＭａｐＲｅｄｕｃｅ实现分布式并行处理任务的程序支持。２．３．１ＨＤＦＳ体系结构ＨＤＦＳ采用了Ｍａｓｔｅｒ／Ｓｌａｖｅ结构模型，一个ＨＤＦＳ集群是由一个ＮａｍｅＮｏｄｅ节点和若干个ＤａｔａＮｏｄｅ节点组成的。其中ＮａｍｅＮｏｄｅ节点为主服务器，管理ＨＤＦＳ的命名空间以及客户端对文件的访问操作；集群中，ＤａｔａＮｏｄｅ节点负责管理数据。ＨＤＦＳ系统是以文件的形式来存储数据。从其内部来看，存储的文件被分成了若干个数据块，并且这若干个数据块存储在一组ＤａｔａＮｏｄｅ节点上。ＮａｍｅＮｏｄｅ节点可以执行文件系统中的命名空间的一系列操作，包括打开文件、关闭文件、重命名文件或目录等，它同时也负责数据块到具体ＤａｔａＮｏｄｅ节点的统一调度下进行数据快的创建、删除和复制工作。图２．２所示为ＨＤＦＳ的体系结构。万方数据第二章相关技术研究图２―２ＨＤＦＳ体系结构图ＮａｍｅＮｏｄｅ节点和ＤａｔａＮｏｄｅ节点都可以在普通的计算机上运行。这些计算机的操作系统通常是ＧＮＵ／Ｌｉｎｕｘ。ＨＤＦＳ是用Ｊａｖａ语言来开发的，所以只要是可以运行Ｊａｖａ的计算机就可以运行ＨＤＦＳ，用来部署ＮａｍｅＮｏｄｅ节点和ＤａｔａＮｏｄｅ节点。一个经典的运行ＨＤＦＳ实例是集群中的一台计算机作为一个ＮａｍｅＮｏｄｅ，其他计算机分别用来运行一个ＤａｔａＮｏｄｅ。当然，这里并不排除一台计算机上运行多个ＤａｔａＮｏｄｅ的情况。ＮａｍｅＮｏｄｅ负责管理所有ＨＤＦＳ中存储的元数据，用户需要存储的数据不需要通过ＮａｍｅＮｏｄｅ，而是直接存储在ＤａｔａＮｏｄｅ节点上。ＨＤＦＳ是分布式存储的基础，Ｈａｄｏｏｐ中的分布式文件系统和其他分布式文件系统有很多相似的特点：（１）整个集群具有唯一的命名空间。（２）数据是一致的，都可以一次写入多次读出，客户端在文件创建以前是无法看到该文件的。（３）一个文件可能会被分成多个文件块，每个文件块被存储到各个数据节点上，系统会根据配置用复制文件块的办法来确保数据的安全性。通过上述介绍和图２．２可以知道，ＨＤＦＳ是依靠三个重要的模块来管理分布式文件系统的，分别是：ＮａｍｅＮｏｄｅ、ＤａｔａＮｏｄｅ和Ｃｌｉｅｎｔ。这里可以将ＮａｍｅＮｏｄｅ当作是分布式文件系统的管理者，它的主要责任是管理文件系统的集群配置信息、命名空间以及存储块的复制等。ＮａｍｅＮｏｄｅ会将文件系统中的Ｍｅｔａｄａｔａ存储在内存中，这些信息主要包括文件信息、每一个文件所对应的文件块的信息（Ｂｌｏｃｋ）存储在本地文件系统中，保存了所有Ｂｌｏｃｋ的Ｍｅｔａｄａｔａ，同时周期性地将所有存在的Ｂｌｏｃｋ信息发送给ＮａｍｅＮｏｄｅ。Ｃｌｉｅｎｔ就是需要获取分布式文件系统文件的应用程序。接下来通过三个具体的操作来说明ＨＤＦＳ对数据的管理。（１）文件写入１）Ｃｌｉｅｎｔ向ＮａｍｅＮｏｄｅ发起请求，需要文件写入。２）ＮａｍｅＮｏｄｅ根据所请求的文件大小和文件块的配置情况，返回给Ｃｌｉｅｎｔ所管理的ＤａｔａＮｏｄｅ的信息。３）Ｃｌｉｅｍ将文件划分为多个数据块，按顺序将数据块依次存储到每一个ＤａｔａＮｏｄｅ中。９万方数据蔓三望塑茎垫查堕塞（２）文件读取１）Ｃｌｉｅｎｔ向ＮａｍｅＮｏｄｅ发起请求，需要进行文件读取操作。２）ＮａｍｅＮｏｄｅ返回文件所存储的ＤａｔａＮｏｄｅ的信息。３）Ｃｌｉｅｎｔ读取文件的信息（３）文件块（Ｂｌｏｃｋ）复制１）ＮａｍｅＮｏｄｅ发现部分文件的数据块不满足最小复制数或部分ＤａｔａＮｏｄｅ节点失效。２）通知各个ＤａｔａＮｏｄｅ互相复制数据块。３）ＤａｔａＮｏｄｅ进行互相复制。作为分布式文件系统，ＨＤＦＳ在数据管理方面还有值得借鉴的几个功能：文件块（Ｂｌｏｃｋ）的放置：一个Ｂｌｏｃｋ会有三份备份，一份放在ＮａｍｅＮｏｄｅ制定的ＤａｔａＮｏｄｅ上，另一份放在与指定ＤａｔａＮｏｄｅ不再同一台机器上的ＤａｔａＮｏｄｅ上，最后一份放在与指定ＤａｔａＮｏｄｅ统一Ｒａｃｋ的ＤａｔａＮｏｄｅ上。备份的目的是为了保证数据的安全性，采用如上配置方式主要是考虑同一个Ｒａｃｋ失败的情况，和不同的Ｒａｃｋ之间进行数据复制时可能会带来的性能问题。心跳检测：用心跳检测的方法来检查ＤａｔａＮｏｄｅ的健康状况，一旦发现有问题就立即采取数据备份，来保证存储数据的安全性。数据复制（当ＤａｔａＮｏｄｅ失败时，需要对ＤａｔａＮｏｄｅ的存储利用率和数据交互压力等进行平衡）：使用Ｈａｄｏｏｐ，可以利用ＨＤＦＳ的ｂａｌａｎｃｅ命令来配置Ｔｈｒｅｓｈｏｌｄ，这样可以平衡每一个ＤａｔａＮｏｄｅ的磁盘利用率。如果这里设置了Ｔｈｒｅｓｈｏｌｄ的值为１０％，那么执行ｂａｌａｎｃｅ命令时，首先统计所有ＤａｔａＮｏｄｅ节点上磁盘利用率的平均值，如果某一个ＤａｔａＮｏｄｅ的磁盘利用率超过这个该值，则把这个ＤａｔａＮｏｄｅ上的Ｂｌｏｃｋ转移到其他磁盘利用率低的ＤａｔａＮｏｄｅ上，这一点对于新节点的加入十分有效。数据校验：采用ＣＲ３２来进行数据校验。写入文件块时，除了会写入数据以外，同时还写入校验信息，当需要读取的时候，则需要先进行校验后读入。单个ＮａｍｅＮｏｄｅ：假设单个ＮａｍｅＮｏｄｅ失败，此时任务处理信息将会同时记录在本地文件系统和远程文件系统中。数据写入：当客户端需要将文件写入到ＤａｔａＮｏｄｅ上时，首先读取一个Ｂｌｏｃｋ，之后写入到第一个ＤａｔａＮｏｄｅ上，然后第一个ＤａｔａＮｏｄｅ负责将其传递到备份的ＤａｔａＮｏｄｅ上，直到所有需要写入这个Ｂｌｏｃｋ的ＤａｔａＮｏｄｅ都成功写入后，客户端才开始写下一个Ｂｌｏｃｋ。安全模式：在分布式文件系统刚启动的时候，会进入安全模式（在系统运行期间也可以通过命令的方式进入安全模式），当分布式文件系统进入安全模式以后，不允许对文件系统中的内容进行修改和删除。安全模式的目的是为了在系统启动的时候，检查各个ＤａｔａＮｏｄｅ上存储的数据块的有效性，同时根据规则进行复制或删除部分数据块。在实际操作过程中，如果在系统启动时修改和删除文件会出现安全模式不允许修改的错误提示，只需要等待一会即可。２．３．２ＭａｐＲｅｄｕｃｅ体系结构ＭａｐＲｅｄｕｃｅ是并行编程模式，这种模式软件开发者可以很轻松地开发分布式并行程序。ＭａｐＲｅｄｕｃｅ是一个简单并且易用的软件框架，通过它可以将任务分发到由大量商用计算机组成的集群上，以一种可靠容错的方式并行地处理大量的数据集，实现Ｈａｄｏｏｐ的并行处理功能。ＭａｐＲｅｄｕｃｅ框架是由一个单独运行在主节点的ＪｏｂＴｒａｃｋｅｒ和运行在每个集群从节点的ＴａｓｋＴｒａｃｋｅｒ共同组成的。主节点负责调度构成一个作业的所有任务，这些任务分布在不同的从节点上。主节点监控它们的执行情况，并且重新执行之前失败的任务；从节点仅负责由主结点指派的任务。当一个Ｊｏｂ被提交时，ＪｏｂＴｒａｃｋｅｒ接收到提交作业和其配置信息之后，就会将配置信息等分发给从节点，同时调度任务并监控ＴａｓｋＴｒａｃｋｅｒ的执行。１０万方数据第二章相关技术研究在Ｈａｄｏｏｐ中，每个ＭａｐＲｅｄｕｃｅ任务都被初始化为一个Ｊｏｂ。每个Ｊｏｂ又可以分为两个阶段：Ｍａｐ阶段和Ｒｅｄｕｃｅ阶段。这两个阶段分别用两个函数来表示，即Ｍａｐ函数和Ｒｅｄｕｃｅ函数。Ｍａｐ函数接收一个＜ｋｅｙ，ｖａｌｕｅ＞形式的输入，然后产生同样为＜ｋｅｙ，ｖａｌｕｅ＞形式的中间输出，Ｈａｄｏｏｐ负责将所有相同中间ｋｅｙ值的ｖａｌｕｅ集合到一起发送到Ｒｅｄｕｃｅ函数，Ｒｅｄｕｃｅ函数接收一个形似＜ｋｅｙ，（１ｉｓｔｏｆｖａｌｕｅｓ）＞形式的输入，然后对这个集合的ｖａｌｕｅ进行处理并输出结果，Ｒｅｄｕｃｅ的输出也是＜ｋｅｙ，ｖａｌｕｅ＞形式的。为了方便理解，分别将三个＜ｋｅｙ，ｖａｌｕｅ＞对标记为＜ｋｌ，ｖｌ＞、＜ｋ２，ｖ２＞、＜ｋ３，ｖ３＞，那么上面所述的过程就可以用图２―３来表示了。厂――］ｒ―］Ｍａｐ广―］Ｒｅｄｕｃｅ厂――＿］厂――］｛Ｉｎｐｕｔ＿ｋｌ，ｖｌ卜―一ｋ２，ｖ２卜―＿ｋ３，ｖ３｝＿Ｏｕｔｐｕｔ；ｉ，．．．．，．．．，，．，．．．．．．．．．ｊ｝。―，，，．．，．，，，，．，．．，，．．ｊｌ一．，．．．．．．．．．．．．．．．ｊ｝．．．。．．．，，，，―，，，．．．．．，一｝．．．．．．．．．．．．．．――――，，――ｊ图２－３ＭａｐＲｅｄｕｃｅ程序数据变化下面结合一个ＷｏｒｄＣｏｕｎｔ实例具体解释ＭａｐＲｅｄｕｃｅ工作机制。图２．４是ＷｏｒｄＣｏｕｎｔ程序的执行流程。该ＷｏｒｄＣｏｕｎｔ程序的目的是统计每个单词的数量。直线为数据流曲线为控制流图２―４ＭａｐＲｅｄｕｃｅ工作的简易图负责控制以及调度ＭａｐＲｅｄｕｃｅ的Ｊｏｂ的是ＪｏｂＴｒａｃｋｅｒ，负责运行ＭａｐＲｅｄｕｃｅ的Ｊｏｂ的是ＴａｓｋＴｒａｃｋｅｒ。当然，ＭａｐＲｅｄｕｃｅ在运行时是分成ＭａｐＴａｓｋ和ＲｅｄｕｃｅＴａｓｋ来处理的，而不是完整的Ｊｏｂ。简单的控制流大概是这样的：ＪｏｂＴｒａｃｋｅｒ调度任务给ＴａｓｋＴｒａｃｋｅｒ，ＴａｓｋＴｒａｃｋｅｒ执行任务时，会返回进度报告。ＪｏｂＴｒａｃｋｅｒ则会记录进度的进行状况，如果某个ＴａｓｋＴｒａｃｋｅｒ上的任务执行失败，那么ＪｏｂＴｒａｃｋｅｒ会把这个任务分配给另一台ＴａｓｋＴｒａｃｋｅｒ，直到任务执行完成。上图中有两个Ｍａｐ任务及一个Ｒｅｄｕｃｅ任务。数据首先按照ＴｅｘｔｌｎｐｕｔＦｏｒｍａｔ形式被处理成两个ＩｎｐｕｔＳｐｌｉｔ，然后输入到两个Ｍａｐ中，Ｍａｐ程序会读取ＩｎｐｕｔＳｐｌｉｔ指定位置地数据，然后按照设定地方式处理该数据，最后写入到本地磁盘中。Ｒｅｄｕｃｅ会读取Ｍａｐ的输出数据，合并ｖａｌｕｅ，然后将它们输出到ＨＤＦＳ上。Ｒｅｄｕｃｅ的输出会占用很多的网络带宽，不过这与上传数据一样是不可避免的。图２．５更具体地说明了ＷｏｒｄＣｏｕｎｔ执行时地数据流。万方数据第二章相关技术研究｜ｆｉｌｅＯ１：ｈｅｌｌｏｗｏｒｌｄｂｙｅｗｏｒｌｄｆｉｌｅ０２：ｈｅｌｌｏｈａｄｏｏｐｂｙｅｈａｄｏｏｐ卜酬…棚蚋刚ＴｅｄｘｔＩｎｐｕ肌≯捌嚣卜盆ｊｌ卟ｄ１０ｈ曲叩咖ｈ‰ｐ、：蔓涉２．４ｈｅｌｌ０１ｈａｄｏｏｐｌｂｙｅ１ｈａｄｏｏｐｌｈｅｌｌ０２ｗｏｒｌｄ２ｂｙｅ２ｈａｄｏｏｐ２／夕＼～，／ｊ弋图２．５ＷｏｒｄＣｏｕｎｔ数据流程图Ｈａｄｏｏｐ的应用数据的非结构化已经成为企业的重大挑战。由于这些数据的结构问题以及大数据类型的复杂关联，导致无法应用现有的传统技巧进行大数据分析。这为企业带来了新的任务，需要开发一套全新的方法，不仅能够处理传统数据，而且可以便捷地分析和应用这些新兴数据。Ｈａｄｏｏｐ恰恰可以满足大数据分析这种需求。Ｈａｄｏｏｐ已经成为公认的新一代大数据处理平台。Ｈａｄｏｏｐ是一个能够对大量数据进行分布式处理的软件框架。它以谷歌发布的ＭａｐＲｅｄｕｃｅ以及谷歌文件系统技术研究论文为基础。Ｈａｄｏｏｐ充当着众多“大数据”分析工具的底层技术，旨在对由Ｗｅｂ访问、服务器日志以及其它各类数据流所产生的海量数据进行筛选，在分布式环境下提供海量数据的处理能力。Ｈａｄｏｏｐ是以一种可靠、高效、可伸缩的方式进行处理的。它以计算元素和存储会失败为前提，维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Ｈａｄｏｏｐ以并行的方式工作，通过并行处理加快处理速度，能够处理ＰＢ级数据。此外，Ｈａｄｏｏｐ依赖于社区服务器，所以它又具有低成本的优点。目前，几乎所有的主流厂商都提供了基于Ｈａｄｏｏｐ的大数据分析工具。如ＩＢＭ、ＥＭＣ、英特尔、甲骨文等都纷纷投入到Ｈａｄｏｏｐ怀抱。ＩＢＭ很早就开始在实验室尝试使用Ｈａｄｏｏｐ，但是，直到２０１２年才推出了首款大数据分析产品：ＩＢＭＩｎｆｏＳｐｈｅｒｅＢｉｇｌｎｓｉｇｈｔｓ。该产品既可以分析数据库中的传统结构化数据，也可以分析例如文本、视频、音频、图像、社交媒体、点击流、日志文件、天气数据等非结构化数据，帮助决策者根据数据迅速采取行动。ＥＭＣ基于Ｈａｄｏｏｐ的发行版本ＰｉｖｏｔａｌＨＤｓ可以让数据团队和分析团队在该平台上无缝共享信息、协作分析。其最大的优势是能够与Ｇｒｅｅｎｐｌｕｍ数据库进行整合，而不仅仅是在Ｈａｄｏｏｐ中运行ＳＱＬ这么简单。英特尔推出的Ｈａｄｏｏｐ发行版不但改写了Ｈａｄｏｏｐ框架的核心功能，强化对处理器指令集的支持来提高效能，可直接支持Ｘｅｏｎ进阶运算加密指令集ＡＥＳ―ＮＩ，并在数据存储到ＨＢａｓｅ的过程，用芯片原声的加密功能保护，这是英特尔进军大数据的杀手锏软件。甲骨文推出了Ｏｒａｃｌｅ大数据平台解决方案，该方案为Ｅｘａｄａｔａ＋大数据机＋Ｅｘａｌｙｔｉｃｓ的组合，利用这“三驾马车”分别应对数据捕获、组织、分析和决策。利用大数据机来捕获所有可用数据，通过Ｈａｄｏｏｐ来将不同类型的数据组织为易分析的数据；然后再利用Ｅｘａｄａｔａ进行分析，其中Ｅｘａｌｙｔｉｃｓ将起到加速Ｂ１分析过程的作用。１２万方数据第二章相关技术研究在企业的实际应用中，Ｈａｄｏｏｐ技术提高了企业处理大数据的能力。海量Ｗｅｂ日志的数据量每日激增，尤其是非结构化数据的无序增加，给企业的数据处理带来了极大的挑战，本系统就是在公司应用的基础上，为了解决大数据分析这一问题而设计开发的。万方数据第三章系统需求分析与总体结构第三章系统需求分析与总体结构随着互联网的飞速发展，网络上的数据量正在激增，在用户访问网站时如何为用户提供高质量的用户体验是一项重要的课题。这包括了解用户对网站的浏览兴趣，掌握用户的访问规律，并有针对性地调整策略，推荐服务等等。因此为网站设计一个Ｗｅｂ日志分析系统是十分必要的，本节将详细介绍Ｗｒｅｂ日志分析系统的总体结构设计。３．１系统需求分析互联网上的网站用户来源广泛，具有不同的知识背景、不同的年龄层次、不同的兴趣、不同的访问目的、不同的浏览方式，他们在网站上的浏览行为背后隐含了其需求和兴趣，当用户访问Ｗ曲站点时，所有的浏览信息都会记录在Ｗｅｂ服务器的日志中。分析Ｗｅｂ日志，挖掘用户行为，就可以发现一些潜在的规律，从而可以了解用户在网站上的访问模式和兴趣爱好，有助于优化网站的组织结构和空间设计，改善网站设计策略，在用户频繁访问路径上设置用户感兴趣的信息，提高Ｗｅｂ服务器的信息服务质量。为用户提供更好的个性化服务，动态调整网站结构、页面内容和外观，使其更加符合用户的偏好和信息需求，减轻用户搜索和过滤海量信息的负担。本文设计开发一个基于Ｈａｄｏｏｐ的Ｗ－ｅｂ日志分析系统。通过该系统网络管理者可以随时对网站的日志进行分析，随时了解网站的访问情况，了解用户的需要和爱好，了解页面间的依赖关系，从而改善网站的结构和性能。另一方面该系统对访问网站用户而言也有重大的意义，他们可以在改进的网站上快速、便捷地找到自己所需要的资源，甚至享受页面推荐服务。该Ｗｅｂ日志分析系统能够对导入的日志数据进行过滤清洗以及用户识别、会话识别、事务识别，同时对用户频繁访问的页面进行直观的统计分析，报告用户对页面浏览的详细情况。系统的重要功能在于给出页面间的关联规则，运用本文提出的改进Ａｐｒｉｏｒｉ算法给出较精确的、简洁的关联规则，同时将结论展示给用户。３．２系统总体架构设计结合以上需求分析和Ｗｅｂ日志分析系统的特点，本文构建基于Ｈａｄｏｏｐ的Ｗｅｂ日志分析系统，本系统各个层之间相互依存、相互协作，从而实现数据传递、信息共享和服务支持等。（１）应用层应用层是一个人机交互的界面，相当于用户与后台系统的数据路由。用户根据自己的需求，通过界面上的各个输入按钮将请求提交给后台，经过一系列数据调用和算法执行，服务器将处理结果反馈给界面，最后以列表、图形等形式展示出来。（２）逻辑控制层逻辑控制层主要负责对系统的各个功能模块进行逻辑控制，主要功能是对挖掘出来的模式以及统计结果进行逻辑判断和筛选，以确保挖掘结果的正确性，并且运用可视化技术将用户需求的结果准确地显示出来。（３）模式分析层模式分析层是本系统最核心、最关键的一部分，该层对Ｗｅｂ日志挖掘算法提出了很高的要求，因为本系统的主要任务是利用合理的关联规则挖掘算法对Ｗｅｂ日志数据进行挖掘，挖掘算法用Ｈａｄｏｏｐ架构中的ＭａｐＲｅｄｕｃｅ计算模型来实现，并将算法主函数封装在这一层，以供随时调用，高效地执行算法。该层的数据来源是日志预处理后的事务型数据。１４万方数据笙三兰墨丝重垄坌堑皇璺堡笙塑至于关联规则挖掘算法的选取、具体的算法执行步骤，本文将在第五章中详细阐述。本文将提出一种改进的Ａｐｒｉｏｒｉ算法进行关联规则挖掘，结合Ｈａｄｏｏｐ架构，提高系统效率。Ｈ）日志预处理层日志预处理层主要是对Ｗｅｂ日志数据进行预处理。原始日志数据中往往含有噪声或与模式挖掘无关的冗余数据，为了净化数据和减少数据库存储压力，预处理层对原始数据经过数据清洗、用户识别、会话识别、路径补充和事务识别等预处理过程后，得到事务型数据，这些数据被转存ＨＤＦＳ中，为后续模式发现做好充足准备。关于数据预处理的详细过程和结果将在第四章中探讨。（５）持久数据层该层主要负责系统内所有数据的存储，包括采集到的原始日志、日志预处理后的数据以及与处理过程产生的中间数据，它是通过Ｈａｄｏｏｐ架构中的分布式存储系统ＨＤＦＳ来维持和管理。３．３系统工作流程与模块设计按照数据挖掘的一般流程，本文设计的基于Ｈａｄｏｏｐ的Ｗｒｅｂ日志分析系统具体由日志预处理、模式发现和模式分析三个工作流程组成，如图３．１所示。图３－１系统工作流程（１）日志预处理要对采集后的ｗｅｂ日志文件进行分析，面临的第一个问题就是ｗｅｂ日志数据预处理问题。服务器中的最原始的日志数据无法直接交付给各种挖掘算法，因此，必须按照所使用的挖掘算法对原始数据进行处理，目的在于把服务器日志抽象、转换成相应算法能够识别的数据结构。日志文件中数据的好坏、类型直接影响着后续的挖掘结果和精度。（２）模式发现模式发现就是运用各种数据挖掘技术发现隐藏在数据背后的规律和模式。这些技术通常是我们熟知的统计分析、数据挖掘、机器学习、模式识别和人工智能领域中已开发的算法或方法。本系统通过分析关联规则算法，提出一种改进的Ａｐｒｉｏｒｉ算法，具体算法流程将在第五章中详述。（３）模式分析模式分析是整个Ｗｅｂ日志挖掘过程的最后一个步骤。模式分析的目的是根据具体的实际应用，过滤掉模式发现阶段得到的若干没有用的规则或模式，而将有用的模式转化成知识。数据挖掘阶段获取的无关或冗余模式通过评估来确定。Ｗｅｂ日志挖掘同其他的数据挖掘任务相同，最终是要面向用户的，因此最终将挖掘出来的感兴趣规则呈现给用户。万方数据笙三童墨竺重查坌堑皇璺竺笙塑３．４本章小结本章主要介绍了Ｗｅｂ日志分析系统的总体结构设计、数据结构和大致工作流程。本系统各工作流程中，最为关键的是日志预处理阶段和模式挖掘阶段。因此本文将在第四章和第五章中重点介绍这两个阶段的实现。１６万方数据第四章Ｗｅｂ日志挖掘预处理第四章Ｗｅｂ日志挖掘预处理对于任意一个数据挖掘的项目来说，首要任务就是建立一个可以用于统计规律和数据挖掘的数据集，尤其是在Ｗｅｂ日志挖掘应用中，因为Ｗｅｂ日志挖掘的数据源是从多种渠道汇聚而来，它包括点击数据流数据等相关联的数据。建立起可挖掘的数据集的过程在Ｗｅｂ日志挖掘中通常也是花费时间最多的一项，并且通常还会用到其他领域不常用的算法。预处理的关键在于从原始数据中提取出对数据挖掘有用的数据模式，将来自不同数据源的数据整合在一起并将其转化成可供数据挖掘应用直接使用的数据。这就是Ｗｅｂ日志挖掘的预处理的过程。该过程的工作具体包括在进行数据挖掘之前，对原始的日志文件中的数据进行数据清理、数据继承、数据变换和数据规约等。不同的预处理结果会对Ｗｅｂ日志数据挖掘算法产生一定的影响，所以合理的预处理是进行数据挖掘的有效前提。４．１ｗｅｂ日志挖掘预处理概述来自不同结构的数据源很容易受到噪声干扰，为使数据挖掘结构更准确，提高数据挖掘质量，在进行数据挖掘之前，首先应该对数据源进行预处理。４．１．１数据预处理的重要性在现实中的大型数据库的特点是：大量的数据中总会有缺失的记录和不一致的数据的存在。导致这些问题原因有很多，比如，有些属性是感兴趣的但不一定是可用的，像电子商务中的客户的信息；另外有一些数据是有用的，但是却并没有存储在数据库内，这些数据可能在数据录入的时候就被当作不关心的数据而丢弃掉。噪声数据的形成原因是多方面的，比如：输入数据的设备出现错误导致的问题，用户的错误输入，或者是数据的传输失真，以上这些原因都可能会导致噪声数据的出现。如果数据挖掘使用含有噪声的数据进行挖掘，可能会导致挖掘结果出现失误或者产生错误，甚至会使无法得到结果。所以，在数据挖掘之前需要根据不同的数据挖掘目的，采取相应的方法对原始数据进行数据预处理，提高原始数据的质量，从而提高数据挖掘的效率，得到准确的挖掘结果。高质量的数据使高质量数据挖掘的前提，所以在数据挖掘进行之前先进行数据预处理使非常重要的一个步骤。４．１．２数据预处理方法数据预处理的目的是消除冗余数据、噪声数据、不完全数据、稀疏数据。为了满足这一需求，一般包括如下方法１２州６１。（１）数据清理数据清理指的是对原始数据进行处理，使噪声数据光滑、删除离群点和错误数据、补充缺省值，进而识别事务对象的过程。在数据挖掘中，如果发现一些属性明显和数据挖掘的目的无关的，应该从原始数据中删除这些属性并选择合适的属性用于数据挖掘，从而有效地进行数据挖掘，否则整个数据挖掘过程将会因为无意义属性影响挖掘效率。通常情况下对于属性地选择要根据具体数据挖掘的目的进行，主要应遵从以下五个原则【２７】：１）明确数据源中的属性名称的含义。在现实的数据仓库中，操作人员可以理解和记住一些属性的名称和含义，但往往实施数据预处理和数据挖掘的人员并不知道这些属性的名称和含义。所以在数据清理阶段，要求对意义不是很清楚的属性进行处理，使其具有明确的意义。万方数据第四苹Ｗｅｂ日志挖掘预处理２）统一多个数据源中的相同属性。数据挖掘过程中可能会涉及多个数据表，为了保证整个数据挖掘过程的准确性，就必须要统一各个数据源中对同一属性的描述。３）删除重复或者唯一的属性。在原始数据集中，如果使用唯一属性作为记录标识的，其不会形成模型，应该将其删除。而重复的属性往往也会影响数据挖掘的效率，因此只需保留一个，其余的属性删除。４）删除可忽略字段。当原始数据集中某一个属性严重缺失数值的时候，这个属性已经不能用户建立有用的模型了，但是数据挖掘算法并不会认为该属性没有意义，所以这样的属性应该删除掉。５）合理选择关联字段。在数据集中如果一个属性可以由另一个或多个属性推导计算出来，可以推断这些属性间关联度很高。在数据挖掘中相关联的属性的作用是一样的，所以可以选择其中一个属性进行挖掘，从而提高数据挖掘的效率。（２）数据集成数据集成指的是将来自多个源数据中的数据进行整合，并且能够理解模糊的语义，将整合后的数据存储起来。数据集成包括模型集成、数据冲突的检测与处理以及数据冗余。１）模型集成：指的是从多个不同的数据库中提取源数据，对数据格式进行统一，消除语义上的歧义，消除数据重复和冗余。所以，模型集成一般使用数据库中的原始数据来进行模型识别，从而避免模型集成过程中发生太多错误。２）数据冲突的检测与处理：数据集成过程中最困难的就是解决语义的歧义，比如，在现实生活中的一个实体，因为在数据中的编码和表示的不同，将会得到不同的属性值。３）冗余：数据的冗余是在数据集成的过程中产生的。比如，在同一个数据库中，同一个属性的名称却不相同、或者同一个属性多次出现等。解决这个问题的方法是使用数据相关联分析的方法进行数据库中属性间冗余的检测，并删除冗余。（３）数据变换数据变换指的是将数据统一变换成适合数据挖掘的形式，该过程主要包括数据光滑、数据聚集、数据泛化和数据规范化１２引。１）数据光滑：指的是去处数据中的噪声。该技术包括分箱、聚类和回归等方法。２）数据聚集：指的是聚集汇总数据。比如，可以先汇聚一天的销售数据，然后再汇聚周、月季度和年的促销量。３）数据泛化：指的是通过概念上的分层，用高层的概念替换原始数据或底层数据。比如：属性的分类中，灌木类树，即可泛化为树这一高层次的概念。４）规范化：将属性值按照一定的比例来缩放，将数据规范在一个特定数值区间内，如Ｏ―１．０。（４）数据归约数据归约又叫数据缩减或者数据浓缩，指的是已经被辨别出来需要进行数据挖掘的数据集，使数据挖掘在数据选择的基础上，对数据的进一步简约，保证不丢失原有语义，将初始数据转化成一种更加紧凑的数据形式。数据集的归约表示可以通过数据归约来进行，虽然数据规约使数据量有所减少，但其仍然具有数据完整性，不会对数据挖掘的结果造成影响。与没有进行数据规约的数据进行对比发现，对归约后数据进行数据挖掘时，不仅提高效率，而且减少数据挖掘所占空间和时间，最后产生同样的挖掘结果。通常数据归约采用如下方法：１）维归约。维归约指的是对数据中的属性进行选择，其中最主要的方法时筛选法。筛选法指的是根据挖掘标准选择属性的集合，用来区分能力较强的属性子集。例如，在原属性Ａ的基数中选择属性Ｂ的基数，其中Ｂ＜＝Ａ，并且Ｂ维属性空间和Ａ维属性空间的概率分布是相同的。万方数据第四章Ｗｅｂ日志挖掘预处理通过维归约，使得挖掘对象的数据量有所减少，提高数据挖掘处理过程的效率：另外由于挖掘对象的属性减少了，生成的规则也简化了，同时也增强了规则的可理解性。２）数据聚集。数据聚集指的是按照数据仓库中的计算元和微粒度的不同，按照实际的需求，对数据进行字段合并和记录压缩等预处理，是对原始数据进行统一的一个过程。例如，对销量数据统计时就将月销量，季度销量以及年销售量的数据按照地区进行统计。为了提高数据挖掘效率，可以根据数据挖掘的目的对挖掘对象进行聚集，这样可以在很大程度上减少挖掘对象的数量，并且也不需要进行其他额外处理。３）属性值归约。分为两个方面：第一是符号属性的合并，第二是连续值属性离散化。符号属性的合并可以被用作判断两个属性是不是与决策属性相独立，从而决定是否合并属性。连续值属性离散化是指在属性的值域内，设定若干个划分点，从而将该属性的值划分到各个离散区间中去。４）数据压缩。指的是根据特定算法处理数据，以提高数据的传输和运算效率。５）数据抽样。数据抽样指的是使用相对较小的数据样本来代表大的数据集。该过程利用统计学的抽样方法。４．２ｗｅｂ日志挖掘预处理流程在数据挖掘中，解决数据质量的问题是数据挖掘的基础，所以为了提高数据挖掘的效率，提出了数据预处理技术。特别是在Ｗｅｂ日志挖掘应用中，数据预处理的过程显得尤为重要，该过程可以为数据挖掘提供简洁、干净、准确的数据源，从而更有利于快速有效的挖掘出有价值的信息。数据预处理一般包含以下几个步骤：１、数据清理；２、用户识别；３、会话识别；４、路径补充；５、事物识别【２９－３１１。如图４．１为Ｗｅｂ日志挖掘数据预处理的流程。图４．１数据预处理流程１９万方数据蔓婴垩些！旦查笙塑堡竺里本系统中的数据源为Ｗｅｂ日志服务器中的日志数据，下面是该日志数据中的一条目志，该日志数据作为本系统中日志预处理的输入。０５：５０：２９．２２７１１２３２６１９５７５６６５９―７０２８８１１８４ＭｏｚｉｌｌａＪ５．０（ｃｏｍｐａｔｉｂｌｅ；ＭＳＩＥ９．０；ＷｉｎｄｏｗｓＮＴ６．１；Ｔｆｉｄｅｎｆｆ５．０）１９０５３２ＭＳＮＮＺＭＳＮ―ＰｏｒｔａｌＨｏｍｅｐａｇｅ２０１２―１２―１７ｈｔｔｐ：／／ｍｓｎ．ＣＯ．ｎｚ／？ｏｃｉｄ＝ｈｍｌｏｇｏｕｔ在上述例子中，２０１２―１２．１７０５：５０：２９．２２７是Ｄａｔｅｔｉｍｅ，１１２３２６１９５７５６６５９是ｃｏｏｋｉｅ，一７０２８８１１８４是ＩＰ地址，Ｍｏｚｉｌｌａ／５．０（ｃｏｍｐａｔｉｂｌｅ；ＭＳＩＥ９．０；ＷｉｎｄｏｗｓＮＴ６．１；Ｔｆｉｄｅｎｆｆ５．０）是ＵｓｅｒＡｇｅｎｔ，这其中包括用户浏览网站的操作系统信息和浏览器信息，１９０５３２是ＬｏｃａｔｉｏｎＩＤ，ＭＳＮＮＺ为Ｐｕｂｌｉｓｈｅｒ，ＭＳＮ－Ｐｏｒｔａｌ为Ｓｉｔｅ，Ｈｏｍｅｐａｇｅ为ＡｇｅｎｃｙＬｏｃａｔｉｏｎＮａｍｅ，ｈｔｔｐ：／／ｍｓｎ．ＣＯ．ｎｚ／？ｏｃｉｄ＝ｈｍｌｏｇｏｕｔ为ＲｅｆｅｒｒｉｎｇＵＲＬ，即为用户访问的前一个页面。４．２．１数据清理数据清理指的是按照数据挖掘目的，对服务器日志数据进行一系列的处理。通常该过程会因为不同的网站的数据而不同，包括合并相关记录，删除无用记录（包括图形和声音文件）１３２Ｊ。数据清理过程常用方法如下：（１）删除无用属性。本文的数据挖掘应用用到的日志文件中包括如下属性，日期、ｃｏｏｋｉｅ、ＩＰ、ＵｓｅｒＡｇｅｍ、Ｌｏｃａｔｉｏｎ、Ｐｕｂｌｉｓｈｅｒ、Ｓｉｔｅ、ＡｇｅｎｃｙＬｏｃａｔｉｏｎＮａｍｅ和ＲｅｆｅｒｒｉｎｇＵＲＬ，其中Ｌｏｃａｔｉｏｎ、Ｐｕｂｌｉｓｈｅｒ、Ｓｉｔｅ和ＡｇｅｎｃｙＬｏｃａｔｉｏｎＮａｍｅ对本数据挖掘应用意义不大，所以删除这几个属性。（２）删除用户的请求方法为ｐｏｓｔ的日志。（３）删除与请求信息无关的记录。当用户请求一个网页的时候，会自动下载与该网页相关内容，包括声音、图片、视频等，所以删除后缀名为ｉＰｇ、ＣＳＳ、ｇｉｆ等的文件。（４）删除用户请求失败的记录。下面分别介绍不同状态码的返回结果：以２为开头的状态码代表用户请求已经被服务器成功接受和理解。以３开头的状态码代表可续断还要进行下一步操作才能完成整个请求，一般来说代表重定向。以４开头的状态码代表客户端发生了错误，服务器无法处理。以５开头的状态码代表服务器请求过程中有异常。所以，在数据清理过程中，应该删除状态码为４和５的数据。（５）删除用户访问频率很小的页面。经过数据清理之后，上述例子中删除无用属性，变为２０１２．１２．１７１１２３２６１９５７５６６５９－７０２８８１１８４０５：５０：２９．２２７ＮＴ６．１；Ｍｏｚｉｌｌａ／５．０（ｃｏｍｐａｔｉｂｌｅ；ＭＳＩＥ９．Ｏ；ＷｉｎｄｏｗｓＴｒｉｄｅｎｔ／５．０、ｈｔｔｐ：／／ｍｓｎ．ＣＯ．ｎｚ／？ｏｃｉｄ＝ｈｍｌｏｇｏｕｔ。本文所采用的数据清理的算法会将无意义的属性删除，同时也会删除无关记录、错误记录、ｐｏｓｔ请求。在进行数据清理的时候，会根据数据挖掘的目的不同而选择不同的数据清理的算法，本文试图通过用户访问模式试图发现页面之间的联系。４．２．２用户识别一个用户会多次访问同一个网站，服务器会用日志记录用户的多个访问会话，以用户记录的形式来表示同一个用户的活动序列。Ｗｅｂ日志挖掘可以识别访问站点的用户，是对用户的个性化分析和用户聚类的基础。但是现实网络世界中存在着防火墙、代理服务器和本地缓存，使得识别每个用户的过程变得很复杂。例如：（１）不同的用户可以在同一时间，通过同一个代理服务器访问Ｗｅｂ服务器。（２）同一个用户可能通过不同的机器访问Ｗｅｂ服务器。（３）在同一台机器上安装了多个浏览器，同一个用户可能使用多个浏览器访问Ｗｅｂ服务器；不同的用户也可能通过同一个浏览器访问页面。如下表４．１显示了不同的用户识别的方法１３引。２０万方数据第四章Ｗｅｂ日志挖掘预处理表４．１用户识别方法方法ＩＰ和代理用户注册Ｃｏｏｋｉｅ描述用ＩＰ和代理表不一个用户用户注册并显示登陆网站在客户端保存用户访问标识调入浏览器后返回使用数据使用浏览器跟踪用户隐私程度低中优点易用用户可以用不同机器上网，精确识别用户可以跟踪用户的重复访问可以准确跟踪用户重复访问可以获得用户整个访问数据缺点不能保证用户识别的唯一性用户需要注册，存在局限性有些用户不使用ｃｏｏｋｉｅ，便无法跟踪可能会被禁用必须经过用户同意使用的浏览器中／高中／高很高软件代理修改浏览器通常情况下会采用如下方法来区分用户：（１）如果在服务器日志中，发现不同的ＩＰ地址，则认为是不同用户访问数据库。（２）如果在服务器日志中，如果ＩＰ地址相同，但是如果采用不同的浏览器或者不同的操作系统，则认为是不同的用户访问数据库。（３）如果在服务器日志中，ＩＰ地址相同，浏览器和操作系统也相同，则使用网络拓扑结构来识别用户【３引。４．２．３会话识别一个用户会话就是用户一次有效的访问数据库的过程。通过分析用户连续访问的页面，就可以得知用户对哪些页面感兴趣。在Ｗｒｅｂ日志中，如果是不同用户访问的会话，则认为不是同一个会话。对于一个用户，其访问时间跨度过长，则将该用户的访问看作多个会话。在会话识别过程中，如果访问的是没有认证机制的网站，则只能依靠启发式的方法用来会话识别。正确的会话序列可以从点击流的数据中找到网页的信息，进而得到用户访问网站的行为。定义ｌ（用户会话）：用户会话Ｓ是一个用户标识（ｕｓｅｒｉｄ）和一段时间内用户请求Ｗ｜ｅｂ网页集合（ＲＳ）的二元组合，目Ｐ＜ｕｓｅｒｉｄ，ＲＳ＞。上面定义中的ＲＳ是右页面标识符Ｐｉｄ和请求时间组成，所以Ｓ表示成如下公式：Ｓ＝＜ｕｓｅｒｉｄ，｛（Ｐｉｄｌ，ｔｉｍｅｌ），．．．，（Ｐｉｄ女，ｔｉｍｅｔ））＞（１）通过对数据进行用户分析识别，就可以得到用户访问页面的序列，在实际应用中，为了使发现的用户会话更有价值，我们加入超时的概念来对会话时间作限定。现有两种设置超时的方法：１、用户会话的时间；２、相邻访问页面的时间范围。如果运用第一种方法，则公式１中应满足：ｔｉｍｅｋ―ｔｉｍｅＩ≤Ｔ（２）在公式２中，通常将Ｔ设置为３０分钟。第二种方法是检测相邻两个访问页面之间的时间差，如果超过给定的时间范围，则视为一个新的会话产生，在公式１中，应该满足：ｔｉｍｅ，一ｔｉｍｅ，ｌ≤Ｔ（１＜ｉ＜ｌ（）（３）在公式３中，通常将Ｔ设置为１０分钟。下面以一个具体的例子来说明会话识别的过程。首先，从Ｗｅｂ日志数据中提取的ＩＰ地址是２０５．１９４．２１－３的用户数据信息，这里用大写的英文字母来表示此用户访问的ＵＲＬ。表４．２是该用户访问的日志情况。万方数据第四章Ｗｅｂ日志挖掘预处理表４．２Ｗｅｂ日志片段编号ｌ２３４５６７ＩＰ２０５．１９４．２１．３２０５．１９４．２１．３２０５．１９４．２１．３２０５．１９４．２１．３２０５．１９４．２ｌ－３２０５．１９４．２１．３２０５．１９４．２１．３时间００：０ｌ：０６００：０３：１２００：０３：５０００：１０：１０００：１５：２２００：１６：５８００：４０：１４ＵＲＬＡＢＦＣ１ＬＢ单个网页用时０２：０６００：３００８：３０２３：５６０５：１２０１：３６０６：０６３０分钟，则访问序列变为Ａ…Ｂ４．２．４路径补充表４．２中得到的用户访问序列为Ａ．Ｂ―Ｆ．Ｃ．Ｉ．Ｌ．Ｂ。如果用方法ｌ，且设置时间Ｔ为ＦＣ和Ｉ．Ｌ．Ｂ。如果用方法２，且给定时间Ｔ为１０分钟，则访问序列变为Ａ．Ｂ、Ｆ、Ｃ、Ｉ．Ｌ和Ｂ。在整个数据预处理过程中，路径补充是不可或缺的一个过程。通常情况下，客户端或者代理的缓存功能可能会被缓存的页面和用户的访问导致新访问的页面丢失。举例来说，一个用户在一个会话中访问了页面Ｃ，则页面Ｃ在客户端中缓存，当用户在这个会话中再次访问Ｃ时，客户端直接调用缓存中的Ｃ页面给用户，而不是重新请求服务器。因为缓存而丢失的纪录可以通过路径补充来补全，对遗漏的请求将其完整的补充到一个用户会话中。如果用户当前请求的页面与上一个页面没有超链接，则可能是该用户点击了后退按钮，而调用缓存中的已经访问过的页面；或者是在历史中点击的一个链接。由于用户访问缓存中的网页的方法很多，这里假设所有的访问都是用第一种方法，即点击后退按钮，来进行访问缓存页面。得到会话为Ａ…Ｂ在上一个小节的用户识别过程中，假设使用方法１，即设置时间Ｔ为３０分钟，则ＦＣ和Ｉ―Ｌ．Ｂ，用网络拓扑结构表示该会话如图４．２所示。由用户会话Ａ…Ｂ图４－２网站拓扑结构ＦＣ可知，用户是从Ｆ页面访问的Ｃ页面，但是根据图４．２所示的网络拓扑结构来看，说明用户是在访问了Ｆ之后使用了后退按钮回到Ｂ页面，再继续按后退按钮回到Ａ页面，然后从Ａ页面链接到Ｃ页面，或者是直接从历史中链接了Ｃ页面。同样分析Ｉ．Ｌ．Ｂ会话序列也认为是用户点击后退按钮，最后到达Ｂ的。因此会话序ＦＢ．Ａ．Ｃ，序列Ｉ．Ｌ―Ｂ补全路径为：Ａ．Ｃ．Ｉ．Ｃ．Ａ．Ｅ．Ｌ．Ｅ．Ａ．Ｂ。列补全路径后为：Ａ…Ｂ４．２．５事务识别事务识别的目的是为了找出有意义的会话访问路径，可以将一个用户的全部访问序列划分成若干个可以代表用户会话的逻辑单元。事务识别可以有很多种方法，包括时间窗口方法、最大向前引用路径方法【３５Ｊ和引用长度方法。其中最常用的ｗ曲数据挖掘方法是最大向前引用路径方法，本文实现事务识别的方法也是这个。在这个过程中，首先需要找出最大向前引用路径，即事务（一个事务即被看成是一个最大向前引用路径）。在用户访问过程中，如果发现一个向后引用，则前一个引用被终止，这里所获得的向前引用路径即所需最大向前引用路径，即一个事务；如果一个会话结束，也可以获得一个最大向前引用口引。这里以一个已经进行了路径补充的会话序列Ａ…ＢＦＢ．Ａ．Ｃ和Ａ．Ｃ．Ｉ．Ｃ．Ａ．Ｅ．Ｌ．Ｅ．Ａ．Ｂ}

叫阿莫西中心