职场大变样社区

5597

主题

6637

帖子

79

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
79
跳转到指定楼层
楼主
发表于 2023-3-24 11:59:50 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
摘要:

互联网世界的先驱者们一致认为大数据将是未来互联网产业,甚至是整个人类各个产业的基础资源,那么到底什么是大数据,大数据给我们的世界是如何带来变化的呢?作为大数据应用之海的一滴,大数据在日志分析方面的应用,可以简单但又震撼的回答一下这个问题。
任何一个功能丰富,实用,深受欢迎的有大量基础用户的APPLICATION或是WEB服务,日志数据是在这个系统在运行过程中一动一静的记录,因为其体量足够庞大,而且不断指数级的生成与累加增长,因此就需要不同常规的数据存储和处理方式(比如:HADOOP提供的HDFS和MAPREDUCE)这就是大数据的一种表现形式。
整个系统的健壮保证,健康维护,功能改进,性能提升等都可以是基于日志分析而进行的,体量巨大的日志数据蕴含着如客户的行为习惯,系统的运行状态等及其有价值的信息,日志可以类比车的动力源和轮子,而对于一个系统日志分析的过程就相当于给车寻找更平坦,更宽,更遥远的路和方向,这样,车子方可行之久远。
在各类日志文件中客户日志就是这样极富动力的发动机和结实的轮子。
客户日志,是一个服务系统的重要组成部分,主要用于保存人们浏览的网页记录。每个成熟的系统,在目前都配有及其完善的日志子模块系统,这个日志子模块系统详细的保存和记录者着每个用户在网站或者每个客户在应用之上的浏览信息和行为记录。如用户访问网站的路径及访问的服务器,通过计数用户对各个服务器的浏览数量,可以获得服务器的页面的客户访问量,访问频率,访问情况,然后对此可以进行排名,从而广告的经济收益就能够被提高。日志分析在该系统的主要任务是对系统采集的日志通过进行预处理,处理之后存储起来。储存也是一个需要考量的问题,进而通过数据挖掘技术或者数据分析技术,如数据统计技术、聚类技术和关联分析技术,获取有价值的信息。这些信息包括用户的时间,地域特征的分析,用户的个人行为分析、以及用户的社交网络信息分析,还有用户的分类信息的分析、等。这具有重大的价值尤其是对企业来说,它带来新的生命力和强大的推动力可以让企业更加具有持久和发展能力!在现在的各类以及各大商务网站和搜索引擎进行广告推荐和服务推荐正是根据这个浏览网页的排名来的。



关键词

目录:

第一章        引言        4
1.1 课题研究背景        4
1.2国内外发展现状        4
1.3本系统的主要工作内容        5
1.4本系统论文的论述方式        5
第二章 系统的总体性设计        5
2.1系统需求分析        5
2.2系统可行性分析        5
第三章 系统基本的分析环境的说明和搭建        5
3.1说明        5
3.2 LinuxOS的安装        5
3.3 Hadoop集群的搭建        5
3.3.1免密码登录的设置        6
3.3.2安装Hadoop        6
3.3.3修改配置文件和创建目录        6
3.3.4格式化和启动集群        6
3.4 Hadoop集群的搭建        6
3.5日志采集框架Flume的安装        6
3.6数据迁移Sqoop工具的安装        6
3.7任务调度工具Azkaban安装        7
第四章 系统模块详细设计        7
4.1数据采集模块的设计和实现        7
4.1.1客户日志(数据源)的生成说明        7
4.1.2数据源的采集说明        7
4.1.3技术选型        7
4.1.4 Flume日志采集系统搭建        8
4.2数据预处理模块的设计和实现        9
4.2.1 数据预处理的说明        9
4.2.2 实现方案        10
4.2.3 预处理细节        10
4.3 Hive数据仓库模块的设计和实现        14
4.3.1 数据仓库设计说明        14
4.3.2 数据仓库表的建设        14
4.3.3 加载数据的实现        16
4.4统计分析模块设计和开发        16
4.4.1说明        16
4.4.2不同维度统计PV总量        16
4.4.3访客分析        17
4.4.4访问分析        17
4.4.5其它更高级分析        18
4.5数据迁移模块的设计和实现        18
4.5.1迁移说明        18
4.5.2迁移操作        18
4.6任务流调度模块的设计和实现        20
4.6.1任务模块的划分        20
4.6.2JOB任务文件的创建        20
4.6.3不同调度模块的任务安排和分配        20
第五章 项目综合测试和展示        21
5.1集群环境的开启        21
5.2数据采集任务启动        23
5.2.1采集结果示意图        23
5.3数据的预处理        24
5.3.1预处理结果(经过如上四个预处理步骤得到如下四个文件)        24
5.4数据仓库建设(得到三张贴源表)        25
5.4.1仓库建设结果        25
5.5加载数据        26
5.5.1加载数据结果(即这些Hive表中就存放进了数据)        26
5.6统计分析(利用Hql语句对贴源表进行统计分析得到结果表)        27
5.6.1统计分析结果        27
5.7迁移数据        28
5.7.1迁移结果        28
第六章 项目总结        29
致谢        30
参考文献        31



论文字数:8028
包含资料:












此套毕业设计百度网盘下载地址(金币充值):
游客,本付费内容需要支付 200金币 才能浏览支付




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

职场大变样社区 分享高质量学习资料(电子课本、毕业设计、编程视频、项目源码、电子书籍等)

快速回复 返回顶部 返回列表