基于网络爬虫技术的网络新闻分析

admin · 发表于 2016-10-31 12:53:30

技术：Java、JSP等
摘要：
自从大数据的概念被提出后，互联网数据成为了越来越多的科研单位进行数据挖掘的对象。网络新闻数据占据了互联网数据的半壁江山，相比传统媒体，其具有传播迅速、曝光时间短、含有网民舆论等相关特征，其蕴含的价值也愈来愈大。
利用相关网络爬虫技术与算法，实现网络媒体新闻数据自动化采集与结构化存储，并利用中文分词算法和中文相似度分析算法进行一些归纳整理，得出相关的新闻发展趋势，体现网络新闻数据的挖掘价值。
如果商业公司能选取其中与自身相关的新闻进行分析，则可以得到许多意想不到的收获，例如是否有幕后黑手故意抹黑、竞争对手情况如何。第一时间掌握与其相关的网络新闻负面效应，动用公关力量，及时修正错误，平息负面新闻，这对当今的企业来说价值是巨大的。
关键词：网络爬虫；网络新闻；数据挖掘

目录：
1  绪论 1
1.1 论文研究背景与意义 1
1.2 论文研究内容 2
2  系统需求分析 4
2.1 系统需求概述 4
2.2 系统需求分析 4
2.2.1 系统功能要求 4
2.2.2 系统IPO图 5
2.2 系统非功能性需求分析 5
3系统概要设计 7
3.1 设计约束 7
3.1.1需求约束 7
3.1.2设计策略 7
3.1.3 技术实现 8
3.3 模块结构 8
3.3.1 模块结构图 8
3.3.2 系统层次图 10
3.3.3 面向对象设计UML图 10
4 系统详细设计 13
4.1 系统模块设计 13
4.1.1 数据采集模块 13
4.1.2中文分词模块 18
4.1.3相似度匹配模块 22
4.1.4数据展示模块 25
4.2系统异常处理 29
4.2.1爬虫异常总体概况 29
4.2.2爬虫访问网页被拒绝 29
5 软件测试 32
5.1 白盒测试 32
5.1.1 爬虫系统测试结果 32
5.1.2 中文分词系统测试结果 33
5.1.3 中文文章相似度匹配系统测试结果 34
5.1.4 相似新闻趋势展示系统测试结果 36
5.2黑盒测试 37
5.2.1 爬虫系统测试结果 37
5.2.2 中文文章相似度匹配系统测试结果 37
5.2.3 相似新闻趋势展示系统测试结果 38
6  结  论 40
参考文献 42
致  谢 43
外文资料 44
中文翻译 48

论文字数：24871
包含资料：

1.jpg (17.48 KB, 下载次数: 0)

2016-10-31 12:52 上传

截图：

3.jpg (78.19 KB, 下载次数: 0)

2016-10-31 12:52 上传

2.jpg (15.76 KB, 下载次数: 0)

2016-10-31 12:52 上传

百度网盘下载地址（金币充值）：

游客,本付费内容需要支付 200金币 才能浏览支付