职场大变样社区
标题:
基于网络爬虫技术的网络新闻分析
[打印本页]
作者:
admin
时间:
2016-10-31 12:53
标题:
基于网络爬虫技术的网络新闻分析
技术:
Java、JSP等
摘要:
自从大数据的概念被提出后,互联网数据成为了越来越多的科研单位进行数据挖掘的对象。网络新闻数据占据了互联网数据的半壁江山,相比传统媒体,其具有传播迅速、曝光时间短、含有网民舆论等相关特征,其蕴含的价值也愈来愈大。
利用相关网络爬虫技术与算法,实现网络媒体新闻数据自动化采集与结构化存储,并利用中文分词算法和中文相似度分析算法进行一些归纳整理,得出相关的新闻发展趋势,体现网络新闻数据的挖掘价值。
如果商业公司能选取其中与自身相关的新闻进行分析,则可以得到许多意想不到的收获,例如是否有幕后黑手故意抹黑、竞争对手情况如何。第一时间掌握与其相关的网络新闻负面效应,动用公关力量,及时修正错误,平息负面新闻,这对当今的企业来说价值是巨大的。
关键词:网络爬虫;网络新闻;数据挖掘
目录:
1 绪论 1
1.1 论文研究背景与意义 1
1.2 论文研究内容 2
2 系统需求分析 4
2.1 系统需求概述 4
2.2 系统需求分析 4
2.2.1 系统功能要求 4
2.2.2 系统IPO图 5
2.2 系统非功能性需求分析 5
3系统概要设计 7
3.1 设计约束 7
3.1.1需求约束 7
3.1.2设计策略 7
3.1.3 技术实现 8
3.3 模块结构 8
3.3.1 模块结构图 8
3.3.2 系统层次图 10
3.3.3 面向对象设计UML图 10
4 系统详细设计 13
4.1 系统模块设计 13
4.1.1 数据采集模块 13
4.1.2中文分词模块 18
4.1.3相似度匹配模块 22
4.1.4数据展示模块 25
4.2系统异常处理 29
4.2.1爬虫异常总体概况 29
4.2.2爬虫访问网页被拒绝 29
5 软件测试 32
5.1 白盒测试 32
5.1.1 爬虫系统测试结果 32
5.1.2 中文分词系统测试结果 33
5.1.3 中文文章相似度匹配系统测试结果 34
5.1.4 相似新闻趋势展示系统测试结果 36
5.2黑盒测试 37
5.2.1 爬虫系统测试结果 37
5.2.2 中文文章相似度匹配系统测试结果 37
5.2.3 相似新闻趋势展示系统测试结果 38
6 结 论 40
参考文献 42
致 谢 43
外文资料 44
中文翻译 48
论文字数:24871
包含资料:
1.jpg
(17.48 KB, 下载次数: 0)
2016-10-31 12:52 上传
截图:
3.jpg
(78.19 KB, 下载次数: 0)
2016-10-31 12:52 上传
2.jpg
(15.76 KB, 下载次数: 0)
2016-10-31 12:52 上传
百度网盘下载地址(
金币充值
):
**** 本内容需购买 ****
欢迎光临 职场大变样社区 (http://zcdby.com/)
Powered by Discuz! X3.2