职场大变样社区

5598

主题

6638

帖子

79

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
79
跳转到指定楼层
楼主
发表于 2016-10-31 12:53:30 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
技术:Java、JSP等
摘要:
自从大数据的概念被提出后,互联网数据成为了越来越多的科研单位进行数据挖掘的对象。网络新闻数据占据了互联网数据的半壁江山,相比传统媒体,其具有传播迅速、曝光时间短、含有网民舆论等相关特征,其蕴含的价值也愈来愈大。
利用相关网络爬虫技术与算法,实现网络媒体新闻数据自动化采集与结构化存储,并利用中文分词算法和中文相似度分析算法进行一些归纳整理,得出相关的新闻发展趋势,体现网络新闻数据的挖掘价值。
如果商业公司能选取其中与自身相关的新闻进行分析,则可以得到许多意想不到的收获,例如是否有幕后黑手故意抹黑、竞争对手情况如何。第一时间掌握与其相关的网络新闻负面效应,动用公关力量,及时修正错误,平息负面新闻,这对当今的企业来说价值是巨大的。
关键词:网络爬虫;网络新闻;数据挖掘

目录:
1  绪论    1
1.1    论文研究背景与意义    1
1.2 论文研究内容    2
2  系统需求分析    4
2.1 系统需求概述    4
2.2 系统需求分析    4
2.2.1 系统功能要求    4
2.2.2 系统IPO图    5
2.2 系统非功能性需求分析    5
3系统概要设计    7
3.1 设计约束    7
3.1.1需求约束    7
3.1.2设计策略    7
3.1.3 技术实现    8
3.3 模块结构    8
3.3.1 模块结构图    8
3.3.2 系统层次图    10
3.3.3 面向对象设计UML图    10
4 系统详细设计    13
4.1 系统模块设计    13
4.1.1 数据采集模块    13
4.1.2中文分词模块    18
4.1.3相似度匹配模块    22
4.1.4数据展示模块    25
4.2系统异常处理    29
4.2.1爬虫异常总体概况    29
4.2.2爬虫访问网页被拒绝    29
5 软件测试    32
5.1 白盒测试    32
5.1.1 爬虫系统测试结果    32
5.1.2 中文分词系统测试结果    33
5.1.3 中文文章相似度匹配系统测试结果    34
5.1.4 相似新闻趋势展示系统测试结果    36
5.2黑盒测试    37
5.2.1 爬虫系统测试结果    37
5.2.2 中文文章相似度匹配系统测试结果    37
5.2.3 相似新闻趋势展示系统测试结果    38
6  结  论    40
参考文献    42
致  谢    43
外文资料    44
中文翻译    48

论文字数:24871
包含资料:


截图:



百度网盘下载地址(金币充值):
游客,本付费内容需要支付 200金币 才能浏览支付


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

职场大变样社区 分享高质量学习资料(电子课本、毕业设计、编程视频、项目源码、电子书籍等)

快速回复 返回顶部 返回列表