基于Ruby通用web信息采集系统毕业设计
技术:Ruby on Rails等摘要:
互联网是个存储量巨大的数据库,随着时间的增长,信息量不断增多,这使得人工采集互联网信息已不能实现。网络爬虫是一种自动搜集互联网信息的程序,通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息。
该系统中开发的网络爬虫就是一个定向采集器,针对网页定向采集和保存采集信息的两大问题而提出的。首先明确了通用web信息采集的主要功能和核心流程,在此基础上,应用Ruby on Rails的MVC模型,对用户管理、任务管理、任务组管理进行了设计,其中任务管理模块是本系统的核心模块,包括对采集任务的配置,管理和采集。该系统用户根据需求填写采集任务的配置信息,网络爬虫则根据配置信息中的访问规则、提取规则,自动地、有效地下载网页提取信息。
关键词:信息采集;信息管理;Ruby on Rails
目录:
1 引言 1
1.1 项目背景 1
1.2 论文的目的及设计要求 1
1.2.1 论文目的及设计要求 1
1.2.2 主要贡献 2
2 研究现状及设计目标 3
2.1 相近研究课题研究现状及优缺点 3
2.1.1 Wget功能及特点 3
2.1.2 网络信息采集专家功能及特点 3
2.2 设计目标 3
2.3 经济效益分析 4
3 关键问题及分析 5
3.1 关键问题 5
3.1.1 怎样实现网络爬虫网页采集 5
3.1.2 提取有效链接 5
3.2 关键技术及复杂性分析 6
3.2.1 网络爬虫 6
3.2.2 Ruby on Rails 7
4 需求分析 8
4.1 系统用例图 8
4.2 系统主要业务流程分析 8
4.3 功能需求分析 9
4.3.1 功能介绍 9
4.3.2 登录流程图 10
4.3.3 任务采集流程图 12
5 系统设计 13
5.1 设计实现的策略 13
5.2 编程模型 14
5.3 数据模型分析 15
5.4 数据库设计 16
5.4.1 数据库分析 16
5.4.2 数据库表结构设计 16
6 系统实现及测试 19
6.1 各模块具体实现方法 19
6.1.1 建立工程 19
6.1.2 创建数据库表 21
6.1.3 生成手脚架 23
6.1.4 登录模块 24
6.1.5 用户管理模块 25
6.1.6 任务组管理模块 27
6.1.7 任务管理模块 31
6.2 界面设计 34
6.2.1 登录界面 34
6.2.1 普通用户管理界面 35
6.2.2 超级用户管理界面 35
6.2.3 管理员管理界面 36
6.3 测试实例的研究与选择 37
6.3.1 软件测试的方法 38
6.3.2 实例测试 38
7 结论与展望 40
参考文献 41
致谢 42
论文字数:14870
包含资料:
截图:
百度网盘下载地址(金币充值):
**** 本内容需购买 ****
佩服,佩服!
页:
[1]