admin 发表于 2016-5-8 08:45:23

搜索引擎语义排序的研究与实现

技术:Java、JSP等
摘要:
为了适应网络信息的飞速增长,并且能够迅速、方便地从网络中获取有效信息, 搜索引擎逐渐走进了人们的生活,“飞梦”搜索引擎系统在这样的条件下,应运而生。本文首先系统的介绍了搜索引擎的概念、发展历史、和搜索引擎的分类。使读者能够初步了解搜索引擎技术。然后,详细介绍了“飞梦”搜索引擎系统。
“飞梦”搜索引擎是基于Web的搜索引擎。系统的前端以MVC模式来实现,Struts作为视图层,Spring做中间层,Hibernate作后端来开发实现的。本系统分为四个子模块,抓取模块实现的功能为:将web上的海量网页抓取到系统中,采用的实现方法是使用Heritrix来完成对网页的抓取。处理模块实现的功能为:解析网页,提取其中的有用内容,为网页建立词库,对解析网页生成的信息文件进行分词,并建立索引,将索引存入数据库中,采用的实现方法是:通过Lucene的API来实现对网页内容的建索,使用HTMLParser的API实现了对网页内容的解析。语义排序模块实现的主要功能是:对数据库中索引进行排序,通过核心排序算法实现语义排序,存于缓存中供用户查询。用户模块实现的主要功能是:用户模块是系统的用户接口,用户通过此模块完成与系统的交互,当用户在查询界面上输入要检索的信息后,系统将在可以接受的时间内,返回用户所需的结果集;采用DWR(Direct Web Remoting)封装了AJAX技术,处理用户请求;
关键词:搜索引擎,Lucene,Heritrix,语义排序

目录:
1 引言    1
2 课题背景    2
2.1搜索引擎的概念    2
2.2搜索引擎的发展历史    3
2.2.1搜索引擎的起源    3
2.2.2第一代搜索引擎    3
2.2.3第二代搜索引擎    3
2.2.4当前著名的搜索引擎简介    4
2.3搜索引擎的分类    5
2.3.1全文索引    5
2.3.2目录索引    5
2.3.3元搜索引擎    6
2.3.4垂直搜索引擎    6
2.3.5其他非主流搜索引擎形式    6
3系统需求分析    7
3.1搜索引擎的工作原理    7
3.2系统功能需求    7
3.3系统性能需求    8
4 系统总体设计    9
4.1“飞梦”搜索引擎系统总体介绍    9
4.1.1 “飞梦”搜索引擎系统工作机制    9
4.1.2 几种常见的语义WEB排序技术    9
4.1.3 语义本体概念    10
4.1.4 语义搜索    10
4.1.5 基于本体的语义排序    11
4.2系统逻辑设计    13
4.2.1系统时序图    13
4.2.2系统流程图    14
4.2.3系统数据流程图    15
4.3系统模块介绍    16
4.3.1 模块功能介绍    16
5系统详细设计    21
5.1模块总体介绍    21
5.2抓取子模块    22
5.2.1运行Heritrix子模块    22
5.2.2分析网页子模块    27
5.3信息检索子模块    30
5.3.1解析网页子模块    30
5.3.2创建词库子模块    31
5.3.3生成持久化类子模块    31
5.3.4创建Document子模块    32
5.3.5存储数据子模块    33
5.4语义排序模块    33
5.4.1概念定义    33
5.4.2算法实现原理    34
5.4.3 语义排序部分代码    35
5.5用户子模块    38
5.5.1搜索页面    38
5.5.2详细信息页面    38
5.5.3后台信息管理    39
6 结论    40
参 考 文 献    41
致 谢    43

包含资料:


截图:






百度网盘下载地址(金币充值):
**** 本内容需购买 ****


页: [1]
查看完整版本: 搜索引擎语义排序的研究与实现