|
技术:Java、JSP等
摘要:
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词技术。
本设计主要是实现一个中文分词器。通过中文分词,实现对中文句子的分析,将其拆分成词语。再将其应用在搜索引擎中,使该搜索引擎实现对中文的搜索。系统中的分词算法采用基于分词词典的机械分词方法,这种方法是按照正向最大匹配的策略将要分析的中文句子与字典中的词条进行匹配,进而把中文句子拆分成词。
通过使用该分词器可以自动把中文句子准确的拆分成词,拆分速度快。运用在搜索引擎的分析器中可以对中文信息进行分析,实现了对中文句子的搜索,提高了搜索引擎对中文搜索的功能和效率。并且本系统具有良好的可扩展性和可移植性,可以移植到大部分使用Lucene分析器的搜索引擎中。
关键词:中文分词;词典;搜索引擎;
目录:
引 言 1
第一章 中文分词概述 2
1.1 中文分词简介 2
1.2 中文分词算法的分类 2
1.2.1基于字符串匹配的分词方法 2
1.2.2基于解的分词方法 2
1.2.3基于统计的分词方法 3
1.3 中文分词技术的应用 3
1.3.1中文分词技术在中文搜索引擎的应用 3
1.3.2中文分词技术在中文信息检索的应用 3
1.3.3中文分词技术在中外文对译中的应用 4
第二章 开发技术简介 5
2.1 Lucene简介 5
2.2 JSP简介 6
2.3 Oracle简介 7
第三章 系统分析与设计 8
3.1 系统需求分析 8
3.2 系统设计目标 8
3.3 开发设计思想 8
3.4 系统开发环境 9
第四章 系统实现 10
4.1 分词实现原理 10
4.2 中文分词的实现 10
第五章 系统测试 12
5.1 系统测试的目的和原则 12
5.2 系统测试的方法 12
5.3 系统测试的实现 12
第六章 系统部署应用 14
6.1 系统功能介绍 14
6.2 数据库设计 14
6.3 部署应用结果 14
结 论 18
参考文献 19
谢 辞 20
包含资料:
截图:
百度网盘下载地址(金币充值):
游客,本付费内容需要支付 100金币 才能浏览 支付
|
|