admin 发表于 2016-10-27 17:19:50

基于FP-Tree算法的聚类算法的改进

摘要:
数据挖掘作为一门新兴的综合性学科,在目前的经济生产生活中日益体现出了其重要价值。而聚类正是数据挖掘中的重要组成部分。然而,已有的聚类方法在簇的选择和定义上都存在着很多问题。随着大数据时代的来临,人们不但需要要求聚类结果更为准确,同时也要求能够降低资源消耗。
本文首先借鉴频繁模式的思想,受到半监督聚类,CMAR算法的启发,重新定义了相似性度量;其次利用频繁模式聚类;提出并实现了基于FP-tree的FP-seeds聚类算法。包括:构建FP-tree,在FP-tree上进行聚类的FP-Mining算法,并针对不同数据集添加了适用于FP-tree的数据预处理函数等多项工作。最后对该算法在多个数据集上进行试验。结果表明,FP-seeds算法在聚类效果上略好于k-means算法和DBSCAN算法,在时间消耗方面远远好于K-means算法和DBSCAN算法,特别在大规模高维度数据集的情况下,时间优势更加明显。
综上所述,将FP-seeds算法用于一般数据集,以及大规模高维度数据集的聚类中均表现出了良好的聚类精度和时间性能,证明本文提出的FP-seeds算法具有较好的聚类效果。


关键词:数据挖掘;聚类;频繁模式;FP-growth;FP-seeds

目录:
1. 绪论    1
1.1.研究背景和意义    1
1.2.数据挖掘,聚类技术的发展概况和现状    2
1.2.1.数据挖掘技术    2
1.2.2.聚类技术简介    3
1.3.本文研究的主要内容    4
2. 聚类分析的一般方法    5
2.1.划分方法    5
2.1.1.K-means算法    5
2.1.2.K-中心算法(PAM)    6
2.2.层次方法    7
2.2.1.BIRCH    8
2.2.2.Chameleon    8
2.3.基于密度的方法    9
2.3.1.DBSCAN    9
2.3.2.OPTICS    11
2.4.基于网格的方法    12
2.4.1.STING算法    12
2.4.2.CLIQUE算法    14
2.5.高级聚类方法    16
2.5.1.概率模型的聚类    16
2.5.2.对高维数据的聚类    16
2.5.3.对图和网络的聚类    17
2.6.半监督聚类的方法    17
2.7.本章小结    20
3.FP-growth理论及其算法    21
3.1.频繁模式挖掘的基本理论    21
3.2.FP-growth算法理论    22
3.3.FP-growth算法    25
3.4.FP-growth算法分析    28
4. FP-Tree在聚类中的改进    29
4.1.聚类的一般理解    29
4.1.1.相似性判断    29
4.1.2.比较对象选取    30
4.1.3.聚类与分类    30
4.2.半监督学习    31
4.3.关联分类    32
4.4.频繁模式与聚类的关系    32
4.5.FP-Tree在聚类中的使用    34
4.5.1.针对事务型数据集的处理    34
4.5.2.针对一般数据集的处理    37
5. 设计与实现    39
5.1.实验设计    39
5.2.实验环境    39
5.3.算法设计    40
5.3.1.FP-Seeds算法    40
5.3.2.数据处理算法    41
5.3.3.比较处理算法    42
5.4.实验代码    43
5.4.1.针对数据集datingTestSet2的代码    43
5.4.2.针对数据集abalone的代码    51
5.4.3.针对数据集lenses的代码    52
5.5.运行情况    53
5.5.1.针对数据集datingTestSet2运行情况    53
5.5.2.针对数据集abalone运行情况    55
5.5.3.针对数据集lenses运行情况    58
6. 实验结果与分析    61
6.1.数据来源    61
6.2.聚类结果分析    62
6.3.运行效率分析    63
7. 结论与展望    64
7.1.研究结论    64
7.2.研究展望    64
参考文献    66
致谢    68
外文文献    69
中文翻译    91

论文字数:47075
包含资料:


截图:


百度网盘下载地址(金币充值):
**** 本内容需购买 ****

页: [1]
查看完整版本: 基于FP-Tree算法的聚类算法的改进