数据挖掘及其工具的使用
日期:2006-10-25 荐:
摘要:本文给出了KDD的核心
关键词:数据挖掘,KDD,分类器
1、引言
数据挖掘就是从大量不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道的但又是有用的的信息和知识。数据挖掘其实是知识发现的核心部分,而知识发现是在积累了大量数据后,从中识别出有效的、新颖的、潜在的、有用的及最终可以理解的知识,人们利用这些知识改进工作,提高效率和效益。数据挖掘是信息发展到一定程度的必然产物,是利用积累数据的一个高级阶段。
随着数据库技术的迅速发展和管理系统的广泛应用,人们积累的数据越来越多。数据的背后应隐藏着许多重要信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、修改、统计、查询等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。
用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(KDD)的产生。
2、KDD与数据挖掘
KDD是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。从定义中可以看出,KDD是一个高级的处理过程,它从数据集中识别出以模式来表示的知识。高级的处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋式的上升过程。数据挖掘是KDD的核心部分,是采用机器学习、统计等方法进行知识学习的阶段。KDD是一门交叉学科,涉及到人工智能、机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、专家系统等多个领域。数据挖掘算法的好坏将直接影响到所发现知识的好坏。数据挖掘的任务是从数据中发现模式。
3、数据挖掘模式的种类
分类模式 是一种分类器,能够把数据集中的数据映射到某个给定的类上,从而可以应用与数据预测。它常表现一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。
回归模式 与分类模式相似,其差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。
时间序列模式 根据数据随时间变化的趋势预测将来的值。其中要考虑时间的特殊性质,只有充分考虑时间因素,利用现有的数据随时间变化的一系列的值,才能更好的预测将来的值。
聚类模式 把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。与分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据那些数据项来定义组。
关联模式 是数据项之间的关联规则。而关联规则是描述事物之间同时出现的规律的知识模式。在关联规则的挖掘中要注意以下几点:
充分理解数据;
目标明确;
数据准备工作要做好;
选取恰当的最小支持度和最小可信度;
很好地理解关联规则;
序列模式 与关联模式相似,它把数据之间的关联性与时间联系起来。为了发现序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的时间。
在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式使用最为普遍。
4、数据挖掘工具的选择
在数据挖掘技术日益发展的同时,出现了许多数据挖掘工具,如何选择满足需要的数据挖掘工具已成为一个问题。具体的评价标准应从以下几方面考虑:
可产生的模式种类的数量
常用的模式有以上六种。
解决复杂问题的能力
数据量的增大,对模式精细度、准确度要求的增高都会导致问题复杂性的增大。数据挖掘系统可以提供下列方法解决复杂问题:
多种模式。多种类别模式的结合使用有助于发现有用的模式,降低问题复杂性。
多种算法。很多模式,特别是与分类有关的模式,可以用不同的算法来实现,以适应不同的需求环境。数据挖掘系统提供多种途径产生同种模式,将更有能力解决复杂问题。
验证方法。在评估模式时采用多种校验方法,从而达到最大的准确度。
可视化。可视化工具提供了直观、简洁的方法,方便了用户,更有助于定位重要的数据,评价模式的质量,从而减少建模的复杂性。
数据选择和转换。模式通常被大量的数据项隐藏。有些数据是冗余的,有些数据是完全无关的。而这些数据项的存在会影响到有价值的模式的发现。数据挖掘系统的一个很重要功能就是能够处理数据复杂性,提供工具,选择正确的数据项和转换数据值。
扩展性。为了更有效的提高处理大量数据的效率,数据挖掘系统的扩展性十分重要。要了解数据挖掘系统能否充分利用硬件资源?是否支持并行性能?支持那种并行计算机?当处理器的数量增加时,计算规模是否相应增长?是否支持数据并行存储?为单处理器的计算机编写的数据挖掘算法不会在并行计算机上自动以更快的速度运行。为充分发挥并行计算的优点,需要编写支持并行计算的算法。
操作性能
操作性能的好坏是一个至关重要的因素。图形界面友好的工具可以方便用户,引导用户执行任务,为用户节省时间。提供嵌入技术的工具更是它的可取之处,通过嵌入到应用程序中,缩短了开发时间。既可以将模式运用到已存在或新增加的数据上,也可以把模式导出到程序或数据库中。
数据存取能力
好的数据挖掘工具可以使用SQL语句直接从DBMS中读取数据。这样可以简化数据准备工作,并且可以充分利用数据库的优点。没有一种工具可以支持大量的DBMS,但可以通过通用的接口连接大多数流行的DBMS。
于其他产品的接口
传统的查询工具、可视化工具可以帮助用户理解数据和结果。数据挖掘工具能否提供与这些工具集成的简易途径是衡量数据挖掘工具好坏的标准。
5、结论
通过对数据挖掘种类的分析,给出了数据挖掘工具的选择标准。由于数据挖掘工具需要考虑的因素很多,很难按照原则给工具排一个优劣次序,最重要的还是用户的需要,根据特定的需求加以选择,文中考虑的因素仅为充分利用数据挖掘工具提供参考。
标签: