当前位置:甜馍馍地理信息网 >> 地理信息系统GIS >> 空间数据库 >> 正文 >>  [阅读资讯:Data Mining数据挖掘 GIS数据库中的数据挖掘]

Data Mining数据挖掘 GIS数据库中的数据挖掘

[ 来源:互联网 | 时间:2009年06月24日 | 收藏本文 ] 【

摘 要:首先探讨了DM在GIS中应用的必要性和可能性,然后讨论了GIS数据库中的DM可以发现的知识类型、可以使用的方法,可以采用的DM系统原型,最后简单介绍了DM对GIS的贡献。

关键词:数据挖掘(DM) 地理信息系统(GIS) 专家系统(ES)

文章编号:1002-8331-(2003)18-0202-03  文献标识码:A  中图分类号:TP311.13
1 引言
  DM(Data Mining数据挖掘)是指把人工智能、机器学习与数据库等技术结合起来,由计算机自动地从数据库或数据仓库中的大量数据中揭示出隐含的、先前未知的并具有潜在价值的信息或模式,以解决数据量大而知识贫乏这一困扰专家系统(ES)的知识瓶颈问题的非平凡过程。这一概念一经提出,立即引起了学者、软件开发商和用户的极大兴趣,国外纷纷建立了许多专门研究知识发现和数据挖掘的公司或部门,从数据挖掘的基本概念和原理开始,直到挖掘方法、算法以及软件工具,进行了广泛深入的研究。到目前为止,已经形成了比较完整的数据挖掘理论和方法体系,并且出现了许多实用的数据挖掘工具,广泛应用于商业、金融、保险、医疗、化工、制造业、工程和科学等领域,产生了巨大的效益。

  GIS(Geographic Information System地理信息系统)是以采集、存储、描述、分析和应用与空间地理分布有关的数据的计算机系统。作为数据库管理技术、计算机图形学以及空间分析方法的共同产物,它已在社会、军事、经济和管理部门得到了长足的发展和广泛的应用。目前,它正逐步与遥感(RS)和全球定位系统(GPS)技术相结合,向集成化、自动化及智能化迈进。专家系统技术在遥感影像解释、地形数据的表达及语义和非语义信息的提取等方面的应用,正是为了提高这种高集成度的地理信息系统的自动化和可靠性。然而,尽管专家系统中的知识表达和知识应用的研究取得了不少的进展和成果,其知识获取仍然主要依赖于专家和知识工程师,离知识自动生成还有相当大的差距。因此,知识获取问题成了专家系统发展的瓶颈,也成了建立智能化遥感与地理信息系统的瓶颈。事实上,GIS数据库中含有丰富的数据和信息,是自然界和人类活动的共同产物,专家系统所需的许多知识就隐含在这些数据和信息之中。所以,如果能将计算机科学的DM技术用于GIS,从GIS数据库中自动生成专家系统所需的知识,无疑将会给知识获取问题的解决带来无限生机。

  基于上述分析,该文旨在讨论MD技术在GIS中的应用。文章下面部分分别就DM在GIS中应用的必要性和可能性、GIS数据库中的DM可以发现的知识类型、可以使用的方法、可以采用的DM系统原型以及DM对GIS的贡献展开详细的论述。
2 DM在GIS中应用的必要性和可能性

  大千世界中,许多事物之间都存在着千丝万缕的联系,在描述客观世界的数据中必然存在其内部的相互依赖性。Tobler的第一地理规则就描述了这样一种空间依赖性:“所有的事物都是有联系的,一个地方发生的事件总是与它附近发生的事件有关联,并且相距近的事物之间的联系一般比相距远的事物之间的联系要紧密。”如果能从这些数据中找出其规律性或相互联系,就可以反过来推断客观世界的情况。GIS是一个对地球表面及空间物体描述,的信息系统,其数据库中丰富的数据和信息本身就是大自然和人类社会活动的双重产物,专家系统中所需要的许多知识就可能隐藏在GIS数据库中。若能利用DM技术,从GIS的空间和属性数据中得出有关自然界与人类活动的内在规律,就必将为专家系统在GIS中的应用和发展提供新的手段和方法,也将为GIS自身的发展提供更广阔的前景。一方面,GIS的应用需要DM技术的帮助,这种需要使得GIS必将成为DM的一个极好的应用领域。因为①GIS数据库中不仅包含了大量的属性数据,而且还包含了大量的空间数据。②社会上许多行业需要GIS作决策支持和规划管理,而且各应用领域的特点互不相同,都存在着许多显著的但又不充分的领域知识。另一方面,DM在GIS中的应用必将促进DM自身的发展。因为GIS数据库中含有的大量的空间数据比DM已有的应用领域中的数据类型更加丰富和复杂。

3 数据库中的DM可以发现的知识类型

  3.1 有关目标的几何信息知识

  从GIS的图形数据库中,可以很方便地得到关于某一类目标的位置、形状、大小及结构等几何特征,通过归纳与演绎的方法就可得出关于该类地物目标(如飞机场、运动场、果园等)的一般性(或规律性)的几何信息知识。

  3.2 目标与目标之间的相连、相邻与共生关系的知识  从GIS的图形和属性数据库中,不难发现目标间的相连(如火车站与铁路相连)、相邻(房屋与道路相邻)及共生关系(如蒙古包与草场的关系)。

  3.3 目标的几何性质与属性之间的关系的知识

  将GIS中的空间数据与属性数据对应起来,可发现目标的几何与属性之间的对应关系。如山区植被的垂直地带性,在不同的高度和坡度生长着不同的植被。在郊区以植被为主,以建筑物为辅;在城市以建筑物为主,以植被为辅。在北方以旱季作物为主,在南方以水稻为主。这些知识对遥感影像的判读是十分有效的。

  3.4 面向对象的知识

  若GIS中采用了面向对象的数据模型,则可以很方便地提供超类—类—子类目标之间的知识继承、传播和集成。因此,只要借助于GIS中有效的空间分析工具、面向对象的数据模型和DM技术,便可以从GIS中提取对GIS分析、应用、更新等方面所需要的知识。
4 GIS数据库中的DM可以使用的方法

  尽管有不少的文献和研究者探讨过DM的方法,但关于GIS数据库中的DM的方法的研究寥寥无几。笔者认为,在现阶段,至少有以下方法适用于GIS数据库中的DM。

  4.1 归纳与演绎的方法

  这是一种逻辑方法,是从数据库中获取知识的最基本的方法,即从多个已存在的事实中归纳出规则。在GIS中,无论是属性数据还是空间拓扑关系,若进行抽象和概括时,均可用到此方法。如在对游牧民族地区草资源调查中,通过相邻分析,便可归纳出只要有蒙古包,其周围都有草地,且附近必有淡水湖泊。这样的规则完全可以从GIS数据库中发现,并用于以后的遥感调查和建立新的GIS。

  4.2 统计的方法

  统计的方法一直是DM中最主要的方法,在AI领域的关系数据库中它已经得到了充分的利用,它还可以用于GIS中的属性和空间数据库中。如在遥感影像分析中,对影像进行监督分类和非监督分类,都是利用统计的方法得出影像模式后,再按此模式对影像分类。实际上,遥感影像的计算机自动分类也可算是较简单的DM过程,只是其数据为一些以栅格方式存储的影像数据,而不是像关系数据库中的数据那样以关系元组的方式存储。因此,完全可以说在GIS中早就有了DM的思想。

  4.3 空间分析的方法

  空间分析是指一组技术,其结果取决于被分析对象的位置。这些技术不仅需要获取对象的位置,还需要知道对象的属性。GIS数据库中的空间数据提供了空间分析所需要的位置,非空间数据提供了对象的属性数据,因此GIS数据库提供了空间分析所需要的各种数据,利用GIS数据库中的数据可以进行空间分析。空间分析的主要目的是从空间关系中开发数据,以得到空间的内部关系并加以理解。例如空间分析中的探测性空间分析方法不仅可以揭示空间数据库中许多非直观的内容,如空间异常点、层次关系、时域变化及空间交互模型,还可以揭示用传统的地图不能辨明的数据模式和趋势。为了达到此目的,空间分析应利用和开发GIS及其数字环境。在这种数字环境中,数据的比例尺寸能够很方便地改变,能放下层次间的不连续性,还能将不同的数据媒介如文字、声音、图形和影像联结在一起。此外,数字环境要能提供物体间更广泛的联系,因为地图上只是表明了物体空间上的接近及邻近关系,而不能提供物体间的相互作用,以及文化、贸易和社会网络的联系。在面向对象的环境中,属性和空间数据统一在一个对象中存储和管理,以上这些想法相对而言更易于实现。从现实来看,地理位置与地形、土壤、植被及气候等要素是紧密相关的,相互制约的。所以说属性与空间数据是一对矛盾统一体,如果能找到属性形成与空间分布的对应关系,那么若已知某一对象的属性则可知道其相应的空间分布,若已知其空间分布情况,则也可以根据其对应关系知道其相应的属性。
  4.4 Rough集方法

  Rough集理论(Rough Set Theory)是波兰华沙大学Z.Pawlak教授在1982年提出的一种智能数据决策分析工具,被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。Rough集理论为GIS的属性分析和知识发现开辟了一条新途径,可用于GIS数据库属性表的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成等。Rough集方法与其它知识发现方法相结合,可以在GIS数据库中数据不确定情况下获取多种知识。例如,在经过统计和归纳从原始数据得到普遍化数据的基础上,Rough集用于普遍化数据的进一步简化和最小决策算法生成,使得在保持普遍化数据内涵的前提下最大限度地精练知识。

  当然,除了以上介绍的4种主要的方法外,还有其它的一些方法也可以用于GIS数据库中的DM,比如神经元网络的方法、决策树的方法等。

5 GIS数据库中的DM可以采用的DM系统原型

  加拿大Simon大学计算机科学系,在关系数据库挖掘系统DBMiner的基础上,增加空间数据挖掘功能,开发出了一种空间数据挖掘系统原型GeoMiner。该系统能够在地理信息数据库中挖掘特征规则、判别规则和关联规则,扩充后还包括分类规则和数据聚类。系统除了用SAND体系结构建立空间数据库模型外,还有空间数据立方构造、空间OLAP等功能模块。此外,该系统还设计和实现了空间数据挖掘语言GMQL,以及用户接口和空间知识的可视化工具。因此,这一空间数据挖掘系统原型GeoMiner是可以采用的DM系统原型。

  5.1 GeoMiner的系统结构

  它包含有三大模块:空间数据立方体构建模块、空间联机分析处理(OLAP)模块和空间数据挖掘模块,采用的空间数据挖掘语言是GMQL。目前已能挖掘3种类型的规则:特征规则、判别规则和关联规则。GeoMiner的体系结构如图1所示,包含4个部分:(1)图形用户界面,用于进行交互式地挖掘并显示挖掘结果;(2)发现模块集合,含有上述3个已实现的知识发现模块以及. 个计划实现的模块(分别以实线框和虚线框表示);(3)空间数据库服务器,包括MapInfo,ESRI/Oracle,SDE,Informix-Illustra以及其它空间数据库引擎;(4)存储非空间数据、空间数据和概念层次的数据库和知识库。

  5.2 的数据挖掘语言

  Han等人为了挖掘地理空间数据库设计了一种地理数据挖掘查询语言GMQL(Geo-Mining Query Language),它是对空间SQL的扩展,并成功地应用于空间数据挖掘系统原型GeoMiner中。它用于描述和执行空间数据库中的数据挖掘。下面为一个用GMQL语言描述的挖掘空间互联规则的例子。
  例:找出某省pro-a范围内大城镇的空间互联规则

  Mine spatial associatins

  As "大城镇"

  In relevance to water.name, states.area-name

  From towns, water, state, provinces

  Where towns.population>25000 and towns.geo inside province.geo

    and province.area-name = "pro-a" and g-close-to (towns.geo,

    water.geo, 75, "km") and state.area-name = "USA"

6 DM对GIS的贡献

  DM用于GIS,可使GIS 在以下几个方面得到较大的进展或突破:

  (1)使有限数据的GIS 成为具有无限知识的GIS。尽管GIS中存储了大量的数据,但其容量总是有限的,总是对客观世界的不完全描述。而DM利用机器学习技术,能从这些有限的数据库发现新的知识,将这些知识反作用于已有的数据,就可得到更新的数据和知识,这样循环下去,GIS 不仅是一个信息系统,而且是一个数据源和知识源,也就使有限的GIS 变成了无限的GIS,也使静态的数据变成了动态的数据和知识。

  (2)可用于GIS的数据精练。现有的GIS数据库中存储了大量的数据,其中有些数据是必需的,有些数据是冗余的,有些数据是最基本的,有些数据是可导出的。利用DM,可以寻找出数据间的相互依赖性,得到数据间的层次和层次间的相互关系。因而,数据库中就可只存储那些必需的数据和关系,而不必存储其它的数据,就可将GIS 数据库进行精练。这样不仅可以节省存储空间,而且可以提高数据库的管理效率和整个系统的运行速度。

  (3)可用于GIS的数据更新。现有的GIS数据库中存储了描述客观世界的大量数据,而客观世界在人类活动的影响下是时刻变化的,如何将这些变化在GIS中进行快速地更新,也是一个十分棘手的问题。GIS数据库的更新通常是利用新的航空或航天遥感数据,但这时需要解决的问题是哪些数据需要更新,如何自动地从遥感影像中获取更新数据。用DM中的空间分析方法可以解决此问题,它通过对不同时域的数据进行比较,得到事物随时间变化的规律,并找到影响此变化的主要因子。这样,在以后的分析中,只要检查这些主要的因子是否变化,若有变化,就进行数据更新,否则就不予考虑。

  (4)使GIS成为真正的“智能”空间信息系统。在GIS中引入专家系统技术,使GIS具有了一定的自动性和智能性,但它远不能称为一个真正的“智能”系统。因为它不具备自动学习的功能,只能利用已有的知识进行推导。可DM技术的引入,使得GIS 系统能自动地获取知识而可能成为真正的“智能”系统。完全可以说,专家系统与GIS 的结合,使GIS 成为了一个空间咨询和决策支持系统,而:* 与GIS 的结合,可使GIS 成为真正的智能空间信息系统,进而促进GPS、DPS、RS、GIS与ES的完整结合。(收稿日期:2002年6月)
参考文献

1. Koperski K, Adhihary J, Han J. Mining knowledge in geographical data[J]. communications of ACM, 1999

2. K Koperski, J Han. Discovery of Spatial Association Rules in Geographic Information Database[C]. In:Proc 4th Int"I Symp on Large Spatial Databases(SSD"95), Porland, Maine, 1995:47~66

3. Martin Ester, Hans-Peter Kriegel, Jorg Sander. Spatial Data Mining: A Database Approach[C]. In:Proc of the Fifth Int Symp on Large Spatial Database(SSD"97), 1997

4. Batty M, Xie Y. Modelling inside GIS:Part 1. Model Structures, Exploratory Spatial Data Analysis and Aggregation[J]. Int J GIS, 1994; 8(3)

5. Michael F Goodchild. Spatial Analysis Using GIS[M]. Seminar Workbook of NCGIA, 1992-4

6. Amdrew Frank&Mav Egenhofer. Object-Oriented Database Technology for GIS[M]. Seminar Workbook of NCGIA, 1990-11-29

7. 李德仁等. 从GIS数据库中发现知识[J]. 测绘学报,1995;24(1)%[[A;!.(%)

8. 范明等译. 数据挖掘——概念与技术[M] 机械工业出版社,2001-08

9. 石云等. 空间数据采掘的研究与发展[J]. 计算机研究与发展,1999;36(1)

10. 李德仁等. 空间数据发掘和知识发现的框架XWY$武汉测绘科技大学学报,1997;22(4)

11. 李德仁等. 地理信息系统导论[M]. 北京:测绘出版社,1993;36(1)

12. 李德仁等. 论全球定位系统(GPS)、数字摄影测量系统(DBS)、遥感(RS)、地理信息系统(GIS)和专家系统(ES)的结合——纪念夏坚白教授诞辰90周年瞻望测绘科学的发展前景[J]. 测绘通报,1991;(1)

作者简介:蒋良孝,硕士研究生,研究方向为知识发现、数据挖掘。蔡之华,副教授,硕士生导师,研究方向为知识发现、数据挖掘。

【推荐本文】 【打印本页】 【返回顶部
最新文章
推荐文章