视频版本内容详见:《零基础
轻松搞定空间计量:空间计量及GeoDa、Stata应用》
一、空间计量经济学及Stata应用(一)1、简介JeanPaelinck在年引入了空间计量经济学这一术语,并将其定义为:经济理论、数学形式化和统计学的结合,空间相互依赖的作用、其他地方因素的重要性、空间的明确建模”。
LucAnselin()将空间计量经济学定义为:在横截面模型和数据面板中处理空间相互作用和空间结构的计量经济学分支(分离空间依赖性和空间异质性)。
空间分析起源于地理学、空间经济学和相关学科。到目前为止,它被认为是专业的领域,因此不是大多数统计软件的标准部分。
空间效应传统的统计理论是一种建立在独立观测值假定基础上的理论。然而,在现实世界中,特别是遇到空间数据问题时,独立观测值在现实生活中并不是普遍存在的(Getis,)。对于具有地理空间属性的数据,一般认为离的近的变量之间比在空间上离的远的变量之间具有更加密切的关系(AnselinGetis,)。正如著名的Tobler地理学第一定律所说:“任何事物之间均相关,而离的较近事物总比离的较远的事物相关性要高。”(Tobler,)*地区之间的经济地理行为之间一般都存在一定程度的SpatialInteraction,SpatialEffects):SpatialDependenceandSpatialAutocorrelation)。一般而言,分析中涉及的空间单元越小,离的近的单元越有可能在空间上密切关联(AnselinGetis,)。然而,在现实的经济地理研究中,许多涉及地理空间的数据,由于普遍忽视空间依赖性,其统计与计量分析的结果值得进一步深入探究(AnselinGriffin,)。可喜的是,对于这种地理与经济现象中常常表现出的空间效应(特征)问题的识别估计,空间计量经济学提供了一系列有效的理论和实证分析方法。一般而言,在经济研究中出现不恰当的模型识别和设定所忽略的空间效应主要有两个来源(Anselin,):空间依赖性(SpatialDependence)和空间异质性(SpatialHeterogeneity)。
空间效应之依赖性
空间依赖性(也叫空间自相关性)是空间效应识别的第一个来源,它产生于空间组织观测单元之间缺乏依赖性的考察(CliffOrd,)。
AnselinRey()区别了真实(Substantial)空间依赖性和干扰(Nuisance)空间依赖性的不同。
真实空间依赖性反映现实中存在的空间交互作用(SpatialInteractionEffects),比如区域经济要素的流动、创新的扩散、技术溢出等,*它们是区域间经济或创新差异演变过程中的真实成分,是确确实实存在的空间交互影响,如劳动力、资本流动等耦合形成的经济行为在空间上相互影响、相互作用,研发的投入产出行为及政策在地理空间上的示范作用和激励效应。
干扰空间依赖性可能来源于测量问题,比如区域经济发展过程研究中的空间模式与观测单元之间边界的不匹配,造成了相邻地理空间单元出现了测量误差所导致。测量误差是由于在调查过程中,数据的采集与空间中的单位有关,如数据一般是按照省市县等行政区划统计的,这种假设的空间单位与研究问题的实际边界可能不一致,这样就很容易产生测量误差。
空间依赖不仅意味着空间上的观测值缺乏独立性,而且意味着潜在于这种空间相关中的数据结构,也就是说空间相关的强度及模式由绝对位置(格局)和相对位置(距离)共同决定。
空间相关性表现出的空间效应可以用以下两种模型来表征和刻画:当模型的误差项在空间上相关时,即为空间误差模型;当变量间的空间依赖性对模型显得非常关键而导致了空间相关时,即为空间滞后模型(Anselin,)。
空间效应异质性
空间异质性(空间差异性),是空间计量学模型识别的第二个来源。空间异质性或空间差异性,指地理空间上的区域缺乏均质性,存在发达地区和落后地区、中心(核心)和外围(边缘)地区等经济地理结构,从而导致经济社会发展和创新行为存在较大的空间上的差异性。
空间异质性反映了经济实践中的空间观测单元之间经济行为(如增长或创新)关系的一种普遍存在的不稳定性。区域创新的企业、大学、研究机构等主体在研发行为上存在不可忽视的个体差异,譬如研发投入的差异导致产出的技术知识的差异,这种创新主体的异质性与技术知识异质性的耦合将导致创新行为在地理空间上具有显著的异质性差异,进而可能存在创新在地理空间上的相互依赖现象或者创新的局域俱乐部集团。
对于空间异质性,只要将空间单元的特性考虑进去,大多可以用经典的计量经济学方法进行估计。
但是当空间异质性与空间相关性同时存在时,经典的计量经济学估计方法不再有效,而且在这种情况下,问题变得异常复杂,区分空间异质性与空间相关性比较困难。空间变系数的地理加权回归模型(GeographicalWeightedRegression,简记为GWR)是处理空间异质性的一种良好的估计方法。
就stata而言,有许多用户编写的工具可以从ssc服务器或其他来源下载。例如
shp2dta
sppack,使用ssc下载,包含spmat,spreg和spivreg
使用searchspatwmat下载spatwmat
使用search……下载spatgsa,spatlsa和spatcorr
使用search…下载spatdiag和spatreg
注意,还有一些其他的包没有在这里描述。
2、动因Theory-driven
从个人决策到社会空间互动。常见的冲击。同伴效应,情境效应,邻里效应。
数据驱动:地理坐标信息。
技术:地理信息系统。统计软件能力。
3、空间数据空间数据有什么特别之处?空间数据可以有多种含义,但它们都有一个共同点,即它们都是关于实体的,这些实体可以通过它们在空间中的位置来描述。大多数社会学家考虑的是地区数据,即关于地区、社区和地区的数据。但实际上,空间数据也可能是关于单点的(事件或对象的位置—点当然是抽象的)。对于这样的数据文件,有一个世界性的事实上的标准,来自ArcGiS软件。
该软件提供了一个所谓的shapefile,可以通过shp2dta过程将其读入Stata。另一种格式是MapInfo交换格式,有一个mif2dta过程可以帮助您处理这些数据。
在下面的文章中,我将描述shapefile更常见的情况。
在开始之前,请注意shapefile实际上由多个文件组成,通常具有相同的名称,但是不同的扩展名。三个文件是必需的:mydata。其中mydata.shp包含坐标。mydata.dbf描述对象和mydata.shx带有索引对象。
另外mydata.prj表示使用的投影(或空间参考)系统。
总结:地理参考信息(格点数据)通常存储在shapefiles(至少3个文件):,分别是.shp、.shx、.dbf。
在Stata.Shapefiles不能直接阅读
shp2dta命令可以将shapefiles文件转换成Stata格式的.
为什么我们需要这么多的文件可以用面积数据来解释:一个区域,比如一个区域,可以用它的边界来描述,从几何上来说,这些边界形成了一个多边形。多边形可以很简单,比如矩形,也可以很复杂。比较美国的一些州,如科罗拉多州或怀俄明州,它们的边界形成简单的直角,而其他一些州,如西弗吉尼亚州,它们的边界形成一个非常不规则的实体。因此,需要不同数量的空间坐标来描述这种异构多边形。
4、空间数据读取所需命令为:
shp2dtausingname-of-shapefile,database(db-new-name)coordinates(co-new-name)genid(id-var)
该命令读取一个名为name-of-shapefile的形状文件,并将其内容写入两个Stata文件(扩展名为.dta),我在这里将其命名为(db-new-name)和(co-new-name)。显然,前者包含对象的描述(主要是在不同位置测量的变量),而后者包含坐标。id-var是要创建的id变量的名称。注意,这两个Stata文件都将保存到当前工作目录的磁盘中。这些新文件可以像任何其他Stata文件一样处理;您可以重命名变量、删除变量或用例、转换变量或将它们与其他文件合并。当然,你会想要小心这样的活动,除非你确定你可以做什么和应该做什么。带有坐标的文件通常最好保持原样!
5、空间权重矩阵通常,W的构建是研究者的一个特别过程。
共同的标准是:
1、地理:
距离函数:分为逆距离空间权重矩阵、逆与阈值距离空间权重矩阵
邻近空间权重矩阵:分为车相邻、后相邻
K近邻空间权重矩阵
2、社会经济:
经济维度(或社会网络)的相似度。
3、两个标准之间的组合。
在Stata中(至少)有三个命令生成W:
spatwmat:距离标准。用于空间单变量分析。
生成的文件与spmat不兼容
spwmatrix:使用地理标准生成W(无地理邻近)。
在社会经济条件下产生W。
从GeoDa导入、导出和操作。
生成文件与spatwmat格式兼容
spmat:
使用地理条件生成W(k近邻权重矩阵下没有)。
从GeoDa导入、导出和读取矩阵。
生成文件与spatwmat格式不兼容
6、空间权重矩阵spatwmatSpatwmat
Spatwmat这个程序由MaurizioPisati编写,创建Stata矩阵。它将以两种方式创建邻接矩阵(或空间权值):它可以读取包含权值的外部文件,也可以从指定纬度和经度的当前数据集中的变量(列)创建权值。
通常,后一种信息来自数据库文件,因为该文件每个case包含一行。请注意,经纬度将表示区域的中心;因此,在这种情况下,只能计算基于距离的权重(但不能计算基于邻居关系的权重)。
1、语法格式为:
spatwmatusing"myweights.dta",name(name-of-matrix)eigenval(name-e-matrix)stand
表示:读取外部矩阵myweights.dta。并将其存储为标准化的,即矩阵名称中的行标准化矩阵;此外,特征值向量存储在name-e-matrix中。
2、Creatingweightmatricesfromlatitudeandlongitude
spatwmat,standname(name-of-matrix)xcoord(lat)ycoord(long)band()
这将从存储在变量lat和long中的坐标创建(标准化的)矩阵名。选项范围()表示对象将被视为仅在指定范围内的邻居。
请注意,“x坐标和y坐标都必须以投影单位表示,例如米、公里、英里或任意数字化单位”,如帮助文件所述。
空间数据分析的主要特点之一是,它考虑了观测单元的空间排列,我们称之为位置(Anselina)。这种空间布局由空间权矩阵W表示,其元素wij表示存在或不存在(二元权矩阵)或每个可能位置对之间的潜在空间相互作用的程度(非二元权矩阵)。
spatwmat的主要目的是生成spatgsa,spatlsa,spatdiag,和spatreg等命令所需要的N*N空间权重矩阵。
为了说明spatwmat的实际应用,以及本文中讨论的其他命令,我将使用俄亥俄州哥伦布市(Anselin)49个相邻规划社区的数据。
#计量经济学服务中心空间计量课程usecolumbusdata.dta,cleardescribe//描述查看
结果为:
#导入数据,查看数据类型.**计量经济学服务中心空间计量课程.usecolumbusdata.dta,clear.describe//描述查看Containsdatafromcolumbusdata.dtaobs:49vars:Feb:08size:1,------------------------------------------------------------------------------------------------------storagedisplayvaluevariablenametypeformatlabelvariablelabel------------------------------------------------------------------------------------------------------idbyte%8.0gNeighborhoodidvaluehovalfloat%9.0gHousingvalue(in$1,)in
转载请注明:http://www.deudeguo.com/jyxl/18456.html