社會統計數據均勻指數分析

時間:2022-09-09 05:26:51

導語:社會統計數據均勻指數分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

社會統計數據均勻指數分析

影響經濟社會統計數據空間真實性的要素包括算法、區域內部差異、統計單元規模大小、統計指標的空間展布規律、統計指標的空間規模、統計指標的時間存在特征、統計指標在經濟社會構成中的重要程度等多個方面。經濟社會統計數據表達對象的各種特征對于數據表達的區域內部真實性有一定的影響。顯然地,以省級行政區域為統計單元,我國東部省區和西部省區區域內部差異程度有很大不同,在軟件工具的支持下計算現有以行政單元為對象的統計數據所表現的區域平均狀況,為相應的應用提供數據空間均勻程度支持。

1經濟社會統計數據的空間化

以空間分析為手段,將總量數據離散到空間區域上已有很多應用[1-3],以行政區域為單元的統計數據分散到更接近真實情況的自然或經濟區域上的做法也有一些嘗試[4],特別是對于區域面積很大,且內部特征差異十分明顯的區域做這樣的工作更有實際意義。將社會經濟信息進行空間化處理是根據經濟對象空間分布特征、影響經濟對象分布的自然和社會經濟要素分布,將一定空間單元上的對應信息轉化成1km×1km柵格數據(或其他空間大小的單元,如500m×500m等),每個柵格上的值則表示在1km2內的平均狀況。

1.1經濟社會統計數據空間離散化通用方法

經濟社會統計數據對應的社會經濟指標在空間的分布和變化受多種因素的影響,這些因素就是該經濟社會統計指標的影響因素,區域經濟社會統計數據在空間上分布的計算(離散化),必須考慮該指標影響因素的空間分布情況,及其對該指標的空間作用方式,才能將該經濟社會指標總量數據“分配”到區域內不同的空間上[5]。經濟社會統計空間離散化處理的基本方法是,對于某個經濟社會統計指標,首先計算其每一種影響因子對該經濟社會指標的影響數值,該計算需要依賴地理信息系統軟件工具實現,以ARCGIS軟件為例,其計算方法是利用GRID下的ZONALSTATS函數進行SUM統計,對于增長百分比性質的參數計算,采用平均值統計方法,公式(1)有:TEMPINFO1=ZONALSTATS(ADMGRD,ELEGRD)。其中:ADMGRD為ZONALGRID;ELEGRD為影響要素。公式(2)有:TEMPINFO2=ZONALSTATS(ADMGRD,STATGRD)。其中:ADMGRD為ZONAL-GRID;STATGRD為被統計對象。這樣可以逐個計算得到影響要素在每個行政單元內的總分值、社會經濟要素的總量。將TEMPINFO1,TEMPINFO2合并到一起,并用經濟要素總量除以總分值,即可得到每個分值所代表的經濟總量,并將該值添加到TEMPINFO1的一個屬性項SCORE中;將TEMPIN-FO1與行政區劃ADM屬性表連接,將SCORE項轉換成GRID數據,結果為SCOREGRD;用SCOREGRD乘以要處理的社會經濟要素數據STATGRD,即可得到處理離散過社會經濟指標數據STATGRD。實際計算中沒有必要就每一種區域自然及社會經濟條件對社會經濟要素空間展布的影響分析,可以建立一種模型對某一種社會經濟要素的所有影響因子及基礎條件進行統計計算其影響力,模型為公式(3):AGRD=Vi×EiGRD。其中:Vi為第i種影響因子的權重值,其所有值的和為1;EiGRD為第i種影響因子對該社會經濟要素的影響分值GRID。

1.2人口數據空間離散化

我國人口的空間分布是若干年來經濟社會與自然相互作用的結果,其基本格局是西疏東密,但東南部地區密中有疏,西北部地區疏中有密[6]。根據全國人口統計實際狀況,人口空間分布數據的計算以縣級行政單元人口數據為基礎,考慮人口空間分布的各種影響因素,特別是與產業結構的空間分布有很大關聯度[7]。在人口離散化計算中,首先計算城鎮人口空間分布,然后計算農村人口空間分布,兩之合即總人口的空間分布。

1.2.1城鎮人口的空間離散模型。雖然在城鎮內部人口的分布存在一定差異,全國范圍內城鎮分布在空間上有很大的差別[8],但在全國尺度上,城鎮人口在城鎮斑塊上的分布可以視作是均勻的,因此城鎮人口的空間離散化可以將城鎮人口按照城鎮斑塊面積平攤,在全國尺度上具有一定可信任性。全國城鎮人口的離散化處理是以每個縣級行政區為單元計算的,然后進行匯總,形成全國的城鎮人口分布數據,對于任意一縣級行政單元來說,該縣級行政單元城鎮用地地塊中的任意柵格i,其上分布的人口(即城鎮人口,以2000年為例)可以表示CTPOP_2000i=CTPOP_2000×Si∑ni=1Si。(4)式中:CTPOP_2000i是2000年該縣級行政單元城鎮用地地塊柵格i上的人口;CTPOP_2000i為該縣的城鎮人口總量;Si為柵格i的面積,該縣級行政單元共有n個城鎮用地地塊柵格;∑ni=1Si即為該縣城鎮用地面積。

1.2.2農村人口的空間離散模型。由于自然及社會經濟條件的差異,在全國尺度上,農村人口空間分布具有極大的不均勻性;農村人口的分布依賴于土地利用類型、居民點分布、距交通線遠近、自然資源的分布情況等多種自然地理要素和人文地理要素的空間分布;為此,在縣級行政單元尺度上,為實現盡可能接近農村人口分布的實際需要,采用加權多因子影響力距離衰減模型。加權多因子影響力距離衰減模型中,首先單獨考慮模擬各種影響因子對人口的影響,而后對各種因子影響力的相對大小進行模擬,并以線性疊加的方式將各種影響因子的影響力綜合起來。由于數據的限制,這里主要考慮了城鎮居民點和農村居民點中心的吸引作用、農村居民點斑塊的限制作用,土地利用/覆蓋類型的影響作用。對于任意一縣級行政單元來說,該縣級行政單元農村用地地塊中的任意柵格i(以2000年為例),加權多因子綜合影響力可以表示為W_2000i=∑mj=1∑ni=1K_2000j×Dij。(5)式中:W_2000i為2000年柵格i上加權多因子綜合影響力;i為柵格序號,該縣級行政單元內共有n個農村用地地塊柵格;j為因子編號,該模型中共考慮m個因子;K_2000j為第j個因子在整個模型影響力的權重值;Dij為j因子在柵格i上的影響力。在得到各柵格點的影響力的總和值W_2000i之后,可以將W_2000i視作面積調整系數,與城鎮人口空間離散模型相仿,可建立下面的數學模型進行農村人口的空間離散。得:COPOP_2000i=COPOP_2000×W_2000i×Si∑ni=1W_2000i×Si。(6)式中:COPOP_2000i是2000年某縣級行政單元農村用地地塊柵格i上的人口;COPOP_2000是該縣級行政單元的農村人口總量;Si為柵格面積,W_2000i為2000年的加權多因子綜合影響力,也即柵格i上的人口(農村人口)調整系數。

1.2.3總人口的空間分布模型。將城鎮人口空間分布數據和農村人口空間分布數據進行疊加,即可形成表征總人口空間分布數據。數學模型表示為TPOP_2000i=CTPOP_2000i+COPOP_2000i。(7)式(7)中:TPOP_2000i為任意柵格i處的人口;CTPOP_2000i為柵格i處的城鎮人口;COPOP_2000i為柵格i處的農村人口數;i為柵格序號。

2經濟社會統計數據空間均勻度計算

行政區域有若干級別,考慮到在諸多研究中大量使用以省級行政單元為對象的經濟社會統計數據,為便于研究,這里以省級行政區域單元為對象計算區域GDP、人口、產業增加值等空間均衡性,各指標值的空間均衡性以均勻指數表達。表達均勻程度有很多種方法,這里用自相關指數(ARCGIS中的MORAN指數)來表示。MORAN指數是一種空間自相關描述方式,可以用于描述地理實體在空間的分布關系,可以用于發現和解釋物體在空間分布的原因,在模擬空間現象時可以確定空間臨近程度,該指數的使用有助于提高傳統統計方法分析能力。MORAN指數的計算為公式(8)C=∑∑WijCij/(∑∑Wij)[∑∑(Zi-Zm)2/n]。其中:C表示MORAN指數;∑∑Wij=4×n;n表示GRID中格網的總數,NROW×NCOLS;i,j指任意兩個相臨的格網;Zi格網i的屬性值;Cij是格網i,j屬性的相似性(Zi-Zm)×(Zj-Zm);Wij是格網i,j位置的相似性,如果格網i,j直接相臨(4個方向上),則Wij=1,否則Wij=0。該模型算法中采樣變量σ2采用(∑Zi-Zm)2/n公式計算,其中Zm是GRID數據的格網平均值,其計算是根據空間位置及屬性的相似性進行的。對于計算結果,有3種值可能出現:C>0,表示空間上屬性相似,具有一定的區域性,屬性值在空間具有一定的平滑性;C=0,表示空間上相對獨立,空間上沒有關聯性,基本上是隨機出現;C<0,表示完全不相同,具有相鄰空間區域上的屬性反差很大。借助于軟件工具,基于已空間化的經濟社會各指標數據,可以計算每一省級行政單元上任何指標的MO-RAN指數。社會經濟統計各指標空間均勻指數計算過程:首先,對于某一社會經濟要素及每一個省級行政單元,從對應社會經濟要素的全國1km×1km柵格數據中將各省級行政單元數據提取出來;第二,在軟件工具支持下,計算每個省級行政單元的空間自相關指數MORAN指數;第三,均勻指數計算,將MORAN指數值最小的省級行政單元的值設為1,MORAN指數值最大的省級行政單元的值設為100,其他省級行政單元的均勻指數利用公式(9)進行計算:EQi=(MORANi-MORANmin)/MORANz×99+1。其中:EQ為均勻指數;i為第i個省級行政單元;MORANi為第i個省級行政單元的MORAN指數;MORANmin為所有省級行政單元中MORAN指數最小值;MORANz為所有省級行政單元中MORAN指數最大值與最小值的差值。

3經濟社會統計數據空間均勻度分析

基于上述算法,分別計算2000年以省區為統計單元的社會經濟指標GDP,第一產業、第二產業、第三產業增加值及其他指標空間均衡情況,發現不同的經濟社會指標在相同區域的均衡性有很大的差異。三次產業結構的空間上的差異受市場空間分布、區域經濟發展階段和發展水平等多種因素影響[9]。在三次產業增加值計算的過程中,發現在省級行政區交接地帶,既有產業結構明顯差異的一面,也有經濟合作的烙印[10]。表1是我國2000年度GDP各指標在省級行政單元上的均勻程度。對于GDP總量,就全國而言,其均勻指數為60.8;就各省區而言,均勻性最好的是北京市,其次是天津和上海;均勻指數最低的是西藏,其次是青海、貴州,這說明在各直轄市內區域內部的差異相對較小,而在經濟欠發達的西部地區,GDP總量在空間分布極不均勻。對于第一產業,均勻指數最高的是西藏,其次是青海,其主要原因是這些地區農業相對較為落后,以畜牧業為主,由于普遍增加值較低,相對比較均勻;均勻指數較低的是上海、天津,這些區域農業增加值比重相對較低,且主要分布在城市邊緣地區,整體的空間均勻性較差。對于第二產業,均勻指數最高的是北京,其次是黑龍江、上海、天津,由于第二產業主要集中在城市和城鎮區域,所以在直轄市及工業基礎較好的區域,均勻性較好;均勻性比較差的區域是西藏、青海。對于第三產業,均勻性較好的是北京、天津、上海,這些區域的第三產業基礎較好,分布較為均勻,均勻性比較差的區域是廣東、西藏、云南等;廣東不均勻的原因主要是珠江三角洲地區與北部、西部山區地區的差異過大造成的,而西藏、云南等地則是人口、城鎮相對集中造成的。

4結論與討論

從我國以省級行政單元為對象的經濟社會指標分析數據表達的平均程度發現,我國目前使用的經濟社會統計最主要的問題是以大行政區域為空間單元的統計數據掩蓋了區域內部的差異和不均衡[11]。本研究方法本身有一定的不完整性,但定量化、空間化的嘗試本身則是值得肯定的。這種方法主要基于以下幾個方面的考慮:經濟社會統計對象的空間分布越是不均勻,統計數據的區域平均的真實性越差;統計對象的空間分布規律可以在一定程度上被模擬;統計對象的區域內部不均衡性可以量測,可以用統計區域內部所有空間樣本中不同值域段樣本數占總樣本的比例表示;該方法通過分析統計數據隱含的不確定性,使政策措施決策者在以經濟社會統計數據為依據制定相應的政策措施時,充分考慮統計數據所掩蓋下的區域差異和區域內部差異。