[最新发表] 基于聚类分析和统计学习的31年全球格网人口数据集(1990-2020)

发布日期:2024-01-26 10:56
浏览次数:52
1706238290170



【摘要】 
      持续监测全球人口空间动态对于实施与可持续发展相关的有效政策至关重要,例如流行病学、城市规划和全球不平等。然而,现有的全球格网人口数据产品缺乏一致的人口估计,不适合时间序列分析。为了解决这个问题,本研究设计了一个基于聚类分析和统计学习方法的数据融合框架,从而生成了连续31年的全球网格人口数据集(GlobPOP)。 GlobPOP数据集通过两级空间和时间验证进行评估,以证明其准确性和适用性。空间验证结果表明GlobPOP数据集高度准确。 时间验证结果表明,在八个具有独特人口动态代表性的国家及城市,GlobPOP数据集的表现始终良好。GlobPOP数据集提供了人口数量和人口密度两种格式,用户可以利用该数据集对人口进行时间序列分析,并探索全球、国家和城市各级尺度人口发展的空间模式。

【研究背景】
      
       可持续发展目标强调 "不让一个人掉队",这意味着我们需要越来越多的时空一致的网格化人口数据,以识别易受贫困、疾病和其他挑战影响的地区和群体,从而采取更有针对性和更有效的干预措施。目前有五种长时间序列的全球格网人口数据产品,包括全球人类住区图层人口(GHS-POP)、全球农村城市测绘项目(GRUMP)、世界格网人口第 4 版(GPWv4)、LandScan 人口数据集和 WorldPop 数据集,其空间分辨率均为 30 弧秒(赤道约 1 公里)。然而,以往的研究发现了这些数据集的存在以下局限性。
首先,目前还没有空间分辨率约为 1km 的连续长期格网人口数据集,尤其是 2000 年以前。其次,人口数据产品的可靠性和不确定性通常仅在元数据中描述或在特定国家和地区验证。现有五套格网人口数据产品被广泛用于全球尺度的研究,每种人口数据产品都有其适用性,不同数据集在无人居住地区的准确性也存在差异。基于以上问题,本文的研究目标即整合这五套多源人口数据,并通过统计学习方法利用每种数据的优势,生成一套适合长时间序列分析的新人口产品。


【方法介绍】
       
       本研究提出了一个数据融合框架,利用现有的五个产品生成 1990 年至 2020 83 年连续的全球格网人口(GlobPOP)。如图所示,整个人口数据生成框架分为三个部分。第一部分是预处理,通过转换人口数据格式和线性补缺来统一数据。第二部分是基于聚类分析和统计学习的模型构建和估算。聚类分析有助于了解每个人口数据集在不同国家的表现差异。估算模型是通过对聚类表现较好的地区进行回归参数训练,建立统计学习模型。第三部分是准确性验证,包括空间和时间两个层面的验证。最后,进行模型的基准测试,并讨论了新数据产品在像素尺度上的适用性。
数据融合框架的关键在于充分理解和利用五种输入人口数据产品的优缺点,并将其纳入人口融合回归模型。因此,本研究进行了聚类分析,以了解每个人口数据集在不同国家的表现差异。第二步是通过统计学习建立估计模型。为了根据表现较好的国家来训练人口融合的回归参数,我们选择了两个统计回归模型来进行人口预测。广义线性模型(GLM)和分位数回归模型(QRM)可有效控制研究中的混合因素。

图1 全球格网人口产品(GlobPOP)流程图 


精度验证
  
       在空间验证方面,我们使用了四个指标(R2、RMSE、MAE 和相对熵)来验证Glob POP在217 个国家和 9 个国家的3664个次省级区域的总体准确性。与《2022 年世界人口展望》相比,GlobPOP 的总体R2大于0.999。在次省级尺度上,R2高于 0.972。空间验证结果表明,GlobPOP产品估算结果在国家级和次省级尺度上的准确性较高。
在时间验证方面,进行了时间序列曲线相似性比较和趋势分析验证。验证区域选择了八个国家及其首都或人口最多的城市,在两个尺度上进行了时间验证。GlobPOP数据集显示出与人口普查曲线最一致的曲线变化,同时在局部尺度上也很好地描述了人口时序动态。
  
图2 GlobPOP与其他数据集的国家人口时间序列曲线比较。(a)1990 -2020年八个国家的人口时间序列曲线; (b) 2000 年至 2020 年八个国家的 GlobPOP、LandScan 和 WorldPop 数据集的人口时间序列与《世界人口展望2022》数据的 DTW 距离。


图3 八个通过显著性检验的GlobPOP城市人口趋势分析。(a) 日本-东京; (b)中国-北京; (c)德国-柏林; (d)黎巴嫩共和国-贝鲁特; (e)美国-纽约; (f)利比里亚-蒙罗维亚; (g)葡萄牙-里斯本; (h)圭亚那-乔治敦。

图4  不同格网人口产品2020 年人口分布和谷歌地球影像的像元比较案例。(a)中国东部农田; (b)中国北方森林; (c)非洲撒哈拉沙漠; (d)中国西南部雪山; (e)南美洲潘塔纳尔湿地

结论

凭借30弧秒的空间分辨率(赤道约1km),GlobPOP 提供了比传统人口普查数据更详细的人口分布。时空间验证结果表明,GlobPOP模型适用于在全球、国家、城市尺度上对人口进行时间序列分析,并探索各级尺度人口发展的空间模式。


该论文已发表于Liu, L., Cao, X., Li, S. et al. A 31-year (1990–2020) global gridded population dataset generated by cluster analysis and statistical learning. Sci Data 11, 124 (2024).https://doi.org/10.1038/s41597-024-02913-0.
代码: https://github.com/lulingliu/GlobPOP



分享到: