我们通过 NLP 算法识别《中国区域经济统计年鉴》《中国县域统计年鉴》并转换为面板数据,对比主流数据库与地方统计局进一步完善县域数据,匹配 2025 年民政部行政区划编码和地区名称完成地区统一,对不同单位数据开展单位换算,对所得指标面板数据进行人工抽样验证,将非平衡面板转换为平衡面板数据,先基于线性趋势对中间缺失值进行线性插值填充得到线性插值版,再利用时间趋势通过 ARIMA 模型对剩余缺失值预测填补得到 ARIMA 填补版,最终保留原始版本、线性插值版、ARIMA 填补版三套数据,最终指标 83 个,涵盖全国 2800 多个区县地区。

数据指标:

地区行政等级、年份、省份、城市、区县、区县代码、所属地域、胡焕庸线、行政区域土地面积 (平方公里)、乡及镇个数 (个)、乡个数 (个)、镇个数 (个)、街道办事处个数 (个)、村民委员会个数 (个)、年末总户数 (户)、乡村户数 (户)、年末总人口 (万人)、乡村人口 (万人)、户籍人口数 (万人)、年末单位从业人员 (人)、城镇单位在岗职工人数 (人)、乡村从业人员数 (人)、农林牧渔业从业人员数 (人)、年末第二产业单位从业人员 (人)、年末第三产业单位从业人员 (人)、农业机械总动力 (万千瓦特)、固定电话用户 (户)、移动电话用户数 (户)、宽带接入用户数 (户)、地区生产总值 (万元)、第一产业增加值 (万元)、第二产业增加值 (万元)、工业增加值 (万元)、第三产业增加值 (万元)、农业增加值 (万元)、牧业增加值 (万元)、人均地区生产总值 (元 / 人)、城镇单位在岗职工平均工资 (元)、城镇居民人均可支配收入 (元)、农村居民人均可支配收入 (元)、地方财政一般预算收入 (万元)、各项税收 (万元)、地方财政一般预算支出 (万元)、城乡居民储蓄存款余额 (万元)、年末金融机构各项贷款余额 (万元)、出口额 (美元)、实际利用外资金额 (美元)、农作物总播种面积 (千公顷)、常用耕地面积 (公顷)、机收面积 (公顷)、设施农业占地面积 (公顷)、农用机械总动力 (千万瓦)、粮食总产量 (吨)、棉花产量 (吨)、油料产量 (吨)、肉类总产量 (吨)、农林牧渔业总产值 (万元)、规模以上工业企业数 (个)、规模以上工业总产值 (万元)、城镇固定资产投资完成额 (万元)、全社会固定资产投资 (万元)、社会消费品零售总额 (万元)、房地产开发投资 (亿元)、普通小学学校数 (个)、普通中学学校数 (个)、普通小学专任教师数 (人)、普通中学专任教师数 (人)、普通小学在校生数 (人)、普通中学在校学生数 (人)、中等职业教育学校在校学生数 (人)、医院、卫生院床位数 (床)、医院和卫生院卫生人员数_卫生技术人员 (人)、医院和卫生院卫生人员数_执业医师 (人)、各种社会福利收养性单位数 (个)、各种社会福利收养性单位床位数 (床)、全社会用电量 (万千瓦时)、城乡居民生活用电量 (万千瓦时)、废气中氮氧化物排放量 (吨)、废气中烟尘排放量 (吨)、工业废气中二氧化硫排放量 (吨)、艺术表演场馆数_剧场、影剧院 (个)、公共图书馆总藏量 (千册)、体育场馆机构数 (个)。
.