前不久给大家分享了升级版【0674 2.8亿!中国工商企业注册全量数据库 (含经纬度) 1949-2023-科研学术数据库】,现在我们尝试将其与【0993 852万+税收调查数据(含SDID)2007-2020-科研学术数据库】进行跨库匹配,最终得到了匹配率超 96% 的高质量数据集【0997 税调数据与工商注册数据匹配结果(2007-2020)-科研学术数据库】(近年匹配率更是高达 98%+)!

匹配方法:
结合两类数据的变量特征,采用两步精准匹配法:
企业名称精确匹配:预处理时剔除「有限责任、股份有限、集团、公司、厂、省、市、区、自治区」等冗余词汇,解决名称表述不一致问题,大幅提升匹配效率。
统一信用代码补配:对第一步未匹配成功的样本,通过统一社会信用代码进行精准匹配,最终合并两部分结果。

核心说明:
总观测值数:926,845 条
新增 2021~2023 年最新数据,2008~2020 年数据沿用统一 sdid 变量,可直接衔接历史研究
附件同步提供「社保缴费基础信息 08_23.dta」,含法人代码、行政区划代码等 5 个补充变量,总观测值 1,083,527 条
数据来源:企业社保缴费统计数据、天眼查工商注册数据库。

数据指标:sdid、年份、newgcid、企业名称、成立日期、注册资本、实缴资本、行业门类、行业门类代码、行业大类、行业大类代码、行业中类、行业中类代码、行业小类、行业小类代码、省份、城市、区县、法人代表、经营状态、统一社会信用代码、工商注册号、纳税人识别号、组织机构代码、企业类型、登记机关、营业期限、纳税人资质、人员规模、参保人数、曾用名、英文名、注册地址、经营范围、邮箱、标签、成立年份、经度、纬度、省、省代码、市、市代码、县、县代码、核准日期、英文名称、法定代表人、公司规模、网址。