在实证研究中,税收数据与上市公司数据的结合能为企业税负、政策效应等领域的分析提供关键支撑。税调数据与上市公司数据的匹配,不仅解决了中文企业匹配的核心痛点,还形成了兼具规模与实用性的数据集,为研究者提供了重要的数据基础。
匹配核心:破解中文企业名称匹配难题
不同于英文企业名称可能因笔误出现少量字母差异,中文企业名称一字之差便可能指向不同主体,这使得模糊匹配在中文场景下误差极高。为此,本次匹配采用 “精确匹配为主、多轮清洗为辅” 的策略,关键步骤如下:
1.企业名称预处理:删除易混淆的通用词汇,包括 “股份有限”“有限责任”“公司”“厂”,以及 “省、市、区、县” 等行政区划词和 “(集团)” 这类组织形式后缀,消除名称表述差异带来的匹配障碍。
2.双维度匹配验证:先通过预处理后的企业名称进行首轮精确匹配,再对未匹配成功的样本,用组织机构代码进行二次匹配,最终合并两部分结果,确保匹配的完整性与准确性。
3.辅助变量设计:在税调数据中新增 “sdid” 变量,用于唯一标识每个观测值,方便后续与上市公司数据的连接,同时为面板数据构建提供基础。

