人民日报文本数据集(1946-2024)
这份 1946-2024 年《人民日报》文本数据,是横跨近 80 年的权威新闻文献汇编,完整收录了中国共产党机关报从源头到新时代的文字印记,堪称记录国家发展与社会变迁的 “语言化石”。其数据溯源可至 1946 年 5 月 15 日晋冀鲁豫《人民日报》创刊号 —— 这份采用集字报头、套红印刷的解放区报纸,成为数据开篇的历史原点,随后无缝衔接 1948 年报纸合并更名、1949 年随党中央迁入北京后的全部报道,直至 2024 年 12 月的最新内容,形成贯通战争年代、建设时期、改革开放与新时代的完整史料链。
数据规模宏大且维度丰富,累计收录 2040264 条文本样本,以完整版与分年版双形态呈现,每条记录均包含精确的发布日期、版面位置、核心标题与完整正文,系统留存了不同历史阶段的报道原貌。从 1946 年 “土改工作队进驻乡村” 的战地通讯、1978 年思想解放的评论发声,到新时代 “高质量发展”“共同富裕” 的政策解读,文本不仅追踪着党和国家的战略部署,更镌刻着民生百态的细微变迁,如改革开放后 “融资”“品牌” 等经济词汇的兴起,便清晰折射出社会转型轨迹。
历经从 “铅与火” 的纸质存档到 “数与网” 的数字化整编,这份数据完成了跨越式传承 —— 早年间通过 “五十年图文数据光盘” 实现十亿字量的浓缩存储,如今则形成标准化数据库,支持按年份、栏目、关键词等多维度检索,为学术研究提供了高效工具。作为国内连续性最强、权威性最高的主流媒体文本 corpus,它已成为语言学界研究词汇历时演变、史学界梳理政策脉络、社会学界分析舆论变迁的核心资源,既是近 80 年中国历史的 “文本镜像”,更是解码国家发展逻辑的珍贵学术基石。
数据格式:txt


