《南方周末报》文本(2008-2024) 数据格式:txt 本数据集为 2008 年至 2024 年《南方周末》报纸的纯文本(.txt)爬取结果,文件按年份分目录存储,每个txt文件以发布日期及序号命名,正文已去除HTML标签与广告噪音,版面完整。该数据集适用于新闻史变迁、主题建模、情感分析及社会事件话语研究,但因未包含图片与读者互动,使用时建议先进行分词与元数据提取,并注意版权仅限学术或非商业用途。