业界首个大规模中文科学文献数据集——CSL发布

标签:数据集 时间:2022-10-02 23:11:00.288 发布者:小木

论文名:CSL: A Large-scale Chinese Scientific Literature Dataset
发布时间:2022年9月
论文地址:https://arxiv.org/abs/2209.05034v1
代码地址:https://github.com/ydli-ai/csl

原文摘要:科学文献是一个高质量的语料库,支持大量的自然语言处理(NLP)研究。然而,现有的数据集是以英语为中心的,这限制了中文科学NLP的发展。在这项工作中,我们提出了CSL,一个大规模的中文科学文献数据集,它包含了396k篇论文的标题、摘要、关键词和学术领域。就我们所知,CSL是第一个中文科学文献数据集。CSL可以作为一个中文语料库。同时,这种半结构化的数据是一种自然的注释,可以构成许多有监督的NLP任务。基于CSL,我们提出了一个基准来评估模型在科学领域任务中的表现,即总结、关键词生成和文本分类。我们分析了现有文本到文本模型在评估任务上的行为,并揭示了中文科学NLP任务所面临的挑战,这为未来的研究提供了宝贵的参考。