NLP 类数据资源

综合型资源(推荐)- funNLP

NLP民工的乐园: 几乎最全的中文NLP资源库

 类ChatGPT的模型评测对比 <br> 类ChatGPT的资料 <br> 类ChatGPT的开源框架 <br> LLM的训练_推理_低资源_高效训练 <br> 提示工程 <br> 类ChatGPT的文档问答 <br> 类ChatGPT的行业应用 <br> 类ChatGPT的课程资料 <br> LLM的安全问题 <br> 多模态LLM <br>* LLM的数据集
 语料库 <br> 词库及词法工具 <br> 预训练语言模型 <br> 抽取 <br> 知识图谱 <br> 文本生成 <br> 文本摘要 <br> 智能问答 <br>* 文本纠错  文档处理 <br> 表格处理 <br> 文本匹配 <br> 文本数据增强 <br> 文本检索 <br> 阅读理解 <br> 情感分析 <br> 常用正则表达式 <br>* 语音处理
 常用正则表达式 <br> 事件抽取 <br> 机器翻译 <br> 数字转换 <br> 指代消解 <br> 文本聚类 <br> 文本分类 <br> 知识推理 <br> 可解释NLP <br> 文本对抗攻击  文本可视化 <br> 文本标注工具 <br> 综合工具 <br> 有趣搞笑工具 <br> 课程报告面试等 <br> 比赛 <br> 金融NLP <br> 医疗NLP <br> 法律NLP <br> 文本生成图像 <br>* 其他

综合型语料-ChineseNLPCorpus

ChineseNlpCorpus-中文自然语言处理数据集汇总

  • 对网络开源的语料资源、预训练模型、NLP 工具进行汇总
  • 带标注类语料:阅读理解、对话意图识别、文本分类(类型/情感/观点)、实体识别&词性标注&分词、句法分析、信息抽取、搜索匹配、推荐系统、指代消歧
  • 无标注类语料:百科数据(维基、百度)、古诗词、行业语料(保险)
  • 预训练模型:BERT 及其变种(ERINE、RoBERT、ALBERT)、EMLO

超大规模中文语料集-MNBVC

MNBVC (Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集

  • 对标 chatGPT 训练的 40 T 数据。MNBVC 数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC 数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

否定与推断类语料-NegSpecCorpora

NegSpecCorpora-中英文否定与推断类语料

  • 时间跨度较大,针对否定与推断类这一领域语料较为全面
  • 多数为英文语料,中文语料较少(只有 3 个,可追溯到数据的只有 1 个)
  • 唯一能下载中文语料是短篇故事类,包含中英文两部分:下载地址
  • 另外两份中文语料只能追溯到相关论文:CNeSqEMR-电子病历相关

语料补充

  • CNeSq 语料存在下载地址,只是失效了。。。
  • 华科大 NLP 平台-CCIIP 也存在否定句语料,只是申请渠道关闭了。。。

分词字典汇总

多领域中文分词工具包pkuseg 自带多个领域字典,以医药类为例:

  • 数据规模:内含字数 2834095、词数 419830;
  • 数据特性:内容丰富但略显冗杂,包含很多长词,比如药物/手术/医药公司名称等

chinese_dictionary:同义词表,反义词表,否定词表

NLP-Dictionary:情感词典、停用词典、敏感词典、同义词典、程度词典、否定词典

中英文 wiki 语料库

wiki 语料-官网

英文wiki语料库(11.9G)  中文wiki语料库 (1.2G)

扩展实验:

近期中文开源数据集 230529

(摘自网络,内容待验证)

CodeGPT:由 GPT 和 GPT 生成的与代码相关的对话数据集;背后机构为复旦大学。

CBook-150 k:中文语料图书集合,包含 15 万本中文图书的下载和抽取方法,涵盖人文、教育、科技、军事、政治等众多领域;背后机构为复旦大学。

RefGPT:为了避免人工标注的昂贵成本,提出一种自动生成事实型对话的方法,并公开我们的部分数据,包含 5 万条中文多轮对话;背后是来自上海交大、香港理工大学等机构的 NLP 从业者。

COIG:全称“中国通用开放指令数据集”,是更大、更多样化的指令调优语料库,并由人工验证确保了它的质量;背后的联合机构包括北京人工智能研究院、谢菲尔德大学、密歇根大学、达特茅斯学院、浙江大学、北京航空航天大学、卡内基梅隆大学。

Awesome Chinese Legal Resources:中国法律数据资源,由上海交大收集和整理。

Huatuo:通过医学知识图谱和 GPT 3.5 API 构建的中文医学指令数据集,在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在医疗领域的问答效果;项目开源方是哈工大。

Baize:使用少量“种子问题”,让 ChatGPT 自己跟自己聊天,并自动收集成高质量多轮对话数据集;加州大学圣迭戈分校(UCSD)与中山大学、MSRA 合作团队把使用此法收集的数据集开源。

剑桥法律语料库(CLC):包含超过 250,000 个来自英国的法庭案件和案件结果注释

往年同期文章