开源的大模型数据集
发布时间:2024年06月06日
大模型的算法模型开源越来越多,大模型工程化也越来越稳定。但是大模型的效果,还是需要持续提升。大模型训练数据集的质量是提升大模型效果最有效的途径,也是最苦最累的脏活,积累前人已经整理开源的数据集,站在数据集巨人的肩膀上,持续迭代大模型。持续关注数据集,优化数据集。
下面是最近看到的开源数据集,后面也会持续积累,不断提升数据集的量和质,促进大模型效果步步提升。
数据集一,开源SFT微调数据集。
数据集二,中文数据集:
供AI训练的中文数据集,目前的数据集餐饮行业8000问,百度知道,Alpaca中文数据集,计算机领域数据集,Vicuna数据集,RedPajama数据集,Wikipedia中文词条数据集,网站论坛问答数据集。
为了推进中文AI的发展,促进AI技术公开化、国际化,我们成立了知识岛(KnowledgeDAO)项目,希望借助大家的力量推进中文AI数据集的建设。
数据、算法和算力,是AI发展的三大基石,其中数据的质量对模型最终性能至关重要。然而,从Hugging Face上的模型数据集数量来看,5W多的数据集中,英语的占比超过90%,优质中文数据少之又少。
高质量数据集的获取花费巨大,我们无力承担如此巨大的开销,于是需要各位有志于筹建开放获取语料,并有一定技术基础的网友们献上自己的力量。
相关数据集地址:
https://github.com/chaoswork/sft_datasets/tree/master
https://github.com/shuliu586/AI_Chinese_DataSet_KnowledgeDAO
出自:https://mp.weixin.qq.com/s/g_eKxN6ej5xGuHvBU9oyHQ
一款多功能工具,提供了处理 PDF 文件的广泛功能。PDFcandy允许用户将文件从 PDF 转换为各种支持的格式,还提供用于合并、拆分和编辑 PDF 以及从 PDF 文件中提取图像和文本的工具。