推广 热搜: 废旧  金属  销毁  益福 

广州GDYF环境保护公司:智源开源中英文语义向量模型训练数据集MTP

   日期:2023-09-19     来源:深圳票据销毁中心    作者:szzlxh8    浏览:0    
核心提示:智源商酌院宣布面向中英文语义向量模型训练的大规模文本对数据集MTP。这是全球最大的中、英文文本对训练数据集,数据规模达3亿对,祈望推动解决中文模型训练数据集缺乏问题

益美环境服务销毁处理9月18日 资讯:近日,智源研究院公布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。

这是全球最大的中、英文文本对训练数据集, 数据规模达3亿对,渴望推动解决中文模型训练数据集缺乏问题。

据介绍,MTP(massive text pairs)中文记录达1亿条,英文数据达2亿条。MTP 是如今为止开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供了紧要的基础。

该数据集网罗了各种不同的数据源,包罗 wudao、cmrc2023、dureader、simclue、csl、amazon_reviews_multi、wiki_atomic_edits、mlqa、xlsum 以及其他一些来自互联网的数据,如社区问答、报导和文献等。

智源商量院表示,数据对大模型训练起着至关关键的基础用意,开源亦是人工智能发展的重大推动力量。作为大陆大模型开源生态圈的代表机构,智源持续进行包含数据在内的大模型全栈技术开源,推动人工智能共同新意。

MTP数据集链接:

https://data.baai.ac.cn/details/BAAI-MTP

BGE 模型链接:

https://huggingface.co/BAAI

BGE 代码仓库:

https://github.com/FlagOpen/FlagEmbedding

(投诉)

 
打赏
 
更多>同类资讯

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  最新发布  |  最新求购  |  最新公司  |  供应信息  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备17089884号