パナソニック分電盤リミッタースペースなし露出・半埋込両用形上海AI实验室开源发布高质料语料“万卷CC”|万卷cc|ai实验室

近日，上海东说念主工智能实验室（上海AI实验室）发布新一代高质料大模子预检会语料“万卷CC”（WanJuan-CC），首批开源的语料遮蔽往常十年互联网上的公开内容，包含1千亿字符（100Btoken）パナソニック分電盤リミッタースペースなし露出・半埋込両用形，约400GB的高质料英文数据。行为“大模子语料数据定约”本年首发的开源语料，WanJuan-CC将为学界和业界提供大限度、高质料的数据相沿，助力构建更智能可靠的AI大模子。

预检会数据的质料对大模子全体性能至关热切。现时，CommonCrawl（CC）数据集因其限度大、跨度广而成为外洋主流大模子检会数据的热切开端。与此同期，其原始数据形态复杂、数据质料低等问题，或将导致模子检会效力低，以至可能激发价值不雅对都等方面的隐患。

中国科研东说念主员通过原创的数据清洗技能，从CC数据库中抽取约1300亿份原始数据文档进行再处治，“萃取”出其中约1.38%的高质料内容，构建成WanJuan-CC语料库。实验收场领会，WanJuanCC具有高文骨子量、高信息密度的特色，可倨傲现时大模子探员对大限度高质料语料的需求。

上海AI实验室发布的书⽣·浦语2.0（InternLM2）即以WanJuan-CC为短处数据作相沿，使检会效力息兵话建模能力大幅擢升，详尽性能逾越开源社区。

开源数据：https://opendatalab.comパナソニック分電盤リミッタースペースなし露出・半埋込両用形/OpenDataLab/WanJuanCC

高质料语料开动，效简易能双擢升

近期，上海AI实验室发布了新一代大谈话模子书⽣·浦语2.0（InternLM2）。总结谈话建摹骨子，InternLM2详尽性能达到同量级开源模子的逾越水平。模子基漫谈话建模能力的擢升，则收货于预检会文骨子量及信息密度的增强。行为InternLM2的短处预检会语料，WanJuan-CC的文骨子量和高信息密度经过了模子执行考据。在InternLM2的检会历程中，在仅使用约60%的检会数据情况下，模子即获取了与此前使用1T token疏导的性能弘扬，大幅擢升检会效力，并使模子在疏导语料限度上取得了更好的性能。

绿色弧线为InternLM2使用WanJuan-cc行为预检会语料，在不同数据限度上取得的任务性能漫衍，收场领会，WanJuan-CC可大幅擢升模子检会效力

量度团队通过对CC原始数据进行清洗パナソニック分電盤リミッタースペースなし露出・半埋込両用形，去除了网页代码和重迭内容，同期掌握分类模子剔除了告白和质料较差的信息，并通过内容一致性、语法正确性、数据噪声和信息价值等四个维度，对谈话的联结性进行评估。为考据数据质料，量度团队使用WanJuan-CC和RefineWeb（从CommonCrawl中抽取并构建的主流英文预检会语料）离别从头检会了参数目1B的模子，并进行评测。收场领会，由WanJuan-CC行为检会数据的模子在多项考据中取得了更优效力。

基于WanJuan-CC检会的1B模子在Pile考据集评测效力更优，这标明由WanJuan-CC检会的模子在不同界限和种种常识上领有更强能力

四重处治，绝无仅有“萃取”高质料数据

为从翻江倒海的CC数据库中“精选”最可靠的信息，量度团队搭建了高性能漫衍式数据处治基础设施，通过启发式法例过滤、多层级数据去重、内容安全过滤、数据质料过滤等四个设施，从原始数据中“萃取”出高质料数据，数据留存率仅为原数据的1.38%。

通过原创技能，对CC原始数据进行多阶段处治，得到了高信息密度的WanJuan-CC

量度团队率先从CC中抽取了约1300亿份原始数据文档，然后基于高性能数据处治职责流得到2.2T token（35.8亿个文档）安全数据，终末，凭证质料排序精选出1T token（3.6亿个文档）质料最高的数据，构建成WanJuan-CC。如以下柱状图所示，在WanJuan-CC构建历程中的每一阶段，均进行了大比例的数据去除。关于仅占原CC数据比例2.76%的安全信息，量度东说念主员再次“筛”掉五成低质内容，最终呈现出“绝无仅有”的高质料数据。

各清洗阶段的文档保留率和去除率（本图使用对数坐标轴）

数据质料高，模子更可靠

为激动检会更智能可靠的AI大模子，量度团队以保险数据安全性为前提，在数据处治的各要津均扩充了多项安全加固步调，使WanJuan-CC成为当今开源CC语料中首个在毒性（Toxic）、色情（Porn）和个东说念主阴私三方面同期进行了安全加固的英文语料，因而在价值对都方面具有更高的可靠性。

与部分开源CC语料多维度对比，在毒性、色情和个东说念主阴私等方面，WanJuan-CC均进行了安全加固

量度东说念主员离别对WanJuan-CC、Redpajama和Refineweb数据集进行了10万条数据的抽样，从毒性、侮辱、敲诈等7个维度进行评分，以考据各数据集的信息安全性。收场领会，WanJuan-CC在各维度上的体现出最高安全性。

WanJuan-CC与其他开源英文CC语料安全性对比

高质料、多模态、宽界限的数据已成为支捏现时东说念主工智能大模子发展的热切基石。WanJuan-CC的主要构建团队——OpenDataLab尽力于于缔造面向东说念主工智能拓荒者的超大限度、高质料、多模态洞开数据就业平台，当今已汇注高质料多模态数据集超6500个，涵盖大模子研发应用所需的种种语料数据。雷峰网雷峰网雷峰网

下载更多开源语料，请登录大模子语料数据定约开源数据就业指定平台：

夏娃的诱惑

https://opendatalab.com

パナソニック 分電盤 リミッタースペースなし 露出・半埋込両用形 上海AI实验室开源发布高质料语料“万卷CC”|万卷cc|ai实验室

友情链接：

パナソニック分電盤リミッタースペースなし露出・半埋込両用形上海AI实验室开源发布高质料语料“万卷CC”|万卷cc|ai实验室