google宣布史上最大规模的千亿级视觉言语数据集,Scaling Law的后

作者: [db:作者] 分类: 科技 发布时间: 2025-02-15 08:33
起源:DeepTech深科技2009 年,ImageNet 数据集的宣布让深度进修在盘算机视觉范畴迎来了转机点。这个包括 1,400 万张图像的数据集,不只推进了卷积神经收集的开展,更首创了用年夜范围数据练习视觉模子的先河。随后,JFT-300M(3 亿图像)跟 JFT-3B(30 亿图像)的接踵问世,进一步验证了“数据范围决议模子下限”这一理念。比年来,跟着视觉言语模子(VLM,Visual Language Model)的崛起,研讨职员开端存眷图像-文本对数据集的构建。从最初的 COCO Captions(包括约 12 万张图像),到微软的 Conceptual Captions(约 330 万对数据),再到 LAION-5B(50 亿对)跟谷歌的 WebLI(100 亿对),数据范围在连续冲破。而当初,谷歌 DeepMind 团队再次革新了这一记载。2 月 11 日,谷歌 DeepMind 在 arXiv 上宣布了题为《将视觉言语模子的预练习扩大至千亿级数据》(Scaling Pre-training to One Hundred Billion Data for Vision Language Models)的论文。他们推出了范围绝后的视觉言语数据集 WebLI-100B,包括 1,000 亿对图像-文本数据。这个数据集在 WebLI 的基本上构建,不只坚持了原有的高品质抓取战略,还将范围扩展了 10 倍。那么,将数据范围扩展 10 倍毕竟能带来什么样的晋升?研讨成果发明,在传统的东方核心化义务上,从 100 亿扩大到 1,000 亿的边沿效益较小。详细来说:在 ImageNet 零样天职类义务上,ViT-L/16 模子在 100 亿数据练习时的过错率为 29.7%,扩大到 1000 亿后仅下降到 28.5%。同样的趋向也呈现在 CIFAR-100 等其余分类义务上。在 COCO 图像检索义务中,机能晋升也绝对无限。这些成果经由过程 Wilcoxon 标记秩测验失掉了统计学支撑(p 值为 0.9),标明在这些传统义务上的机能差别并不明显。图丨左侧:将数据从 100 亿扩大到 1000 亿样本,比其余指标更明显地加强了文明多样性跟多言语才能;右侧:数据范围影响的示例(起源:arXiv)但是,在文明多样性相干义务上,年夜范围数据展示出了不测的代价。研讨团队应用 Dollar Street 数据集(一个包括来自 63 个国度的 38,000 张图像的数据集)来评价模子对差别文明场景的懂得才能。成果标明:在 10-shot 分类义务中,ViT-L/16 模子在 1,000 亿数据上单轮练习就到达了 41.7% 的正确率,而同样架构的模子在 100 亿数据上练习 10 个 epoch 只能到达 35.9%。更年夜的 ViT-H 模子取得了相似幅度的晋升。这 5-6 个百分点的相对机能晋升远超传统义务上不到 1% 的增益。Wilcoxon 测验的 p 值为 0.002,标明这种晋升存在统计学明显性。在多言语才能方面,研讨者们发明了一个愈加惹人注视的景象:低资本言语从年夜范围数据中取得的收益显明高于高资本言语。研讨团队应用 Crossmodal-3600 数据集(包括 36 种言语的图像-文本检索义务)停止评价,发明:以 Telugu 言语为例,只管它在全部数据会合仅占 0.036% 的比例,但模子机能依然取得了明显晋升。这种“长尾效应”在其余低资本言语(如孟加拉语、菲律宾语、印地语、希伯来语、毛利语跟斯瓦希里语)中也广泛存在。而且,这种差别在模子范围越年夜时更加显明。名目担任人之一的翟晓华在交际媒体上以 Telugu 言语为例,以为“这凸起展现了年夜范围数据集在改良长尾观点懂得方面的力气。即便在数据会合占比极小的言语,也能从中受益。”图丨相干推文(起源:X)研讨团队还深刻摸索了数据品质与多样性之间的衡量。他们发明,应用 CLIP 模子停止品质过滤固然能晋升 ImageNet 等传统义务的机能,但会下降 Dollar Street 等文明多样性指标的表示。这个发明促使研讨者们提出了一个简略但无效的战略:将低资本言语的采样比例晋升到 1%。试验标明,这种重均衡战略固然会稍微影响英语义务的机能,但能明显改良模子在低资本言语上的表示,终极实现了更均衡的机能散布。在模子留神力可视化方面,研讨发明数据范围的扩展确切辅助模子构成了更过细的懂得。比方,在辨认“Igorot Dance”(菲律宾伊戈洛特族传统跳舞)的图像时,在 1,000 亿数据上练习的模子可能更正确地存眷传统衣饰的细节特点;在辨认“Igloo”(因纽特人冰屋)时,模子也能更好地捕获其奇特的穹顶构造特点。图丨在差别数据范围上练习的 ViT-L/16 模子的留神力求可视化(起源:arXiv)别的,研讨还摸索了年夜范围数据对迁徙进修的影响。团队应用 PaLI-Gemma 模子评价了视觉特点的迁徙后果,涵盖了图像描写、视觉问答、宰割等多个卑鄙义务。在这些义务上,模子机能并未随数据范围的增添而明显晋升。这提醒咱们,晋升迁徙进修后果可能须要摸索新的模子架构或练习战略。值得一提的是,该研讨还颁布了具体的数据扩大战略跟试验成果,这将有助于学术界更好地舆解年夜范围数据对视觉言语模子的影响。不外遗憾的是,因为数据群体量宏大且波及版权等成绩,WebLI-100B 现在还未对外开放。这项研讨再次证实,Scaling Law 的潜力或者远未涉及天花板。在良多难以收回声响、难以看到的处所,另有很多有代价的数据等候被发掘。参考材料:1.https://arxiv.org/abs/2502.076172.https://x.com/XiaohuaZhai/status/1889775999648248024经营/排版:何晨龙

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!