
据知名科技媒体MarkTechPost报道,昨日,谷歌DeepMind团队正式发布了名为WebLI-100B的千亿级数据集。据悉,WebLI-100B数据集包含了惊人的1000亿个图像-文本对,规模远超当前主流的数据集。DeepMind团队此举旨在解决当前视觉语言模型在文化多样性和多语言性方面的局限性。
通过这一庞大的数据集,AI模型将能够更好地理解和识别来自不同文化背景和多语言环境下的图像与文本信息。
值得一提的是,WebLI-100B数据集在构建过程中,并没有采用严格的过滤方式,而是专注于数据的扩展。这一做法使得数据集能够保留更多语言和文化元素的广泛代表性,从而提高了AI模型的包容性。
原创文章,作者:Google,如若转载,请注明出处:https://www.kejixun.com/article/706321.html