谷歌发布大型机器学习数据集 --科技日报数字报

Google 近日发布了一个巨型数据集 Open Images Dataset V4，为边界框、视觉关系等注释了20000个不同的概念。Open Images Dataset V4包含920万张带有大量注释的图像。注释包括边界框、视觉关系注释以及近3000个不同概念的3000万个图像级标签，注释规模前所未有。此外，他们还使用了自动标记的方法，训练人类标注师用“快速点击”的方法更有效地标注图像。

Open Images Dataset V4的20000个类名本身是Google的内部数据集 JFT的所有名称的子集，包含“超过3亿张图像”。有业内人士认为，近年来，新的大型数据集的发布与新的AI算法出现突破，效率和功能提高之间似乎存在着一定的联系。Open Images Dataset V4的大规模和密集标签或可促进AI的发展。