仅通过在照片上训练模型,机器学习(ML)的最新技术就可以在许多计算机视觉任务中实现出色的准确性。在这些成功的基础上,进一步提高对3D对象的理解将极大地促进更广泛的应用,例如增强现实,机器人技术,自主性和图像检索。
今年早些时候,我们发布了MediaPipeObjectron,这是专为移动设备设计的一组实时3D对象检测模型。这些模型在完全注释的真实3D数据集上进行训练,以预测对象的3D边界。
框架。但是,由于与2D任务(例如ImageNet,COCO和OpenImages)相比缺少大量的实际数据集,因此了解3D对象仍然是一项具有挑战性的任务。
为了使研究社区能够不断提高对三维实体的理解,迫切需要发布以对象为中心的视频数据集,该数据集可以捕获更多对象的3D结构,同时匹配用于许多视觉任务(例如视频)的数据格式。或Camera stream)以帮助训练和确定机器学习模型的基准。
今天,我们很高兴发布Objectron数据集,这是一个简短的,以对象为中心的视频剪辑集合,可以从不同的角度捕获更大的一组公共对象。每个视频剪辑都带有AR会话元数据,其中包括相机姿势和稀疏点云。
此外,数据还包含为每个对象手动标记的3D边框,以描述对象的位置,方向和大小。该数据集包括15,000个带注释的视频剪辑,并补充了从不同地理区域(覆盖五大洲的10个国家/地区)的样本中收集的超过400万个带注释的图像。
除了具有数据集的3D实体检测解决方案之外,我们还将共享针对四种类型的对象(鞋子,椅子,杯子和照相机)的3D实体检测解决方案。这些模型在MediaPipe中发布,MediaPipe是Google的跨平台可定制ML解决方案的开源框架,适用于实时和流媒体。
该解决方案还支持设备和其他ML解决方案上的实时手,虹膜和身体姿势跟踪。在移动设备上运行的3D对象检测解决方案的示例结果与先前发布的单级Objectron模型相反,这些最新版本使用两级体系结构。
第一阶段使用TensorFlow对象检测模型来查找实体的2D裁剪。然后,第二阶段使用图像裁剪来估计3D边界框,同时为下一帧计算实体的2D裁剪,因此实体检测器不需要运行每个帧。
第二阶段3D边界框预测器在Adreno650移动GPU上以83FPS运行。请参阅3D对象检测解决方案。
图3D对象检测评估指标带有地面trunotnotations,我们使用3D联合交叉点(IoU)相似性统计信息(计算机视觉任务的常用度量)来评估3D实体检测模型的性能。此度量标准测量边界与地面真相的距离。
我们提出了一种算法,该算法可以为面向通用3D的盒子计算准确的3DIoU值。首先,我们使用Sutherland-Hodgman多边形裁剪算法来计算两个盒子的面之间的交点。
这类似于计算机图形学中使用的平截头体剔除技术。相交的体积是根据所有修剪后的多边形的凸包计算得出的。
最后,根据两个盒子相交的体积和并集的体积计算IoU。我们将与数据集同时发布评估指标的源代码。
使用多边形裁剪算法来计算并集的三维交点(左):通过将多边形裁剪到框来计算每个面的交点。右:通过计算所有相交的凸包来计算相交的体积(绿色)。
数据集格式可以在数据集网站上找到该数据集的技术细节,包括用法和教程。数据集包括自行车,书籍,瓶子,照相机,谷物盒,椅子,杯子,笔记本电脑和鞋子,并存储在Google Cloud存储上的objectron存储桶中,具有以下资源:视频剪辑注释标签(物理3D边框)AR元数据(例如相机姿态,点云和平面)已处理的数据集:带注释帧的适应版本,图像格式为tf.example,视频格式为SequenceExample。
支持脚本基于上述指示符运行评估支持脚本,以将数据加载到Tensorflow,PyTorch和Jax中并可视化数据集,包括“ HelloWorld”例子。有了数据集,我们还将打开通向流行的Tensorflow的数据管道,PyTorch在Jax框架中分析数据集。
Colab笔记本的样本也为p