关于上下料机器人视觉的深度学习

由于深度学习在计算机视觉领域得到了非常好的效果，做上下料机器人的自然也会尝试把 DL 用到上下料机器人的物体识别中。

首先，对于物体识别，这个就可以照搬 DL 的研究成果了，各种 CNN 拿过来用就好了。在 2016 年的『亚马逊抓取大赛』中，很多队伍都采用了 DL 作为物体识别算法。

然而，在这个比赛中，虽然很多人采用 DL 进行物体识别，但在物体位姿估计方面都还是使用比较简单、或者传统的算法。似乎并未广泛采用 DL。这里一般是采用 semantic segmentation network 在彩色图像上进行物体分割，之后，将分割出的部分点云与物体 3D 模型进行 ICP 匹配。

当然，直接用神经网络做位姿估计的工作也是有的，如这篇：

Doumanoglou, Andreas, et al. "Recovering 6d object pose and predicting next-best-view in the crowd." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

它的方法大概是这样：对于一个物体，取很多小块 RGB-D 数据（只关心一个patch，用局部特征可以应对遮挡）；每小块有一个坐标（相对于物体坐标系）；然后，首先用一个自编码器对数据进行降维；之后，用将降维后的特征用于训练Hough Forest。

更多上下料机器人相关内容：www.rayeeintel.com