本项目采用的结构光双目视觉系统采集的数据流包括RGB彩色图像及点云数据。双目相机的精度为1mm@1m(在1米高度处,精度为1mm)。在商超拆垛作业场景下,通过该图像设备采集的点云数据噪音较多,通过单一的机器学习算法很难达到去噪音的目的。因此,在处理三维点云数据时,需要结合二维图像的特征提取,实现点云数据去噪。该任务环境要求实现1000种纸箱的自动精确抓取,传统的视觉技术难以满足如此多种类的图像处理要求,因此,该项目基于深度学习模型,建立了图像分割的神经网络模型。该模型能够对图像中的纸箱进行实例分割,得到每个纸箱独立的掩模(mask)。将实例分割得到的掩模映射到点云数据上,可以去除点云数据中的噪声点。当获取每个纸箱去噪的点云数据后,通过机器学习算法可以计算出每个纸箱的中心坐标,最后将中心坐标位置反馈给机器手的PLC实现精确定位。