近年来,光学计算被认为可以突破电子计算的瓶颈限制,光的并行性、高速度和低损耗可以极大提高计算速度、降低能耗与延迟。然而,目前绝大部分光神经网络计算需要相干激光作为光源,必须搭建独立的光学系统才能够工作,因此很难适用于非相干光环境,尤其是在自然光照场景下难以与成熟的机器视觉系统直接结合。
为了进一步提高实用性,综合利用光与电的计算优势,科学家们提出了前端为光,后端为电的光电混合神经网络。但是,主要基于透镜组的光电混合神经网络硬件系统(如4f系统)具有尺寸庞大的外形,难以部署在如自动驾驶、机器人或其他物联网外围设备中。
近日,来自清华大学的陈宏伟教授团队提出了一种用于机器视觉任务的无透镜光电神经网络(LOEN)架构,该架构利用成像光路中插入的无源掩模版在光域执行卷积运算,解决了自然场景中非相干光源和宽带光信号处理带来的挑战。同时,将整个链路中产生、接收、处理、决策的各个环节(光学端、图像数字处理、电神经网络)相结合,面向特定视觉任务联合优化,实现了全链路功耗和体积的“极简化”。
相比于传统机器视觉的硬件架构,本文提出用光学振幅掩模版取代透镜组,紧贴传感器放置。根据光直线传播的理论,空间场景可以看成一组发光点,光信号经过掩模版的空间调制,在图像传感器上实现移位叠加的卷积操作。实验证明,光学掩模版可以代替卷积神经网络(CNN)的部分卷积层,实现光域上的特征提取。
更进一步,扩大光学掩模版的维度,使得图像经过光域卷积,在传感器上呈现出人眼不可辨认的混叠图像,可以天然地实现对场景中隐私信息的加密。研究团队以人脸识别任务验证了该架构中光学加密的性能,相比于未经优化
的掩模版,使用端到端的无透镜光电神经网络联合优化后的掩模版的人脸识别精度可提升超过 6%,实现隐私保护加密的同时,基本可以达到与无加密人脸识别相近的精度。
该工作提出了一种针对机器视觉系统“极简化”的有效方案,不仅实现了自然场景下光电融合神经网络计算,而且打通光电全链路完成联合优化,实现面向某一特定视觉任务的最佳效果。未来,随着对非线性材料的进一步研究,将光学掩模版与非线性材料结合有可能实现全自然光神经网络,使计算速度进一步提高、能耗进一步降低。