深度学习在计算机视觉领域的瓶颈已至?

图片来源于视觉中国

  注:本文来自于公众号量子位(QbitAI),作者:栗子、乾明。

  一片欣欣向荣背后,深度学习在计算机视觉领域的瓶颈已至。

深度学习在计算机视觉领域的瓶颈已至?

  提出这个观点的,不是外人,正是计算机视觉奠基者之一,约翰霍普金斯大学教授Alan Yuille,他还是霍金的弟子。

  他说,现在做AI不提神经网络,成果都很难发表了,这不是个好势头。

  如果人们只追神经网络的潮流,抛弃所有老方法;如果人们只会刷榜,不去想怎样应对深度网络的局限性,这个领域可能很难有更好的发展。

  面对深度学习的三大瓶颈,Yuille教授给出两条应对之道:靠组合模型培养泛化能力,用组合数据测试潜在的故障。

  观点发表之后,引发不少的共鸣。Reddit话题热度快速超过200,学界业界的AI科学家们也纷纷在Twitter上转发。

  Reddit网友评论道,以Yuille教授的背景,他比别人更清楚在深度学习在计算机视觉领域现状如何,为什么出现瓶颈。

深度学习在计算机视觉领域的瓶颈已至?

  深度学习的三大瓶颈

  Yuille指出,深度学习虽然优于其他技术,但它不是通用的,经过数年的发展,它的瓶颈已经凸显出来,主要有三个:

  需要大量标注数据

  深度学习能够实现的前提是大量经过标注的数据,这使得计算机视觉领域的研究人员倾向于在数据资源丰富的领域搞研究,而不是去重要的领域搞研究。

  虽然有一些方法可以减少对数据的依赖,比如迁移学习、少样本学习、无监督学习和弱监督学习。但是到目前为止,它们的性能还没法与监督学习相比。

  过度拟合基准数据

  深度神经网络在基准数据集上表现很好,但在数据集之外的真实世界图像上,效果就差强人意了。比如下图就是一个失败案例。

深度学习在计算机视觉领域的瓶颈已至?

  一个用ImageNet训练来识别沙发的深度神经网络,如果沙发摆放角度特殊一点,就认不出来了。这是因为,有些角度在ImageNet数据集里很少见。

  在实际的应用中, 如果深度网络有偏差,将会带来非常严重的后果。

  要知道,用来训练自动驾驶系统的数据集中,基本上从来没有坐在路中间的婴儿。

  对图像变化过度敏感

  深度神经网络对标准的对抗性攻击很敏感,这些攻击会对图像造成人类难以察觉的变化,但可能会改变神经网络对一个物体的认知。

  而且,神经网络对场景的变化也过于敏感。比如下面的这张图,在猴子图片上放了吉他等物体,神经网络就将猴子识别成了人类,吉他识别成了鸟类。

深度学习在计算机视觉领域的瓶颈已至?

  背后的原因是,与猴子相比,人类更有可能携带吉他,与吉他相比,鸟类更容易出现在丛林中。

  这种对场景的过度敏感,原因在于数据集的限制。

  对于任何一个目标对象,数据集中只有有限数量的场景。在实际的应用中,神经网络会明显偏向这些场景。

  对于像深度神经网络这样数据驱动的方法来说,很难捕捉到各种各样的场景,以及各种各样的干扰因素。

  想让深度神经网络处理所有的问题,似乎需要一个无穷大的数据集,这就给训练和测试数据集带来了巨大的挑战。

  为什么数据集会不够大?

  这三大问题,还杀不死深度学习,但它们都是需要警惕的信号。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

关闭