http://mp.weixin.qq.com/s?__biz=MzI1NTE4NTUwOQ==&mid=2650325320&idx=1&sn=46bf96254385ac5dc98c483652fe281c&scene=1&srcid=0819trUwvVTJixa2vTpUJ4dd&from=groupmessage&isappinstalled=0#wechat_redirect
摘要

2016年8月12、13日深圳CCF-GAIR大会期间,深度学习大讲堂采访了南京大学周志华教授和360首席科学家颜水成博士,就深度学习的应用、与经典机器学习技术的关系、来自神经科学研究的启发、深度学习的未来发展等问题进行了深入探讨。

导读

CCF-GAIR全球人工智能与机器人峰会由中国计算机学会主办,雷锋网承办,深圳市政府指导。多达1500人参与了本届CCF-GAIR大会,他们是人工智能、机器人、智能驾驶等领域的从业者、研究者和各路科技媒体。

深度学习是目前人工智能领域一个最热门的主题,本次CCF-GAIR大会期间,深度学习大讲堂作为特邀技术媒体在大会期间采访了南京大学周志华教授和360首席科学家颜水成博士,访谈内容涵盖深度学习的应用、深度学习与经典机器学习技术的关系、神经科学研究对深度学习的启发意义、深度学习的未来发展等深度技术问题。

对话南京大学周志华教授

背景介绍:

周志华,男,1973年11月生。现任南京大学计算机科学与技术系副主任、南京大学计算机软件新技术国家重点实验室常务副主任、机器学习与数据挖掘研究所 (LAMDA) 所长,校、系学术委员会委员。国际计算机学会(ACM) 杰出科学家,国际人工智能学会 (AAAI) 、国际电气电子工程师学会 (IEEE) 、国际模式识别学会 (IAPR)、国际工程技术学会 (IET/IEE)、中国计算机学会 等学会的会士 (Fellow)。主要从事人工智能、机器学习、数据挖掘、模式识别等领域的研究工作。主持多项科研课题,出版英文著作一部,主编文集多部,获发明专利十余项,在一流国际期刊和顶级国际会议发表论文百余篇,被引用万余次。
图1. 周志华老师转发的专业深度学习调试的网图

在微博上,周志华教授一贯言辞犀利又不失风趣。例如周老师层转发过图1名为专业深度学习调试的网图。周老师还配了一个犀利旁白“有点幽默,但很朴实:深度学习现在差不多就是民工活。调来调去,刷来刷去,文章发得飞快,貌似热闹,但有多少是能积淀下来的实质真进展,又有多少是换个数据就不靠谱了的蒙事撞大运?何曾见过调试SVM核函数3元一个?既缺乏清澈干净的内在美感,再不致力于去伪存真正本清源,只图热闹好看,迟早把arXiv变成废纸堆”。

此微博一出,立刻在社交网络上引发了热议,既有拥趸的转发呼应,也有反对者的犀利评论。周志华教授最后总结发言是“深度学习本身有很多重要的问题值得研究。年轻学生还是要尽量让自己沉静下来,多思考些深入的问题,不要急,否则浮几年下来就没根了。严肃的机器学习研究不是靠调参刷分”。

社交网络上的周志华教授保持着对深度学习的冷静观察和批判性思考,那么周志华教授如何看待自己学术成果的实际应用,如何看待深度学习与经典机器学习方法的关系,又对深度学习存在的问题做了哪些思考,请看下面的访谈。
图2. 周志华教授采访照

Q: 您在过去二十年中一直从事机器学习理论研究,比如多示例学习和集成学习,除了理论研究之外,您的工作成果有哪些实际中的应用?
A:计算机科学是一个应用驱动的学科,中国几乎所有大一点的互联网公司、通讯公司,甚至包括一些跨国的企业,都和我们有合作。机器学习不是做一个具体的事情,而是在一些数据分析的任务中,遇到一些困难的问题,是用现成的技术解决不了的,我们会设计提供解决方案。用户往往看到的只是例如防火墙、金融理财产品,但是背后的数据分析问题是可以由我们来利用机器学习技术解决的。

Q:您如何看待深度学习的进展对经典机器学习方法的启发意义?
A: 机器学习中很多方法都是相同的,所谓深度学习,可以把它看成一种语言。深度学习并不是与过去的方法截然不同的,而是一种描述方式。深度学习中融入了很多以往的机器学习方法的机理,也融合了很多过去的方法,包括一些共性的理论问题也都是一样的。

Q:您如何看待在深度学习应用过程中“性能不够、加层来凑”的说法?
A:这个看法其实不是很对。增加了层数,不是说学习性能一定会变好。层数增加使得模型的复杂度更高,可以吃下去更多的数据,但是性能不一定会变好。比如一个问题本来只需要100层的网络,如果做到120层性能反而可能会变坏。

Q:是不是意味着模型复杂度要和样本复杂度匹配?
A:要恰当的好,过犹不及

Q:是否有量化评价深度网络复杂度的方法?
A:复杂度的评价是有方法的,可以从参数的数目、学习理论的角度来做。但是神经网络的机理,其中有很多trick, 许多启发式的试错的做法。很多人去试,试出了很多不错的做法。做应用的门槛相对低,甚至培训几个星期就可以做。但是做理论有很高的门槛,需要多年的培养。现在虽然试出很多的方法,但是没有足够多的做理论的人一个个去分析。一定要找到共性的东西,才能做理论分析。现在的问题是,大家都盲目的去试,最后都报告出来很有用,理论分析就跟不上了。

Q:用一句话来赞美或者批判深度学习?
A:其实,既不用赞美也不用批评深度学习,这是一个很自然的技术发展过程机器学习每过五年、十年,就会有一种新的技术在当时变得非常流行。比如说90年代的统计学习,2000年的概率图模型以及2010年以来的深度学习。

Q:深度学习目前最大的问题是什么
A:我认为目前深度学习领域中最大的问题是理论的研究没有跟上,很多的技术大家都只是在尝试,缺乏比较严格的理论分析。

对话360首席科学家颜水成博士

背景介绍:

颜水成博士,360 首席科学家,360 人工智能研究院院长。曾在新加坡国立大学领导机器学习与计算机视觉实验室。颜水成博士的主要研究领域是计算机视觉,深度学习与多媒体分析。他的团队在五年内曾7次问鼎计算机视觉领域顶级竞赛PASCAL VOC 和 ILSVRC的世界冠军和亚军奖项。他的团队所提出的“Network in Network” 对深度学习产生了很大的推动力,曾被Google在深度学习领域的代表性工作GoogLeNet引用并进一步发展为Inception结构。2015年,颜水成博士从新加坡国立大学离职,全职加入360,完成了从工业界到学术界的华丽转身。

作为一个互联网公司人工智能研究院的领军人物,颜水成博士的研究自然离不开深度学习的落地。那么颜水成博士如何看待深度学习在学术界的火爆?最满意的工作什么?对深度学习的未来发展有哪些前瞻性的判断?请看下面的访谈。
图3. 颜水成博士采访照

Q:如何看待深度学习在工业界的火爆?
A:深度学习带来的诸多变化,起因是在视觉分析、语音识别等任务中的深度学习技术所达到的性能超过了商业应用最低的bound。例如,在深度学习出现之前,已经有人脸识别的研究,比如嵌入式设备上的人脸检测、识别技术,但是总体上没有达到很多工业级场景中定义的最低性能需求。近几年来深度学习与人脸识别的结合则彻底改变了这一现状。以我之前在新加坡国立大学计算机视觉与学习研究组的例子,我们做了三年Pascal VOC, 每年性能上涨只有不到两个点。但是在2012年的ImageNet竞赛中,基于深度学习的AlexNet的结果比上一年的最好方法的top-5错误率下降了10个百分点以上。

Q:为了实现端上的智能,深度学习算法需要做什么改进?
A: 实现端上的智能,一个重要的前提是需要考虑终端设备的运算能力的限制(由于智能设备对成本非常敏感,大多数情况下对CPU芯片的计算速度有限制)。深度学习算法的计算量普遍较高,解决这个问题,主要思路有两个:
1. 重新定义网络结构,设计小的和特殊的网络,例如Network in Network。
2. 设计新的计算模型,在精度不降低的情况下,降低计算量。例如,我们目前在做的一个工作,用一个小网络去预测卷积运算哪些位置不用算,类似于attention机制。这种做法可以称之为More is less, 虽然网络结构变复杂了,但是计算量减少了。

Q:对于您在深度学习领域中众多的工作,哪一项是您自己最满意的?
A:我个人最满意的工作是Network in Network。我经常和学生说,如果一年能做出一个工作,类似1x1的卷积核这样,成为深度网络中的一个标准结构,是非常有价值的。

Q:对于深度学习领域的其它工作,您最欣赏的是哪一个?
A:孙剑老师的Deep Residual Network。

Q:您如何看待类脑计算的研究,或者说如何看待神经生物学研究对深度学习研究的启发意义?
A:这是一个好问题。我一直认为神经生物学对计算机视觉具有重要的启发意义,但是这个领域的发展却并没有我们想象中的那么快。首先,我个人很欣赏神经生物学模型对计算机视觉计算模型的启发。我们有一个未发表的工作是把图像分类的过程看成一个偏微分方程求解的过程。大脑里面看到一副图像,并不是由一个单纯的前向传递过程来最后输出类别是牛或者马。生物的信号传导是一个连续的过程,在识别过程中存在反馈机制,我们的工作正是要在物体识别的过程中引入反馈机制。遗憾的是,当我们把偏微分方程时序上离散化求解之后,会等价于一个前向网络,有点类似recurrent neural network。所以虽然这个工作的Motivation很好,但是最后求解依旧还是会等价于一个前向网络,反馈变成了另外一种层面上的前向计算。

Q:您如何看待深度学习在学术上的发展方向?
A:我认为是无监督学习和自学习。应该说,无监督学习的进展非常糟糕。即便是最近非常火的对抗性训练,也并不是所有问题都适用,比如人脸识别就依旧还依赖于监督学习。针对无监督学习这个问题,我最近的一个假设是人最初的认知过程是通过运动来获得的。据说Baby开始的时候像青蛙一样,只能看到动的物体。最近我和合作者投稿PAMI的工作Learning to Segment Human by Watching Videos就尝试从video中进行无监督学习,利用motion segmentation进行分割,形成物体的概念,这些是同一个物体。人可能是从运动中逐步形成物体的概念的。因此要想进行无监督学习,可以从运动开始。

另外一个就是自学习。我在这方面的一个代表性工作是Baby Learning。只需要少量的标注样本,也就是小样本学习,然后再做自学习。Baby Learning做了三年,最后终于做出来了,因为我坚信这个是对的。第一次投稿CVPR,六个AC开会毙掉了我们的文章,原因是题目可能会引发误解,Baby不一定真的是这样学习的。第二次改了名字,叫Towards Computational Baby Learning,最后被ICCV2015录用,但是遗憾的是错过了时机没有拿到Oral。

我目前的努力方向是把无监督学习和自学习结合起来。我想只要扎进去研究,不管外边怎么说,一定可以做出很棒的工作。


致谢:深度大讲堂微信公众号在此感谢雷锋网给予了本届CCF-GAIR赠票,并且对对采访工作进行了大力的支持,同时也感谢CCF-GAIR大会的组织者雷锋网的辛苦奉献,组织了一场高质量的人工智能盛会。此外,感谢紫牛基金尚静和猎豹机器人蒋超共同参与了对360首席科学家颜水成博士的采访。
阅读记录:read twice