李飞飞教授在国金证券新兴产业论坛的演讲

11月15日,李飞飞教授应邀在国金证券第九届新兴产业论坛做了《Towardsvisualintelligence》的演讲。本周谷歌宣布李飞飞教授加盟谷歌并将领导谷歌云计算集团旗下新成立的机器学习部门。李飞飞教授是美国斯坦福大学计算机系终身教授,曾任斯坦福大学人工智能实验室主任,主持了基于大数据和图形识别的研究项目ImageNet。

以下是根据速记整理的演讲内容,未经本人审核,仅供参考。

Towardsvisualintelligence:走进视觉智能

演讲人:李飞飞教授,美国斯坦福大学计算机系终身教授,斯坦福大学人工智能实验室主任

:以最高荣誉获普林斯顿大学本科学位;

:获加州理工学院电子工程博士学位;

-:就职于伊利诺伊大学香槟分校;

-:就职于普林斯顿大学;

:加入斯坦福大学任助理教授;

:担任斯坦福大学副教授(终生教授);

:正式加入谷歌,任谷歌云机器负责人。

年荣获微软学者新星奖以及谷歌研究奖;

年荣获NSF杰出青年奖;

年荣获斯隆研究奖计算机科学奖;

年入选雅虎实验室学者奖;

年荣获IBM学者奖;

年入选年“全球百大思想者”。

年获得卡内基基金会提名,成为“年度杰出移民”之一。

从远古时代的视觉起源说起

我的研究方向主要是机器学习、深度学习和计算机视觉。在我看来视觉发展是人工智能发展最重要的一块,我主要和大家分享一下这几年来我和我的实验室在视觉方面做的一些工作。

说到视觉,可以一直拉回到非常远古的时代,五亿四千万年前,当时地球上基本上就是海洋,海洋里的生物也非常简单,简单到只有一些很小的浮游生物。它们就在水里漂着,如果是其他可以吃的东西从他们嘴边漂过,就把它们吃掉,如果没有的话生活就是这样的了。有一个非常有意思的现象发生在五亿四千万年到五亿三千万年,这个时间段,寒武纪大爆发,生命的种类或者说动物的种类在很短的时间上产生了巨大的变化。从化石信息看,从很少的几种动物爆发到成千上万种动物。寒武纪大爆发一直是生物学界和考古学界一个很巨大的神秘的现象。为什么会出现这样的爆发呢?是什么因素造成的呢?有很多科学家做了很久研究,其中包括环境的因素、气候的因素、小行星撞地球等。最后一个很有名的当代物理学家叫AndrewParker(安德鲁·帕克),他就发现寒武纪开始有一些叫三叶虫的动物产生了眼睛,那时候的眼睛非常简单。

寒武纪三叶虫首次出现眼睛:

中国哲学家墨子有个非常重要的理论叫小孔成像。不管是在东方还是西方小孔成像都影响了第一代人造的照相机的理论。三叶虫就产生了像小孔成像那样简单的眼睛。当动物界第一次有了眼睛以后,整个动物界发生了重大变化,当你看得见的时候,你会主动去寻找食物,当你看得见周围的环境,发现有其他动物要来吃你的时候你就会主动去躲藏。在这个过程中动物的变化非常大。按照AndrewParker的话“Theevolutionofanimalsthatcouldeatotheranimalstriggeredanevolutionaryarmsracewhereanimalseitherevolvedordied”。这就是寒武纪物种大爆发的起源,这个起源也是视觉的起源。

计算机视觉问题的萌芽

回到这个五亿四千万年后的今天,除了少数的一些动物,海底的或者大家熟知的蝙蝠,大多数的动物最重要的感知系统智能系统都是眼睛。动物界都有成千上万种眼睛,人的眼睛或是人的视觉系统是我们所知的这个宇宙中最复杂、最有能力的视觉系统。今天人的大脑皮层是区别人和动物最重要的一部分,有一半以上的神经元在大脑里参与的是视觉系统的工作。大自然是一个非常好的系统,不会浪费任何资源,不管是人的资源还是动物的资源。那这说明了两个问题,第一个问题视觉是最重要的感知和认知系统,因为它很重要,大自然才会让一半以上的资源做这件事。第二视觉很难。世界是三维的世界,人的眼睛看到的是两维的成像,我们要通过二维的成像来感知三维的世界,视觉系统是非常重要的智慧生物感知认知系统。作为电脑或者计算机科学的发展,没有那么长的时间来发展视觉,仅仅有五十年的时间。

人工智能六十年代中期已经在美国有相当蓬勃的发展,年的夏天,麻省理工学院有位教授提出了一个项目,他说让我们请几位麻省理工学院的本科生花一个暑假的时间来解决视觉这个问题。作为人我们在睁开眼睛的那一秒,我们的世界就在面前了,视觉是一件非常容易的事情。所以在他看来,有了麻省理工学院聪明的本科生,有了一个夏天的工作我们就可以把视觉解决了。这可以说是计算机史上第一次有人提出要解决视觉领域的概念。但是五十年后的今天,我们还远远没有解决视觉的问题。而整个计算机视觉领域在计算机领域是发展最快、人数最多的领域。也是因为计算机视觉推动了深度学习的发展,我们的视觉会议每年都有上千的教授和学生参加,而不是仅仅几个MIT的本科生。

计算机视觉的早期工作、困境及短期转向

在计算机视觉发展的早期有些很重要的工作。比如说当年麻省理工的博士生LarryRoberts就提出能不能把世界想象成这个几何的形状,我们能认出这些几何形状,就可以把整个视觉的世界想象出来。他的博士生论文是公认的计算机视觉历史上的第一篇论文。有意思的是LarryRoberts本人离开了计算机视觉领域的研究,他参与了美国军方一个很重要的项目,也是他和他的同事给我们带来了今天的互联网。第二个比较重要的工作是在斯坦福发生的。ThomasBinfold,也算是我自己的博士的祖师爷,他们也是跟LarryRoberts和MIT一样相似,提出用几何的概念来解释物体。它的几何的形状有点像弹簧。想象一个人用几个圆柱来形容,圆柱是像弹簧一样有一定的弹性。进入80年代,开始用一个简单的线条来表达物体。这些工作都仅仅提出了一些概念性的思路,从年到八十年代中期,计算机视觉发展得并不好。大家越来越发现计算机视觉很难,每往前走一步就发现像是有一座大山挡在面前。

大家跟我一起体会一下VisionElusion。看这幅图,有没有觉得是大妖怪在追小妖怪,大妖怪看起来很恐怖。但是我相信你们在座的每一个人都知道这个大妖怪和小妖怪在这个平面上是一模一样的,两个是复制的两个妖怪,但是你的视觉系统告诉你这么一个故事。这个故事是一个大的在追一个小的,而不是两个一样大小的妖怪。这是另外一个更好的例子,文艺复兴时期意大利有这么一位画家,他画了很多图,他画了很多类似的图。这幅图没有一个像素点是在表达一个人,他的所有的像素点都是来自一个水果、一朵花或者是一个蔬菜。但是你们看到的是什么,你看到的是一个人,一个中年男子,你看到的是他的表情、他的脸色和他的脸的形状。而你看到的不仅仅是水果、花或者蔬菜。这就是视觉的有意思的地方,当我们看到的每一个有颜色的像素点它并不代表的是视觉的世界,视觉世界是在我们脑中产生的。

多年前柏拉图,就用一幅图来形容了视觉到底有多难。这幅图叫做“ThePrisonersoftheAllegoryoftheCave”。他说的是你想象自己是一个被监禁者,你被绑在椅子上坐着,你只能看到你的前方,你不能转头。你前方是一面空白的墙,这个墙上是你后面的一个表演剧的一个头饰。也就是说你只能看到一个二维头饰,而真实的世界在你的头后。你的工作是通过这个二维的头饰,也就是你前方这面墙上这个二维的头饰来分析出你后面到底发生了什么样的故事。他说我们每个人都是这个prisoner,我们每个人都只看到了一个二维的头饰。而我们大脑做的事情就是分析出这个二维的背后是怎么的一个三维的故事。所以这就是为什么视觉有这么难。

ThePrisonersoftheAllegoryoftheCave:

年计算机视觉领域产生,过程走的很慢,这个慢是一个探索的过程。在大概年的时候,也就是上世纪末,计算机视觉并没有解决认知这个问题,我们很难创造出电脑的算法、计算机的算法去认知物体。计算机视觉走了另外一个方向:三维成像。用了一些激光、照相的方式来把一些三维的Three-Dconstruction做出来。比如我的一位斯坦福的同事做的艺术作品的三维成像,或者说是微软的一个非常的有名的工作,就是把网上的照片转换成风景圣地的三维的成像。这个意义非常重大,有很多很多工业界的应用场景会用到这个技术。比如大家可能最熟悉的场景无人车技术。今天的无人车用了大量的三维成像的技术,可以说没有计算机视觉领域的三维成像,就没有今天无人车的视觉技术。

再回归——物体识别初探及ImageNet的突破性进展

回到上世纪末到这个世界初,三维世界的子领域有了长足的进步。我们又回到了视觉技术的初衷,还是想用一些算法能让计算机看到我们人能看到的世界。人能看到的世界不是一些红蓝绿的像素,甚至不是一些纯粹的三维成像。我们看到的是有意义的世界,我站在这里看到的是各位同行们,看到的是桌子、椅子、水,看到的是你们的表情、你们的穿戴,这才是视觉最重要的一个问题。二十一世纪初计算机视觉领域又回到了最初、最想做的事情:物体识别。因为物体是视觉世界最重要的一个部分。如果我们看不到物体,我们不能说这是讲台、这是人、这是墙。如果我们没法看到物体的话我们就没法去做视觉的其他工作。物体识别从二十一世纪初或者是二十世纪末到现有已经有二十多年的发展了,其中最有名的成果可能就是人脸识别。我刚做博士生的时候,我记得第一年导师就让我读这篇非常重要的MIT文章:人脸识别。这篇文章是年发表在计算机视觉年度会议上的。年,也就是5年以后人类做出了第一个可以实时得做出人脸识别的电子照相机,这是由日本的FujiFilm这个公司做的。从实验室领域的第一篇论文到放进消费者手中的第一个产品花了五年的时间。

第一台人脸识别照相机——FujiFilm年发布的FinePix-Sfd(FaceDetectiontechnology):

二十一世纪的头十年计算机视觉都在努力地做的一件事就是物体识别。物体识别是一个非常难的一个工作,它需要计算机做的事情就是,给你任何一张图片,你能不能认出这张图片里边最主要的物体。比如说我给你一张图片,你能否认出这有一个飞机,或者说这有一个车,或者是这有一个猫还是狗。所以这就是物体识别的一个工作。整个领域全世界上千计算机视觉的研究者都在用这么一个数据库,是欧盟发起的一个数据库叫Parstyle数据库。整个数据库里有二十种物体,来自不同的物体,就是飞机、牛、羊、车、公共汽车、瓶子等。这幅图指的是从年到年我们这个领域对物体识别的这项工作的表现,你可以看到这是一个平均值,看到每一年我们都有一些进步。但是当时我自己年刚刚做教授,觉得非常不满意。因为我们的世界不是二十种物体,我们的世界是成千上万种物体,而通过这种二十种物体的数据库我们其实做不了多少有实用价值的工作。当时就是有一个笑话,任何一个发表在计算机视觉世界顶级大会上的文章,可以给你们看这么一张图,你可能都会看到有一辆车、一头牛,整个物体识别领域的表现都非常不好。之后我就在思考有什么样的办法能大规模地提高物体识别的能力,而不是仅仅在这二十种物体里边翻来覆去的算。

在年左右,通过对人的观察,我意识到一个问题,就是人从零岁到几岁,我们是通过大量的数据在认知这个世界,这个数据包括视觉数据、听觉数据、触觉数据,但是总的来说这是一个大数据的经验。你如果想象人的眼睛是一个照相机的话,我们大约每一秒可以照五幅图。一个三岁的孩子已经照了上亿张照片,我们以前的工作中我们就用了几百几千张照片,完全没法真正得来解释这个世界,或者说真正得建立一个模型。而我和我的同事们做的是一个的ImageNet工作,当时我们的野心就是完全颠覆传统的数据库,要做的是一个有史以来知识学习和人工智能里边最大、最完整和最包容万象的视觉数据库。我们花了三年的时间,通过一些方式搜集了一个万幅图的一个数据库,数据库里边包含了两万多种物体。如果你想问这个世界上到底有多少种物体,这个问题其实很难回答。最大的英文字典里边大概有八万条名词,但不是所有名词都代表的是可视的物体,比如说是爱也是一个名词。在八万个词符里我们进行了清理,重新标注留下了两万多条词符。然后我们把这个所有的,通过互联网的大规模的搜索,整理了ImageNet的数据库,最后包括了万幅图。这个ImageNet的数据库到底有多大呢?如果你把ImageNet的数据库想象成这么一个方块的话,跟它同时期的人工智能的数据库大概在左下角,就这么大,所以它是一个数量级的超越。

ImageNet项目收集的万幅图片:

图片来源:李飞飞教授TED演讲

ImageNet项目规模:

图片来源:李飞飞教授TED演讲

我们不光是主持了ImageNet这个数据库,斯坦福大学还主持了一年一度全球性的挑战赛,我们邀请所有的研究中心和研究者来参与这个物体识别的挑战,整个数据库是一个开源数据库,任何人都可以应用和下载。从年物体识别的错误率在28%,到年我们错误率飞速下降到3%了。最重要的下降点是年到年,这一年我们用深度学习的方式把物体识别的错误率几乎减半。深度学习其实不是一个全新的概念,它的原名叫神经网络,在计算机视觉里边它的原名应该叫卷积神经网络。卷积神经网络是在80年代就被美国的一群科学家提出的。年YannLeCun和他的同事就发表了一篇文章来解释什么叫卷积神经网络。年赢得了ImageNet第一名的卷积神经网络是由一群加拿大计算机科学家提出的。如果在座有人懂卷积神经网络,你就会知道这两个神经网络非常像,可以说数学公式上,如果说到最底层的数学公式没有任何的变化。就底层的数学公式就是用到一个微积分公式。

ImageNet数据库历年错误率:

但为什么近十五年到甚至二十年时间卷积神经网络技术都不是特别受欢迎的一种算法,而在二十一世纪的第二个十年卷积神经网络发生了一次文艺复兴式的翻天覆地的变化呢?可能有两个最重要的因素,两个历史因素大家引起注意。第一个因素就是摩尔定律,硬件的发展。卷积神经网络是一个所谓的high-capacitymodel,它里边的参数是相当的多。我们今天应用的卷积神经网络是应用了上百万级、上亿级的神经的联系,这样一个high-capacity的模型需要大量的计算,那么不管是英特尔公司还是后边一个重要的公司英伟达公司的GPU造成了一个整个计算的一个革命性的发展。

另外一个就是数据,人类通过二十世纪最后十年和21世纪头十年给人类带来最大冲击的是互联网,互联网给我们带来了大数据。因为大数据和硬件的发展带来了软件的一次翻天覆地的变化。所以在业界外大家第一次听说了人工智能,第一次看到了深度学习能有什么样的作用。这幅图通过深度学习,可以自动标注出这个地方的猫、泰迪熊、男孩、女孩,还可以找到背景比较小的物体,比如说风筝,像这幅图也是,它可以找到人,甚至很小的消防栓。这幅图非常繁忙,但是通过深度学习的算法可以标出里面形形色色的物体。

物体识别:

图片来源:李飞飞教授TED演讲

过去的四年深度学习的算法也发生了长足的变化。这四年ImageNet挑战赛全球每年的第一名用的算法变得越来越复杂。第一年就是年深度学习夺魁的是一个7层的卷积神经网络,到了第二年已经是十几层的卷积神经网络,到了去年微软亚洲研究院有个非常有名的研究者叫何恺明,他做了一个层的卷积神经网络。而到今年大家已经用上千层的卷积神经网络。

还有一个问题,计算机和人比怎么样。这是一个非常难回答的问题。因为ImageNet挑战赛有一千种物体,有上百万张图片,要让人去一张一张标的话是一个非常漫长的过程。但是有这么一个好事者,我的博士学生AndrejKarpathy。两年前的一个暑假,他说我打算自己标注所有的ImageNet挑战赛的图,我想看一下人和比计算机比到底是谁厉害。通过AndrejKarpathy得到的主要的结论就是斯坦福的博士代表全人类可以做到2%到5%的错误率,这是大概人的错误率。而今天年第一名的算法已经到了3%的错误率。所以说在这个问题上,计算机已经达到或者超越了人的标准。

计算机视觉努力的方向——看图说话

那是不是最重要的计算机视觉的工作就已经完成了呢?我们是不是已经可以做一个很强大的视觉?站在一个研究者角度我们还远远没有完成。我想把大家带回一个非常重要的一个心理认知的实验,就是我做博士生的时候我当时有两位导师,一位是人工智能的研究导师,另外一位是认知学的一位研究导师。他们就给我提出了一个问题,就是到底人能看到什么。这是一个很难回答的问题,因为我们睁开眼感觉什么都能看到。

我做了这么一个实验,假设我邀请你来参加我的实验,我会请你坐到一个电脑面前,然后你会看到一个灰色的屏幕。当你准备好了的时候,我会启动实验。你可以按一个spacebutton,然后就会有那么一幅照片,你从没见过的照片快速闪现在你眼前。然后就会有一幅墙纸一样的照片跟着这幅照片出现。这幅墙纸一样的照片是没有任何意义的,它做的唯一的一个工作就是把刚才闪的那张照片在你视网膜上留下的信息全部抹掉。因为当你睁开眼的瞬间,你的视网膜上残留的信息可以在你的视网膜上残留好几百毫秒。但是为了控制这幅图在你的视网膜的停留时间,我用一张墙纸一样的没有太大信息量的图片给你抹掉。然后如果我请你来参加这个实验,看完了这个墙纸一样的图片,我就会请你来写,请你写你看到了什么样的东西。这里面的图片没有一个是你见过的。最快的一张照片它闪现了仅仅27毫秒,大概40分之一秒,而最慢的一张图片在屏幕上停留的时间是毫秒,就是1/2秒。你大概都看到了图片里的东西,但这些图片对你来说并不是毫无意义的,照片停留时间到了毫秒的时候他们基本上就可以写小说了,这是人类系统非常重要的能力,看图说话。我们可以把睁眼看到的世界转化成文字、转化成很多超越物体识别以外的信息。

那么看图说话到底是什么。看图说话最简单的方式给你一幅图,你可以写出这是一只狗在跳跃一个障碍。这个对我们来说很简单,但是你要想象,如果你是一台电脑的话,你看到的并不是一只狗在跳,你看到的就是一堆数字,当你要通过这么一堆数字来把这句话转化出来的话难度就比较大。那我们就用了两个神经深度学习的神经网络把这个工作完成。第一个是视觉神经网络,第二个语言神经网络。视觉神经网络叫卷积神经网络,语言神经网络我们用的是给你一个RecurrentNeuralNetwork(递归神经网络)。这个神经网络就是说当你在说第一个字的时候,比如说the,它通过你其他的信息,比如说视觉的信息,还有其他的信息可以生成下一个词cate,当你看到cate这个词时,它又可以再生成下一个词set。它就是一步一步走,就是我们说的Sequential的模型。

计算机通过数据识别图像:

图片来源:李飞飞教授TED演讲

年我们做出了一个算法,当时同时期的还有谷歌、微软和加州伯克利分校,我们这几组研究人员做出了世界上第一个可以看图说话的算法。这个算法可以看到这么一幅图让电脑自动生成这么一句话“Girlinpinkdressisjumpingintheair”一个穿粉红色衣服的小女孩正腾空而起。这是另外一个例子“Constructionworkerinorangesuitisworkingontheroad”大家记住计算机只看到了这幅图,下面的这句话电脑完全自己生成的。我有时候在想大自然花了5亿4千万年才创造出唯一的一种生物可以看到一幅图说出一句话。我们整个计算机领域花了五十年做这件事情,所以还是很让人激动的。上个世纪仅仅还在十几年前,我们还在看到一幅图就是车或者牛,做非常不准确的物体识别,过了几年以后因为ImageNet,因为深度学习,因为硬件的发展,我们基本上已经完成了人的物体识别的能力。

计算机如何看图说话:

看图说话示例:

那到了今天我们开始在探索能否让计算机做更深度的,更能与人交流的能力,比如说看图说话。我们最近还做了不仅是看图说一句话,还包括一段话,一段话还包括各个方面的信息,不仅是像小朋友的中心思想那样一句概括性的话。那你可能会问那么视频呢,视频是图片串起来,但其实视频里边有一些特别有意思的信息是照片没有的,比如说时间。时间信息很重要,它里面涉及因果。怎么为因果建模,怎么不仅仅去理解物体,而是看到视频里人的活动,可以因为一段视频想象到人下边会做什么,就是人的预测,这就是我们现在在做的工作。

问答环节

问:想问一下视觉技术在医疗诊断这块未来的发展?

答:我非常看好医疗这一块。其实这是一个很传统的子领域,西门子公司就有一个上百人的研究团队。通过深度学习近几年蓬勃的发展,再加上医疗是一个数据催生的一个行业,我自己是非常非常看好人工智能在医疗行业的发展。但是这方面在我看来最大的障碍不是科技的障碍。而是政策的障碍,就是关于数据能不能分享,还有隐私的问题等。

问:卷积神经网络在八十年代就已经提出来了,只不过因为我们的计算能力不断在进展,我们可以做到12层、百层或者现在做到千层。那么除了卷积神经网络,有没有一些其他更优质的算法已经开发出来了,还是说只能去不断改进这个算法?

答:有,卷积神经网络其实只是一种。比如说在自然语言处理的话整个Sequentialmodel,还有RecurrentNeuralNetwork(递归神经网络),然后变成lstm(long-sure-termmodel)。Sequentialmodel是很重要的模型。然后最近还出现了GenerativeAdversarialNetworks(生成对抗式网络),这也是非常新的一个神经网络。还有最近的AlphaGo,它就是ReinforcementLearning一个很有意思的算法。那么AlphaGo其实是通过reinforcementlearning(强化学习)和MonteCarlotreesearch(蒙特卡洛树)结合做一个计算,所以还是有其他不同的算法的。

问:我想请问一下就是从现在人工智能发展来看,未来是不是越是技术性的,越是这种可以用机器来完成的工作,人类将来会退出这个领域。所以有人就说纯技术性的东西就不用学了,因为我们是无法战胜机器的,您怎么看?

答:其实我觉得人类整个发展是一个不可逆转的事情。从人类最早的石器时代走到今天第四次工业革命的起始点。每一次科技进步都在取代人类,想想人类现在已经不再自己去扛东西了,行和飞都是用机器代替了。确实很多事情智能运算确实会代替人的工作。

问:人工智能不是现在兴起的,已经发展了五十多年了,到今天这个阶段,人工智能对人类的冲击加速了?

答:国内有一本很著名的叫《起点到来》,这本书有它自己的争议性。以前有一家中文媒体采访我的时候,我就开玩笑说人工智能的第一棒已经从学术界交到了产业界。做人工智能二十年,我就深切感受到终于人工智能走进了生活。但是我觉得这个点不是单个的点,学术界的责任是不断创造新的点,因为我们要提出的是新的问题的解决方案,工业界把我们提出的解决方案继续优化然后放进产品里面,所以我认为这是人工智能第一次到一个很大的点。

问:您好,在国内来看,人工智能的产品更多的是停留在语言分析就是Chatbox这一类型,还有就是您刚刚提到的地平线也好,还有就是讯飞。其实他们更多的是做一个解析的工作。从国内来看,国内的产品在我看来都是停留在人工智能产品最初级的阶段,就是一问一答的这种阶段。我想知道在国外人工智能的产品有没有一些代表呢?然后第二个问题是我自己是做HCI的,我很



转载请注明地址:http://www.xinxingchanyea.com/xxcyzx/36891.html
  • 上一篇文章:
  • 下一篇文章: