2021-12-11 12:05

了解大脑的视觉系统可以为更好的人工系统的发展提供信息

Understanding the brain’s visual system could inform the development of better artificial systems

对我们大多数人来说,视觉是我们感知世界的主要部分,因为它提供了关于我们周围物体的持续信息流。然而,仍有很多科学家不知道我们的大脑是如何收集并将这些信息整合到我们看到的连贯图像中的。

卡洛斯·庞塞(Carlos Ponce)最近成为哈佛医学院(Harvard Medical School)布拉瓦特尼克研究所(Blavatnik Institute)的神经生物学助理教授,他就是那些对视觉系统着迷的人之一。他的动机是,如果研究人员能够理解大脑中的视觉系统是如何工作的,他们就可以利用这些信息建立更好的计算模型。

庞塞说:“想象一下,一个计算模型可以像人类一样看到和推理,但速度更快,一天24小时运转。”

这样的模型可以为人工视觉系统提供大量的应用,从医学成像到驾驶到安全。

庞塞在接受《哈佛医学新闻》采访时谈到了他的研究,该研究将计算模型与电生理学实验相结合,以探索视觉系统的基础。

HM新闻:你是如何对视觉神经科学产生兴趣的?

庞塞:我在农场长大,我总是喜欢动物,所以我知道生物学将是我的道路。我对视觉神经科学的兴趣来自于神经科学家的工作,他们专注于扩大研究范围,让非专家了解他们的研究。

具体来说,在大学期间,我在《科学美国人》杂志上读到一篇令人惊叹的文章,文章中说的是,视觉系统并不是一个与我们的感知相匹配的完整连贯的系统,而是被分割成多个子网络,专门从事识别形状或跟踪运动等任务。我被这个想法迷住了,我的感知,被这个美丽的视觉电影所统一,正在被我大脑的一部分解构,我无法有意识地接触到它,它是这些更小的,计算恶魔在做自己的处理的产物。它让我觉得自己不只是一个统一的本质,而是一个计算过程。这让我大吃一惊。我想,如果我不全职工作去了解大脑是如何工作的,我就会一直好奇。

HM新闻:你是如何研究大脑中的视觉系统的?

庞塞:我研究的是视觉系统中与形状分析有关的部分,例如,所有让我们识别人脸和帽子的操作。大脑的这些部分被称为腹侧通路,它们包括对复杂图像(如图片)做出反应的神经元。我用猕猴作为模型,因为在所有的实验动物中它们的大脑最接近人类。

如果你让一个人或一只猴子看着屏幕,然后你呈现一些图片,其中一些图片会让神经元更频繁地激活——通常,这些图片是我们可以解读的东西,比如脸或地方。这些神经元的反应近似于我们的感知,但它们并不总是完全匹配。事情比这复杂得多。

HM新闻:什么是计算公司对这一努力的贡献?

庞塞:如果我们想了解这些神经元的作用,我们可以通过图像找到最强烈激活它们的神经元。在经典的方法中,科学家向一只猴子展示非常简单形状的图片,然后观察它的神经元如何反应。这些图片代表了一个假设,而神经反应是对这个假设的评估。这种方法对视觉神经科学来说是不可或缺的,并且让我们对大脑有了很好的理解,但它受到我们自己想象力、直觉和偏见的限制。有时候我们不知道我们不知道什么。此外,这种方法无法让我们预测神经元对世界上随机图片的反应。如果我们想要在计算机中建立一个与我们大脑中的视觉系统一样好的视觉系统,它就需要在各种图像之间发挥作用。

在过去五年左右的时间里,机器学习社区已经开发出能够从数百万张世界图片中学习的计算模型。模型学习的主题和形状,不仅可以用来重建现有的图像,但可以用来创建全新的图像。我们在猕猴研究中使用了这些惊人的计算模型。

我们的方法是令人兴奋的,因为我们基本上是站在一边,让神经元和机器智能之间的合作产生我们意想不到的结果。每当我们研究大脑某处的一个神经元时,这个神经元就会通过机器学习将其信息直接传递给我们。在试图理解视觉系统时,我们不再局限于自己的想象力和语言。它告诉我们世界上我们应该注意的重要特征。

HM新闻:在你2019年的《细胞》论文中,你提出了如何整合这些类型的计算在你的研究中加入Nal模型。你揭露了什么那视觉系统呢?

庞塞:当我和玛格丽特·利文斯通(Margaret Livingstone)在哈佛医学院(HMS)做博士后时,我们把这些模型与猕猴视觉系统中的神经元联系起来,这样我们就可以看到从零开始生成的图片,让神经元做出越来越多的反应。

我们第一次尝试这种方法时,记录了猕猴大脑中对面孔有反应的一组神经元。果不其然,从噪声开始,一幅图像开始在计算模型中增长,看起来像一张脸的特征。不是整张脸,只有一只眼睛和周围的曲线。神经元疯狂地放电,本质上是在说,哇,这和我正在编码的完美匹配。我们的发现是,你可以将计算模型与猕猴大脑中具有视觉反应的神经元结合,让神经元引导模型创造出最能激活它们的图片。

然而,我们对一些被创造出来的图片感到困惑。有些看起来很有道理,比如脸部或身体的一部分,但其他的看起来不像任何一个物体。相反,它们是跨越语义范畴的模式——它们有时发生在面孔上,有时发生在身体或随机场景上。我们意识到猕猴大脑中的神经元正在学习特定的主题,这些主题不一定适合我们的语言。神经元有自己的语言来描述自然世界的统计数据。

HM新闻:你最近发表了这个研究的续集自然通讯. 它是如何建立在你之前的工作之上的?

庞塞:在我们发表在《自然通讯》杂志上的新论文中,我们将这种计算方法应用于猕猴大脑中与形状视觉识别有关的不同部位。这包括大脑后部对非常简单的物体作出反应的神经元,以及大脑前部对更复杂物体作出反应的神经元。我们能够量化这些神经元编码的信息的复杂性,并发现它有一个中等水平的密度;它不像线条图像那么简单,也不像照片那么复杂。

然后我们想知道这些图像是从哪里来的。我们知道猕猴和所有的社会性动物一样,包括人类,会看很多张脸。事实证明,我们从神经元中收集到的许多信息片段具有与脸部相似的特征。我们认为,也许猴子大脑中的信息与它们看东西的地方有关,它们通过经验学习视觉世界的重要模式。我们做了实验,让猕猴看成千上万张图片,并将图片中吸引它们注意力的部分与我们直接从它们大脑中获得的合成形状信息进行比较。果不其然,猕猴倾向于看与它们的神经元编码的特征相似的部分图片。这给了我们一个线索,在发育过程中,大脑从世界中提取重要的模式,并将这些模式存储在神经元中。

HM新闻:接下来你想做什么?

庞塞:我们还有很多问题要回答。我们现在知道,我们可以识别世界上激活单个神经元的特征。然而,大脑并不是一次只工作一个神经元。它与一组神经元一起工作,所有神经元同时对视觉信息做出反应。我们想要扩展我们的方法来描述整个神经元群体。我们想知道,如果有人给我们一个神经元活动的模式,我们是否能弄清楚它所代表的视觉世界的特征。我们正在探索是否可以用我们的方法重建猕猴看到的图像。

另一个重要的一点是,大脑根据功能来组织神经元。例如,对面孔做出反应的神经元倾向于聚集在一起,而对自然场景和地方做出反应的神经元则更远。那么大脑是如何决定把神经元放在哪里的呢?我们还没有那张地图,但我认为我们的方法会很好地识别地形。

最终,我们试图描述大脑学习的模式,并识别包含这些信息的神经网络。一旦我们做到了这一点,我们应该能够开发出编码相同信息的计算模型,并可用于改善人工视觉系统。

我对其潜在的临床应用特别感兴趣。在我接受医学培训期间,我看到自动化系统分析宫颈组织样本,我意识到有一个人工视觉系统可以确保病理学家不会遗漏任何东西,这是非常有意义的。希望更好的人工视觉系统可以用于临床环境,以改善筛查和挽救生命。

HM新闻:你最初是受到那些做外联工作的科学家的启发。你的新职位是否融入了拓展服务?

庞塞:当然。我希望复制我自己对科学的介绍。当我从墨西哥移民到美国时,我对学术界知之甚少。高中时,有人告诉我,你可以找到一份实验室技术员的工作,有一年夏天,我找到了。这对我来说是一个惊人的启示,让我知道科学可能是什么样的。

从2022年夏天开始,作为HMS多元化包容和社区合作办公室成功项目的一部分,我计划邀请波士顿各地的高中生来我的实验室工作,看看研究生活是什么样的。我积极参与确保我们能继续这个项目,这样我们就能吸引更多来自不同背景的学生来体验科学。最终我们可能会尝试扩大它的规模,但我认为每年都有一批新的高中生认识到科学是伟大的,他们应该把它作为一种职业,这是有价值的。