肖骁源自凹庙量子位|微信官方账号QbitAI
现在,AI可以实时读取大脑信号了!
这并不是耸人听闻,而是Meta的一项新研究,它可以通过大脑信号猜测你在0.5秒内看到的图片,并用AI实时还原。
在此之前,虽然AI已经能够从大脑信号中准确还原图像,但仍然存在一个bug——不够快。
为此,Meta开发了新的解码模型,使得AI图像检索的速度提高了7倍,几乎可以瞬间读出人们在看什么,并大致猜测。
就像一个站着的人,AI几经还原后,居然演绎了一个“站着的人”:
LeCun转发表示从脑磁图脑信号重建视觉输入的研究真的很棒。
那么,Meta是如何让AI“快速读脑”的呢?
如何解码大脑活动?目前AI读取大脑信号和还原图像的方式主要有两种。
其中一种是fMRI(功能磁共振成像),可以生成到大脑特定部位的血流图像;另一种是MEG(脑磁图),可以从大脑中的神经电流测量出极其微弱的生物磁场信号。
但是fMRI神经成像的速度往往很慢,平均2秒才能产生一张图片(≈0.5 Hz)。相比之下,MEG甚至可以每秒记录数千张大脑活动图像(≈5000Hz)。
那么相比于fMRI,为什么不用脑磁图数据来尝试还原“人类看到的图像”呢?
基于这一思想,作者设计了一个脑磁图解码模型,该模型由三部分组成。
第一部分对模型进行预训练,负责获取嵌入信息;来自图像;
第二部分是端到端训练模型,负责将脑磁图数据与图像嵌入对齐;
第三部分是预训练图像生成器,负责恢复最终图像。
在训练中,研究人员使用了一个名为THINGS-MEG的数据集,其中包含了四个年轻人(2男2女,平均年龄23.25岁)在观看图像时记录的MEG数据。
这些年轻人共观看了22448幅图像(1854种),每幅图像显示0.5秒,间隔0.8~1.2秒,其中200幅被重复观看。
此外,还有3659幅图像没有向参与者展示,但也已用于图像检索。
那么,这样训练出来的AI效果如何呢?
图像检索速度提高了7倍。总体而言,本研究中设计的MEG解码模型比线性解码器快7倍。
其中,Meta开发的可视化变压器框架DINOv2在提取图像特征方面表现更好,可以将MEG数据与图像嵌入进行对齐。
作者将整体生成的图像分为三类,最高、中等和最差匹配:
不过从生成实例来看,这个AI还原的图像真的不是很好。
即使是还原度最高的图像,仍有部分网友质疑:为什么熊猫看起来完全不像熊猫?
作者说:至少像黑白熊。(熊猫怒了!)
当然,研究人员也承认,目前从脑磁图数据恢复出来的图像效果确实不好,主要优势还是速度。
比如之前明尼苏达大学等机构的一项名为7T fMRI的研究,可以从fMRI数据中还原人眼看到的图像,还原程度很高。
基于fMRI数据训练的 AI可以更好的还原图像,无论是人体冲浪、飞机外形、斑马颜色还是火车背景;
对此,作者也给出了解释,这是因为基于MEG的AI还原的视觉特征偏高。
但相比之下,7T fMRI可以提取和恢复图像中的低级视觉特征,使生成的图像整体恢复程度更高。
你觉得这种研究可以用在哪里?
地址:https://ai.meta.com/static-resource/image-decoding.
结束—
量子比特qbitai头条号签约
关注我们,第一时间获取最新科技动态。