在过去十年中,神经影像学已迅速发展为一个数据密集型的“大数据”学科。随着数据共享的普及,研究者们现在能够访问规模空前的神经影像数据。仅在2020年5月至2021年4月间,OpenNeuro平台上就增加了406TB的数据[1]。
▷2018年~2021年OpenNeuro平台上的可用数据集(绿)与被试(红)数量稳步增长。图源:The OpenNeuro resource for sharing of neuroscience data. eLife, 10, e71774.
https://doi.org/10.7554/eLife.71774
数据体量的增长,既带来了重要机遇,也伴随生出诸多新问题。在当前环境下,研究者们愈发意识到加强数据科学与统计学训练的必要性。尽管已经出现了如Brainhack等开放科学社区以及NeuroMatch Academy等教学项目,但要应对这些挑战,却还远远不够。
针对这一现状,近年来出现的生成式AI(generative AI),或许有望彻底改变神经影像学研究范式。
▷Elizabeth DuPre, Russell Alan Poldrack; The future of data analysis is now: Integrating generative AI in neuroimaging methods development. Imaging Neuroscience 2024; 2 1–8. doi: https://doi.org/10.1162/imag_a_00241
01 生成式AI与神经影像学
生成式AI结合生成模型与深度神经网络,能够根据文本或图像提示生成新的文本、图像和音频。生成式AI的实际应用中,尤其是AI辅助编程被认为可以提高开发者的生产力,减少低级细节问题,节省大量时间,带来更愉悦的编程体验。
生成式AI将如何改变脑影像研究?我们可以以史为鉴,从数据科学的发展中一窥究竟。
1962年,约翰·图基(John Tukey)在《数据分析的未来》一书中呼吁创建一种系统化科学数据分析方法——数据科学[2],他特别强调对自动化、标准化统计程序的开发,以代替对个别研究者的专业知识的依赖。他警告人们:
随着数据量的增加,大部分的数据分析工作,将由缺乏经验而时间有限的人力来完成;而如果未能为这些人提供相应的工具,则会有更多数据未经分析。
▷约翰·图基(John Tukey),图源:APS
而这也正是神经影像学面临的困境——由于缺乏专业的数据科学训练,分析方法在实验室之间,甚至实验室之内,都存在差异。
对此,研究者们开发了BIDS(Brain Imaging Data Structure)等数据标准以及Nipreps等生态系统,在一定程度上填补了这些空白。Nipreps基于AFNI、FSL等软件,在常见的功能性磁共振成像(fMRI)的预处理方法上实现了自动化。
Nipreps生态系统突显了神经影像学方法开发的两大核心问题:
在尚未实现标准化的领域(如影像质量控制),需要继续推动分析方法的标准化;
在预处理后的数据分析阶段,分析方法的选择往往取决于特定的研究问题和任务设计,该过程需要实现自动化。
生成式AI,具有解决这两大难题的巨大潜力。“神经AI”(NeuroAI)等方法有望对神经科学的方法论和理论基础产生巨大影响。仅就方法论而言,AI可能为神经科学带来重大变革;然而,AI也可能引发新的问题——如果研究者对其认识不足,它可能反而会阻碍领域的发展。
02 生成式AI与影像质控
图基强烈主张将现有的统计方法自动化。然而,这在神经影像学中却很难推进。一些实验方法尚未统一明确量化指标,不同研究者有各自侧重的指标,因而难以实现自动化。
以生成实验刺激图片为例,虽然像MidJourney和StableDiffusion等生成式AI能够轻松生成多种图像,但问题在于——研究人员须在有限的实验时间内选择优先考虑哪些图像。这体现了神经影像学方法自动化的复杂性:即便有了先进的AI工具,研究人员的判断仍然至关重要。
另一个更明显的例子,在影像质控时,人工检验仍然是金标准。在不同的科学问题中,使用的质控方法不同。即便是人工检验,不同专家的质控打分也可能有所不同。而即便存在不确定性,鉴于有待检验的数据量巨大,学界必须着手研发无需依赖参考图像的质控指标,以指导人工检查及后续的机器学习。
虽然存在这些挑战,但我们仍有理由保持乐观。在神经影像预处理方面,NoBrainer和FastSurfer等方法,已经实现在保持高质量输出的前提下,利用AI大幅减少了图像分割等图像任务的计算时间。AI在神经影像数据处理中表现出巨大潜力。然而,现有的这些工具的广泛验证是基于大量公开可用的有标注数据集进行的;而到目前为止,研究者仍难以获取大型有标注数据集以用于验证质控结果。