神经网络信息论文提纲

论文题目：自然图像刺激下的fMRI视觉信息解析深度神经网络模型研究

摘要：视觉在人类生存生活、进化发展中发挥着不可替代的关键作用,人类视觉功能的研究一直是脑科学研究的热点问题。其中,探索大脑视觉皮层对视觉场景内容的信息加工机制,分析视觉皮层神经活动对视觉场景内容的表征特点,解析视觉皮层神经活动中的视觉场景内容是人类视觉功能研究中非常重要的课题,对理解大脑视觉神经信息处理机制,构建鲁棒、可解释的机器视觉模型,促进人工智能视觉的发展,都具有深远的意义和重要的价值。功能磁共振成像（functional Magnetic Resonance Imaging,f MRI）为大脑视觉皮层功能研究提供了一种空间分辨率高、可靠性好、非侵入式的神经活动监测技术,已经成为人类视觉功能研究的一种重要工具。自然图像场景复杂、目标种类多样,针对自然图像的f MRI视觉信息解析是一个前沿而困难的问题。深度神经网络模型是目前性能最好、与人类视觉层次化信息处理模式最为相近的计算机视觉模型之一。同时,人类视觉又对深度神经网络视觉计算模型的研究具有较强的启发性。因此,本文采用深度神经网络模型针对自然图像刺激下的f MRI视觉信息解析开展研究,系统探索了视觉信息的深度神经网络模型处理和人类层次化处理在结构、任务、表征特点等方面的联系和差异,对深度学习和f MRI视觉信息解析的交叉研究提供了一些新的理解视角,对与人类视觉信息处理相关的机制、方法和技术研究具有重要的借鉴价值和意义。本文围绕“如何通过深度神经网络构造符合视觉皮层信息表征特点的计算模型并精确解析自然图像场景内容”这一科学问题展开研究。考虑到深度神经网络模型对视觉信息的表征方式和能力受到多方面因素的影响,本文从深度学习的训练方式、视觉任务、网络结构等多个角度出发,首先利用深度神经网络及其特征构建编码模型,充分刻画低级和高级视觉区域的信息加工过程,实现从自然图像刺激到视觉皮层f MRI体素响应的精确预测;然后构建解码模型,实现从图像低层特征内容重构到融合高层语义的自然图像场景重构,不断推进自然图像刺激下的f MRI视觉信息解析水平的层级跃迁。主要研究成果如下:1.针对低级视觉区域,提出了一种基于端到端卷积回归网络的视觉编码模型（End-toEnd Convolutional Regression Network-based Visual Encoding Model,ETECRN-VEM）。如何构造符合视觉皮层信息表征特点的图像表征模型是视觉编码的关键问题。现有编码模型首先采用预训练深度网络图像识别模型提取图像特征,然后按照逐体素的方式把图像特征线性映射到f MRI体素响应。然而,这种两阶段的方式事先难以确定哪一层网络特征能够与特定视觉感兴趣区域（Region of Interest,ROI）体素响应具有较好的线性匹配关系,需要遍历尝试深度网络中不同层的特征构建编码模型。因此,图像表征模型的构造具有较大的不确定性,难以较好刻画特定视觉ROI的信息表征特点,同时,逐体素的编码方式效率较低。针对这两方面问题,本文引入端到端的训练方式,驱动深度神经网络直接从f MRI数据中自动学习更加符合特定视觉ROI表征特点的图像表征模型,在同时编码一个视觉ROI中所有体素时,通过设计体素选择性优化策略,降低了一些较低信噪比的无效体素对整体编码的干扰,从而构建了端到端逐视觉ROI编码模型。实验结果表明所提出模型相比可以更好地编码大约80%的V1视觉区域体素,以及60%-70%的V2和V3视觉区域体素,在低级视觉区域的编码性能和效率有了显著提升。2.针对高级视觉区域,提出了一种基于图像描述特征的视觉编码模型（Image Caption Features-based Visual Encoding Model,ICF-VEM）。如何构造针对图像高级语义的表征模型是编码高级视觉区域的关键问题。现有f MRI数据规模较小,端到端逐视觉ROI编码模型难以自动学习高级视觉皮层较为复杂抽象的信息表征模式。现有编码模型主要采用在图像分类任务上预训练的深度神经网络模型,然而,图像分类任务仅要求辨识自然图像场景中的关键目标,使用图像分类任务难以驱动深度网络有效刻画高级视觉皮层的信息表征特点。针对该问题,本文引入语义层次更高的图像描述任务,驱动深度神经网络构造更加符合高级视觉皮层信息表征特点的图像表征模型,提取更加复杂抽象的语义特征,以更好地编码高级视觉皮层。同时借助图像描述特征与大量语义词汇的关联性,实现了对高级视觉区域体素的语义解释。实验结果表明所提出模型几乎对所有的高级视觉区域,在大约60%的体素上表现出了优势,获得了更高的编码性能,可视化分析揭示了高级视觉区域表征自然图像场景内容中目标、目标属性以及目标间关联性的特点。3.针对简单图像低层特征内容,提出了一种基于胶囊网络的视觉重构模型（Capsule Network-based Visual Reconstruction Model,Caps Net-VRM）。基于深度网络特征的两阶段视觉重构是简单图像重构的一种有效方式,首先把f MRI体素响应映射到中间网络特征上,然后通过预测的特征逆向映射回到图像,重构精度受到中间网络特征的信息完整性和可逆性的影响。因此,如何构造符合视觉皮层信息表征特点的可逆图像特征中间桥梁是简单图像精确重构的关键问题。卷积神经网络（Convolutional Neural Network,CNN）结构具有平移、旋转等不变性表征的特点,在图像表征过程中容易丢失一些与目标位置、方向等相关的低层特征信息,降低了图像低层特征内容的重构精度。针对该问题,本文从深度学习网络结构的角度,引入胶囊网络模型通过等变性表征构建信息完整、可逆的图像低层特征桥梁,从f MRI体素响应中预测对应的胶囊特征,进而通过逆向变换完成了对简单图像的精确重构。实验结果表明所提出模型在结构相似性指标上提高了约10%,显著提高了简单图像低层特征内容的重构性能,并通过可视化胶囊特征实现了对低级视觉皮层f MRI体素的特征解释和分析。4.针对自然图像低层特征内容,提出了一种基于自编码器交替训练的视觉重构模型（Alternating Autoencoder-based Visual Reconstruction Model,AAE-VRM）。视觉编码和视觉重构是两个完全相反的问题,如何构造符合视觉皮层信息表征特点的特征空间是视觉编码和视觉重构共同的关键问题,然而现有方法通常分别单独构建视觉编码和视觉重构模型,忽略了两者紧密关联的性质。针对该问题,本文提出了交替循环构建视觉编码和视觉重构模型的方式,在编码模型辅助下实现了较好的重构模型构建,较好的重构模型又辅助编码模型的构建。首先,以不同的顺序连接视觉编码网络和视觉重构网络,构造两个相反的自编码器,分别用于图像和f MRI体素响应的自编码训练,辅助视觉编码和视觉重构的有监督训练。然后,在半监督学习过程中交替循环训练视觉编码和视觉重构模型,通过两者的相互促进、迭代增强,辅助构造了更加符合视觉皮层信息表征特点的视觉重构模型。实验结果表明所提出模型在低层特征重构辨识度指标上接近90%,在自然图像低层特征内容重构上取得了更高的精度。5.针对自然图像场景语义,提出了一种基于双向循环神经网络的视觉分类模型（Bidirectional Recurrent Neural Network-based Visual Classification Model,BRNN-VCM）。不同层次视觉区域在自底向上和自顶向下视觉机制的作用下相互联系,关联表征视觉输入信息,而现有视觉分类模型将所有视觉区域f MRI体素看作一个整体送入视觉分类器,没有利用不同视觉区域间的关联性,难以刻画视觉皮层自底向上和自顶向下的信息表征特点。针对该问题,本文采用BRNN,把视觉皮层中拓扑相连的视觉区域看作一个空间序列,将每个特定视觉ROI中的f MRI体素响应作为空间序列中的一个节点送入BRNN,构造了符合人类视觉皮层中自底向上和自顶向下视觉信息流动特点的解析模型。通过对f MRI序列数据建模提取视觉区域内部和视觉区域间的特征信息,完成对f MRI视觉信息中场景语义的解析。实验结果表明所提出模型在视觉分类精度上提高了约5%,验证了视觉皮层双向拓扑结构与视觉场景语义表征的关联性。6.针对自然图像场景内容,提出了一种基于生成对抗网络的贝叶斯视觉重构模型（Generative Adversarial Network-based Bayesian Visual Reconstruction Model,GAN-BVRM）。采用生成对抗网络是目前提高重构图像高层特征自然度的一种有效方式,却往往难以兼顾重构图像的低层特征保真度。兼顾重构图像的低层特征保真度和高层特征自然度是现有自然图像场景精确重构的困难问题。针对该问题,本文引入贝叶斯方法,首先使用BRNNVCM根据f MRI体素响应解析出场景语义类别,送入预训练生成对抗网络的条件生成器,根据输入的随机噪声生成自然图像。然后通过ETECRN-VEM评估生成图像与视觉皮层f MRI体素响应在低层特征空间的拟合度。GAN-BVRM各个模块全部由可微的神经网络组成,通过梯度反向传播,迭代更新生成器的噪声输入向量以最大化拟合视觉皮层f MRI体素响应,最终优化后的噪声向量输入生成器得到重构图像。其中,低级视觉区域编码模型和解析出的语义类别分别约束重构图像的低层特征内容和场景语义,从而兼顾了图像低层特征保真度和高层特征自然度。实验结果表明所提出模型在平均感知相似性指标上提高了约10%,显著提高了自然图像场景的重构精度。

关键词：功能磁共振成像;视觉信息解析;深度神经网络;图像表征;端到端训练;交替优化;胶囊网络;循环神经网络;生成对抗网络

学科专业：信息与通信工程

摘要

Abstract

第一章绪论

1.1 研究背景与意义

1.2 基于fMRI的视觉信息解析

1.2.1 针对自然图像的fMRI视觉信息解析

1.2.2 大脑视觉皮层

1.2.3 fMRI技术原理

1.2.4 实验设计和数据库构建

1.3 国内外研究现状

1.3.1 视觉编码模型

1.3.2 视觉解码模型

1.4 研究内容和结构安排

1.4.1 研究出发点

1.4.2 研究内容

1.4.3 研究内容的关联性

1.4.4 深度学习角度下的本文研究结构

第二章低级视觉皮层编码模型研究

2.1 引言

2.2 模型

2.2.1 端到端卷积回归网络

2.2.2 体素选择性优化

2.3 实验结果及分析

2.3.1 实验条件和结果

2.3.2 性能对比分析

2.4 本章小结

第三章高级视觉皮层编码模型研究

3.1 引言

3.2 模型

3.2.1 语义描述特征

3.2.2 基于图像语义描述特征的视觉编码模型

3.3 实验结果及分析

3.3.1 实验条件和结果

3.3.2 性能对比分析

3.3.3 高级视觉区域体素可视化

3.4 本章小结

第四章简单图像低层特征内容重构模型研究

4.1 引言

4.2 模型

4.2.1 胶囊网络与胶囊特征

4.2.2 基于胶囊网络特征的视觉重构模型

4.3 实验结果及分析

4.3.1 实验条件和性能对比分析

4.3.2 特征可视化分析

4.4 本章小结

第五章自然图像低层特征内容重构模型研究

5.1 引言

5.2 模型

5.2.1 自编码器和半监督学习

5.2.2 基于自编码器交替训练的视觉重构模型

5.3 实验结果及分析

5.3.1 实验条件

5.3.2 实验结果和性能对比分析

5.4 本章小结

第六章自然图像场景语义分类模型研究

6.1 引言

6.2 模型

6.2.1 基于视觉编码的体素挑选

6.2.2 基于BRNN的视觉分类模型

6.3 实验结果及分析

6.3.1 实验条件和性能对比分析

6.3.2 视觉皮层拓扑信息的双向连接

6.4 本章小结

第七章自然图像场景重构模型研究

7.1 引言

7.2 模型

7.2.1 类别解码

7.2.2 预训练生成对抗网络

7.2.3 视觉编码模型

7.2.4 评估器

7.3 实验结果及分析

7.3.1 实验条件

7.3.2 类别先验在视觉重构中的作用

7.3.3 GAN在视觉重构中的作用

7.3.4 性能对比分析

7.4 本章小结

第八章总结与展望

8.1 总结

8.2 展望

致谢

参考文献

作者简历

神经网络信息论文提纲

热门文章

相关推荐