《面向典型疾病的高精度生物大分子三维结构研究》–项目成果科普性介绍

本项目是来源于国家自然科学基金联合基金项目,题名:面向典型疾病的高精度生物大分子三维结构研究(U1611263),起止时间2017.01-2020.12。

项目负责人:中国科学院计算技术研究所 刘志勇教授

从上个世纪50-60年代冷冻电镜技术被提出以来,冷冻电镜理论与方法在不断地发展与完善。尤其是近十年来,随着物理成像技术与计算机图像处理技术的突破,冷冻电镜技术获得了一系列高分辨率的重要成果,得到的结构不断向原子分辨率逼近。EMDB(Electron Microscopy Data Bank)数据库的统计结果表明近二十年来通过冷冻电镜技术获得的生物大分子复合体数目正在呈现迅速上涨的趋势。生物学家通过冷冻电镜技术获得了一系列大分子三维结构高分辨率重要的成果,2017年诺贝尔化学奖就颁发给了冷冻电镜技术。

2020年新冠病毒(SARS-CoV-2)全球肆虐以来,国内外众多科学家纷纷采用冷冻电镜技术对新冠病毒进行分析并获得了新冠病毒的完整三维结构。新冠病毒感染人体细胞的关键在于冠状病毒的S蛋白与人体ACE2蛋白的结合,看清楚ACE2与新冠病毒S蛋白的相互作用过程可以帮助新冠病毒药物设计与疫苗开发的研究。因此,研究高分辨率的冷冻电镜技术研究意义非常重大。

但是目前高分辨率冷冻电镜三维重构还存在一些问题。在冷冻电镜图像单颗粒重构过程中,现有方法无法快速精确识别几十万甚至上百万的颗粒图像,从而导致严重影响冷冻电镜图像单颗粒重构精度。另外当前冷冻电镜电子断层三维重构技术由于受到高噪声、对位不精确和信息缺失等严重影响,无法获得高分辨率的电子断层重构结果,也限制了生物大分子原位结构解析分辨率的提升,目前还缺乏更好的集成分析冷冻电镜数据的流程可视化软件等。

针对单颗粒和电子断层投影图像的处理、三维重构算法和重构结果可视化分析三个步骤中存在的问题,本项目主要研究面向大规模、大尺度的冷冻电镜图像三维重构及可视化的关键技术和并行处理,依托“天河二号”超级计算机为生物科研人员提供在分子水平上研究细胞结构强有力的计算手段和技术工具。

本项目从大规模冷冻电镜图像单颗粒高精度重构算法、面向大尺度的冷冻电镜图像电子断层重构算法的研究、针对生物大分子冷冻电镜三维重构可视化分析工具、大规模冷冻电镜数据重构并行计算和面向大规模大尺度生物显微图像的冷冻电镜三维重构软件五个方面取得了进展与研究成果:

(1)实现了首款基于深度分割网络的全自动颗粒图像挑选算法PIXER。该算法是世界上首款基于深度分割网络的冷冻电镜颗粒图像全自动挑选算法,首先利用深度分割网络实现了分子颗粒图像的精确定位,然后利用带孔卷积网络实现了多尺度分子颗粒图像的全自动准确分类。

(2)提出一种能够解决大尺寸冷冻电镜数据单颗粒重构的高效并行算法OML-Relion;使得三维重构能够将全部流程在多GPU卡上并行计算。针对大尺寸数据无法在GPU上处理的问题,我们利用插值在傅里叶域进行,傅里叶域的中心是低频数据,远离中心部分是高频数据的特点,将实际对插值有效的数据压缩。同时,我们根据“天河二号”的多GPU节点的拓扑结构,设计了不同的多卡FFT策略加速重构模块,也利用Hermitian矩阵共轭对称性优化重构算法中的卷积操作,可以有效降低内存占用与通讯消耗。

(3)提出了电子断层全自动对位的快速基准标记跟踪模型markerauto和双轴电子断层对位算法AuTom-dualx,能够实现高通量电子断层图像的自动精确对位;这项工作主要有利于大量的基准标记的数据集的全自动跟踪,应用Gaussian Mixture Model (GMM)模块使得该方案比我们之前的基于随机采样的方案加速了10倍。同时我们实现了一个工具包AuTom-dualx,用来全自动地对双轴数据对位并重构。我们提出的工具包实现了如下功能:1)全自动地检测并追踪胶体金;2)自动地合并两个投影序列并且对投影参数进行全局校准;3)基于失真校正参数,校正由非线性的电子轨迹导致的不一致性并对两个投影序列同时重构。这些功能使得这个工具包可以精确地对位,并且在一个全局坐标系下同时重构。

(4) 提出多种能够弥补电子断层三维重构中信息缺失的高精度重构算法CS-IIRR和DM-SIRT;我们提出一种基于压缩感知的快速迭代重构算法CS-IIRR,既能抑制缺失楔带来的伪迹,也能适应生物电镜图像低信噪比。该算法通过迭代重构重投影算法对未采样的投影进行估计,利用压缩感知算法进行重构,得到一个稀疏的重构结果,然后用这个重构结果重新对未采样的投影进行估计,如此迭代直至满足终止条件。通过迭代重构重投影算法对未采样的投影进行估计,利用压缩感知算法对此优化问题进行迭代求解,从而可获得缺失信息恢复的高精度的重构结果。另外我们基于已有的一致性均衡优化研究开发了高精度多轴重构方法DM-SIRT,在“天河二号”上高效实现一个基于一致性均衡优化多轴迭代重构的框架。为了提高精度和重构效率,我们提出了一种重叠的数据划分方法与一个和模型相关的树状并行框架,以此来提高重构的精度与效率。

(5)提出了一种针对原位子结构平均的受限制重构方法CRM,实现原位结构的精确解析;我们摒弃了传统的“平均”方法,提出了一个新的受限制的重构模型Constrained Reconstruction Model (CRM)。我们在理论上证明了CRM对应的线性系统的解空间维数不大于“平均方法”,从而能得到更精确的解。

(6) 开发了基于“天河二号”的电镜断层重构数据可视化分析工具并实现了远程桌面开发;主要功能包括二维切片浏览与标记功能,和三维结构重构与可视化功能。二维切片浏览主要包括:基于数值分布范围的数值自动量化,切片展示、缩放、导航图、自动播放等,显示切片局部信息的像素视图。二维切片标记主要包括:增加标记、擦除标记、删除标记、选择标记内是否填充、更改标记颜色、显示标记基本信息,标记组织成树形结构,便于分组管理。三维结构重构与可视化主要包括:直接体绘制展示数据全貌,调整传输函数,实现对不同特征的分类;基于梯度膜调节的直接体绘制,突出三维结构;混合任意截面和直接体绘制,通过光照突出结构形状;将标记重构三维网格,混合三维网格和切片绘制,实现特征的交互选取和分析。我们同时完成了远程桌面的开发,支持在网页上直接打开远程计算资源的图形化窗口,提高数据前后处理、数据分析的效率。通过先进的桌面传输协议将远端画面数据有效地压缩,充分地提高了带宽使用效率,使得画面更加流畅。开发了一套树状代理链,使得用户可以在客户端无障碍地使用“天河二号”内部计算资源的硬件渲染能力。

(7)利用动态存储机制和任务调度策略实现了在多种并行平台上的生物图像电子断层重构的高效并行处理技术;我们针对“天河二号”上的众核处理器的体系架构设计了一个新的动态内存管理系统。它将众核处理器上的内存分为两个部分:管理区域和数据区域。同时将管理区域和数据区域分开,一方面减少了内存碎片另一方面增强了数据的局部性。内存在逻辑上以多棵平衡二叉区间树组织起来,每一个二叉树的节点对应一个内存请求,这样节点的删除和增加都会比线性数据结构效率更高,而当删除某个节点时,平衡二叉区间树会按照平衡二叉树的规则进行空余节点的回收,以减少外部碎片的存在,从而提高整个程序的效率。

(8)开发了一套完整的面向大规模大尺度生物显微影像的全自动电子断层重构软件系统AuTom和可视化分析系统WebCEMVis。在全自动化电子断层三维重构平台 AuTom上,我们实现了完全自动化、高通量的数据处理,解决了现有的电子断层三维重构软件无法在精度和自动化程度上满足科研人员的实际需求的问题。AuTom包括四个步骤:预处理、图像序列对位、重构几何参数的计算和三维重构。针对典型疾病(如老年痴呆症)致病机理难以研究的问题,利用自主研发的AuTom,在天河二号上研究跟疾病相关的生物大分子(如海马神经元)的三维结构,并为药物研制和生物医学的科学发现提供技术支持。在我们开发的科学可视化系统WebCEMVis中,数据处理和渲染功能被封装为Web服务,可在远端服务器上执行,并通过网络将数据处理结果以及可视化渲染结果发送到客户端,从而大大降低对客户端的设备需求。在网页端,WebCEMVis提供了基于模块的可视化流水线创建页面,通过拖拽和连接不同功能的模块,领域专家可以方便地创建可视化流水线并自定义可视化效果,相关的数据处理和渲染都由远程服务端完成。配置完成的可视化结果可以以嵌入普通网页的形式分享给普通大众,相对传统的静态图片和视频形式的可视化结果,通过WebCEMVis分享的可视化结果是可交互的,更有益于科普和教育。

项目实施过程中,主要参与人员至今已经在Science Advances(中科院JCR一区)、Bioinformatics、Journal of Structural Biology、BMC Bioinformatics、Biomedical Optics Express、IEEE Transactions on Visualization and Computer Graphics (CCF A类期刊)、IPDPS、BIBM等国际顶级期刊和会议上发表论文59篇,其中SCI期刊论文36篇,EI会议论文23篇,申请专利3项。同时,本项目开发了世界上首款全自动的生物大分子电镜图像处理软件系统AuTom,其中生物电镜图像的对位软件Markerauto、自动测参软件AutoGDeterm和颗粒图像挑选软件PIXER已经成为了生物电镜数据处理领域的首选软件。软件均在ear.ict.ac.cn上发布。

成果展示:

基于“天河二号”部署的Autom使用链接:

http://66782.proxy.nscc-gz.cn:8888/

使用效果图如下:

基于“天河二号”部署的WebCEMVis与OML-Relion使用链接:

http://69107.proxy.nscc-gz.cn:8888/#/single