DMBL Annual Research Summary

DMBL实验室2020年年度科研总结

2020年已经接近尾声了,实验室在本年度取得了丰硕的科研成果。在年末之际,本实验室将做一次年度总结,为大家分别介绍各位老师的科研进展。

(一)

主题1:癌症阶段相关基因识别问题

癌症是一个遗传相关的系统性疾病。它的发病过程往往伴随着大量的基因突变和基因的异常表达。而且癌变的过程往往会经历几个不同的病理阶段,其中不同的阶段对应着不同的癌细胞转移程度、是否侵入到其它组织、以及不同的肿瘤大小。从更深层次的考虑,不同的癌症阶段,是否也会对应着不同的异常基因,它们所翻译的蛋白质参与到了不同的生物过程中,从而引起整个生命系统演变。基于这样的思想,我们在今年主要完成了以下三个工作:

[1] Chaima Aouiche(#), Bolin Chen(#,*), Xuequn Shang, Predicting Stage-Specific Recurrent Aberrations From Somatic Copy Number Dataset. Frontier in Genetics. 2020, 11, 160. (SCI 2区: WOS:000526633900001, Impact factor: 3.789)

本文主要针对拷贝数变异数据进行分析,来探讨拷贝数变异相关的基因在不同的癌症阶段所引起的功能异常都有哪些。基因组水平的拷贝数变异(CNV)被认为是一种重要的遗传变异,对多种复杂疾病的发生发展具有重要影响。在这项研究中,我们提出了一个识别框架,可以同时将基因组中的复杂性畸变、相关基因以及相关生物通路进行综合分析。

具体来说,我们首先采用一种有效的统计学方法来筛选不同癌症阶段的CNV片段。其次,通过这些CNV片段的位置确定与它们相关的阶段相关基因。然后,通过传统的富集分析方法查找阶段相关基因所富集的生物通路,并将这些生物通路构建了一个路径进化网络,来描述这些生物通路与其相关的基因之间的相互作用。从这个分析中可以帮助我们理解不同癌症阶段的异常生物功能及其所对应的相关基因及其CNV的位置,有助于进一步理解癌变的内在机理,为进一步的评估癌症患者的风险、确定相应的临床状态提供了理论基础和诊断依据。

图1:生物通路交互网络。节点代表富集到的生物通路,边表示这些生物通路之间的功能联系。节点的大小与通路中的基因数成正比;边的粗细对应着相邻通路之间共同的基因数目。节点的不同颜色代表该生物通路在不同病例阶段异常程度的比例。

[2] Bolin Chen, Manting Yang, Li Gao, Tao Jiang, Xuequn Shang. A functional network construction method to interpret the pathological process of colorectal cancer. Int. J. Data Mining and Bioinformatics, 2020, 23(3), 251-264. (SCI 4区: WOS: 000551924900004)

本文以结直肠癌为例,系统的分析了癌症阶段相关基因及其相关功能。我们首先利用基因表达数据和临床数据为基础,将不同的患者按照病例阶段进行分组,然后每组患者分别跟控制组的样本进行对比,识别出差异表达基因。为了提高阶段相关基因识别的准确性和有效性,我们还融合了蛋白质交互关系网络数据,将每个阶段的差异表达基因映射到PPI网络上,过滤掉了大量在PPI网络中跟其他节点不相关的基因。为了进一步明确生物功能,我们首先是在PPI网络中进行聚类分析,将所有识别出的目标基因按照功能相关性进行分组,得到若干个阶段相关的簇,然后再对每个簇内的基因进行富集分析,获得每个基因簇的相关功能。最后,我们再将这些功能作为节点,相邻发病阶段的功能进行关联分析,得到随着癌变过程而演化的功能簇。在这个方法里,我们找到两条跟CRC密切

相关的功能演化路径,并且能够映射到相关的基因簇,这对于理解CRC的演化有着重要的作用。

图2:CRC相邻阶段之间的功能进化网络。节点代表功能模块。边表示CRC不同阶段模块之间的关系。边越粗,相邻功能模块之间的重叠基因就越多。蓝色、黄色、橙色和红色圆圈表示功能模块分别属于CRC阶段I、II、III、IV期。

[3] Bolin Chen, Teng Wang, Xuequn Shang. Identification and Analysis of Genes Involved in Stages of Colon Cancer. Lecture Notes in Computer Science, Intelligent Computing Theories and Application. 2020, 12464, 161-172. 16th International Conference on Intelligent Computing, ICIC 2020.

本文我们依然是以CRC为例,来研究该疾病随着阶段演化的过程。与上一篇论文的区别是,我们采用了PPI网络和FI网络两种拓扑结构来识别不同差异基因之间的联系,同时在网络模块识别时也改成了Newman聚类分析方法,使得获得的关系更为精细。跟CRC相关的异常生物通路也被聚焦为cAMP信号通路、趋化因子信号通路和神经活性配体-受体相互作用通路等。

图3:路径相互作用网络。(A)所有富集到的生物功能及其关联关系。(B)部分重点的功能及其关联关系。

主题2:差异基因识别问题

[4] Bolin Chen, Li Gao, Xuequn Shang, A two-way rectification method for identifying differentially expressed genes by maximizing their co-function relationships. BMC Genomics, (accepted)

差异基因识别是基因表达数据中的基础问题。它的识别好坏,对于后续的分析有着重大的影响。尽管目前已经有很多较为经典的软件包发布出来,比如Limma, EdgeR,DESeq2等,但是这些方法在实际应用过程中依然存在着以下几个方面的问题。首先是不少实验室所得到的基因表示数据分布不够均匀,大部分的基因表达量都集中在较小的范围内,不像经典的数据那样具有类似于正态分布的形态。其次是样本量相对较小,只有3组重复,这样很多基于统计学的分析方法就显得不怎么可靠。再次是差异基因识别跟功能富集分析是分开来做的,不能很好地将两者进行统一。这样一来,如果差异基因识别的假阳性太高,则对于后续的分析就会带来极大的影响。

本文提出了一种双向校正的思想,来同时识别差异表达基因并分析所富集到的生物功能。具体的算法思想如下:差异基因识别所需要用到的基因表达数据通常是对应的是两种不同实验条件下的样本。由差异基因所引起的生物功能异常应该是明确且显著的。这样一来,导致这些功能异常的差异表达基因就应该也是成组的,且功能密切相关的。因此,通过将最差异的部分基因作为种子,来识别它们所关联的生物通路,则大概率能定位到真正的异常功能。而利用这些功能再去检验跟这些功能相关的基因是否确实有着较大的差异,则能够更进一步的筛选真阳性的功能及其关联基因。基于这个思想,我们就设计了双向校正的方法来同时识别差异表达基因及其关联的生物通路,取得了较好的效果。

图4:双向校正算法的基本思想。表达数据的颜色代表对照和测试样本中基因的不同表达值。实心点节点表示一组差异基因,蓝色菱形节点表示这些基因富集的生物通路。圆形结节的颜色描述了基因的差异表达水平,基因的差异表达水平越显著,节点的颜色越接近红色。一个基因和一条通路之间的边缘连接意味着该基因是该通路中被注释的基因之一。边越粗,基因和通路之间的关系就越密切。

[5] Bolin Chen, Li Gao, Xuequn Shang. A Machine Learning Based Method to Identify Differentially Expressed Genes. Lecture Notes in Computer Science, Intelligent Computing Theories and Application. 2020, 12464, 21-31. 16th International Conference on Intelligent Computing, ICIC 2020.

鉴于目前已经有很多差异基因识别的算法,而且这些方法都从不同的角度来识别,也都有一定的作用,因此我们设计了一种基于机器学习的集成算法来将不同方法得到的结果进行整合,来得到最终的识别结果。该方法在实验数据中表现出了较好的效果。

图5:基于机器学习的融合方法的总体框架。在输入数据中,每行的颜色表示每个基因在不同样本中的表达值。特征提取中的颜色对应于每种方法检测到的每个基因的差异分数,通过将多种数据进行整合,得到最终的差异基因分数。


(二)

Twadn研究报告(Zhong, Li et al. 2020)

一、研究动机

蛋白质是与生命和各种形式的生命活动密切相关的物质。所有蛋白质相互作用形成一个PPI网络。PPI网络的比对就是找到PPI网络的最佳的节点映射,可以指示匹配的蛋白质之间的相似生物学含义,并用于下游的生物分析。

现有的大多数网络比对方法都是为静态网络设计的。在实际情况中PPI可能随时间变化。现有的对动态PPI网络进行比对的方法有DynaMAGNA++和DynaWAVE,是近两年提出的。然而在动态PPI网络中,仍有很大的空间可以提高比对质量。


二、研究内容

为了克服这些问题,我们提出了一种基于称为动态时间规整(DTW)的新颖的比对算法Twadn,在两个给定的动态网络上返回最佳比对结果。研究内容分为以下几个部分:

(1)把动态网络看作是基于时间序列的一系列静态网络。因此,可以通过传统的静态网络比对来提取每个静态网络的结构特征。在我们的流程中,使用以前的工作之一NetCoffee2提取网络中每个节点的拓扑特征,可以获得动态网络中每个节点的一系列特征。

(2)基于动态时间规整算法计算计算每个蛋白质对的动态时间规整相似性。

(3)使用模拟退火算法被用来寻找一个接近最优的解决方案。

(4)生成动态网络并对动态网络比对结果进行评估,评估基于的准则是一个好的网络比对方法应该能够在相似的网络之间产生高质量的比对结果,在不相似的网络之间产生低质量的比对结果。


三、研究结果

首先我们用两组参数分别模拟了10个动态网络,则两两结合生成190对合成动态网络,其中,100对使用相同参数被认为是相似的,而90对被认为是不相似的。然后使用提出的方法和现有两种方法来计算比对的总分数,并使用(AUPR)和(AUROC)作为评估指标。可以看出我们的方法具有最大AUROC和AUPR值。

四、总结

我们提出了一种基于称为动态时间规整的技术的新颖的比对算法,并用实验证明其是一种有效的动态PPI网络比对方法,希望它的应用可以帮助一些下游领域(分子功能分析和进化)的研究。

Zhong, Y., et al. (2020). "Twadn: an efficient alignment algorithm based on time warping for pairwise dynamic networks." BMC Bioinformatics 21(Suppl 13): 385.

Network alignment is an efficient computational framework in the prediction of protein function and phylogenetic relationships in systems biology. However, most of existing alignment methods focus on aligning PPIs based on static network model, which are actually dynamic in real-world systems. The dynamic characteristic of PPI networks is essential for understanding the evolution and regulation mechanism at the molecular level and there is still much room to improve the alignment quality in dynamic networks.|In this paper, we proposed a novel alignment algorithm, Twadn, to align dynamic PPI networks based on a strategy of time warping. We compare Twadn with the existing dynamic network alignment algorithm DynaMAGNA++ and DynaWAVE and use area under the receiver operating characteristic curve and area under the precision-recall curve as evaluation indicators. The experimental results show that Twadn is superior to DynaMAGNA++ and DynaWAVE. In addition, we use protein interaction network of Drosophila to comp

are Twadn and the static network alignment algorithm NetCoffee2 and experimental results show that Twadn is able to capture timing information compared to NetCoffee2.|Twadn is a versatile and efficient alignment tool that can be applied to dynamic network. Hopefully, its application can benefit the research community in the fields of molecular function and evolution.


SCC: An accurate imputation method for scRNA-seq dropouts based on a mixture model

1.研究背景:

在过去的十年中,我们已经见证了一项强大的技术的进步,使得基因表达分析能够以比以前更高的分辨率进行。现在我们可以确定每个基因的表达水平,甚至每个单细胞中的基因表达水平。这项技术就是单细胞RNA测序,这个技术允许我们快速的确定上万个单细胞中精确的基因表达,对探索生命的动态发育过程,研究基因的调控机制,发现新的细胞类型具有重要的意义。然而,单细胞RNA测序技术仍然有很多的缺陷,其中最重要的一项就是单细胞RNA测序数据存在的噪声问题。单细胞RNA测序数据的噪声问题让我们很难对该数据进行下游分析。

2.研究动机:

单细胞RNA测序数据噪声存在的主要原因是因为在现有的技术中,mRNA的检测率还很低,大多数单细胞RNA测序技术只能检测到实际存在的mRNA分子的10-20%。所以在单细胞RNA数据中,低表达的基因很难被检测到,因此单细胞RNA数据呈双峰性。除此之外,在不同时间段,基因并不是以一个稳态的方式表达。因此单细胞数据分析面临的最大挑战就是如何解决数据中的噪声,离群点和缺失值。但是如果在多个同样类型的细胞中检测,低表达量的基因就很有可能在一小部分细胞中被检测到。所以我计划将相似的细胞数据聚类在一起,多个细胞的数据进行互补,这样就可以得到更加完整的单细胞基因表达量的数据。然后再对细胞进行进一步的分析处理。

3.研究方法:

为了解决单细胞RNA测序数据中的噪声问题,我们提出了一个新的方法SCC来处理单细胞RNA数据中的缺失值。该方法主要分为三个步骤:1. 对测序数据进行处理,并筛选出一些离群点。2. 用SCmap找到所有细胞的20个最近邻居细胞。3. 用一个复合模型来处理测序数据,该模型包括正太分布,二项分布和零分布,分别用来表示细胞中的高表达基因,低表达基因和不表达的基因。该模型的参数用EM算法来估计。

4.研究结果:

为了检测我们方法的好坏,我们在模拟数据集和Kolod, Pollen , Usoskin三个真实数据集上运行了我们的方法并与scImpute和SAVER两个现有的方法相比较。因为我们不知道单细胞正确的基因表达数据,所以我们用ARI值和细胞类内距离来检测插值方法的好坏。通过结果,我们发现我们的方法与现有的方法相比,能更好地缩短细胞类内距离并提升聚类效果(如下图所示,我们对原测序数据和修正后的数据进行降维并可视化,可以明显看出,修正后的数据聚类结果更好)。


(三)

1、Deep learning‐based classification and mutation prediction from histopathological images of hepatocellular carcinoma

目前主要通过非侵入的检查方法对肝细胞癌(HCC)进行诊断,非侵入性方法包括计算机断层扫描(CT)、磁共振成像(MRI)等。但在患者的临床护理过程中,对患者的组织病理学评估仍然是必不可少的,因为病理学不仅可以进行明确的诊断,而且还可以提供重要的预后信息。此外,已经有研究表明HCC的组织学亚型与体细胞突变负荷相关,这意味着HCC分子特征与组织学表型之间存在联系。最近,已在HCC患者中发现一些突变的激活发生与对多种酪氨酸激酶抑制剂或免疫疗法的反应之间存在关联。综上所述,这些发现都支持根据组织病理学为每位HCC患者建立个性化管理。然而,通常对组织玻片的目视检查是在5倍至40倍的放大倍数下进行的,这使得病理学家在对复杂的组织病理学形态学进行解释时非常耗费时间精力。在这项研究中,我们利用从癌症基因组图谱数据集(TCGA)

获得的苏木精和曙红染色(H&E)的数字幻灯片以及从华西医院生物库(WCH)获得的HCC组织微阵列的全幻灯片图像(WSIs),构建了基于卷积神经网络(CNN)的平台,以实现对肝癌的自动诊断和体细胞突变的预测。


2、A novel subnetwork representation learning method for uncovering disease-disease relationships

分析疾病之间的关系对于疾病的诊断、治疗和预防具有重要意义,对于研究疾病的作机理和找到针对疾病治疗的药物具有重要的作用。研究表明,一种疾病的产生通常是与多种因素有关,反映的是生物体内多个分子之间的相互作用。例如,蛋白质相互作、代谢相互作用等。近年来,大量的基于生物网络的方法被提出来研究疾病与疾病之间的关系。但是这些方法大多是无监督的,没有使用标签的信息。随着网络表示学习的发展,网络表示学习技术被用来提取网络中节点的特征,但是这些方法不能很好的提取网络中的全局结构信息,我们提出了一种基于子网表示学习的方法提取网络中的疾病子网特征,通过提取的疾病的子网特征,我们可以使用有监督的方法研究疾病与疾病之间的关系。实验结果表明,我们提出的基于子网表示学习的方法相比于其他方法能够更好的分析

疾病与疾病之间的关系。

3、A Survey of Network Representation Learning Methods for Link Prediction in Biological Network

网络是描述和建模复杂系统、描述现实世界中不同实体之间关系的强大资源。近年来,从生物网络中挖掘知识已成为一个热门但具有挑战性的领域。解释这些网络的基本信息有助于建立基因组学和生物学之间的联系,加速对生物科学若干领域的探索,促进生物研究的进步。

链路预测是网络分析中的一个重要问题,具有重要的实际应用价值。对于网络的分析研究,网络表示学习已被证明是有用的,特别是在链路预测任务当中。我们回顾了网络表示学习在生物网络链路预测中的应用,探讨网络表示学习在链路预测任务中的应用及其意义。我们首先介绍了目前广泛使用的链路预测算法,然后简要介绍了网络表示学习方法的发展,重点介绍了几种常用的方法及其在生物网络链路预测中的应用。已有的研究表明,利用网络表示学习来预测生物网络中的链路可以获得更好的性能。最后,我们讨论了未来可能的发展方向。


(四)

Zhang Y, Dai H, Yun Y, et al. Meta-knowledge dictionary learning on 1-bit response data for student knowledge diagnosis[J]. Knowledge-Based Systems, 2020, 205: 106290.

Zhang Y, Yun Y, Dai H, et al. Graphs Regularized Robust Matrix Factorization and Its Application on Student Grade Prediction[J]. Applied Sciences, 2020, 10(5): 1755.

Zhang Y, Liu S. Integrated Sparse Coding With Graph Learning for Robust Data Representation[J]. IEEE Access, 2020, 8: 161245-161260.


(五)

论文介绍:

弱监督目标检测是一个重要而又具有挑战性的问题。许多弱监督的方法将任务制定为一个多示例学习问题,其中每个图像表示为一袋实例。为了预测图像中出现的每个对象的得分,现有的基于多示例学习的方法倾向于选择对特定类响应更强的示例,然而,这忽略了上下文信息。此外,物体经常表现出剧烈的变化,比如缩放和变换,这使得它们很难被检测到。在本文中,我们提出了弱监督组掩码网络(WSGMN),它主要有两个独特的特性:(1)利用区域间的关系生成包含上下文信息的社团示例,对对象的变化具有鲁棒性。(ii)为每个标签组生成掩码,并利用这些掩码动态选择最有用的社团示实例的特征信息来识别特定对象。在几个基准数据集上进行了大量的实验 ,证明了WSGMN在弱监督目标检测任务上的有效性。

Song Lingyun, Liu Jun, Sun Mingxuan,  Shang Xuequn,  Weakly Supervised Group Mask Network for Object Detection [J], International Journal of Computer Vision. 2020. (CCF A, 计算机视觉领域最顶级期刊)

项目介绍:

中国博士后面上项目:教育领域中图文混合跨模态问题的答案生成方法研究,2020.1~2021.11

国家级大学生创新训练项目,组员:张颖,管伊珊,闫梦琪,2020.7~2022.4