2018年Data Mining and Bioinformatics Lab(DMBL)主要研究进展

快速导航

教授/副教授:陈伯林, 张育培, 孙世权

博士/博士后:郭阳, Chaima Aouiche, 刘树慧, 郑琰, 杨博

硕士:惠薇薇, 卢俊雅, 何军豪, 高轶群, 鲁桂林, 王静茹

文章标题:Net2Image: A Network Representation Method for Identifying Cancer-Related Genes (Bolin Chen, Yuqiong Jin, and Xuequn Shang)

研究动机:现有的深度学习算法在图像处理领域取得了巨大的成功,像Google提出的基于卷积神经网络的TensorFlow框架就是其中比较典型的一种学习结构。然而,这些成功的方法,大多是以图像数据作为输入数据,并不能直接应用到其它的生物网络数据中。因此,需要研究如何将与疾病相关的数据转化为与图像类似的数据,从而使用现有的成熟的学习框架。

技术挑战:

  1. 如何将无空间结构属性的网络数据转化为具有一定空间信息的规则数据
  2. 如何设计数据的转化形式,使无规则的网络数据的特征能够很好地被表示出来

主要贡献:在这篇文章中,我们主要提出了一种网络数据的矩阵化表示方法,使其不仅能够保留现有的网络数据中的拓扑特征,还能规则化的描述该节点及其邻居节点的关联属性。经过网络数据的规范化表示之后,可以将每个节点的数据转化为类似于图像的数据形式,从而可以灵活应用现有的比较成熟可靠的深度学习框架。

参考文献:

  1. [ISBRA 2017] Chen B., Jin Y., Shang X. (2017) Net2Image: A Network Representation Method for Identifying Cancer-Related Genes. In: Cai Z., Daescu O., Li M. (eds) Bioinformatics Research and Applications. ISBRA 2017. Lecture Notes in Computer Science, vol 10330. Springer, Cham.

文章标题:Low-rank Graph Regularized Sparse Coding (Yupei Zhang*, Shuhui Liu, Xuequn Shang*, and Ming Xiang)

研究动机:稀疏编码学习模型遭遇数据间相似度扰乱和局部结构信息损失。因此, 在从数据学习稀疏编码模型的同时,需尽可能保持数据原始分布结构。 鉴于数据的低秩子空间结构蕴含明确的判别信息,本文旨在保持低秩 结构到稀疏编码,从而获得具备强判别力的数据表示。

技术挑战:

  1. 如何获得低秩结构假设下的数据间相似度量?
  2. 如何保持子空间结构到稀疏编码?
  3. 如何求解所形成的多块变量优化问题?

主要贡献:本文基于低秩自表达模型,设计了非负低秩表示技术从而获取数据的多 子空间结构;基于流行学习的正则化方法,以图嵌入的方式保持所析取 的低秩结构;以联合学习方式解决了传统图正则的两步脱节问题。依据 所构造的学习目标,以线性化的增广拉格朗日乘子法进行迭代学习,从 而同时学习字典、稀疏编码、和低秩自表示。最后,在公众数据集上的 实验结果表明:所提方法不仅有效地保持了子空间结构到编码,而且极 大地提高稀疏表示的判别力和鲁棒性。

参考文献:

  1. Yupei Zhang*, Shuhui Liu, Xuequn Shang*, and Ming Xiang. Low-rank Graph Regularized Sparse Coding. The 15th Pacific Rim International Conference on Artificial Intelligence. (Accepted,长文录用率81/382)

文章标题:Higher-Order Partial Least Squares for Predicting Gene Expression Levels from Chromatin States (SHIQUAN SUN, XIFANG SUN, and YAN ZHENG, Northwestern Polytechnical University)

研究动机:基因表达是一个非常复杂的生物过程,基因表达量的高低直接或间接受诸多因素的影响,如组蛋白修饰,甲基化水平等。现有模型多数通过一维特征向量来刻画组蛋白的修饰水平,从而忽视的不同组蛋白标记之间的相互作用关系。为此,本课题通过高阶表示方法,张量,对不同组蛋白修饰标记如何影响基因表达的问题进行研究。

技术挑战:

  1. 如何对不同组蛋白修饰标记数据进行高阶表示?
  2. 如何对高阶模型进行有效的求解?

主要贡献:本课题设计了一个合理、有效的高阶表示方法对五种组蛋白修饰标记数据的高阶互作关系进行刻画。针对高阶表示模型,我们还开发了高阶偏最小二乘方法对该模型进行求解。提出的方法应用到人类、恒河猴和黑猩猩三个不同物种上进行测试。实验结果表明提出方法对三个物种基因表达水平的预测精度提高1.7% ~ 11%。

参考文献:

  1. [SSZ18] Shiquan Sun*, Xifang Sun, Yan Zheng. Higher-order partial least squares for predicting gene expression levels from chromatin states. BMC Bioinformatics, 19(5):113, 2018)

文章标题:Heritability estimation and differential analysis of count data with generalized linear mixed models in genomic sequencing studies (Shiquan Sun, Jiaqiang Zhu, Sahar Mozaffari, Carole Ober, Mengjie Chen, and Xiang Zhou)

研究动机:在动、植物遗传育种中,遗传度(heritability)估计和差异表达基因识别是其研究的两个非常重要内容。但是,现有统计模型不能根据测序数据本身的特点直接对原始counts数据建模。而且,由于测序机器存在测序误差,使得标准化原始counts数据会导致遗传度估计不足、识别的差异基因假阳性偏高。

技术挑战:

  1. 对测序数据counts直接建模及统计模型的求解问题
  2. 遗传度估计不准确和识别的差异基因假阳性过高

主要贡献:在这篇文章中,我们主要提出了一种网络数据的矩阵化表示方法,使其不仅能够保留现有的网络数据中的拓扑特征,还能规则化的描述该节点及其邻居节点的关联属性。经过网络数据的规范化表示之后,可以将每个节点的数据转化为类似于图像的数据形式,从而可以灵活应用现有的比较成熟可靠的深度学习框架。

参考文献:

  1. Shiquan Sun, Jiaqiang Zhu, Sahar Mozaffari, Carole Ober, Mengjie Chen, and Xiang Zhou. (2018) Heritability estimation and differential analysis of count data with generalized linear mixed models in genomic sequencing studies. Bioinformatics, https://doi.org/10.1093/bioinformatics/bty644.

文章标题:A fast and efficient count-based matrix factorization method for detecting cell types from single-cell RNAseq data (Shiquan Sun, Yabo Chen, Yang Liu, and Xuequn Shang)

研究动机:单细胞转录组测序(scRNAseq)数据具有其本身的特点,如噪声大,reads数少,表达矩阵稀疏等。细胞类型的识别对复杂疾病演化过程和调控机制的精准刻画起到关键性作用。数据降维能有效地移除噪声等对细胞类型识别的影响,但现有基于离散分布统计模型降维方法的计算时间随着细胞数增加呈指数级增长,导致实际应用受限。

技术挑战:

  1. 针对scRNAseq数据的离散分布矩阵分解统计模型的求解

主要贡献:在本文中,我们基于深度学习框架直接对scRNAseq counts数据建模,提出了负二项分布矩阵分解方法,scNBMF。该方法不仅能更准确识别细胞类型,而且在计算时间上,比现有基于离散分布的方法,如pCMF, ZINB-WaVE等快~ 100倍。

参考文献:

  1. Shiquan Sun, Yabo Chen, Yang Liu, and Xuequn Shang. (2018) A fast and efficient count-based matrix factorization method for detecting cell types from single-cell RNAseq data. The 17th Asia Pacific Bioinformatics Conference (APBC), Wuhan

文章标题:Identification of cancer subtypes by integrating multiple types of transcriptomics data with deep learning in breast cancer

研究动机:癌症疾病的亚型分类在癌症的诊断和治疗方面发挥着重要作用。最近研究表明,基因转录本的可变剪切异常往往与癌症的发生密切相关。因此,结合基因可变剪切数据预测癌症亚型有望得到更加准确的识别结果。

技术挑战:

  1. 基因及可变剪切表达数据是典型的小样本,高维数据,数据处理存在维度挑战。
  2. 如何有效地降维及特征学习?
  3. 如何有效地结合多源数据集?

主要贡献:本工作提出了一种基于层次结构的深度学习框架用于多源数据特征学习及融合。基于自编码深度学习算法分别学习各数据源中的特征表示,采用分层学习结构融合多源数据。本工作主要优势在于:1. 融合基因转录本可变剪切数据预测癌症亚型分类;2. 提出了一种层次结构融合多源数据的深度学习框架;3. 减少了不同数据源融合中的数据偏斜。实验结果表明,所提方法能够预测更具临床意义的癌症亚型类型。

参考文献:

  1. Yang Guo, Xuequn Shang*, Zhanhuai Li. Identification of cancer subtypes by integrating multiple types of transcriptomics data with deep learning in breast cancer, Neurocomputing (2018), https://doi.org/10.1016/j.neucom.2018.03.072

文章标题:BCDForest: a boosting cascade deep forest model towards the classification of cancer subtypes based on gene expression data

研究动机:深度森林作为一种新的深度学习模型已被证明具有良好分类性能。然而,由于生物数据的存在样本小,维度高的典型特征,直接采用深度森林模型可能存在模型训练过拟合或欠拟合的风险。因此,有必要对其进行适当改进使其更加适用于生物数据的分析中。

技术挑战:

  1. 如何采用集成分类器对高维数据特征进行有效提取?
  2. 如何丰富集成模型中分类器的diversity?
  3. 如何考虑集成模型中各分类器的分类质量?

主要贡献:本工作提出了一种改进的深度森林模型用于癌症亚型分类预测问题。提出了一种改进版基于集成随机森林分类器的特征提取方法。通过采用多源数据训练多个简单分类器,从而丰富集成学习中分类器的异质性,提高模型的鲁棒性。通过提升训练数据集中重要特征在分类单元中的特征选择权重提升模型整体分类性能。实验结果表明,所提模型能够较好的基于基因表达数据对癌症亚型进行有效分类。

参考文献:

  1. Guo Y, Liu S, Li Z, et al. BCDForest: a boosting cascade deep forest model towards the classification of cancer subtypes based on gene expression data[J]. BMC bioinformatics, 2018, 19(S5): 118

文章标题:A similarity regression fusion model for integrating multi-omics data to identify cancer subtypes

研究动机:现有基于多源数据集预测癌症亚型的数据融合方法很少考虑样本相似性的偏斜信息以及不同数据集在整体预测模型中的权重信息。这使得模型的预测的整体表现有待提高。鉴于此,本工作尝试提出一种新的融合模型同时考虑这两者信息。

技术挑战:

  1. 如何刻画及考虑样本之间相似性的偏斜因素?
  2. 如何考虑融合数据集之间的相关性?
  3. 如何考虑不同数据集在模型整体预测中的权重信息?

主要贡献:本工作提出了一种新的基于多源数据的相似性融合模型。基于多源数据中样本之间相似性,提出了一种基于回归模型的相似性融合模型。通过考虑不同数据集中每对样本各邻接节点之间相似性之间的相关性,学习每对样本之间相似性的预测模型,进而用于预测更加准确的样本相似性信息。通过对于不同数据集赋予不同权重信息,提高模型整体预测性能。实验结果表明,所提融合方法能够有效提高癌症亚型的预测准确性。

参考文献:

  1. Guo Y, Zheng J, Shang X, et al. A Similarity Regression Fusion Model for Integrating Multi-Omics Data to Identify Cancer Subtypes[J]. Genes, 2018, 9(7): 314.

文章标题:Hierarchical Similarity Network Fusion for Discovering Cancer Subtypes(Shuhui Liu and Xuequn Shang )

研究动机:基于单一方面的数据研究癌症亚型,结果具有偏向性。随着高通量测序技术的快速发展,多平台下的基因组和转录组数据大量产生,为研究癌症亚型提供了多层面的信息。基于多测序数据研究癌症亚型,具有更全面的癌症信息,从而能更精准地发现癌症亚型。本文通过融合多测序数据,得到具有高判别性的病人相似度网络,发现具有不同致病机理的癌症亚型。

技术挑战:

  1. 如何从有限的测序数据中,得到大量的具有不同信息的病人相似度网络?
  2. 如何融合来自于不同特征模态的相似度网络而得到具有高判别性的病人相似度网络?

主要贡献:本文通过随机抽样策略对各个平台下的测序数据进行特征抽样,构建大量的具有不同特征模态的相似度网络;设计了层级相似度网络融合框架,对大量的具有不同信息的网络进行融合,最终得到一个包含全部数据信息具有高判别力度的病人相似度网络;通过在多种数据集上进行验证,说明HSNF方法能够精准地发现病人癌症亚型。 本文提出的多层次数据融合方法HSNF,是利用集成学习的思想对相似度网络进行融合,为机器学习和网络的技术的结合提供了一种思路。

参考文献:

  1. S Liu, X Shang. Hierarchical Similarity Network Fusion for Discovering Cancer Subtypes[C]. 14th International Symposium on Bioinformatics Research and Applications (ISBRA 2018).

Title:Copy Number Variation related disease genes (Chaima Aouiche, Xuequn Shang *, and Bolin Chen)

Motivation:In this review, based on a variety of complex diseases, we give an overview about the critical role of using copy number variations (CNVs ) for identifying disease related genes, and discuss on details the different high-throughput and sequencing methods applied for CNV detection. Some limitations and challenges concerning CNV are also highlighted.。

Challenge: One of the most important and challenging issues in biomedicine and genomics is how to identify disease related genes. Datasets from high-throughput biotechnologies have been widely used to overcome this issue from various perspectives, e.g., epigenomics, genomics, transcriptomics, proteomics, metabolomics. At the genomic level, CNVs have been recognized as critical genetic variations, which contribute significantly to genomic diversity. They have been associated with both common and complex diseases, and thus have a large influence on a variety of Mendelian and somatic genetic disorders.

Contribution:Reliable detection of CNVs will not only allow discriminating driver mutations for various diseases, but also helps to develop personalized medicine when integrating it with other genomic features.

Citation:

  1. Chaima Aouiche, Xuequn Shang, Bolin Chen. Copy number variation related disease genes [J]. Quant. Biol., 2018, 6(2): 99-112.

文章标题:MitFinder: A fast apporach to identify miniature iverted-repeat transposable elements on a genome-wide scale(Jialu Hu, Yan Zheng, Xuequn Shang)

研究动机:微型反向重复转座子(Miniature inverted-repeat transposable element,简称MITE)是一种非自主转座的DNA转座子,它在基因的进化变异过程中起了至关重要的作用。一种能将MITE从全基因组中快速地查找出来的工具,对我们研究基因的调控、表达、变异具有重要意义。现有的MITE查找工具处理大型真核基因数据的能力较低,所以急需开发一种新的工具将MITE从基因组中快速有效的查找出来。

技术挑战:

  1. 如何将MITE从全基因组数据中快速地查找出来
  2. 如何将假阳性的MITE筛选出去

主要贡献:我们开发了一个新的工具——MiteFinder,用于在全基因组数据中查找MITE,通过建立K-mer索引,MiteFinder可以快速查找出所有可能的MTIE序列,并根据MITE的特性,对查找到的可能序列经过多次筛选,得到最终结果。通过与其他现有的MITE查找方法相比较,我们发现不仅可以更快更有效的查找出MITE序列,而且内存更加的高效。

参考文献:

  1. Hu J, Zheng Y, Shang X. MiteFinder: A fast approach to identify miniature inverted-repeat transposable elements on a genome-wide scale[C]// IEEE International Conference on Bioinformatics and Biomedicine. IEEE, 2017:164-168.

文章标题:MiteFinderII: a novel tool to identify miniature inverted-repeat transposable elements hidden in eukaryotic genomes (Hu J , Zheng Y , Shang X)

研究动机:在几乎所有的基因组内,变异的一个主要的原因是由转座因子(transposable element)或称为转座子(transposon)产生的,它们是基因组中可移动的一段分散的DNA序列,可将其自身从基因组的一个位置移动到另一个位置。微型反向重复转座子(Miniature inverted repeat transposable elements)是转座子中的一种,属于非自动DNA转录因子,简称MITE。MITE在真核生物的基因中大量存在,包括人类基因组。它们在基因中的移动整合可以改变基因的结构和功能,对生物的进化有明显的影响。所以对MITE进行精确,有效的查找对我们了解基因的结构、变异具有重大的意义。

技术挑战:

  1. 如何快速地在全基因组的范围内查找到MITE
  2. 如何把假阳性的MITE筛除出去

主要贡献:我们在原有的方法上进行改进,提出了新的算法。新的算法大致分为六个步骤:1. 建立哈希表并查找出所有可能反向重复序列; 2. 筛除低复杂度的反向重复序列;3. 反向重复序列的合并;4. 筛除低分反向重复序列;5. 获取最终序列;6.获取代表序列。所得到的结果与其他的方法结果相比较我们得知,MitefinderII有很高的运行效率,并且可以查找到更多的MITE序列,与现存的其他方法相比,具有较好的表现,对与MITE功能研究具有较大的帮助。

参考文献:

  1. Hu J, Zheng Y, Shang X. MiteFinder: A fast approach to identify miniature inverted-repeat transposable elements on a genome-wide scale[C]// IEEE International Conference on Bioinformatics and Biomedicine. IEEE, 2017:164-168.

文章标题:Measuring phenotype-phenotype similarity through the interactome(Jiajie Peng, Weiwei Hui and Xuequn Shang)

研究动机:在医学环境中,“表型”常指偏离正常形态、生理或行为。表型携带有生物学意义的信息。疾病通常是先天性或获得性突变的结果,因此,表型在疾病诊断过程中起着重要的作用。近年来,研究者已经开始关注表型相似性测量的发展。然而,现有的方法忽略表型相关蛋白之间的相互作用,这可能导致表型相似性不准确。为此,我们提出了一个基于蛋白质交互网络来计算表型之间关系的方法。

技术挑战:

  1. 蛋白质交互网络中的模块如何表示表型?
  2. 如何计算表型之间的相似度?

主要贡献:在本文中,我们提出了一种基于蛋白质交互网络的方法来计算表型相似性。该方法包括三个步骤:网络模块识别和网络定位、表型内部相似性计算和表型相似度计算。网络定位测试表明表型可以通过网络模块来表示。此外,基于两个独立的评价数据集(基因本体论和基因共表达数据),我们将本算法与其他方法进行对比,评价测试表明我们方法的性能优于现有方法。我们的工作开辟了一个新的表型相似性计算方向,这将有助于提高疾病诊断的准确性。

参考文献:

  1. Peng J, Hui W, Shang X. Measuring phenotype-phenotype similarity through the interactome[J]. BMC bioinformatics, 2018, 19(5): 114.

文章标题:Identifying consistent disease subnetworks using DNet(Jiajie Peng, Junya Lu, Xuequn Shang, Jin Chen)

研究动机:从全基因组基因表达数据中鉴定疾病特异性子网对疾病的研究是至关重要的。传统的方法利用基因表达数据信息,鉴定疾病基因特异性子网,这部分方法忽略了疾病网络的拓扑结构(甚至是网络的一部分)信息。因此,课题组提出了一个将网络拓扑结构和基因表达数据信息相结合的疾病特异性子网挖掘方法。

技术挑战:

  1. 如何根据基因表达信息挖掘关键基因?
  2. 如何根据网络拓扑结构信息和结点表达值信息对特异性子网进行评价?

主要贡献:我们设计了一种通过整合网络结构和基因表达信息来识别重要疾病子网的方法DNet。该方法能够识别潜在的关键基因,查找关键基因所在的疾病子网,通过对疾病子网打分,最终挑选出特异性疾病子网。在白血病和肌肉营养不良病上的实验评估表明,与其他方法相比,DNet在同一疾病的多个独立数据集之间表现了更高的一致性,其查找出的特异性疾病子网均能找到文献支持。

参考文献:

  1. Peng J, Lu J, Shang X, et al. Identifying consistent disease subnetworks using DNet.[J]. Methods, 2017, 131.

文章标题:NetCoffee2: A Novel Global Alignment Algorithm for Multiple PPI Networks Based on Graph Feature Vectors

研究动机:根据蛋白质自身的序列信息以及它在生物蛋白质网络中的拓扑结构信息,预测来自不同生物并且有着相似的生物功能的蛋白质(功能保守蛋白)。根据预测到的功能保守蛋白,可以使用已知生物功能的蛋白质预测未知蛋白的生物功能。

技术挑战:

  1. 此问题的最重要的问题是如何衡量两个蛋白质的相似程度
  2. 如何使用高效的算法寻找最好的网络比对结果

主要贡献:

  1. 本文的主要创新点是,根据蛋白质和它的邻居节点在网络中的重要程度为蛋白质提取一个五维的拓扑向量,以此来表示它在蛋白质网络中的拓扑结构。
  2. 使用BLAST工具进行蛋白质的序列比对,一次来衡量蛋白质的序列相似程度。
  3. 使用模拟退火算法寻找最优的网络比对结果。

参考文献:

  1. Jialu Hu, Junhao He, Yiqun Gao, et. al. NetCoffee2: A novel global alignment algorithm for multiple PPI networks based on graph feature vectors, Lecture Notes in Computer Science (ICIC 2018), in press

文章标题:Deep Subspace Similarity Fusion for the Prediction of Cancer Subtypes (Bo Yang, Shuhui Liu, Shanmin Pang, Chenpai Pang and Xuequn Shang)

研究动机:癌症亚型的准确预测可有效提升临床治疗效果并降低毒副作用。高通量实验技术的发展提供了多层次的组学数据,从不同角度对癌症亚型进行更为详细的描述。因此,采用适当的融合方法结合多层次数据能够提高癌症亚型的预测效果。

技术挑战:

  1. 如何描述数据间的相似性?
  2. 如何体现层内与层间数据之间的关系?
  3. 如何实现非线性的数据自表达?

主要贡献:本文首先通过深层子空间模型对数据特征的潜在表示进行编码,其次通过使用重构系数构建病人相似网络,最后对不同层次的网络进行融合并利用谱聚类实现癌症亚型的预测。多个数据集上的验证实验说明所提方法能够有效提高癌症亚型的预测准确率。

参考文献:

  1. Bo Yang, Shuhui Liu, Shanmin Pang, Chenpai Pang and Xuequn Shang. Deep subspace similarity fusion for the prediction of cancer subtypes[C]//IEEE International Conference on Bioinformatics and Biomedicine. IEEE, 2018.

文章标题:TSGOE: A web tool for tissue-specific gene ontology enrichment (Jiajie Peng, Guilin Lu, Hansheng Xue, Tao Wang, Xuequn Shang)

研究动机:基因本体论(GO)是研究基因间功能关系的最流行的生物信息学资源之一。 GO富集分析已成为基因功能分析的常规方法,对揭示生物学的分子机制具有重要意义。 然而,现有的GO富集分析工具没有考虑组织特异性,也无法区分用户感兴趣的基因组。在本文中,我们提出了一种基于组织特异性的GO富集分析方法,称为TSGOE,它允许用户方便地执行基于组织特异性的GO富集分析。

解决思路:本文利用在GTEX数据来计算不同组织上表达的基因,然后,通过在不同组织上利用超几何分布和多重假设检验校正来计算基于组织特应性的GO富集分析。最后,为了方便用户使用,我们还搭建了一个web应用程序,方便用户基于组织特应性的GO富集分析。算法的模型如下:

结果:我们搭建了一个web应用程序,允许用户执行基于组织特定的GO富集分析,并根据结构可视化这些GO术语的关联关系。为了评估其性能,我们将TSGOE应用于几个与血液疾病相关的基因列表。实验结果表明,该方法可找到比普通的基于GO的富集分析实验更加准确的结果,我们的工具比传统的富集分析方法表现更好。

Acknowledgments: This work was supported by National Natural Science Foundation of China (No. 61702421, 61332014, 61772426), China Postdoctoral Science Foundation (No. 2017M610651), Fundamental Research Funds for the Central Universities (No. 3102018zy033).

文章标题:MD-SVM: A novel SVM-based algorithm for the motif discovery of transcription factor binding sites (Jialu Hu,Jingru Wang,Xuequn Shang et al)

研究动机:准确表征TF-DNA结合亲和性对于定量了解生命过程中的细胞调控机制具有重要意义。因此,TF-DNA的结合模式的模体识别问题对于理解分子调控机制具有重要作用。目前有很多转录因子结合位点的算法,但是现有的算法仍旧存在很多问题。本文提出的多示例框架的SVM算法对于模体识别问题是一个很好的建模方法,可以充分利用DNA序列信息。

技术挑战:

  1. 如何更好的把DNA序列的模式表示出来?
  2. 如何更好的进行特征学习?
  3. 3. 如何防止模型过拟合?

主要贡献:本文使用了多示例学习对DNA序列上的建模,还使用了一种高效的算法SVM进行分类。通过优化算法的迭代条件防止过拟合,算法被应用在DREAM5的数据上,实验结果表明,所提模型能够较好的对转录因子的结合位点进行识别,更加准确的识别特定的结合模式,从而完成模体识别工作

文章标题:WebNetCoffee: a web-based application to identify functionally conserved proteins from Multiple PPI networks (Jialu Hu, Yiqun Gao, Junhao He, Yan Zheng and Xuequn Shang)

研究动机:功能同源(FOs)指的是那些在不同物种中功能保守的蛋白质,对FOs的研究对分子进化和功能注释的研究具有重要意义。迄今为止,已经很多算法被提出来寻找功能同源的蛋白质,但是没有为多个蛋白质交互网络执行网络比对的网络服务提供给研究人员使用。

技术挑战:

  1. 如何设计整个网络服务的流程来便于用户的使用?
  2. 为了便于下游分析我们额外提供了网络的可视化、模拟退火的过程展示以及蛋白质ID到基因注释信息的映射关系。

主要贡献:在这篇文章里,我们开发了一个基于Netcoffee的搜索算法的网络服务,它提供了多功能、交互式和用户友好的界面来在在线数据集和用户测试数据集上轻松运行网络比对任务,WebNetCoffee是第一个为多个蛋白质交互网络执行全局对齐提供便利的Web服务器,网络服务免费开放给公众使用。

参考文献:

  1. Jialu Hu, Yiqun Gao, Junhao He, Yan Zheng and Xuequn Shang, "WebNetCoffee: a web-based application to identify functionally conserved proteins from Multiple PPI networks", BMC Bioinformatics, 2018, 19(1), 422.

文章标题:KF-finder: Identification of key factors from host-microbial networks in cervical cancer

研究动机:人体中存在着大量的微生物,微生物在人类的生命过程起着非常重要的作用,但同时也会通过干扰正常的新陈代谢过程和免疫系统来引起疾病的发生。致癌性人乳头瘤病毒是宫颈癌的主要病因之一,但是宫颈癌中其他的微生物群的功能仍不是很清楚,因此,理解子宫颈癌中的微生物群的功能和调节机制具有非常重要的意义。

技术挑战:

  1. 不同人体内的微生物差别很大,因此找出宫颈癌的关键的致病微生物存在着很大的挑战
  2. 在可视化构建的宿主微生物网络的时候,由于网络过于庞大,导致可视化网络的速度比较慢

主要贡献:我们研究了从58个鳞状细胞和腺鳞状细胞癌中得到的微生物组成数据和基因表达数据,重建了宿主微生物网络,这个网络包含了259种微生物和738个差异表达基因。我们采取了多种meta-analysis的方法去寻找关键的治病因素。并且我们开发了一个基于Web的查询工具去可视化我们的实验结果。我们的结果都可以通过这个这个网络服务(KF-finder)得到http://www.nwpu-bioinformatics.com/KF-finder

参考文献:

  1. Jialu Hu, Yiqun Gao, Yan Zheng, Xuequn Shang, "KF-finder: Identification of key factors from host-microbial networks in cervical cancer", BMC Systems Biology, 2018, 12(S4), 54.