蛋白质组学数据基本分析

质谱数据质量控制
蛋白质组质谱数据搜索数据库后,数据质量控制来判断质谱实验的成功与否,是后续信息学分析的前提。质谱数据质控主要从匹配肽段的谱图△ppm、m/z、IonScore等方面判读。全体离子的质量偏差分布能够很好的体现数据的质量。


蛋白质序列覆盖度和肽段数目分布分析
基于质谱技术的蛋白质组原理决定了并不是蛋白质的所有肽段都能得到鉴定。蛋白质序列覆盖度和肽段数目分布的分析有助于直观了解鉴定的概况。

蛋白质组定性分析
蛋白质组定性分析指样本中蛋白质的鉴定,简单的说,即样本中都表达哪些蛋白质,表达多少种蛋白质。定性分析是蛋白质组学最基础的分析。

蛋白质定性分析往往只会列出鉴定蛋白质的ID。由于不同数据库对蛋白的编号不尽相同,因此需要补充蛋白质的信息。依赖已知蛋白质数据库的信息,对鉴定到的所有蛋白质进行全面注释,方便客户解读。主要包含的信息有蛋白质对应的蛋白质名称、基因名称、基因Entrez ID、Gene Ontology (GO)描述以及KEGG ID等。

蛋白质组定量分析
只知道样本中表达哪些蛋白质还远远不够,还需要知道这些蛋白质表达丰度的高低。这是蛋白质组定量分析,属于蛋白质组最核心的分析。定量准确与否决定整个实验的好坏。在单个样品内,重点分析样品高表达蛋白。通过对样品蛋白表达丰度的累积分布分析,得出样品的蛋白表达特征。

实验重复性分析
重复性分析主要是为了计算不同样品或不同批次实验之间鉴定蛋白质的重叠情况。

相关性分析主要是为了计算不同样品或不同批次实验之间鉴定蛋白质表达量的相关系数。

蛋白质表达差异分析
蛋白质表达差异分析是鉴定分子标志物和筛选药物靶标的前提,是蛋白质组学最核心的分析。适合多个不同样品之间差异表达基因的挖掘,例如疾病与正常对照之间、不同发育阶段、不同组织以及不同细胞类型之间等等。通过严格的质量控制(控制假发现率,FDR),筛选出各样品显著高表达和显著低表达的蛋白质。