bioinformatics multiple sequences alignment

cheneypku 2 views 49 slides Oct 19, 2025
Slide 1
Slide 1 of 49
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49

About This Presentation

bioinfo-multi sequences alignment


Slide Content

生物信息学多序列比对

多序列比对用途 确认:一个未知的序列是否属于某个家族 建立:系统发生树,查看物种间或者序列间的关系 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列片段是否也有该功能

多序列比对要求 数量:不能太多,一般 10-15 条序列 关系:关系不能太远,一般相似度不低于 30% ;同时也不能太近,相似度高于 90% 接近等于同一条 长度:序列不能过短,长度尽量接近 重复域:序列包含重复域会造成大多数序列比对程序出错

多序列比对要求

多序列比对工具

EBI 多序列比对

多序列比对中各个序列的排列顺序 比对输出格式 根据 > 标记自动识别序列

EBI 多序列比对结果

* 完全相同, : 均为近似残基, . 部分相似,完全不标记即完全不相似 通过标记可发现保守区域位置

序列两两之间的一致度

Tcoffee 多序列比对工具 Tcoffee 多序列比对工具,算法上与 clustal 系列类似,准确度上比 clustal 系列略高,但计算耗时也略高。

多序列比对工具 给序列加入结构信息用于多序列比对 把多个比对工具的结果整合为一个 穿膜蛋白多序列比对 远源序列多序列比对

示例序列

结构文件信息

寻找保守区域 多序列比对的主要目的之一为找到 保守区域

寻找保守区域 序列标识图 :以图形的方式依次绘出每个位置上的残基。每个位置上残基的累积可反映出该位置上残基的一致性。 每个残基对应的图形字符大小与出现频率成正比。

寻找保守区域 输入 FASTA 格式的多序列比对结果

寻找保守区域

寻找保守区域

蛋白质指纹图谱 蛋白质指纹 (prints) :一组保守的序列基序,用于刻画蛋白质家族的特征。由多序列比对获得,氨基酸序列上不相邻,但三维结构上可能紧密结合。 PRINTS 数据库是蛋白序列指纹图谱数据库,存储了目前已发现的大部分蛋白质结组指纹图谱。对于陌生蛋白质,可以根据其指纹图谱归属的家族分类并预测功能。

蛋白质指纹图谱 蛋白质指纹 (PRINTS 数据库 )

蛋白质指纹图谱 蛋白质指纹 (PRINTS 数据库 )

蛋白质指纹图谱

蛋白质指纹图谱

蛋白质指纹图谱

蛋白质指纹图谱

分子进化与系统发生

进化论与系统发生 后天获得的性状可以遗传

如何研究进化 方法一:生物化石 零散、不完整 方法二:比较形态学 通过形态、解剖结构和生理学手段,确定大致的进化框架 细节存在较多争议 方法三: 分子进化学 利用软件,从分子水平上( DNA 、 RNA 、蛋白质)构建各种生物间的系统发生树

分子进化理论 美国科学家 Linus Pauling 于 1964 年提出分子进化理论 。 在 DNA 、 RNA 或蛋白质分子水平上,不是基于物种的外在特征,来研究进化过程。 基于某一个特定分子在不同物种中的序列差异来构建系统发生树。 基本假设 1 、 DNA 、 RNA 和蛋白质序列包含了物种的所有进化史理论。 2 、分子钟理论:一个特定蛋白质的进化变异速度在不同物种中是基本恒定的。即两个蛋白质的序列越接近,他们距离共同祖先就越近。

同源性概念 直系同源 来自于不同物种的,由垂直家系(物种形成)进化而来的基因。并且保留了与原始基因相同的功能。 旁系同源 在同一物种中来源于基因复制的基因,可能会进化出新的与原来有关的功能。 异同源 通过水平基因转移,来源于共生或病毒侵染所产生的相似基因。

相似度与同源性 相似度可量化 序列 A 与序列 B 的相似度是 80% 。 序列 A 与序列 B 是相似的。 同源性不可量化 序列 A 与序列 B 的同源性是 80% 。 序列 A 与序列 B 是相似的。

系统发生树 构建系统发生树的意义 对于一个未知的基因或蛋白序列,确定其亲缘关系最近的物种。 预测一个新发现的基因或蛋白质的功能。 有助于预测一个分子功能的走势。 追溯一个基因的起源。

系统发生树 理论上存在的祖先 现存的物种 构建 的 各 物种

系统发生树 从任何一个点发出的枝子围着这个点旋转都不改变树的生物学意义

系统发生树 有根树 有根树反映了树上基因或蛋白质进化的时间顺序,体现不同基因或蛋白以什么方式和速率进化 无根树 只反映分类单元之间的距离,而不涉及谁是祖先的问题 根 外类群 所研究内容之外的一个群,在研究内容之外,但又不能太远

物种树与分子树 生物进化树 1998 年提出的涵盖整个生命界的系统树,之后被不断修改和补充,勾画出了生物进化的大致轮廓。

系统发生树的构建 基于距离的方法 neighbor joining 最大简约法 maximum parsimony 最大似然法 maximum likelihood 贝叶斯推断法 bayesian inference 快 慢 高 低 计算速度 计算准确度

基于距离的 UPGMA 法 非加权分组平均法( UPGMA )构建实例 UPGMA 法是通过计算所有序列两两间的距离,再根据距离远近构建系统发生树。 序列两两间的距离可以用双序列比对得出的一致度 / 相似度代表,或用其他简化值代替。 如果 DNA 序列两两间一致度大于 70% ,就选用 DNA 序列构建序列树。 如果 DNA 序列两两间一致度小于 70% ,则可选用 DNA 或蛋白质序列构建。

基于距离的 UPGMA 法 四条序列 A : T A G G B : T A C G C : A A G C D : A G C C 用序列间不同的碱基数目作为序列间遗传距离的度量 A 和 B 的距离 d[AB]=1 A: T A G G B: T A C G A 和 C 的距离 d[AC]=2 A: T A G G C: A A G C A 和 D 的距离 d[AD]=4 A: T A G G D: A G C C B 和 C 的距离 d[BC]=3 B: T A C G C: A A G C B 和 D 的距离 d[BD]=3 B: T A C G D: A G C C C 和 D 的距离 d[CD]=2 C: A A G C D: A G C C

基于距离的 UPGMA 法 距离矩阵 A 和 B 的距离 d[AB]=1 A: T A G G B: T A C G A 和 C 的距离 d[AC]=2 A: T A G G C: A A G C A 和 D 的距离 d[AD]=4 A: T A G G D: A G C C B 和 C 的距离 d[BC]=3 B: T A C G C: A A G C B 和 D 的距离 d[BD]=3 B: T A C G D: A G C C C 和 D 的距离 d[CD]=2 C: A A G C D: A G C C A B C B 1 C 2 3 D 4 3 2

基于距离的 UPGMA 法 距离矩阵 A B C B 1 C 2 3 D 4 3 2 0.5 1 2 1.5 A B A 和 B 的距离 d[AB]=1 A: T A G G B: T A C G

基于距离的 UPGMA 法 距离矩阵 A B C B 1 C 2 3 D 4 3 2 0.5 1 2 1.5 A B AB C C 2.5 D 3.5 2 AB 视为整体与 C 比较 d[(AB)C]=[d(AC)+d(BC)]/2=2.5 d[(AB)D]=[d(AD)+d(BD)]/2=3.5 C D

基于距离的 UPGMA 法 距离矩阵 A B C B 1 C 2 3 D 4 3 2 0.5 1 2 1.5 A B AB C C 2.5 D 3.5 2 CD 视为整体与 AB 比较 C D AB CD 3

MEGA 7 构建 NJ 树

MEGA 7 构建 NJ 树

MEGA 7 构建 NJ 树

MEGA 7 构建 NJ 树 检验方法 计算遗传距离的替换模型 空位删除方法

MEGA 7 构建 NJ 树 原始树 经步长检验的树
Tags