Unidad 2_Alineamiento I .pdf aplicados a la ingeniería de proteínas

BlancaDeLosReyes5 0 views 58 slides Sep 28, 2025
Slide 1
Slide 1 of 58
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58

About This Presentation

alineamiento multiple de secuencias


Slide Content

Unidad 2: Alineamiento de secuencias I
Bloque I
Bioquímica e ingeniería de proteínas
Bloque I

Iden%ficarla
¿Como localizar una POI en un organismo en el que no se ha iden%ficado previamente?
¿Como hacer ingeniería de proteínas sobre una POI sin conocer su estructura?
Escenario teórico:
-Posible enzima con interés industrial (nuevo organismo)
Pasos a seguir:
Bloque I: Alineamiento de secuencia I
ChlorellaProblema:
Especie en la que no se ha descrito previamente la POI (protein of interest)

Bloque I: Alineamiento de secuencia I
1. Localizar la secuencia: comparación de secuencias
Alineamientode secuencias
> Predicción de estructuras (secundaria y terciaria)
Aproximaciones in silico

Secuencia → Estructura → Función
Las secuencia del ADN
determina la secuencia
de una proteína.
La secuencia de una
proteína determina su
estructura 3D.
La estructura 3D de una
proteína determina su
función biológica.
Por tanto, es muy
probable que
secuencias similares
den lugar a proteínas
con estructura y
función parecidas.
Bloque I: Alineamiento de secuencia I

Análisis de secuencias (alineamiento múltiple)
Cuanto más similares sean dos secuencias, más similares tenderán a ser
también las funciones de las proteínas. Identidades, cambios conservativos/
cambios no conservativos
Normalmente dos secuencias tienen una alta similitud porque son homólogas,
es decir comparten un ancestro común. Cuanto más tiempo pase desde el
último antecesor común más diferentes serán las secuencias
La acumulación de mutaciones a lo largo del tiempo es la causa de que las
secuencias de una misma proteína en dos especies distintas no sean idénticas.
Utilidad de los alineamientos múltiples. Pueden servir para varias cosas,
entre las que a nosotros nos puede interesar:
Identificar dominios funcionales.
Identificar sitios potencialmente mutables para mejorar
Que datos hay que tener en cuenta en la comparación de
secuencias
Bloque I: Alineamiento de secuencia I

Similar sequence leads to similar structure
Similar structure leads to similar func2on
El alineamiento de secuencias es una herramienta básica de la bioinformática
porque permite obtener información funcional, estructural y evolutiva
El alineamiento de secuencias es la técnica que permite establecer el grado de
similitud que hay entre ellas.
Cuando el grado de similitud entre dos o más secuencias es elevado, existe
una probabilidad muy alta de que se trate de secuencias homólogas.
Alineamiento de secuencias
Bloque I: Alineamiento de secuencia I

Obje:vos del alineamiento de secuencias
> Determinar (y cuan/ficar) el grado de similitud que hay entre ellas
> Determinar si existe algún /po de relación entre ellas (por ejemplo, si son
homólogas) o si el parecido es simplemente fruto de la casualidad
> Detectar la presencia de mo2vos estructurales y/o funcionales
conservados
> Iden/ficar, con un alto grado de probabilidad, qué residuos son relevantes
o fundamentales para que la proteína lleve a cabo su función (p.e. si/o
catalí/co, unión a ligandos, etc …)
> Construir árboles filogené/cos que reflejen sus relaciones evolu2vas
Bloque I: Alineamiento de secuencia I

Posibles resultados al alinear dos secuencias
Al comparar dos secuencias puede ocurrir:
• Que sean idénticas: En este caso, lo más probable es que una descienda
directamente de la otra por mecanismos hereditarios (transferencia vertical de
genes).
• Que sean parecidas: En este caso, el parecido puede deberse a que ambas
secuencias descienden de un ancestro común (homología) o a que se trata de un caso
de evolución convergente (analogía), es decir, no derivan de un ancestro común.
Bloque I: Alineamiento de secuencia I
Analogía: grado muy alto de similitud entre dos secuencias, pero sin derivar de un
ancestro común.

> Definición: secuencias que proceden de una misma secuencia
ancestral y que, por tanto, presentan cierto grado de similitud.
> No hay grados, o se es homólogo o no (“soy un 30% tu padre”)
> Dos proteínas homólogas suelen tener una estructura 3D similar
> Dos proteínas o genes homólogos suelen tener secuencias muy
parecidas
Homología
Conceptos: homología/similitud
Bloque I: Alineamiento de secuencia I

Tipos de homologías
Parálogas
Ribonucleasa bovina
(enzima digestiva)
Ribonucleasa humana
(enzima digestiva)
Angiogenina humana
(estimula el crecimiento de
los vasos sanguíneos)
Proteínas homólogas son aquellas que derivan de un
antecesor común. Pueden distinguirse dos clases:
Parálogas: Son proteínas
homólogas presentes en la
misma especie. Funciones
diferentes.
Ortólogas: Son proteínas
homólogas presentes en
especies diferentes pero que
realizan la misma función.
Ortólogas
Bloque I: Alineamiento de secuencia I

Speciation
Suelen adquirir
nuevas funciones
Suelen conservar
la función
Laglobinaes unaproteína globularen su estructura terciaria, que forma parte
de lahemoglobina(heteroproteína) siendo la globina la parte proteica.
Bloque I: Alineamiento de secuencia I

> Similitud: grado de coincidencia entre dos secuencias (en porcentajes)
- “El grado de similitud entre dos secuencias es de un 45%”
- Similitud no implica homología
> Iden2dad: coincidencia total entre dos secuencias (muchas veces se usa como
sinónimo de similitud)
Bloque I: Alineamiento de secuencia I
Conceptos: homología/similitud
¿Que nos dice el % de similitud?

Fig4.1Percentageidentityisanimportantindicatorofthelevelofevolutionarydivergenceand
functional/structuralsimilaritybetweencomparedsequences.Differentalignmentmethodshavedifferentareas
ofoptimumapplication.Pairwisealignmentalgorithms,forexample,performwellathighlevelsofidentity,but
below~50%,theuseofconsensusinformation(frommultiplealignments)maybenecessary.Below~30%,
profilemethodsaregenerallyused,becausetheyallowinsertions,deletionsandsubstitutionstobemodelled.
Finally,atthelowestlevelsofidentity,wherealignmentsarenolongerstatisticallysignificant,structure
predictionalgorithmstendtobeused.
Bloque I: Alineamiento de secuencia I
La probabilidad que sean
homologas es del 90%
Secuencias
homologas pueden
tener misma
estructura, misma
función¿son homologas?

Parecidas
A modo de resumen
Comparación
de
secuencias
IdénticasHerencia genética
Homólogas
Análogas
Ancestro
común
Evolución
convergente
En un mismo organismoEn distintos organismos
OrtólogasParálogas
EspeciaciónDuplicación de un gen
Conserva la funciónAdquiere nueva función
Bloque I: Alineamiento de secuencia I

Tipos de alineamientos en función de número de
secuencias a comparar
1.- Alineamiento de dos secuencias
2.- Alineamiento múltiple de secuencias (AMS)
Tipos de alineamiento
Bloque I: Alineamiento de secuencia I

Conceptos
-Indel o gaps (inser/on/dele/on) : los huecos introducidos en las secuencias
-Match: secuencias iguales
-Mismatch: secuencias dis%ntas
-Alineamiento óp:mo: corresponde al que ob%ene mayor puntuación
1.- Alineamiento de dos secuencias
Bloque I: Alineamiento de secuencia I
Obje:vo
Alinear dos secuencias de forma que coincida el máximo número de posiciones

Aminoácidosidénticos
Sustitucionesconservadoras
Sustituciones noconservadoras
HumanoCachalote
HumanoCachalote
HumanoCachalote
HumanoCachalote
HumanoCachalote
HumanoCachalote
HumanoCachalote
HumanoCachalote
HumanoCachalote
HumanoCachalote
84% identidad/similitud
94% incluyendo cambios conservadores
Comparación de las secuencias de
aminoácidos de las mioglobinas
humana y de cachalote
Comparación de secuencias de proteínas
→ cambios su+les
→ cambios estructurales
y/o funcionales
Mismatch
Bloque I: Alineamiento de secuencia I

Bloque I: Alineamiento de secuencia I

Alineamiento de pares
! Colocación de dos secuencias para que se maximice su similitud
! Las secuencias son largas y la capacidad de combinación alta
! Necesidad de métodos algorítmicos para realizar el alineamiento
ROJO

ROSSO+2
ROUGE+2
RED +1
ROJ–O

ROSSO
** *+3 (75%)
RO–JO

ROUGE
** +2 (50%)
ROJO

RED–
* +1 (25%)
7
Document shared on www.docsity.com
Downloaded by: emilio-gutierrez-6 ([email protected])
¿cómo determinar cual es el mejor alineamiento?
Para determinar cuál es el mejor alineamiento
existen sistemas de puntuación.
El alineamiento que obtenga la puntuación más
elevada se denomina alineamiento óptimo
Bloque I: Alineamiento de secuencia I
Existen diferentes esquemas de puntaje que
darán resultados diferentes

El problema del alineamiento (I)
El problema de alinear pares de secuencias para realizar una comparaci´on “lo
m´as efectiva posible” no es una tarea f´acil.
?Ejemplo 1:ComparamoslasecuenciaMODELOconMUNDO,CORDELyMODO.
M O D E L O
MUNDO +1
CORDEL+2
MODO +3
Se pueden introducirhuecosen las secuencias a fin de aumentar la similitud:
M O D E L O
MUND - O+2
CORDEL+2
MO - - DO+4
Obienpodemoshacerestaotradistribuci´on
M O - D E L O
MUND - -O+3
CORDEL +5
MO - D - - O+4
Los huecos pueden representar posibles mutaciones en el proceso evolutivo.
5/44
¿cómo determinar cual es el mejor alineamiento?
Bloque I: Alineamiento de secuencia I

El problema del alineamiento (III)
Se trata de unproblema de optimizaci´on:
•Deber´a tener unafunci´on objetivoque asignar´a valores num´ericos a cada alineamiento.
?Necesidad de fijar unsistema de puntuaci´on.
La resoluci´on mec´anica del problema mediante un algoritmo de fuerza bruta
ser´ıa la siguiente:
•ConsiderarTODOSlos posibles alineamientos (con la ´unica restricci´on de que no pueden haber dos huecos
en una misma posici´on).
•Asignar un valor num´erico a cada uno de ellos.
•Elegir un alineamiento que sea ´optimo (generalmente, m´aximo) para esos valores.
No existe acuerdo acerca de un sistema de puntuaci´on “perfecto”.
7/44
¿cómo determinar cual es el mejor alineamiento?
Bloque I: Alineamiento de secuencia I

El problema del alineamiento (IV)
Unejemplo de sistema de puntuaci´onpara pares desecuencias de
nucle´otidos:
•Los nucle´otidos A y G son de la familia de laspurinas.
•Los nucle´otidos C y T son de la familia de laspirimidinas.
•Si dos nucle´otidoscoincidenle asignamos el valor +3.
•Si uno de los nucle´otidos es A y el otro G le asignamos el valor +1.
•Si uno de los nucle´otidos es C y el otro T le asignamos el valor +1.
•Si uno de los nucle´otidos es A (resp. G) y el otro es C (resp. T), le asignamos el valor -1.
•Adem´as, a la aparici´on de unhuecole asignaremos el valor -2.
En este caso, la matriz de similitudess(A[i],B[j]) ser´ıa la siguiente:
A C G T
A+3
C!1+3
G+1 !1+3
T!1+1 !1+3
8/44
¿cómo determinar cual es el mejor alineamiento?
Bloque I: Alineamiento de secuencia I

¿ácidos nucleicos o aminoácidos?
En las bases de datos, los 4 nucleó%dos aparecen con la
misma frecuencia.
Todos los cambios posibles %enen una probabilidad
similar.
Método lento, porque las bases de datos de ácidos
nucleicos con%enen un número muy elevado de caracteres
Es preferible “traducir” una secuencia de ADN a 6
proteínas (los 6 ORF) y alinear las secuencias de proteínas
Si se trata de secuencias no codificantes, no queda más
remedio que hacerlo
En el alineamiento de ácidos nucleicos hay que tener en cuenta:
Bloque I: Alineamiento de secuencia I

1.- Aportan más información.
3.- El código gené%co es redundante, casi 1/3 de las
bases no están some%das a presión selec%va y generan
ruido, lo que afecta a la sensibilidad de la búsqueda
4.- as búsquedas en bases de datos de ácidos nucleicos son más lentas porque son mucho
más grandes a causa de los proyectos genómicos y, además, con%enen muchas secuencias
no codificantes.
5.- A diferencia de los nucleó%dos, las probabilidades de sus%tuir un aa por otro son muy
dis%ntas y, con ello, la eficacia de la búsqueda aumenta notablemente.
2.- Se ob%enen resultados estadís%camente
significa%vos con alineamientos más cortos
¿ácidos nucleicos o aminoácidos?
Alineamiento de aminoácidos son más sensibles porque:
Bloque I: Alineamiento de secuencia I

¿ácidos nucleicos o aminoácidos?
ATGGAGCTGATCTCATCAGCGATCTCAGCGCTGATCGTCGAGTGA
ATGGAATTAATTAGTAGTGCTATTAGTGCTTTAATTGTTGAATAA
Consideremos estas dos secuencias:
ATGGAGCTGATCTCATCAGCGATCTCAGCGCTGATCGTCGAGTGA
ATGGAATTAATTAGTAGTGCTATTAGTGCTTTAATTGTTGAATAA
Hagamos un alineamiento sin huecos:
Hay 23 nucleótidos idénticos de un
total de 45 (Un 51% de similitud)
Alineamientos de 2 secuencias de ADN
Alineamiento de de 2 secuencias de DNA
Bloque I: Alineamiento de secuencia I

ATGGAGCTGATCTCATCAGCGATCTCAGCGCTGATCGTCGAGTGA
ATGGAATTAATTAGTAGTGCTATTAGTGCTTTAATTGTTGAATAA
Secuencias de ADN:
Traducción a proteínas:
MELISSAISALIVE
MELISSAISALIVE
A nivel de aminoácidos, las dos
secuencias son idénticas
¿ácidos nucleicos o aminoácidos?
Alineamiento de las 2 secuencias codificadas
Bloque I: Alineamiento de secuencia I

1.Alineamiento global: las secuencias se alinean a lo largo de toda
su longitud, intentando alinear secuencias completas
2.Alineamiento local: sólo se alinean las partes más parecidas de la
secuencia
3.Alineamiento semiglobal: se produce entre el final de una
secuencia y el inicio de otra
Tipos de algoritmos en alineamientos de dos secuencias
Bloque I: Alineamiento de secuencia I

1. Alineamiento global
- Abarca la totalidad de la secuencia
- Permite determinar si las secuencias son homólogas
- Se introducen huecos para igualar las longitudes de secuencia
- Ú%l para secuencias muy parecidas y de longitud similar, para construir árboles
filogené%cos.
- Problema: proceso lento
Homología
Bloque I: Alineamiento de secuencia I
Tipos de algoritmos en alineamientos de dos secuencias

2. Alineamiento local
Mo:vos
conservados
- Alinean solo regiones más similares, es el más u:lizado.
- Ú%l para secuencias muy divergentes (iden%fica regiones conservadas)
- Favorece encontrar patrones similares dentro de la secuencia (dominios estructurales o
funcionales, centros ac:vos, si:o de interacción con otras moléculas) => crucial para
comprender la función de una POI
- Suele ser la mejor opción (BLAST)
Bloque I: Alineamiento de secuencia I
Tipos de algoritmos en alineamientos de dos secuencias

Tipos de alineamientos de dos secuencias
3. Alineamiento semiglobal
Ensamblaje
de secuencias
- Ú%l cuando el final de una secuencia solapaba con el inicio de la otra, por lo que permite:
•Permiten ensamblar con/gs a par%r de fragmentos pequeños
•Comparar cDNA o EST (expressed sequence tags) con ADN genómico y así dis:nguir
exones e intrones
•Descubrir patrones en una secuencia larga
Bloque I: Alineamiento de secuencia I

Iden%ficarla
¿Como localizar una POI en un organismo en el que no se ha iden%ficado previamente?
¿Como hacer ingeniería de proteínas sobre una POI sin conocer su estructura?
Escenario teórico:
-Posible enzima con interés industrial (nuevo organismo)
Pasos a seguir:
Bloque I: Alineamiento de secuencia I
ChlorellaProblema:
Especie en la que no se ha descrito previamente la POI (protein of interest)

Alineamiento de dos secuencias
Bloque I: Alineamiento de secuencia I
•Página web del organismo de estudio (Ej. Phytozome, SGD
(levadura) o TAIR (Arabidopsis))
•Base de datos donde se encuntra depositadas los genomas
(ej. NCBI)

Bloque I: Alineamiento de secuencias
•Compara una secuencia problema (query sequence) de nucleó%dos o de proteínas con
todas las secuencias de una BD de nucleó%dos o de proteínas .
•BLAST (Basic Local Alignment Search Tool)
•Emplea el algoritmo local (algoritmo aproximado)
•El algoritmo permite una ejecución en un %empo razonable, aunque no garan%za la solución
correcta.
•Devuelve uno de los alineamientos más óp%mos
¿qué hace?
•la secuencia problema coincida al 100% con una secuencia de la BD: la secuencia
problema ya se conocía con anterioridad
•la secuencia problema coincida al 100% con parte de una secuencia de la BD: la
secuencia problema es una subsecuencia de otra secuencia de la BD
•la secuencia problema sea similar a otra(s) secuencia(s) de la BD: las regiones de similitud
pueden corresponder a dominios locales conservados con una función conocida
•no se encuentren parecidos: la secuencia problema puede corresponder a un nuevo gen
resultados
Bloque I: Alineamiento de secuencia I

Bloque I: Alineamiento de secuencia I

Para utilizar BLAST en el servidor del NCBI hay que:

1. Ir a la dirección http://blast.ncbi.nlm.nih.gov/Blast.cgi
2. Seleccionar la variante del programa que se va a utilizar
3. Introducir la secuencia problema. Se puede poner directamente un código de
acceso, un código gi (gene identifier), o una secuencia en formato FASTA
4. Seleccionar la base de datos
5. Ajustar diversos parámetros de la búsqueda (E-value, word size, scoring
parameters: substitution matrix, gap penalties). Si no sabes muy bien cómo
hacerlo, utiliza los valores que se utilizan por defecto
6. ¡BLAST!

Variantes del programa BLAST (NCBI)

Existen diversas variantes del programa BLAST. Es importante saber cuál es la que
mejor se adapta a los objetivos de la búsqueda. Para ello, hay que tener en cuenta 3
factores: (1) la naturaleza de la secuencia problema, (2) el objetivo de la búsqueda y (3)
la BD donde se va a llevar a cabo la búsqueda. En la siguiente Tabla se muestran las
distintas versiones del programa BLAST:

Programa BD
Secuencia
problema
Usos típicos
BLASTN Nucleótidos Nucleótidos
Localización de oligonucleótidos, ADNc, y productos
de PCR en un genoma; escrutinio de elementos
repetitivos; detección de una misma secuencia en
múltiples especies; anotación del ADN genómico;
ensamblaje de las lecturas obtenidas en proyectos de
secuenciación; eliminación de las secuencias
pertenecientes a un vector
BLASTP Proteínas Proteínas
Identificación de regiones comunes o de dominios
compartidos entre las proteínas; recolección de
proteínas relacionadas para hacer análisis
filogenéticos
BLASTX Proteínas
Nucleótidos
traducidos a
proteínas (×6)
Encontrar en el ADN genómico los genes que
codifican proteínas; determinar si un ADNc
corresponde a una proteína conocida
TBLASTN
Nucleótidos
traducidos a
proteínas (×6)
Proteínas
Identificación de transcritos que sean parecidos a una
proteína determinada y que puedan pertenecer a
múltiples organismos; localización de una proteína en
el ADN genómico
TBLASTX
Nucleótidos
traducidos a
proteínas (×6)
Nucleótidos
traducidos a
proteínas (×6)
Predicción de genes en múltiples especies a nivel de
transcrito o a nivel de genoma; identificación de
genes que no han sido detectados por métodos
tradicionales o cuyos productos aún no están
almacenados en las bases de datos de proteínas


Bloque I: Alineamiento de secuencia I
BLAST es un conjunto de programas

Bloque I: Alineamiento de secuencia I

Bloque I: Alineamiento de secuencia I

Bloque I: Alineamiento de secuencia I

Bloque I: Alineamiento de secuencia I
Encabezamiento:
Resumende la
busqueda
Los resultadosse presentanen 4 pestañas
dis=ntas: Descripciones, Gráficoslineales,
Alineamientosy Taxonomía

Ranking con las secuencias
de la BD más parecidas a la
secuencia problema
Parámetros estadísticos que definen
el parecido entre la secuencia
problema y las secuencias de la BD
PESTAÑA 1
Bloque I: Alineamiento de secuencia I
Parámetrosestadís=cosquedefinenel
parecidoentre la secuenciaproblema
y lassecuenciasde la DB

Bloque I: Alineamiento de secuencia I

Cada línea es una secuencia
de la BD. El color y la longitud
de la línea indican el parecido
con la secuencia problema.
Región de la
secuencia que
corresponde a
un dominio
conservado
PESTAÑA 2
Bloque I: Alineamiento de secuencia I
Regionesde la secuenciaque
correspondea un dominioconservado

Alineamiento completo entre
la secuencia problema y
cada una de las secuencias
encontradas en la BD.
Parámetros del alineamiento
Alineamiento
completo
Siguiente alineamiento
PESTAÑA 3
Alineamiento
completo
Parámetrosdel
alineamiento
Bloque I: Alineamiento de secuencia I

• Query y Sbjct: secuencias. Ambas se alinean para maximizar su similitud
• Coincidencias: línea entre Query y Sbjct
• Letra: coincidencia idéntica
• +: coincidencia conservada (aminoácidos básicos, ácidos, hidrófobos…)
• Espacio en blanco: no hay coincidencia
• Score: valor del algoritmo de alineamiento
• Identities/Positives: porcentaje de coincidencias idénticas/conservadas
• Gaps: porcentaje de huecos incluidos en el alineamiento
Document shared on www.docsity.com
Downloaded by: emilio-gutierrez-6 ([email protected])
Bloque I: Alineamiento de secuencia I
PESTAÑA 3

Datos taxonómicos de las
especies a las que
pertenecen las secuencias
encontradas en la BD.
PESTAÑA 4
Bloque I: Alineamiento de secuencia I

>GenX
AGTGTATTCGTCACTTTCTCTAGTTTCCTGTAACCCAACCCACTCAAACGAAATTTTTTCTTAATCTCTCTTTCGTTCTTCTTCTTCTTCTTCTTCTTTAGATTGTTGTAATTCC
AATCGGAACTCTCGATTCGCTTTCTTCTCCGTTCTTCTGTGGCGGACCGGTTTTGTGGTTTTTTATTTGAACATTCCCGATCTTGCCCTGAGTTCCACGATCAGTTTCTTTA
AACCCTAGGTTTTACACAAGCATTCTGTTTCTCCAGATTATCGCAGACTCTTTCGTTCTATTCTTTGTAGTTTTGTAAAAGGTATTTCGGTAGATTTAGGGTTTGTCTGTGT
CTANTTTTCGAGATCGAGAGAGATTTGTGATGAATACTAACAGAGGAAGATATCCACCGGGTGTTGGAACGGGTCGTGGTGCGCCTCCGAATCCAAATTATCATCAGT
CTTATCGGCAGCAACAACCACCTCAAGATCAGCAGTATGTTCAACGCGGTTATTCTCAGAACCCTCAGCAGATGCAACTCCAGCAACAACATCAACAACAACAGCAGCA
GCAACAGTGGTCAAAACGCCCTCAGCTTCCTGAAAACGCTAGTAACGCTAATGAGGTGGTTCAGCAAACAACCCAGCCCGAAGCTAGCAGCGATGCTAATGGTCAAAA
CTGGAAGGCTACTTTAAGGCTACCACCTCCTGATACTCGTTATCAGACAGCGGATGTGACAGCTACAAAGGGAAATGAATTCGAAAATTACTTTCTGAAAAGAGATCTG
TTAAAGGGAATATATGAGAAGGGTTTTGAGAAGCCATCTCCAATTCAAGAAGAGAGCATTCCAATTGCTTTAACTGGTAGTGATATTCTTGCTAGAGCTAAAAACGGTA
CAGGAAAGACTGGTGCCTTCTGCATTCCAGTCCTCGAGAAAATTGACCCAAATAACAATGTTATTCAAGCCATGATTCTAGTTCCAACGCGAGAGCTGGCCCTTCAGAC
ATCACAAGTTTGCAAGGAGCTTTCCAAATATTTGAATATCCAGGTTATGGTCACCACTGGCGGTACCAGTCTGAGAGATGATATTATGCGATTACATCAACCTGTGCATC
TGCTGGTTGGAACTCCTGGAAGAATATTGGATCTTACAAAAAAGGGTGTCTGTGTTTTGAAAGACTGTGCGATGCTTGTAATGGATGAGGCCGACAAGCTTTTGTCTGC
AGAATTCCAACCTTCTCTAGAGGAATTGATACAGTTTCTACCCCAAAATCGTCAGTTTTTGATGTTTTCCGCCACATTCCCTGTCACTGTTAAGGCTTTTAAGGATCGACA
TCTCCGGAAGCCCTATGTTATCAATCTCATGGATCAACTCACGCTTATGGGTGTCACGCAATATTATGCTTTTGTCGAAGAAAGACAGAAGGTTCACTGCCTCAACACAC
TTTTCTCTAAGCTGCAAATAAATCAATCGATAATCTTTTGCAACTCTGTCAATCGCGTGGAGCTGTTGGCTAAGAAAATCACAGAACTTGGTTATTCATGCTTCTACATTC
ATGCAAAGATGGTTCAAGACCACAGGAACAGAGTATTCCACGAGTTCCGCAATGGTGCTTGCAGGAATCTCGTTTGCACTGATCTGTTTACTCGAGGAATTGACATTCA
AGCTGTGAATGTCGTGATCAACTTTGATTTTCCTAGGACTTCTGAGTCATATCTACACAGGGTGGGTCGATCAGGACGGTTTGGACACCTTGGATTGGCTGTGAATTTG
GTAACTTATGAGGACCGTTTCAAAATGTATCAGACTGAGCAAGAACTTGGGACCGAAATCAAACCAATTCCTTCTAATATCGATCAAGCAATCTACTGTCAGTAAACTT
GTAACTGTGCATGAAACGTGTCTCCACCCAATGAGAGGTACAAGATGGTTAAAATGGTGTTTCTCAAGCTCGAGGGGAGGAGATGAGGCAACTAGTACTTGGCGGTT
CATGTAAAGACTCGTTACTCAGTGGTTTGGTTCCTAATCTCTCTTAAAGACACTTGTTATCTGGTTCTATGGAAACCTCTTTACGCTGCACTTATTATGAGACTCCCTTTGA
CTTGGTTAGTAATAAAGATAGAACGTATGACTCTCCTCTTTTTTATTTTCGTGTTGGGCTCTGTTTGGAATTATGGGCTTTATCCTATTTAGGATCTATTTATCATGAAAGT
TGCACTTCTTAATTTTTGCTT
Ejemplo de alineamientos de dos secuencias
Bloque I: Alineamiento de secuencia I

TAIR
SGD
Phytozome
Bloque I: Alineamiento de secuencia I

2.- Selecciona
la versión de
BLAST
3b.- Puedes limitar la búsqueda a una
subsecuencia de la secuencia problema
3a.- Introduce la secuencia problema
(puedes introducir más de una)
4.- Selecciona la BD5a.- Selecciona el organismo (opcional)
5b.- Excluye algún
organismo (opcional)
6.- Selecciona el
algoritmo apropiado
7.- Selecciona los parámetros
del algoritmo (opcional)
8.- BLAST
Bloque I: Alineamiento de secuencia I
Ejemplo de alineamientos de dos secuencias

Bloque I: Alineamiento de secuencia I
Ejemplo de alineamientos de dos secuencias

Bloque I: Alineamiento de secuencia I
Ejemplo de alineamientos de dos secuencias
Base de datos de herramientas bioinformáRcas

Bloque I: Alineamiento de secuencia I
Ejemplo de alineamientos de dos secuencias

Bloque I: Alineamiento de secuencia I
Ejemplo de alineamientos de dos secuencias

Bloque I: Alineamiento de secuencia I
Ejemplo de alineamientos de dos secuencias

Bloque I: Alineamiento de secuencia I
Ejemplo de alineamientos de dos secuencias

Bloque I: Alineamiento de secuencia I
Ejemplo de alineamientos de dos secuencias

ARTICLES
https://doi.org/10.1038/s41477-020-0681-8
1
Center for Plant Cell Biology, Department of Botany and Plant Sciences, University of California, Riverside, Riverside, CA, USA.
2
School of Biological
Sciences, University of Utah, Salt Lake City, UT, USA.

e-mail: [email protected]
T
he dynamic regulation of messenger RNA translation, decay
and sequestration is essential for growth, development
and responses to internal and external stimuli. These pro-
cesses involve interconnected mRNA–ribonucleoprotein (mRNP)
complexes, including poly(ribo)somes, processing bodies (PBs)
and stress granules (SGs)
1
. Depending on the biological context,
mRNAs targeted to PBs can be degraded or stabilized
2,3
whereas
those sequestered in SGs are generally stabilized
4,5
.
In eukaryotes, the bulk of cytoplasmic mRNAs are degraded by
general decay pathways initiated by deadenylation of the poly(A)
tail. This can be followed by 5′-to-3′ decay that requires mRNA
decapping or 3′-to-5′ decay by the RNA exosome or the exoribo-
nuclease SUPPRESSOR OF VARICOSE (SOV/DIS3L2), which is
non-functional in Arabidopsis Columbia-0 (Col-0) but controls
mRNA abundance and homeostasis when replaced by SOV of
Landsberg erecta
6,7
. The decapping pathway requires the decap-
ping enzyme DECAPPING 2 (DCP2) and core decapping factors
DCP1 and VARICOSE (VCS/EDC4/HEDLS), and is facilitated
by conserved decapping activators such as DCP5, PROTEIN
ASSOCIATED WITH TOPOISOMERASE 1 (PAT1), the LSM1-7
complex and DHH1/DDX6 (CGH-1/Me31B/Xp54)
8
. Decapped
mRNAs can be hydrolysed by the 5′-to-3′ exoribonuclease XRN1/4
(ref.
9
). These 5′ and 3′ pathways have substrate specificity, yet they
are not mutually exclusive.
Spatiotemporal regulation of mRNA decay is critical for the cel-
lular transcriptome adjustment in response to both developmen-
tal and environmental cues in plants
1
. Dysfunction in decapping
due to loss of function of non-redundant components results in
post-embryonic lethality (DCP1, DCP2, VCS and DCP5) or severe
growth alterations (LSM1 and PAT1)
10–14
. The cause of the devel-
opmental defects in certain decapping mutants is associated with
disruption of mRNA quality control and small interfering RNA
(siRNA) production
15
. However, there is limited knowledge about
the role of the decay machinery in the spatial and temporal turn-
over of specific mRNAs, and the connections between turnover and
mRNA translation and mobilization to PBs and SGs. Mutations in
the mRNA decay machinery have been identified in genetic screens
for altered sensitivity to biotic and abiotic stresses
14,16–19
, yet there is
poor understanding of the importance of mRNA decay in restrict-
ing accumulation of mRNAs that provide stress resilience but con-
strain growth.
The DHH1/DDX6 family of DEAD-box RNA helicases is con-
served across eukaryotes
20
. These proteins function at the nexus
between mRNA translation, storage and decay, mediating transla-
tional repression and initiating mRNA degradation
21–24
. For exam-
ple, yeast DHH1 was shown to activate mRNA decapping
25
and
promote translational repression
26
, and also to associate with ribo-
somes to sense the codon-dependent rate of translational elongation
and trigger decay
27
. However, the transcript-specific role of these
helicases is generally understudied. Here we identify the Arabidopsis
DHH1/DDX6-like proteins RNA HELICASE 6 (RH6), RH8 and
RH12 as functionally redundant mRNA decay factors required for
normal growth and development. Severe deficiency of RH6, RH8
and RH12 function affects PB and SG dynamics and shifts the tran-
scriptome and translatome homeostasis so that defence- and other
stress-responsive mRNAs accumulate despite growth under stan-
dard conditions, with simultaneous repression of mRNAs required
for general growth. RNA decay analysis determined that these RHs
facilitate the turnover of specific short-lived decapping substrates,
enriched for stress and defence responses. Stabilization of these
ephemeral mRNAs in the rh6812 mutant confers auto-immunity.
We propose that RH-mediated decay of stress-responsive mRNAs
under non-stress conditions is required for maintenance of the
growth/defence balance in plants.
Results
Arabidopsis RH6, RH8 and RH12 are essential DHH1/DDX6-like
proteins. The Viridiplantae encode DHH1/DDX6-like proteins
with a dual RecA helicase core, including Arabidopsis thaliana RH6
(At2g45810), RH8 (At4g00660) and RH12 (At3g61240) (Fig. 1a
and Extended Data Fig. 1). These three RHs share 79–86% protein
sequence identity, and their transcripts are generally co-expressed
DHH1/DDX6-like RNA helicases maintain
ephemeral half-lives of stress-response mRNAs
Thanin Chantarachot!!
1
, Reed S. Sorenson!!
2
, Maureen Hummel!!
1
, Haiyan Ke
1
, Alek T. Kettenburg!!
1
,
Daniel Chen
1
, Karen Aiyetiwa
1
, Katayoon Dehesh!!
1
, Thomas Eulgem!!
1
, Leslie E. Sieburth!!
2
and
Julia Bailey-Serres!!
1 ✉
Gene transcription is counterbalanced by messenger RNA decay processes that regulate transcript quality and quantity.
We show here that the evolutionarily conserved DHH1/DDX6-like RNA hellicases of Arabidopsis thaliana control the ephemer-
ality of a subset of cellular mRNAs. These RNA helicases co-localize with key markers of processing bodies and stress granules
and contribute to their subcellular dynamics. They function to limit the precocious accumulation and ribosome association of
stress-responsive mRNAs involved in auto-immunity and growth inhibition under non-stress conditions. Given the conserva-
tion of this RNA helicase subfamily, they may control basal levels of conditionally regulated mRNAs in diverse eukaryotes,
accelerating responses without penalty.
NATURE PLANTS | www.nature.com/natureplants
ARTICLES NATURE PLANTS
a
b
d
f
8.0
6.0
4.0
2.0
0
Rosette diameter (cm)
a
b
b
dec
cd
ef
f
g
h
i
Fresh weight (mg per plant)
600
400
200
0
a
ababc
d
bc
c
def
ef
ef
f
g
de
Primary root length (cm)
4.0
3.0
2.0
1.0
0
b
a
a
abab
ab
ab a
c
d
d
Col-0 rh6-1 rh8
-1
rh12-2
rh6812
gRH6-FLAG #22
Col-0 rh6-1 rh8-1 rh12-2
rh68 rh612 rh812 rh6812
rh6812
gRH6-FLAG
#22
rh612
rh6
(+/–)
812
Col-0 rh6812 dcp2-1 vcs-7
c
e
Helicase core
100 amino acids
AtRH12
AtRH6
AtRH8
OsRH12
OsRH6
OsRH8
ScDHH1
CeCGH-1
DmMe31B
HsDDX6
RecA-like domain
Linker region
N-/C-terminal extension
77
97
98
100
65
88
88
0.1Tree scale
Plant DDX6-like
1 cm
1 cm
Intrinsically disordered
region
rh68 rh6812 dcp2-1 vcs-7rh812
Col-0 rh6-1 rh8
-1
rh12-2 rh6812
gRH6-FLAG
#22
rh612
rh68
rh6812 dcp2-1
vcs-7rh812
rh68
(+/–)
12 rh6812
(+/–)
ef
Col-0 rh6-1 rh8
-1
rh12-2
rh6
8
(+/–)
12
rh6
8
1
2
(+/–)
rh6
8
12
gRH6-FLAG
#22
rh612
rh68
rh
6
(+/–)
812
rh6812
rh812
Fig. 1 | Arabidopsis RH6, RH8 and RH12 overlap in their contribution to growth and development. a, Phylogenetic relationship and schematic diagram of
DHH1/DDX6-like proteins from the yeast Saccharomyces cerevisiae (ScDHH1), roundworm (CeCGH-1), fruit fly (DmMe31B), human (HsDDX6), Arabidopsis
(AtRH6, AtRH8 and AtRH12) and rice (OsRH6, OsRH8 and OsRH12). The tree is to scale, with branch lengths measured as the number of substitutions
per site. Numbers on branches indicate bootstrap values. Bold text highlights the DHH1/DDX6-like proteins. b, Rosette growth phenotype of 39-day-old
plants of Col-0 wild type in comparison to the single (rh6-1, rh8-1 and rh12-2), double (rh68, rh612 and rh812), double homozygous hemizygous (rh6
(+/−)
812,
rh68
(+/−)
12 and rh6812
(+/−)
) and triple (rh6812; inset) mutant combinations, and a transgenic line homozygous for the rh6812 triple-mutant alleles with
an introduced genomic RH6 wild-type allele C-terminally tagged with the FLAG epitope (rh6812 gRH6-FLAG #22). Seeds were grown directly on soil;
representative plants were selected. c, Rosette diameter (n!=!28) and fresh weight (n!=!30) of 39-day-old plants in b. d, 7-day-old seedlings. e, Primary
root length (n!=!15) of seedlings in d. f, Representative images of the cotyledon vasculature of 7-day-old seedlings of Col-0 wild-type, rh6812, dcp2-1 and
vcs-7 mutants (n!=!30 per genotype). Scale bars, 0.3!mm. Boxplot boundaries in c,e represent the first and third quartiles; a horizontal line divides the
interquartile range, median; red diamonds, mean. Means significantly different between genotypes are indicated by different letters (P!<!0.05, analysis of
variance (ANOVA) with Tukey’s honest significant difference (HSD) test). See Source Data for P!values.
NATURE PLANTS | www.nature.com/natureplants
Bloque I: Alineamiento de secuencia I
Ejemplo de alineamientos de dos secuencias

Bloque I: Alineamiento de secuencia I
Ejemplo de alineamientos de dos secuencias