Alliniadura de secuencies

Un alliniadura de secuencies en bioinformática ye una forma de representar y comparar dos o más secuencies o cadenes d'ADN, ARN, o estructures primaries proteicu pa resaltar les sos zones de semeyanza, que podríen indicar rellaciones funcionales o evolutives ente los xenes o proteínes consultaos. Les secuencies alliniaes escribir coles lletres (representando aminoácidos o nucleótidos) en files d'una matriz nes que, si ye necesariu, inxertar espacios por que les zones con idéntica o similar estructura allíniense.

Anque les bases nucleotídicas del ADN y ARN son más similares ente sí que colos aminoácidos, el caltenimientu del empareyáu de bases podría indicar papeles funcionales o estructurales similares. L'alliniadura de secuencies puede utilizase con secuencies non biolóxiques, como na identificación de semeyances en series de lletres y pallabres del llinguaxe humanu o n'analís de datos financieros. Ente los algoritmos más populares basaos na comparanza d'estructures primaries de proteínes, tienen de destacar l'algoritmu Needleman-Wunch, l'algoritmu Smith-Waterman, BLAST y FASTA

Secuencies bien curties o bien similares pueden alliniase manualmente. Aun así, los problemes más interesantes precisen alliniar secuencies llargues, bien variables y desaxeradamente numberoses que nun pueden ser alliniaes por humanos. La conocencia humana aplícase principalmente na construcción d'algoritmos que produzan alliniadures d'alta calidá, y dacuando afaciendo el resultáu final pa representar patrones que son difíciles d'introducir n'algoritmos (especialmente nel casu de secuencies de nucleótidos). Los aproximamientos computacionales a l'alliniadura de secuencies estremar en dos categoríes: alliniadura global y alliniadura local. Calcular una alliniadura global ye una forma d'optimización global que "fuercia" a l'alliniadura a ocupar el llargor total de toles secuencies introducíes (secuencies problema). Comparativamente, les alliniadures locales identifiquen rexones similares dientro de llargues secuencies que de normal son bien diverxentes ente sigo. De cutiu prefiérense les alliniadures locales, pero pueden ser más difíciles de calcular porque s'añader el desafíu d'identificar les rexones de mayor semeyanza. Aplíquense gran variedá d'algoritmos computacionales al problema d'alliniadura de secuencies, como métodos lentos, pero d'optimización, como la programación dinámica, y métodos heurísticos o probabilísticos eficientes, pero non exhautivos, diseñaos pa busca a gran escala en bases de datos.

Representaciones

Les alliniadures represéntense de normal con un formatu gráficu y de testu. En cuasi toles representaciones d'alliniadures, les secuencies escribir en files de forma que los residuos alliniaes apaecen en columnes socesives. Nos formatos de testu, les columnes alliniaes contienen calteres idénticos o similares, estos postreros indicaos con sistema de símbolos de calteníos. Na imaxe cimera utilízase l'asteriscu p'amosar identidá ente dos columnes. Otros símbolos menos comunes son la coma pa sustituciones conservativas y el puntu pa sustituciones semiconservativas. Munchos programes de visualización de secuencies utilicen tamién esquemes coloriaos p'amosar información de les propiedaes de los elementos secuencia individuales; en secuencies d'ADN y ARN significa asignar a cada base'l so propiu color. N'alliniadures de proteínes, como'l de la imaxe cimera, los colores utilizar pa indicar propiedaes de los aminoácidos p'ayudar na carauterización de caltenimientu o nuna sustitución aminoacídica dada. Cuando s'introducen múltiples secuencies la última fila de cada columna suel representar secuenciar consensu determinada pola alliniadura. Tamién suel representase secuenciar consensu nun formatu gráficu so un logo de secuencies, nel que'l tamañu de la lletra de cada nucleótido o aminoácidu ye proporcional al so grau de caltenimientu.^[1]

Les alliniadures de secuencies pueden almacenase nuna amplia variedá de formatos d'archivu de testu, munchos de los cualos fueron desenvueltos al empar qu'un programa o implementación d'alliniadura. La mayoría de les ferramientes web dexen dellos formatos d'entrada y salida, como'l formatu FASTA y GenBank. L'usu de ferramientes específiques en cada llaboratoriu d'investigación puede complicase pola baxa compatibilidá. Esisten programes de conversión xenérica en SEQRET (EMBOSS), o en DNA Baser.

Alliniadures locales y globales

Les alliniadures globales, qu'intenten alliniar cada residuu de cada secuencia, son más útiles cuando les secuencies problema iniciales son similares y aproximao del mesmu tamañu (nun quier dicir que les alliniadures globales nun puedan terminar en buecos). Una estratexa xeneral d'alliniadura global ye'l algoritmu Needleman-Wunsch basáu en programación dinámica. Les alliniadures locales son más útiles pa secuencies estremaes nes que s'abarrunta qu'esisten rexones bien similares o motivos de secuencies similares dientro d'un contestu mayor. El algoritmu Smith-Waterman ye un métodu xeneral d'alliniadura local basáu en programación dinámica. Con secuencies abondo similares, nun esiste diferencia ente alliniadures globales y locales.

Los métodos híbridos, conocíos como semiglobales o métodos "glocales" intenten atopar la meyor alliniadura posible qu'incluya l'entamu y el final d'una o otra secuencia. Puede ser especialmente útil cuando la parte "corriente enriba" d'una secuencia asolapar cola parte "corriente embaxo" de la otra. Nesti casu, nin l'alliniadura global nin el llocal son dafechu fayadizos: una alliniadura global va intentar forzar a l'alliniación a estendese más allá de la rexón de solapamiento, ente que l'alliniadura local nun va cubrir totalmente la rexón asolapada.^[2]^[3]

Alliniadura de pares

Los métodos d'alliniadura de pares, o axugamientos, utilizar p'atopar la meyor coincidencia en bloque (local) o alliniadura global de dos secuencies. Les alliniadures de pares namái pueden utilizase con dos secuencies al empar, pero son eficientes de calcular, y son utilizaos de cutiu en métodos que nun riquir precisión estrema, como la busca en bases de datos de secuencies con alta homoloxía de secuencia con al respective de un pidimientu. Los trés métodos principales de xenerar alliniadures de pares son los de matriz de puntos, los de programación dinámica y los de busca de pallabra,^[4] anque la mayoría de métodos d'alliniación múltiple de secuencies pueden funcionar con namái dos secuencies. Anque cada métodu tien los sos propios puntos fuertes y débiles, toos ellos tienen problemes p'alliniar secuencies repetitives con baxu conteníu n'información, especialmente cuando'l númberu de repeticiones puede ser distinta nos dos secuencies que s'allinien. Una manera de cuantificar la utilidá d'una alliniadura de pares determináu ye la "máxima coincidencia individual", o la mayor subsecuencia que se da en dambes secuencies n'estudiu. Polo xeneral, cuanto mayor seya tal subsecuencia, más cercana va ser la so rellación.

Métodos de matriz de puntos

Una matriz de puntos d'ADN del factor de trescripción deu de cinc nel ser humanu (GenBank ID NM_002383), amosando autosimilitud rexonal. La diagonal principal representa l'alliniadura de la secuencia consigo mesma; les llinies fora d'esta diagonal representen patrones similares o repetitivos dientro de la secuencia. Ye un exemplu típicu de gráfica recurrente.

L'enfoque de matriz de puntos (o matrix-dot), que implícitamente produz una familia d'alliniadures pa rexones individuales de la secuencia, ye cualitativu y simple, a pesar de que consume enforma tiempu p'analís a gran escala. Ye fácil identificar visualmente determinaes carauterístiques de la secuencia (tales como insertamientos, borraos, repeticiones, o repeticiones invertíes) nuna gráfica de matriz de puntos. Pa construyir una gráfica de matriz de puntos, los dos secuencies asitiar a lo llargo de la fila cimera y de la columna que ta más a la izquierda de la matriz de dos dimensiones y asítiase un puntu en cualquier llugar nel que los calteres nes columnes correspondientes coincidan (esta ye una típica gráfica recurrente). Delles implementaciones varien el tamañu o la intensidá de los puntos en función del grau de semeyanza de los dos calteres, pa dar cabida a les sustituciones calteníes. La gráfica de puntos de secuencies bien estrechamente rellacionaes apaez como una única llinia a lo llargo de la diagonal principal de la matriz .

Les gráfiques de puntos tamién pueden utilizase pa evaluar repetitividad nuna sola secuencia: una secuencia se gráfica contra sigo mesma, y les rexones que comparten semeyances significatives van apaecer como llinies fora de la diagonal principal. Esti efeutu puede asoceder cuando una proteína consta de múltiples dominios estructurales similares.

Programación dinámica

La téunica de programación dinámica puede aplicase pa producir alliniadures globales por aciu l'algoritmu de Needleman-Wunsch, según alliniadures locales por aciu l'algoritmu de Smith-Waterman. Nun usu habitual, nes alliniadures de proteínes utiliza una matriz de sustitución p'asignar puntuaciones a les coincidencies y a les diferencies ente aminoácidos, y una penalización por gap (lliteralmente buecu, anque en bona parte de la lliteratura en castellán utiliza'l vocablu inglés) al faer coincidir un aminoácidu d'una secuencia con un buecu n'otra. N'alliniadures d'ADN y ARN puede usase una matriz de puntuaciones, pero na práctica, de cutiu, asígnase a cencielles una puntuación positiva a les coincidencies, una negativa a les diferencies, y otra penalización negativa a los gaps. (Na programación dinámica estándar la puntuación de la posición de cada aminoácidu ye independiente de la identidá de los sos vecinos, polo que los efeutos del apilamientu de bases nun se tomen en cuenta. Sicasí, ye posible faelo modificando l'algoritmu.)

La programación dinámica pue ser útil na alliniadura de nucleótidos con secuencies de proteínes, una xera complicada pola necesidá de tomar en considerancia les mutaciones con cambéu (insertamientos o borraos, de normal). La busca del marcu abiertu de llectura apurre una serie d'alliniadures de pares locales o globales ente una secuencia de nucleótidos a investigar (secuencia problema) y un conxuntu de busca de secuencies de proteínes, o viceversa. A pesar de que'l métodu ye bien lentu, la so habilidá pa evaluar la compensación de los marcos de llectura pa un númberu arbitrariu de nucleótidos convertir en preséu pa secuencies que contengan un bon númberu d'indels, que pueden ser bien difíciles d'alliniar con métodos heurísticos más eficientes. Na práctica, el métodu rique una bona cantidá de potencia de cómputu, o un sistema que la so arquiteutura tea especializada en programación dinámica. Les suites BLAST y EMBOSS apurren ferramientes básiques pa crear alliniadures afeches (anque dalgún d'estos enfoques saca ventaya de los efeutos llaterales de la capacidá de busca de secuencies de les ferramientes). Consígense métodos más xenerales tanto de fontes comerciales (como “FrameSearch”, distribuyíu como parte del paquete Accelrys GCG Archiváu 2008-02-11 en Wayback Machine), como de software de códigu abiertu (como Genewise).

El métodu de programación dinámica garantiza atopar una alliniadura óptimo dada una función de puntuación en particular; sicasí, identificar una bona función de puntuación ye, usualmente, más una cuestión empírica que teórica. A pesar de que la programación dinámica ye estensible a más de dos secuencies, ye prohibitivamente lenta pa un altu númberu de secuencies desaxeradamente llargues.

Métodos de pallabra corta

Los métodos de pallabra curtia, tamién conocíos como métodos de k-tuplas, son métodos heurísticos que nun garanticen atopar una solución d'alliniadura óptima, pero son significativamente más eficientes que la programación dinámica. Estos métodos son especialmente útiles en busques sobre bases de datos a gran escala, onde s'asume qu'una llarga proporción de les secuencies candidates nun van tener coincidencies significatives con secuenciar problema. Los métodos de pallabra curtia son más conocíos pola so implementación nes ferramientes de busca en bases de datos FASTA y la familia BLAST.^[4] Estos métodos identifiquen en secuenciar problema una serie de subsecuencias curties que nun s'asolapen (“pallabres”), y que s'oldeen contra les secuencies de la base de datos. Les posiciones relatives de la pallabra nos dos secuencies a comparar restar pa llograr un valor de desplazamientu; va manifestase asina una rexón d'alliniadura si delles pallabres distintes producen el mesmu desplazamientu. Namái si esta rexón ye detectada, estos métodos van aplicar criterios d'alliniadura más sensibles. D'esta forma esaníciense munches comparances innecesaries ente secuencies de semeyanza inapreciable.

Nel métodu FASTA, l'usuariu define un valor “k” pa definir el llargor de la pallabra cola cual buscar na base de datos. El métodu ye más lentu, pero más sensible, pa valores baxos de “k”, que tamién son preferibles pa busques qu'impliquen una secuencia problema bien curtia. La familia BLAST de métodos de busca apurre dellos algoritmos optimizaos pa tipos particulares de problemes, tales como la busca de coincidencies ente secuencies escasamente rellacionaes. BLAST foi desenvueltu p'apurrir una alternativa más rápida a FASTA ensin sacrificar demasiada precisión. Como FASTA, BLAST utiliza una pallabra de busca de llargor “k”, pero namái evalúa les coincidencies más significatives de les pallabres, en llugar de cada coincidencia como fai FASTA. La mayoría de les implementaciones de BLAST usen un llargor de pallabra fita por defectu que s'optimiza pal problema y el tipu de base de datos, y que se camuda namái so circunstancies específiques tales como busques con secuencies problema repetitives o bien curties. Pueden atopase implementaciones al traviés de dellos portales web, como EMBL FASTA y NCBI BLAST.

Alliniadura múltiple de secuencies

Artículu principal: Alliniadura múltiple de secuencies

Alliniadura de 27 secuencies de la proteína hemaglutinina de la gripe aviaria, coloriáu según el caltenimientu de residuos (más escuru cuanto mayor caltenimientu, enriba) y les sos propiedaes químiques (embaxo).

El alliniadura múltiple de secuencies ye una estensión de l'alliniadura de pares qu'incorpora más de dos secuencies coles mesmes. Los métodos d'alliniadura múltiple intenten alliniar toles secuencies d'un conxuntu dau. Les alliniadura múltiples son usaos a menudos na identificación de rexones calteníes nun grupu de secuencies que hipotéticamente tán rellacionaes evolutivamente. Estos motivos calteníos pueden ser usaos en xunto cola estructura y con información mecanística p'alcontrar sitios activos catalíticos de les enzimes. Les alliniadures son tamién utilizaos p'ayudar al establecimientu de rellaciones evolutives por aciu la construcción d'árboles filoxenéticos. Les alliniadures múltiples de secuencies son computacionalmente difíciles de producir y la mayoría de les formulaciones del problema conducen a problemes de optimización combinatorial NP-completus.^[5] Sicasí, la utilidá d'estes alliniadures na bioinformática dio llugar al desarrollu d'una variedá de métodos fayadizos pa l'alliniación de trés o más secuencies.

Programación dinámica

La téunica de programación dinámica ye teóricamente aplicable a cualquier númberu de secuencies; sicasí, y yá que ye computacionalmente costosa tantu en tiempu como en memoria, raramente usar na so forma más básica pa más de trés o cuatro secuencies. Esti métodu rique la construcción d'un equivalente n-dimensional a la matriz formada por dos secuencies, onde “n” ye'l númberu de secuencies problema. La programación dinámica estándar úsase primero en tolos axugamientos ente secuenciar problema, polo que l'espaciu d'alliniadura” rellénase considerando posibles coincidencies o buecos nes posiciones entemedies, construyendo, finalmente y n'esencia, una alliniadura ente cada alliniadura de dos secuencies. Anque esta téunica ye computacionalmente costosa, la so garantía d'una solución global óptima ye útil en casos onde namái unes cuantes secuencies precisen ser alliniaes con precisión. Un métodu p'amenorgar les demandes computacionales de programación dinámica, que depende de la función oxetivu “suma de pares”, foi implementáu nel paquete de software MSA.^[6]

Métodos progresivos

Los métodu progresivos, xerárquicos, o por árbol, xeneren una alliniadura múltiple de secuencies alliniando primero les secuencies más similares, pa dir añadiendo socesivamente a l'alliniadura secuencies o grupos menos rellacionaos, hasta que'l conxuntu problema completu foi incorporáu a la solución. L'árbol inicial describiendo'l parentescu de les secuencies basar en comparances d'axugamientos que podríen incluyir métodos d'axugamientu heurísticu p'alliniadures similares a FASTA. Los resultaos de l'alliniadura progresiva dependen de la eleición de les secuencies “más rellacionaes”, polo que pueden ser sensibles a imprecisiones nes alliniadures d'axugamientos iniciales. La mayoría de los métodos progresivos d'alliniadura múltiple de secuencies sopesen adicionalmente les secuencies nel conxuntu problema d'alcuerdu al so parentescu, lo qu'amenorga la probabilidá d'efeutuar una probe eleición de les secuencies iniciales y asina s'ameyora la precisión de l'alliniadura.

Un bon númberu de variaciones de la implementación progresiva de Clustal^[7]^[8]^[9] utilizar p'alliniadures múltiples de secuencies, construcción d'árboles filoxenéticos, y como entrada pa la predicción d'estructura de proteínes. Una variante del métodu progresivu más lenta pero más precisa conozse como “T-Coffee” (Tree-based Consistency Objective Function For alignment Evaluation),^[10] de la que pueden atopase implementaciones en ClustalW y T-Coffee.

Métodos iterativos

Los métodos iterativos intenten ameyorar el puntu débil de los métodos progresivos: la so fuerte dependencia de la precisión de les alliniadures de los axugamientos iniciales. Los métodos iterativos optimicen una función oxetivu basada nun métodu escoyíu de puntuación d'alliniadura por aciu la asignación d'una alliniadura global inicial y el posterior realineamiento de subconxuntos de secuencies. Los subconxuntos realineados son entós alliniaos consigo mesmos pa producir la siguiente iteración d'alliniadura múltiple de secuencies. Atópense baxu analís delles formes de seleición de los subgrupos de secuencies y de la función oxetivu.^[11]

Descubrimientu de motivos

Pal descubrimientu de motivos, o analises de perfiles, constrúyense alliniadures múltiples globales de secuencies qu'intenten alliniar secuencies motivu curties calteníes ente les secuencies del conxuntu problema. Faise, usualmente, construyendo primero una alliniadura múltiple de secuencies global, tres el cual les rexones altamente calteníes identifíquense y utilícense pa construyir un conxuntu de matrices de perfil (tamién denominaes matrices ponderaes o matrices de pesos). La matriz del perfil de cada rexón caltenida dispónse como una matriz de puntuación, pero les sos cifres de frecuencia pa cada aminoácidu o nucleótido en cada posición derivar de la distribución de los calteres de la rexón caltenida, en llugar d'una distribución empírica más xeneral. Les matrices de perfil usar pa buscar escurrimientos del motivu que caractericen n'otres secuencies. Nos casos nos que'l conxuntu de datos orixinal contenga un pequeñu númberu de secuencies, o namái secuencies bien rellacionaes, añader pseudocontadores pa normalizar les distribuciones de calteres representaes nel motivu.

Téuniques inspiraes poles ciencies de la computación

Una variedá d'algoritmos xenerales d'optimización usaos comúnmente en ciencies de la computación aplicáronse tamién al problema de l'alliniadura de secuencies. Los modelos ocultos de Márkov utilizáronse pa producir rexistros de probabilidaes pa una familia de posibles alliniadures múltiples de secuencies sobre un conxuntu problema dau. Anque los primeros métodos basaos nestos modelos yeren de rendimientu pocu brillante, aplicaciones posteriores atopar especialmente efeutivos pa detectar secuencies remotamente rellacionaes, yá que son menos susceptibles al ruiu creáu por sustituciones conservativas o semiconservativas.^[12] Los algoritmos xenéticos y el simulated annealing usáronse pa optimizar les puntuaciones d'alliniadures múltiples de secuencies, valorándolos por aciu una función de puntuación como la del métodu de suma de pares.

Alliniadura estructural

Artículu principal: Alliniadura estructural

Les alliniadures estructurales, que son específicos de les proteínes y, delles vegaes, de secuencies de ARN, usen información sobre la estructura secundaria y terciaria de la proteína o molécula de ARN como ayuda p'alliniar les secuencies. Estos métodos pueden usase pa dos o más secuencies, y producen típicamente alliniadures locales. Sicasí, y yá que dependen de la disponibilidad d'información estructural, namái pueden ser usaos pa secuencies que les sos correspondientes estructures sían conocíes (al traviés, de normal, de cristalografía de rayos X o espectroscopia de resonancia magnética nuclear). Puesto que la estructura tanto de proteínes como de ARN ta más caltenida evolutivamente que la so secuencia,^[13] les alliniadures estructurales pueden ser más fidedignos ente secuencies que tean bien lejanamente rellacionaes y que diverxeren tan estensamente que la comparanza de les secuencies nun pueda detectar fehacientemente la so semeyanza.

Les alliniadures estructurales úsense como'l patrón oro” pa evaluar alliniadures na predicción d'estructura de proteínes basada n'homoloxía^[14] yá que explícitamente allinien rexones de la secuencia de la proteína que son estructuralmente similares en llugar de depender puramente na información derivada de la secuencia. Sicasí, les alliniadures estructurales nun pueden usase na predicción de la estructura yá que siquier una secuencia nel conxuntu problema ye l'oxetivu a modelar, pal cual la estructura desconozse. Demostróse que, dau l'alliniadura estructural ente un oxetivu y una secuencia molde, pueden producise modelos altamente precisos de la proteína oxetivo. Una importante torga na predicción de la estructura basada n'homoloxía ye la producción d'alliniadures estructuralmente precisos dada namái información de la secuencia.^[14]

DALI

El métodu DALI (del inglés, Distance matrix ALIgnment, alliniadura de matriz de distancies), ye un métodu fragmentariu pa construyir alliniadures estructurales basaos en contautar patrones de semeyanza ente socesivos hexapéptidos en secuenciar problema.^[15] Puede xenerar axugamientos o alliniadures múltiples, ya identificar los vecinos estructurales d'una secuencia problema nel Protein Data Bank (PDB). Usóse pa construyir la base de datos d'alliniadures estructurales FSSP (del inglés Families of Structurally Similar Proteins, families de proteínes estructuralmente similares). Puede aportase a un servidor web de DALI en EBI DALI , y la FSSP alcontrar nel Enllaz rotu|1=base de datos DALI Archiváu 2005-11-25 en Wayback Machine |2=http://ekhidna.biocenter.helsinki.fi/dali/start Archiváu 2005-11-25 en Wayback Machine |bot=InternetArchiveBot }}.

SSAP

SSAP (del inglés Sequential Structure Alignment Program, programa d'alliniadura d'estructura secuencial) ye un métodu d'alliniadura estructural basáu en programación dinámica qu'usa vectores “átomo a átomu” nel espaciu de la estructura como puntos a comparar. Estendióse dende la so descripción orixinal pa incluyir tanto alliniadures múltiples como axugamientos,^[16] y usóse na construcción del CATH (del inglés Class, Architecture, Topology, Homology; clase, arquiteutura, topoloxía, homoloxía), base de datos xerárquica de clasificación de plegamientos de proteínes.^[17] La base de datos CATH puede aportase na Clasificación d'Estructura de Proteínes CATH.

Estensión combinatoria

El métodu d'estensión combinatoria p'alliniadura estructural xenera una alliniadura estructural de pares usando xeometría local p'alliniar fragmentos curtios de los dos proteínes a analizar, y xuntar entós estos fragmentos nuna alliniadura mayor.^[18] Basáu en midíes tales como la raigañu del error cuadrático mediu en superposición de proteínes como sólidos ríxidos, distancies ente residuos, estructura secundaria local, y carauterístiques medioambientales circundantes tales como la hidrofobicidad de los residuos vecines, xenérense alliniadures locales llamaos “pares de fragmentos alliniaos” que s'usen pa construyir una matriz de semeyanza representando toles alliniadures estructurales posibles dientro d'un criteriu de corte predefinido. Trázase, entós, una trayeutoria dende un estáu de la estructura d'una proteína a otru al traviés de la matriz, estendiendo la creciente alliniadura un fragmentu cada vez. La trayeutoria óptima define l'alliniadura por estensión combinatoria. Un servidor web qu'implementa'l métodu y apurre una base de datos d'axugamientos d'estructura nel Protein Data Bank alcontrar nel sitiu de Combinatorial Extension.

Analís filoxenéticu

La filoxenia y l'alliniadura de secuencies son campos íntimamente rellacionaos por cuenta de la so necesidá compartida d'evaluar el parentescu ente secuencies. La filoxenia fai un usu estensivu de les alliniadures de secuencies na construcción ya interpretación d'árboles filoxenéticos, que s'usen pa clasificar les rellaciones evolutives ente xenes homólogos representaos nel xenoma d'especies diverxentes. El grau nel que les secuencies d'un conxuntu problema difieren ta rellacionáu cualitativamente cola distancia evolutiva ente elles. De forma simplificada, una alta identidá de secuencies suxer que tienen un comparativamente nuevu ancestru común más recién, ente que una baxa identidá suxer que la diverxencia ye más remota. Esti aproximamientu, que reflexa la hipótesis de “reló molecular” (hipótesis qu'asume un ritmu aproximao constante de cambéu evolutivu, que puede utilizase pa extrapolar el tiempu trescurríu dende la primer diverxencia de dos xenes -o tiempu de “coalescencia”-), asume que los efeutos de la mutación y de la seleición natural son constantes a lo llargo de llinaxes de secuencies. Nun toma en cuenta, poro, posibles diferencies ente organismos o especies nos ritmos d'arreglu del ADN, o'l posible caltenimientu funcional de rexones específiques nuna secuencia. (Nel casu de secuencies de nucleótidos, la hipótesis de reló molecular na so forma más básica tamién dexa de llau la diferencia nes tases d'aceptación ente mutaciones silencioses, que nun alterien el significáu d'un determináu codón, y otres mutaciones que resulten na incorporación d'un aminoácidu distintu na proteína.) Métodos con mayor precisión estadística dexen variar el ritmu evolutivu en cada caña del árbol filoxenéticu, produciendo asina meyores estimaciones de los tiempos de coalescencia de los xenes.

Les téuniques d'alliniadura múltiple progresivu producen un árbol filoxenéticu necesariamente, yá que van incorporando secuencies na creciente alliniadura según el so orde de parentescu. Otres téuniques qu'axunten alliniadures múltiples de secuencies y árboles filoxenéticos, puntúen y ordenen los árboles de primeres, y calculen dempués una alliniadura múltiple de secuencies a partir del árbol de mayor puntuación. Los métodos comunes de construcción d'árboles filoxenéticos son principalmente heurísticos yá que el problema d'escoyer l'árbol óptimo, al igual que'l problema d'escoyer l'alliniadura múltiple de secuencies óptimo, ye NP-complexu.^[19]

Valoración de la so significación

Les alliniadures de secuencies son útiles en bioinformática pa identificar semeyances ente secuencies, producir árboles filoxenéticos, y desenvolver modelos d'homoloxía sobre estructures de proteínes. Sicasí, la relevancia biolóxica de les alliniadures non siempres ye clara. Asumir de cutiu que les alliniadures reflexen un grau de cambéu evolutivu ente secuencies que baxen d'un ancestru común; pero ye formalmente posible que la converxencia evolutiva pueda dase pa producir semeyances aparentes ente proteínes que nun tean evolutivamente rellacionaes, pero que lleven a cabu funciones similares y tengan asemeyaes estructures.

En busques en bases de datos, como con BLAST, los métodos estadísticos pueden determinar la probabilidá d'una alliniadura particular casual ente secuencies, o rexones de secuencies, dau'l tamañu y la composición de la base de datos en cuestión. Estos valores pueden variar significativamente dependiendo del espaciu de busca. En particular, la probabilidá d'atopar por casualidá una alliniadura dada amóntase si la base de datos consiste namái en secuencies del mesmu organismu que lu secuencia problema. Secuencies repetitives na base de datos o na consulta tamién pueden aburuyar tantu la busca de resultaos y la valoración de la so significación estadística. BLAST penera automáticamente tales secuencies repetitives na consulta pa evitar ésitos aparentes que correspuendan a artefautos estadísticos.

Funciones de puntuación

Pa producir bones alliniadures ye importante la eleición d'una función de puntuación que reflexe observaciones biolóxiques o estadístiques sobre secuencies conocíes. Les secuencies de proteínes son alliniaes usando frecuentemente matrices de sustitución que reflexen les probabilidaes de particulares sustituciones calter per calter. Una serie de matrices denominaes matrices PAM (del inglés Point Accepted Mutation, mutación puntual aceptada, orixinalmente definíes por Margaret Dayhoff, polo que dacuando se denominen matrices Dayhoff) codifican explícitamente los aproximamientos evolutivos considerando les frecuencies y probabilidaes de mutaciones particulares d'aminoácidos. Otra serie común de matrices de puntuación, conocíes como BLOSUM (del inglés Blocks Substitution Matrix, matriz de sustitución de bloques), codifica probabilidaes de sustitución derivaes empíricamente. Utilícense variantes de dambos tipos de matrices pa detectar secuencies con distintos niveles de diverxencia, dexando asina a los usuarios de BLAST o FASTA acutar les sos busques a coincidencies más cercanamente rellacionaes, o estendeles pa detectar secuencies más diverxentes. Les penalizaciones por gaps representen la introducción de buecos (nel modelu evolutivu, una mutación por insertamientu o borráu) en secuencies tanto de nucleótidos como de proteínes, y estos valores de penalización, poro, tendríen de ser proporcionales a la frecuencia esperada de tales mutaciones. La calidá de les alliniadures producíes depende, arriendes d'ello, de la calidá de la función de puntuación.

Puede resultar bien útil ya instructivu intentar la mesma alliniadura distintes vegaes con distintes eleiciones de matrices de puntuación y/o distintos valores de penalización por buecos, y comparar los resultaos. Les rexones onde la solución seya pocu consistente, o nun seya única, pueden ser identificaes de cutiu reparando qué rexones de l'alliniadura son robustes a variaciones nos parámetros d'alliniación.

Usos non biolóxicos

Los métodos usaos p'alliniadures de secuencies biolóxiques pueden tamién atopar aplicaciones n'otros campos, y bien notablemente nel procesamientu de llinguaxes naturales. Les téuniques que xeneren el conxuntu d'elementos dende'l que les pallabres van escoyer nos algoritmos de xeneración de llinguaxes naturales pidieron emprestaes téuniques d'alliniadura de secuencies a la bioinformática pa producir versiones llingüístiques de pruebes matemátiques xeneraes por ordenador.^[20] Nel campu de llingüística histórica y comparativa, usóse l'alliniadura de secuencies pa automatizar parcialmente'l métodu comparativu pol que tradicionalmente los llingüistes reconstrúin llinguaxes.^[21] Tamién s'aplicaron téuniques d'alliniadura de secuencies na investigación de negocios y marketing analizando series temporales de compres.^[22]

Software

Artículu principal: Software p'alliniadura de secuencies

Artículu principal: Software p'alliniadura estructural

Les ferramientes software comunes usaes pa xeres xenerales d'alliniadura de secuencies inclúin ClustalW y T-coffee pa l'alliniadura, y BLAST pa busques en bases de datos. Una llista muncho más completa de software disponible, categorizado por algoritmu y tipu d'alliniadura, puede atopase nel Software p'alliniadura de secuencies.

Los algoritmos d'alliniadura y el software pueden ser oldeaos direutamente usando un conxuntu estandarizado de benchmark de referencia p'alliniadures múltiples de secuencies denomináu BAliBASE.^[23] El conxuntu de datos consiste n'alliniadures estructurales que pueden ser consideraos como un estándar contra'l cual compárense los métodos basaos en secuencies. Foi tabulado el rendimientu relativu de bastantes métodos comunes d'alliniadura atopaos frecuentemente en problemes d'alliniación, y los resultaos más significatives publicáronse en llinia en BAliBASE.^[24] Nel bancu de trabayu de proteínes STRAP puede computase una detallada llista de puntuaciones de BAliBASE pa delles ferramientes distintes d'alliniadura.

Ver tamién

Referencies

↑ Schneider TD, Stephens RM (1990). «Sequence logos: a new way to display consensus sequences». Nucleic Acids Res 18: páxs. 6097-6100. doi:10.1093/nar/18.20.6097. PMID 2172928. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=2172928.
↑ Brudno M, Malde S, Poliakov A, Do CB, Couronne O, Dubchak I, Batzoglou S (2003). «Glocal alignment: finding rearrangements during alignment». Bioinformatics 19 Suppl 1: páxs. i54–62. doi:10.1093/bioinformatics/btg1005. PMID 12855437. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=12855437.
↑ Brudno M, Poliakov A, Salamov A, Cooper GM, Sidow A, Rubin EM, Solovyev V, Batzoglou S, Dubchak I (2004). «Automate whole-genome multiple alignment of rat, mouse, and human». Genome Research 14: páxs. 685–692. doi:10.1101/gr.2067704. http://www.genome.org/cgi/reprint/14/4/685.pdf.
↑ ^4,0 ^4,1 Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed.. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 0-87969-608-7.
↑ Wang L, Jiang T. (1994). «On the complexity of multiple sequence alignment». J Comput Biol 1: páxs. 337-48. PMID 8790475.
↑ Lipman DJ, Altschul SF, Kececioglu JD (1989). «A tool for multiple sequence alignment». Proc Natl Acad Sci U S A 86: páxs. 4412-5. doi:10.1073/pnas.86.12.4412. PMID 2734293. http://www.pnas.org/cgi/pmidlookup?view=long&pmid=2734293.
↑ Higgins DG, Sharp PM (1988). «CLUSTAL: a package for performing multiple sequence alignment on a microcomputer». Gene 73 (1): páxs. 237-44. doi:10.1016/0378-1119(88)90330-7. PMID 3243435. http://linkinghub.elsevier.com/retrieve/pii/0378-1119(88)90330-7.
↑ Thompson JD, Higgins DG, Gibson TJ. (1994). «CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice». Nucleic Acids Res 22: páxs. 4673-80. doi:10.1093/nar/22.22.4673. PMID 7984417. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=7984417.
↑ Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD. (2003). «Multiple sequence alignment with the Clustal series of programs». Nucleic Acids Res 31: páxs. 3497-500. doi:10.1093/nar/gkg500. PMID 12824352. http://nar.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=12824352.
↑ Notredame C, Higgins DG, Heringa J. (2000). «T-Coffee: A novel method for fast and accurate multiple sequence alignment». J Mol Biol 302 (1): páxs. 205-17. doi:10.1006/jmbi.2000.4042. PMID 10964570. http://linkinghub.elsevier.com/retrieve/pii/S0022-2836(00)94042-7.
↑ Hirosawa M, Totoki Y, Hoshida M, Ishikawa M. (1995). «Comprehensive study on iterative algorithms of multiple sequence alignment». Comput Appl Biosci 11: páxs. 13-8. doi:10.1093/bioinformatics/11.1.13. PMID 7796270. http://bioinformatics.oxfordjournals.org/cgi/content/abstract/11/1/13.
↑ Karplus K, Barrett C, Hughey R. (1998). «Hidden Márkov models for detecting remote protein homologies». Bioinformatics 14 (10): páxs. 846-856. doi:10.1093/bioinformatics/14.10.846. PMID 9927713. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=9927713.
↑ Chothia C, Lesk AM. (1986). «The relation between the divergence of sequence and structure in proteins». EMBO J 5 (4): páxs. 823-6. PMID 3709526. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=3709526.
↑ ^14,0 ^14,1 Zhang Y, Skolnick J. (2005). «The protein structure prediction problem could be solved using the current PDB library». Proc Natl Acad Sci U S A 102: páxs. 1029-34. doi:10.1073/pnas.0407152101. PMID 15653774. http://www.pnas.org/cgi/pmidlookup?view=long&pmid=15653774.
↑ Holm L, Sander C (1996). «Mapping the protein universe». Science 273: páxs. 595-603. PMID 8662544. http://www.sciencemag.org/cgi/pmidlookup?view=long&pmid=8662544.
↑ Taylor WR, Flores TP, Orengo CA. (1994). «Multiple protein structure alignment». Protein Sci 3: páxs. 1858-70. PMID 7849601. https://web.archive.org/web/http://www.proteinscience.org/cgi/pmidlookup?view=long&pmid=7849601.
↑ Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). «CATH--a hierarchic classification of protein domain structures». Structure 5: páxs. 1093-108. doi:10.1016/S0969-2126(97)00260-8. PMID 9309224.
↑ Shindyalov IN, Bourne PE. (1998). «Protein structure alignment by incremental combinatorial extension (CE) of the optimal path». Protein Eng 11: páxs. 739-47. doi:10.1093/protein/11.9.739. PMID 9796821. http://peds.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=9796821.
↑ Felsenstein J. (2004). Inferring Phylogenies. Sinauer Associates: Sunderland, MA. ISBN 0-87893-177-5.
↑ Barzilay R, Lee L. (2002). «Bootstrapping Lexical Choice via Multiple-Sequence Alignment». Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP): páxs. 164–171. http://www.cs.cornell.edu/home/llee/papers/xen-msa.pdf.
↑ Kondrak, Grzegorz (2002). Algorithms for Language Reconstruction. University of Toronto, Ontario. http://www.cs.ualberta.ca/~kondrak/papers/thesis.pdf. Consultáu'l 21 de xineru de 2007.
↑ Prinzie A., D. Van den Poel (2006). «Incorporating sequential information into traditional classification models by using an element/position-sensitive SAM». Decision Support Systems 42 (2): páxs. 508–526. doi:10.1016/j.dss.2005.02.004. http://econpapers.repec.org/paper/rugrugwps/05_2F292.htm. See also Prinzie and Van den Poel's paper «Predicting home-appliance acquisition sequences: Márkov/Márkov for Discrimination and survival analysis for modeling sequential information in NPTB models». Decision Support Systems 44 (1): páxs. 28–45. 2007. doi:10.1016/j.dss.2007.02.008. http://econpapers.repec.org/paper/rugrugwps/07_2F442.htm.
↑ Thompson JD, Plewniak F, Poch O (1999). «BAliBASE: a benchmark alignment database for the evaluation of multiple alignment programs». Bioinformatics 15: páxs. 87-8. doi:10.1093/bioinformatics/15.1.87. PMID 10068696. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=10068696.
↑ Thompson JD, Plewniak F, Poch O. (1999). «A comprehensive comparison of multiple sequence alignment programs». Nucleic Acids Res 27: páxs. 2682-90. doi:10.1093/nar/27.13.2682. PMID 10373585. http://nar.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=10373585.

[Schneider-1] Schneider TD, Stephens RM (1990). «Sequence logos: a new way to display consensus sequences». Nucleic Acids Res 18: páxs. 6097-6100. doi:10.1093/nar/18.20.6097. PMID 2172928. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=2172928.

[brudno-2] Brudno M, Malde S, Poliakov A, Do CB, Couronne O, Dubchak I, Batzoglou S (2003). «Glocal alignment: finding rearrangements during alignment». Bioinformatics 19 Suppl 1: páxs. i54–62. doi:10.1093/bioinformatics/btg1005. PMID 12855437. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=12855437.

[brudno_2-3] Brudno M, Poliakov A, Salamov A, Cooper GM, Sidow A, Rubin EM, Solovyev V, Batzoglou S, Dubchak I (2004). «Automate whole-genome multiple alignment of rat, mouse, and human». Genome Research 14: páxs. 685–692. doi:10.1101/gr.2067704. http://www.genome.org/cgi/reprint/14/4/685.pdf.

[mount-4] 4,0 ^4,1 Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed.. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 0-87969-608-7.

[wang-5] Wang L, Jiang T. (1994). «On the complexity of multiple sequence alignment». J Comput Biol 1: páxs. 337-48. PMID 8790475.

[lipman-6] Lipman DJ, Altschul SF, Kececioglu JD (1989). «A tool for multiple sequence alignment». Proc Natl Acad Sci U S A 86: páxs. 4412-5. doi:10.1073/pnas.86.12.4412. PMID 2734293. http://www.pnas.org/cgi/pmidlookup?view=long&pmid=2734293.

[higgins-7] Higgins DG, Sharp PM (1988). «CLUSTAL: a package for performing multiple sequence alignment on a microcomputer». Gene 73 (1): páxs. 237-44. doi:10.1016/0378-1119(88)90330-7. PMID 3243435. http://linkinghub.elsevier.com/retrieve/pii/0378-1119(88)90330-7.

[thompson-8] Thompson JD, Higgins DG, Gibson TJ. (1994). «CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice». Nucleic Acids Res 22: páxs. 4673-80. doi:10.1093/nar/22.22.4673. PMID 7984417. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=7984417.

[chenna-9] Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD. (2003). «Multiple sequence alignment with the Clustal series of programs». Nucleic Acids Res 31: páxs. 3497-500. doi:10.1093/nar/gkg500. PMID 12824352. http://nar.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=12824352.

[notredame-10] Notredame C, Higgins DG, Heringa J. (2000). «T-Coffee: A novel method for fast and accurate multiple sequence alignment». J Mol Biol 302 (1): páxs. 205-17. doi:10.1006/jmbi.2000.4042. PMID 10964570. http://linkinghub.elsevier.com/retrieve/pii/S0022-2836(00)94042-7.

[hirosawa-11] Hirosawa M, Totoki Y, Hoshida M, Ishikawa M. (1995). «Comprehensive study on iterative algorithms of multiple sequence alignment». Comput Appl Biosci 11: páxs. 13-8. doi:10.1093/bioinformatics/11.1.13. PMID 7796270. http://bioinformatics.oxfordjournals.org/cgi/content/abstract/11/1/13.

[karplus-12] Karplus K, Barrett C, Hughey R. (1998). «Hidden Márkov models for detecting remote protein homologies». Bioinformatics 14 (10): páxs. 846-856. doi:10.1093/bioinformatics/14.10.846. PMID 9927713. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=9927713.

[chothia-13] Chothia C, Lesk AM. (1986). «The relation between the divergence of sequence and structure in proteins». EMBO J 5 (4): páxs. 823-6. PMID 3709526. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=3709526.

[skolnick-14] 14,0 ^14,1 Zhang Y, Skolnick J. (2005). «The protein structure prediction problem could be solved using the current PDB library». Proc Natl Acad Sci U S A 102: páxs. 1029-34. doi:10.1073/pnas.0407152101. PMID 15653774. http://www.pnas.org/cgi/pmidlookup?view=long&pmid=15653774.

[holm-15] Holm L, Sander C (1996). «Mapping the protein universe». Science 273: páxs. 595-603. PMID 8662544. http://www.sciencemag.org/cgi/pmidlookup?view=long&pmid=8662544.

[taylor-16] Taylor WR, Flores TP, Orengo CA. (1994). «Multiple protein structure alignment». Protein Sci 3: páxs. 1858-70. PMID 7849601. https://web.archive.org/web/http://www.proteinscience.org/cgi/pmidlookup?view=long&pmid=7849601.

[orengo-17] Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). «CATH--a hierarchic classification of protein domain structures». Structure 5: páxs. 1093-108. doi:10.1016/S0969-2126(97)00260-8. PMID 9309224.

[shindyalov-18] Shindyalov IN, Bourne PE. (1998). «Protein structure alignment by incremental combinatorial extension (CE) of the optimal path». Protein Eng 11: páxs. 739-47. doi:10.1093/protein/11.9.739. PMID 9796821. http://peds.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=9796821.

[felsenstein-19] Felsenstein J. (2004). Inferring Phylogenies. Sinauer Associates: Sunderland, MA. ISBN 0-87893-177-5.

[Barzilay-20] Barzilay R, Lee L. (2002). «Bootstrapping Lexical Choice via Multiple-Sequence Alignment». Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP): páxs. 164–171. http://www.cs.cornell.edu/home/llee/papers/xen-msa.pdf.

[21] Kondrak, Grzegorz (2002). Algorithms for Language Reconstruction. University of Toronto, Ontario. http://www.cs.ualberta.ca/~kondrak/papers/thesis.pdf. Consultáu'l 21 de xineru de 2007.

[prinzie-22] Prinzie A., D. Van den Poel (2006). «Incorporating sequential information into traditional classification models by using an element/position-sensitive SAM». Decision Support Systems 42 (2): páxs. 508–526. doi:10.1016/j.dss.2005.02.004. http://econpapers.repec.org/paper/rugrugwps/05_2F292.htm. See also Prinzie and Van den Poel's paper «Predicting home-appliance acquisition sequences: Márkov/Márkov for Discrimination and survival analysis for modeling sequential information in NPTB models». Decision Support Systems 44 (1): páxs. 28–45. 2007. doi:10.1016/j.dss.2007.02.008. http://econpapers.repec.org/paper/rugrugwps/07_2F442.htm.

[thompson2-23] Thompson JD, Plewniak F, Poch O (1999). «BAliBASE: a benchmark alignment database for the evaluation of multiple alignment programs». Bioinformatics 15: páxs. 87-8. doi:10.1093/bioinformatics/15.1.87. PMID 10068696. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=10068696.

[thompson3-24] Thompson JD, Plewniak F, Poch O. (1999). «A comprehensive comparison of multiple sequence alignment programs». Nucleic Acids Res 27: páxs. 2682-90. doi:10.1093/nar/27.13.2682. PMID 10373585. http://nar.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=10373585.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]