03 abril, 2006

Alineación de secuencias

O como entender el algoritmo de Smith-Waterman y no morir en el intento...

El algoritmo básicamente nos encuentra una alineación óptima de dos secuencias. Típicamente se utiliza para encontrar similitudes entre secuencias de nucleótidos (DNA) y de proteínas.

El tener que hacer un trabajo sobre él, provoca que tengas que buscar por la infinidad de internet para llegar a entenderlo; el problema llega cuando un algoritmo como este, ha estado muy trabajado durante los años.

Tenemos por un lado el algoritmo original, muy sencillo, que podemos encontrar en el artículo original creado en 1981. El problema ocurre cuando empezamos a trabajar sobre otro tipos de artículos mucho más modernos que se basan (en teoría) en este algoritmo.

Pero no es así, de este modo encontramos aquí como se puede paralelizar el algoritmo pero aunque parece que el algoritmo sea el Smith-Waterman original se realizan una série de cambios que provocan que no sea así.

Lo más aproximado a lo que necesito para poder testear si la implementación funciona es este link, que explica muy bien los x+1 algoritmos disponibles que hacen "lo mismo". Enlace.

No hay comentarios: