Skip to content

Diplomatura en Big Data y Machine Learning contra COVID-19

Notifications You must be signed in to change notification settings

OrsonMM/VTraker

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

60 Commits
 
 
 
 
 
 

Repository files navigation

logo V.Tracker

Diplomatura en Big Data y Machine Learning contra COVID-19

La evolución de la pandemia del SARS-CoV-2 produce nuevas variantes caracterizando las diferentes realidades epidemiológicas. En ese sentido, poder detectar a tiempo los nuevos clados y sus mutaciones asociadas (Figura 1), en especial, monitorear los cambios asociados a la proteína Spike del virus es una tarea rutinaria que se vuelve más compleja con el actual volumen de información generada cada día (Big data).

En el presente repositorio se comparten cuatro scripts desarrollados en lenguaje Python, los cuales son ejecutables en Google Colab. El conjunto de estos cuatro scripts forman la versión Beta 1 del software VTracker (Virus Tracker).

¿En qué nos ayuda?

Actualmente, la búsqueda y detección de posibles linajes emergentes es una tarea manual y debe de proponerse en la página oficial (https://github.com/cov-lineages/pango-designation) donde un grupo de expertos decide si es posible asignarle un nombre, basados en unas reglas sugeridas también por ellos (https://www.pango.network/the-pango-nomenclature-system/statement-of-nomenclature-rules/).

Nuestra propuesta pretende que los scripts desarrollados usen las reglas propuestas dando, como producto final, un posible linaje emergente a ser propuesto.

imagen_orson

                     Figura 1. Representación de cluster nuevos detectados y sus mutaciones asociadas. 

Flujo de trabajo de V.Tracker

pseudocodigo_diplomado (1)

                                 Figura 2. Diagrama de flujo de trabajo desarrollado

Manual para el Usuario

Para poder familiarizarse con los programa V.Tracker recomendamos usar los datos compartidos en la carpeta Data/ y descargar los arcivhos scripts de Code_colab/ .ipynb. En la carpeta Data/ seguir las instrucciones del archivo Data_Information.rmd. para cada google colab.

Limitaciones

  1. Actualmente el VTracker solo se encuentra disponible en formato Google colab.
  2. Es necesario someterlo a más pruebas para comprobar su real rendimiento.

Desarrollo Futuro

  1. Desarrollar el pipiline completo para usuarios Linux.

Dependencias

Es necesario instalar estos programas para el correcto funcionamiento

Mafft - para el alinemiento de los genomas - (https://mafft.cbrc.jp/alignment/software/)

Iqtree2 - Para generar el análisis filogenético - (http://www.iqtree.org/)

Nextclade - Para realizar anotación de genomas - (https://clades.nextstrain.org/)

Treecluster - Para detectar los cluster en una filogenía - (https://github.com/niemasd/TreeCluster)

Autores

  • Orson Mestanza
  • Pierre Padilla
  • Alejandro Lopez
  • Edgar Aza
  • Diana Tapia

About

Diplomatura en Big Data y Machine Learning contra COVID-19

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published