Casos de éxito: Universidad de York, GCP

Un grupo de biólogos usan Google Cloud para avanzar en un estudio medioambiental sobre el tratamiento del agua en Yorkshire

Al pasar su proceso de trabajo a Google Compute Engine, los investigadores de la Universidad de York pudieron montar 60 gigabases de ADN microbiano en dos semanas.

Al norte de Inglaterra, cuatro millones de personas dependen de los servicios de agua corriente y tratamiento de residuos de Yorkshire Water, lo que incluye el tratamiento de 150.000 toneladas de aguas residuales al año. Parte de ese tratamiento lo llevan a cabo microorganismos: a través de la digestión anaeróbica, pueden reciclar los residuos sólidos biológicos y transformarlos en una fuente de energía renovable. El profesor James Chong, titular de una beca de investigación industrial de la Royal Society y microbiólogo en la Universidad de York, estudia estos microorganismos para descubrir posibles métodos que optimicen la eficacia del proceso y reduzcan los gases de efecto invernadero dañinos para el medio ambiente. En colaboración con Yorkshire Water, el grupo de investigación de Chong recopiló sesenta gigabases (o 60.000 millones de pares de bases) de secuencias de ADN microbiano y pidió ayuda a sus compañeros, el doctor John Davey, bioinformático del centro de tecnología y biociencias (BTF) de York, y el doctor Peter Ashton, director del laboratorio de genómica y bioinformática del BTF, para analizar los datos en clústeres de computación de alto rendimiento (HPC).

Gracias a la tecnología de secuenciación Nanopore de Oxford, Ashton y su laboratorio pueden secuenciar decenas o cientos de miles de pares de bases de ADN en "lecturas largas". Después, Davey ejecuta el software para montar las lecturas y superponer trozos de secuencias. "Esperamos encontrar cientos de genomas diferentes en una muestra de digestor, pero la tecnología de secuenciación más antigua, que genera lecturas muy cortas de cientos de pares de bases, por lo general produce montajes con cientos de miles de piezas", nos explica. "Con las lecturas largas, normalmente obtenemos montajes de miles de piezas, por lo que resulta mucho más fácil identificar las especies en los digestores". Pero dichas lecturas largas generan enormes conjuntos de datos con necesidades de computación muy intensivas (sobre todo, ingentes cantidades de espacio en disco). De modo que el equipo recurrió a Cloud Technology Solutions (CTS), un Google Cloud Premier Partner con sede en el Reino Unido que ofrece servicios de migración a la nube, transformación, Big Data y asistencia, para organizar una prueba piloto de su flujo de trabajo en las máquinas virtuales de Google Compute Engine. La colaboración con Google Cloud y GÉANT permite que CTS ofrezca servicios únicos a la comunidad educativa e investigadora de la Unión Europea.

"Ahora puedo plantear nuevas preguntas, como de qué forma cambia una comunidad de microorganismos a lo largo del tiempo y cómo pasa de sistema a sistema por toda la región. Los retos a los que nos enfrentamos en Yorkshire son los mismos que encontramos por todo el país, por lo que este proyecto tiene un impacto potencial significativo".
Profesor James Chong, Titular de una beca de investigación industrial de la Royal Society, Universidad de York

Ampliación de la capacidad de memoria a casi cuatro terabytes

Los tipos de máquinas con memoria optimizada de Google Cloud son idóneos para los análisis de datos que requieren un uso intensivo de la CPU virtual y la memoria del sistema. También son idóneas para las aplicaciones HPC que consumen muchos recursos. Google Compute Engine ofrece tipos de máquinas personalizadas muy potentes y con configuraciones de memoria extremas, con hasta 160 núcleos y 3,88 TB de memoria. Una vez empezaron a trabajar con CTS, el equipo de York ejecutó el montaje genómico con 3 TB de espacio en disco, pero se dieron cuenta de que necesitaban aún más espacio de almacenamiento. CTS creó un paquete de entrenamiento personalizado de inicio rápido en cinco días para que el equipo de investigación pudiera empezar a usar sus soluciones en la nube con las herramientas y los conocimientos específicos que necesitaban. Durante esos cinco días, resolvieron el problema: completaron su flujo de procesamiento por primera vez en una sola máquina virtual de Google Compute, configurada como un servidor virtual de 96 núcleos conectado a una partición LVM en RAID de 4x8 TB. Ashton se maravilla al comprobar el resultado: "Antes era impensable llevar a cabo este proceso de trabajo, pero las máquinas virtuales de Google hacen posible este proceso de montaje genómico, lo ponen a disposición de más investigadores y lo vuelven más asequible". Davey añade que el cambio a lecturas largas hace que los montajes de metagenomas sean mucho más útiles, ya que son más fáciles de analizar. "Por ejemplo, hemos podido identificar arrays CRISPR repetitivos en los montajes de lectura larga; se trata de arrays demasiado complejos para montarlos enteros con lecturas cortas. Los arrays CRISPR contienen fragmentos de ADN de virus que anteriormente han atacado a las bacterias, de modo que podemos rastrear la historia del ecosistema digestor estudiando estas secuencias. Introducir los datos de las secuencias en el servidor de la nube fue más fácil de lo que esperaba, y las herramientas de Compute Engine me facilitaron mucho la tarea de tener controlado lo que estaba pasando en la máquina, lo que a su vez nos ayudó a diagnosticar problemas".

"Antes era impensable llevar a cabo este proceso de trabajo, pero las máquinas virtuales de Google hacen posible este montaje genómico, lo ponen a disposición de más investigadores y lo vuelven más asequible".
Doctor Peter Ashton, Director del laboratorio de genómica y bioinformática, Universidad de York

Como los conjuntos de datos siguen creciendo, Ashton cree que soluciones escalables como Google Cloud serán fundamentales para afrontar operaciones de montaje genómico de próxima generación. "Antes subdividíamos los proyectos", asegura, "pero ahora podemos hacer un solo proyecto de una sola pasada. Así que podemos aplicar los resultados a proyectos cada vez más grandes". Para Chong, este flujo de trabajo elimina parte de la incertidumbre de los análisis y les permite progresar más rápido: "Ahora puedo plantear nuevas preguntas, como de qué forma cambia una comunidad de microorganismos a lo largo del tiempo y cómo pasa de sistema a sistema por toda la región. Los retos a los que nos enfrentamos en Yorkshire son los mismos que encontramos por todo el país, por lo que este proyecto tiene un impacto potencial significativo".