Al norte de Inglaterra, cuatro millones de personas dependen de los servicios de agua corriente y tratamiento de residuos de Yorkshire Water, lo que incluye el tratamiento de 150.000 toneladas de aguas residuales al año. Parte de ese tratamiento lo llevan a cabo microorganismos: a través de la digestión anaeróbica, pueden reciclar los residuos sólidos biológicos y transformarlos en una fuente de energía renovable. El profesor James Chong, titular de una beca de investigación industrial de la Royal Society y microbiólogo en la Universidad de York, estudia estos microorganismos para descubrir posibles métodos que optimicen la eficacia del proceso y reduzcan los gases de efecto invernadero dañinos para el medio ambiente. En colaboración con Yorkshire Water, el grupo de investigación de Chong recopiló sesenta gigabases (o 60.000 millones de pares de bases) de secuencias de ADN microbiano y pidió ayuda a sus compañeros, el doctor John Davey, bioinformático del centro de tecnología y biociencias (BTF) de York, y el doctor Peter Ashton, director del laboratorio de genómica y bioinformática del BTF, para analizar los datos en clústeres de computación de alto rendimiento (HPC).
Gracias a la tecnología de secuenciación Nanopore de Oxford, Ashton y su laboratorio pueden secuenciar decenas o cientos de miles de pares de bases de ADN en "lecturas largas". Después, Davey ejecuta el software para montar las lecturas y superponer trozos de secuencias. "Esperamos encontrar cientos de genomas diferentes en una muestra de digestor, pero la tecnología de secuenciación más antigua, que genera lecturas muy cortas de cientos de pares de bases, por lo general produce montajes con cientos de miles de piezas", nos explica. "Con las lecturas largas, normalmente obtenemos montajes de miles de piezas, por lo que resulta mucho más fácil identificar las especies en los digestores". Pero dichas lecturas largas generan enormes conjuntos de datos con necesidades de computación muy intensivas (sobre todo, ingentes cantidades de espacio en disco). De modo que el equipo recurrió a Cloud Technology Solutions (CTS), un Google Cloud Premier Partner con sede en el Reino Unido que ofrece servicios de migración a la nube, transformación, Big Data y asistencia, para organizar una prueba piloto de su flujo de trabajo en las máquinas virtuales de Google Compute Engine. La colaboración con Google Cloud y GÉANT permite que CTS ofrezca servicios únicos a la comunidad educativa e investigadora de la Unión Europea.