Studium przypadku: GCP na Uniwersytecie w Yorku

Biologowie przyspieszają badania nad uzdatnianiem wody w Yorkshire dzięki Google Cloud

Dzięki przeniesieniu zadań do usługi Google Compute Engine badacze z Uniwersytetu w Yorku byli w stanie przesekwencjonować 60 giga par zasad DNA bakterii w 2 tygodnie.

Zakład wodno-kanalizacyjny Yorkshire Water świadczy usługi dla 4 milionów osób w Anglii Północnej. Dba o czystość wody i gospodarkę ściekową, co obejmuje między innymi przetwarzanie 150 tys. ton szlamu ściekowego rocznie. Firmie pomagają w tym mikroorganizmy, które w procesie fermentacji metanowej rozkładają organiczne odpady stałe i przekształcają je w energię odnawialną. Professor James Chong, członek Royal Society i mikrobiolog na Uniwersytecie w Yorku, bada te mikroorganizmy, aby opracować nowe sposoby na zwiększenie wydajności procesu i zmniejszyć produkcję szkodliwych gazów cieplarnianych. We współpracy z Yorkshire Water grupa badawcza prof. Chonga zebrała 60 miliardów par zasad sekwencji DNA bakterii, a następnie zwróciła się do dr. Johna Davey'a, bioinformatyka z Katedry Technologii Nauk Przyrodniczych (BTF) w Yorku, oraz dr. Petera Ashtona, kierownika Laboratorium Genomiki i Bioinformatyki na BTF, o pomoc w przeanalizowaniu danych w klastrach komputerów o dużej mocy (HPC).

Używając technologii Oxford Nanopore, dr Ashton i jego laboranci mogą sekwencjonować setki tysięcy par zasad DNA w tzw. długich odczytach. Następnie doktor Davey uruchamia oprogramowanie, aby zsekwencjonować odczyty, łącząc ze sobą nakładające się fragmenty. „W próbce z komory fermentacji spodziewamy się znaleźć setki różnych genomów. Jednak starsza technologia, która wytwarza bardzo krótkie odczyty składające się z setek par zasad generuje zazwyczaj sekwencje z setkami tysięcy elementów” – wyjaśnia dr Davey. „Dzięki długim odczytom otrzymujemy zazwyczaj sekwencje w tysiącach elementów, co bardzo ułatwia rozpoznanie gatunków obecnych w komorze fermentacji”. Długie odczyty generują jednak ogromne zbiory danych, które wymagają bardzo dużej mocy obliczeniowej – w szczególności miejsca na dysku. Dlatego też zespół zwrócił się do brytyjskiego Partnera Google Cloud Premium - firmy Cloud Technology Solutions (CTS) o wsparcie w realizacji badań na maszynach wirtualnych Google Compute Engine. Firma ta oferuje m.in. usługi migracji do chmury, transformacji i Big Data. Współpraca z Google Cloud i GÉANT umożliwia CTS oferowanie unikalnych usług przeznaczonych dla europejskiej społeczności badawczej i edukacyjnej.

„Teraz mogę zadawać nowe pytania, np. dotyczące tego, jak mikroorganizmy zmieniają się w czasie i w różnych systemach w całym regionie. Wyzwania, z którymi zmagamy się w Yorkshire, istnieją też w całym kraju, więc ten projekt może mieć większe znaczenie”.
Profesor James Chong, Członek Royal Society, Uniwersytet w Yorku

Rozszerzenie pamięci do niemal 4 TB

Maszyny Google Cloud są zoptymalizowane pod kątem pamięci i doskonale nadają się do analizy danych wymagającej istotnej mocy procesora wirtualnego oraz dużej ilości pamięci systemowej. Są również idealne do obsługi aplikacji HPC wymagających dużych ilości zasobów. W Google Compute Engine dostępne są maszyny niestandardowe o potężnej mocy obliczeniowej i bardzo dużej ilości pamięci – do 160 rdzeni i 3,88 TB. Wkrótce po tym, gdy zespół z Yorku rozpoczął badanie sekwencji genomu we współpracy z firmą Cloud Technology Solutions (CTS), okazało się, że początkowe 3 TB miejsca na dyskach są niewystarczające. Firma CTS przygotowała specjalny 5-dniowy pakiet treningowy typu „Szybki start”, który umożliwił zespołowi badawczemu rozpoczęcie pracy z rozwiązaniami chmurowymi dzięki specjalnym narzędziom i informacjom, które były mu potrzebne. W ciągu 5 dni udało im się rozwiązać problem: po raz pierwszy ukończyli potok na pojedynczej maszynie wirtualnej skonfigurowanej jako 96-rdzeniowy serwer wirtualny połączony z łączoną partycją LVM (4 x 8 TB). „Wcześniej w ogóle nie mogliśmy uruchomić tego projektu, ale dzięki maszynom wirtualnym Google sekwencjonowanie genów stało się możliwe, dostępne dla większej liczby badaczy i tańsze” – mówi z zachwytem dr Ashton. John Davey dodaje, że przejście na długie odczyty sprawiło, że: „sekwencje metagenomu są teraz znacznie bardziej użyteczne, bo można je łatwiej przeanalizować. Udało się nam na przykład zidentyfikować powtarzalne macierze CRISPR w długich odczytach sekwencji. Macierze te są zbyt złożone, aby można je było w całości przeanalizować podczas krótkiego odczytu. Macierze CRISPR zawierają fragmenty DNA wirusów, które uprzednio atakowały bakterie, możemy więc prześledzić historię ekosystemu komory fermentacji, badając te sekwencje. Przeniesienie danych sekwencji na serwer w chmurze było prostsze, niż myślałem, a narzędzia dostępne w Compute Engine ułatwiły nam śledzenie tego, co dzieje się na maszynie. Niezwykle pomogło nam to w diagnozowaniu problemów”.

„Wcześniej w ogóle nie mogliśmy uruchomić tego projektu, ale dzięki maszynom wirtualnym Google sekwencjonowanie genów stało się możliwe, dostępne dla większej liczby badaczy i tańsze”.
Dr Peter Ashton, Kierownik Laboratorium Genomiki i Informatyki, Uniwersytet w Yorku

Peter Ashton uważa, że w obliczu rozrastających się ciągle zbiorów danych skalowalne rozwiązania – takie jak Google Cloud – będą miały kluczowe znaczenie dla nowych systemów sekwencjonowania genomu. „Kiedyś dzieliliśmy projekty na mniejsze, a teraz możemy wykonać cały projekt za jednym razem” – zauważa. „Możemy stosować tę metodę w coraz większych projektach”. Profesorowi Chongowi pomaga ona wyeliminować z procesu analizy niepotrzebne przypuszczenia i przyspieszyć badania: „Teraz mogę zadawać nowe pytania, np. dotyczące tego jak mikroorganizmy zmieniają się w czasie i w różnych systemach w całym regionie. Wyzwania, z którymi zmagamy się w Yorkshire, istnieją też w całym kraju, więc ten projekt może mieć większe znaczenie”.