Siirry sisältöön

MIT:n professori rikkoo tietojenkäsittelyn rajoja suurimmalla tunnetulla tietojenkäsittelyklusterilla julkisessa pilvessä

MIT:n laskentateoreetikko ja johtava tutkija Andrew V. Sutherland käytti Google Compute Enginea L-Functions and Modular Forms Database (LMFDB) ‑tietokannan hallinnointiin ja rikkoi oman korkean suorituskyvyn laskennan ennätyksensä 580 000 ytimellä.

Matematiikan filosofian kursseilla kuulee usein puhuttavan objekteista. Objekti voi olla käytännössä mikä tahansa, mihin voidaan käyttää laskutoimituksia, kuten numero tai funktio, tai laskutoimituksen tulos, esimerkiksi käyrä. L-Functions and Modular Forms Database (LMFDB) ‑tietokanta sisältää valtavan määrän objekteja ja niiden välisiä suhteita. LMFDB on kansainvälisten tutkijoiden yhteistyön tulos, jonka ohjauksesta vastaavat henkilöt ovat osa eurooppalaisia ja pohjoisamerikkalaisia yliopistoja, mm. MIT:tä.

Koko näkökulma tutkimukseen muuttuu, kun voit esittää kysymyksen ja saada vastauksen tunneissa kuukausien sijaan.

Andrew V. Sutherland, Computational number theorist and Principal Research Scientist, MIT

Datan jakaminen tutkijoiden kesken

LMFDB:n ansiosta tutkijoiden on aiempaa helpompaa jakaa objekteja koskevia tietoja kansainvälisten fyysikkojen, tietojenkäsittelytieteilijöiden ja matemaatikkojen yhteisöjen kanssa. Jotkin objektien luomiseen käytetyt laskutoimitukset ovat niin monimutkaisia, että vain muutama ihminen osaa suorittaa ne. Toiset laskutoimitukset taas ovat niin suuria, aikaa vieviä ja kalliita, että ne kannattaa suorittaa ainoastaan kerran.

LMFDB-tiimi tarvitsi pilvipalvelun, joka vastaisi tallennustilan jatkuvasti kasvavaan tarpeeseen: LMFDB:n objektien luomiseen on käytetty lähes 1 000 vuotta laskenta-aikaa. Valtavan tallennustilaongelman lisäksi mittakaava tuotti päänvaivaa. LMFDB on vapaasti käytettävissä osoitteessa lmfdb.org, ja verkkosivulla suoritetaan valtava määrä hakuja päivittäin, minkä vuoksi projektin tuli olla skaalattava. Koska LMFDB on yhdessä toteutettu projekti, tiimin viimeinen vaatimus oli, että eri maissa asuvat ihmiset voivat hallinnoida järjestelmää helposti.

Pääpaino tutkimuksessa infrastruktuurin sijasta

LMFDB-tiimi tutustui useisiin pilviratkaisuihin ja valitsi Google Cloudin sen suorituskyvyn, automaattisen skaalautuvuuden, helppokäyttöisyyden ja luotettavuuden vuoksi.

MIT:n matematiikan opettaja, laskentateoreetikko ja johtava tutkija Andrew V. Sutherland on yksi LMFDB:n ja päätöksentekoprosessin keskeisistä tutkijoista.

"Olemme matemaatikkoja ja haluamme keskittyä tutkimukseen laitteisto-ongelmista tai verkkosivun skaalautuvuusongelmista huolehtimisen sijaan", Sutherland sanoo.

Sutherland ja LMFDB:n muu tiimi päättivät käyttää Google Compute Enginea (GCE) ja Google Persistent Diskiä verkkopalvelinten isännöintiin, ja he tallensivat puoli teratavua verkossa olevaa dataa ja kolme teratavua harvoin käytettyä dataa peilaamalla käyttämänsä MongoDB-tietokannat. Tämän ansiosta tutkijat voivat skaalata LMFDB:tä ja saada laskentatuloksia ja matemaattisia objekteja nopeasti tarpeen mukaan. LMFDB:ssä käytetään lisäksi eri Google Cloud-työkaluja, joiden avulla eri puolilla maailmaa asuvat tutkijat voivat hallinnoida tietokantaa yhdessä ja entistä helpommin. Hallintatyökaluja ovat Google Stackdriver, Google Cloud Console ja Google Cloud Load Balancing.

Sutherlandin oli suoritettava ja tallennettava LMFDB:hen poikkeuksellisen monimutkainen laskusuoritus, joka vaati niin suurta laskentatehoa, ettei julkisessa pilvessä ollut aikaisemmin tehty vastaavaa. Hän valitsi sen suorittamiseen GCE:n ja käytti siihen alisteisten virtuaalikoneiden avulla 580 000:ta ydintä. Tämä oli kaikkien aikojen suurin julkisessa pilvessä suoritettu tietokoneklusteri.

Laskennan tulos oli 70 000 erilaista käyrää, joista tehtiin omat LMFDB-merkintänsä. Kunkin käyrän ratkaiseminen on äärimmäisen monimutkainen tehtävä, joka vaatii monia laskentasyklejä. "Kuin etsisi neulaa viisitoistaulotteisesta heinäsuovasta", Sutherland sanoo.

Ennen kuin Sutherland alkoi käyttää GCE:tä tietojenkäsittelyyn, hän suoritti tehtäviä omalla, 64-ytimisellä tietokoneellaan, mikä oli liian hidasta. Hänen ainoa vaihtoehtonsa oli hakea MIT:n klustereiden vaikeasti saatavaa laskenta-aikaa, mikä asetti ohjelmistokokoonpanoille rajoituksia. GCE:n avulla hän voi käyttää tarvitsemaansa ydinten määrää, asentaa tarvitsemansa käyttöjärjestelmän, kirjastot ja sovellukset sekä päivittää ympäristön aina halutessaan.

Google Cloud tarjoaa LMFDB:lle skaalautuvuutta, jonka ansiosta niin opiskelijat kuin kokeneet tutkijatkin voivat helposti tehdä hakuja ja siirtyä sisältöjen välillä verkkokäyttöliittymällä. Sutherland esimerkiksi opettaa elliptisiä käyriä käsittelevää kurssia, jonka opiskelijat käyttävät LMFDB:tä kotitehtävissään.

Rahan säästäminen massiivisten laskutoimitusten teossa

Tutkijat ja oppilaitokset voivat suorittaa suuren mittakaavan laskutoimituksia GCE:n avulla rajallisellakin budjetilla. GCE-alisteisten virtuaalikoneiden avulla Sutherland voi suorittaa erittäin monimutkaisia laskutoimituksia paljon entistä edullisemmin. Instanssit ovat ominaisuuksiltaan täydelliset, ja niiden hinta on jopa 80 prosenttia perinteisiä vaihtoehtoja edullisempi, koska GCE voi keskeyttää niiden toiminnan. Laskennan keskeyttämisellä on vähäinen vaikutus suorituskykyyn. Tunnin aikana keskeytetään keskimäärin 2–3 % instansseista, mutta vain vähän aikaa menee hukkaan, koska komentosarja käynnistää instanssit uudelleen, kunnes työ on täysin valmis. Pienistä keskeytyksistä huolimatta Sutherland voi suorittaa valtavat laskutoimitukset edullisesti ja käytännössä ilman keskeytyksiä.

Kartoitamme 2000-luvun matematiikkaa

Andrew V. Sutherland, Computational number theorist and Principal Research Scientist, MIT

Tilaa uutisia, vinkkejä ja materiaaleja suoraan sähköpostiisi.