Ön itt áll: A HivatalrólA HivatalrólKiadványok, publikációkJogelőd szervezetek kiadványaiOTKA-kiadványok
Új műszer: az adatszkóp
Új műszer: az adatszkóp
2016. július 28.
Módosítás: 2017. december 29.
Olvasási idő: 12 perc
„A tudomány egyik úttörő feladata, hogy olyan műszereket fejlesszen ki, amelyek szignifikánsan kitágítják a vizsgálható jelenségek körét, skáláját. Évszázadokkal ezelőtt a teleszkóp, majd a mikroszkóp kifejlesztése jól példázta, hogy egy-egy ilyen műszer hogyan nyithat meg új területeket, hogyan teheti lehetővé addig elérhetetlen ismeretek megszerzését. Ma ezeket a műszereket már boltban is megvásárolhatjuk. A Johns Hopkins Egyetemen lévő kollégákkal egy új tudományos nagyműszer kifejlesztésén dolgozunk egy régóta tartó sikeres együttműködés folytatásaként, egy »adatszkóp« létrehozásán” – írja Csabai István egyetemi tanár a „Tudományos adatok petabájt skálán” című projektről (NN 103244). Erről a fejlesztésről beszélgettünk dolgozószobájában, az ELTE Komplex Rendszerek Fizikája Tanszékén.

A Természet Világában az az egyik kedvenc cikkem, amelyet a világegyetem térképéről írt.

Csabai István
Csabai István
Most éppen egy kapcsolódó cikket írunk a Fizikai Szemlébe, mert sok érdekes új fejlemény van a kozmológia területén. Csak röviden mesélem: az általánosan elfogadott kozmológiai modellt a részecskefizikához hasonlóan itt is standard modellnek nevezik. Egyre pontosabban lehet mérni a paramétereit: hogyan tágul az univerzum, mennyi benne a sötét anyag és így tovább. Eddig úgy tűnt, minden pontosan stimmel. De van egy paraméter, az univerzum tágulási rátája, a Hubble-állandó, amit többféleképpen is mérnek. A Planck űrszonda egyszerűen szólva az ősrobbanás fényét látja, és ebből is becsülhető ez a paraméter, ugyanakkor kiszámítható a viszonylag közeli univerzumbeli szupernóvák távoldásából is. Tehát az egyik módszer itt méri, a másik meg a távoli, korai univerzumban. A két eredménynek passzolnia kellene – ha jó a modell. A mérési eredmények a hibahatárukkal együtt eddig „átfedtek”, de amióta precízebbek a mérések, már a hibahatáron túl eltérnek egymástól. Rezeg a léc a standard kozmológiai modell alatt, amely pár évtizede stabilan tartja magát.
Shol az ég és a Föld összeér
A cikk egyik illusztrációja. A felirat: Egy középkori misszionárius elmeséli, hogy megtalálta azt a pontot, ahol az ég és a Föld összeér

Azt is mondják, az az izgalmas, ha nem működik a standard modell.

Így van. A részecskefizikában is hasonló történik. Szinte minden tudományban van egy modell, mert konszenzusra törekszünk, nem lehet „összevissza” beszélni. Általában azok a pályázatok nyernek el támogatást, amelyek illeszkednek a konszenzushoz: arra ritkán adnak pénzt, hogy „na, én megint kitaláltam valami újat”. Magyarországon más az álláspiac, de Amerikában szinte csak a domináns (konszenzusos) kutatási témákra tudnak embereket fölvenni. Az elméletek „önhajtó ereje” működik egy darabig – addig, amíg össze nem gyűlik annyi gyanús dolog, hogy újra dolgozni kelljen az elméleten. Szerintem jó idők járnak most a tudományban.

Professzor úrra mindig jó idők jártak a tudományban…

Szerintem is. Azért az kell hozzá, hogy az ember ne veszítse el a lelkesedését, és mindig megtalálja azt, ami saját magát is motiválja és a tudományos közösséget is érdekli.

Az új nagyműszerük, az adatszkóp biztosan lelkesítő.

Szinte minden diszciplínában ugyanaz a történet rajzolódik ki, de talán a csillagászaton keresztül magyarázható el a legjobban. Az ember szeretné megismerni, hogyan működik a természet. Ennek a törekvésnek vannak praktikus aspektusai, mert ha jól ismerem a környezetet, akkor jobban tudok reagálni rá, tudom, hol a ragadozó, hol van a táplálék, a menedék. Kezdetben a tudós is csak az érzékszerveit tudta műszerként használni. Fölnézett az égre, és látta a fényes pöttyöket, elképzelte a „kupolát”, amin kidughatja a fejét – ez persze csak egy modell, mert az ember modellt alkot a fejében, hogy le tudja írni a jelenségeket. Az ókori görögök nem azért nem találták meg a galaxisokat, mert nem voltak elég okosak, hanem mert nem volt eszközük hozzá, nem volt olyan észlelés, mely ezt a modellt követelte volna meg. A szemünket nem arra „tervezték”, hogy a galaxisokat nézzük. A nagyon halvány dolgokat nem látjuk, a szemünk egyszerűen túl kicsi, hogy elegendő fotont engedjen be.

Aztán megjelentek a távcsövek, kezdetben kisebbek, majd a 20. század húszas-harmincas éveiben pedig már a kétméteres tükrös távcsövek is, amelyekkel hirtelen olyan dolgokat lehetett látni, amilyeneket addig nem. Az 1930-as évek előtt nagy vita folyt arról, hogy mik azok a kis halvány foltok az égen, közeli ködök vagy nagyon távoli hatalmas objektumok. Édesapám 1933-ban született. Akkor még nem tudták, hogy nem csak a mi Tejútrendszerünk létezik. Hihetetlen, hogy milyen kicsi volt a világ, és mennyire „megnőtt” ahhoz képest – kevesebb, mint száz év alatt.

Az érzékszervek hiányosságait úgy is interpretálhatjuk, hogy az embernek kell valami protézis, ha nem lát mindent a szemével: kell a mikroszkóp vagy a távcső; arról nem is beszélve, hogy érzékelnie kell a rádiósugárzást, a röntgensugárzást, az infra- és ultraibolya sugárzást stb. Másrészt – és végül is erről szólt a projektünk – az agyunk, amire annyira büszkék vagyunk, nyilván ugyancsak nem tökéletes szerkezet az adatfeldolgozásra. Tudunk beszélni meg írni, de látszik, hogy például a matematikára, ami a tudomány nyelve, már nem annyira alkalmas az agy. Az általános iskolában sokan nehezen emésztik meg a negatív számokat, a törtet törttel osztás már nagyon keveseknek megy flottul, a másodfokú egyenlet megoldásáról nem is beszélve.

A matematikusok elképesztően absztrakt dolgokon gondolkoznak.

Viccesen szólva a tudósok mutánsok. Miért lenne érdeke az evolúciónak, hogy felfogjuk az absztrakt matematikát? Az természetes, hogy tudunk kommunikálni, látni, mások eszén túljárni, udvarolni – ezeknek van evolúciós előnyük. De az, hogy én absztrakt matematikát csináljak, az bizonyos értelemben a gondolkodás evolúciójának mellékterméke.

Értek valamennyit a matekhoz, de azért ötvenjegyű számokat nem szorzok össze fejben. Papíron, ceruzával csak-csak, de fejben meg se tudok jegyezni olyan hosszú számot. Ez jól mutatja a korlátainkat. Noha pár tranzisztorból összerakható egy számológép, ami képes erre, az ember agya, a milliárd idegsejtjével, nem képes az ötvenjegyű számok szorzására, mert céleszköz, amit más feladatokra specifikáltak. Arra szolgál, hogy emberek legyünk, és nem arra, hogy tudományt műveljünk… A szemünkkel nem látjuk a galaxisokat, és nem látjuk a sejteket meg az atomokat. Az agyunkkal elboldogulunk a társadalomban, de a tudományhoz más kell, és itt következett be áttörés a számítógépek és a digitális műszerek megjelenésével.

Deep Field-felvétel
A Hubble-űrtávcső Deep Field-felvétele

A műszerek kapacitása hirtelen ugrott „még egyet”, tehát nemcsak nagy tükrünk van, hanem beleraktuk a távcsövekbe a digitális kamerákat, a CCD-ket, hasonlókat ahhoz, amivel ma már a mobiltelefonban is fényképezünk. Tudjuk, hogy a telefon, a számítógép gyorsan megtelik fotókkal, videókkal. Nagyon sok adat gyűlik össze. A csillagászatban korábban a szemükkel dolgoztak a kutatók, és kézzel rajzolt ábrákon próbáltak összefüggéseket találni. Hirtelen kiderült, hogy ezt nem lehet így tovább csinálni.

Korábban részt vettem egy nemzetközi projektben Szalay Sándorral együttműködve, aki a Johns Hopkins Egyetemen dolgozik. Ennek keretében építettünk egy nagy kamerát, egy nagy távcsövet, hogy lefényképezzük az univerzumot három dimenzióban – erről írtam a beszélgetés elején említett cikket. Ebből összejött tíz terabájt adatunk. Ez most már nem is olyan sok, de tízegynéhány évvel ezelőtt rengeteg volt. Ennek a feldolgozásához új eszközök, új módszerek kellenek.

A mostani projekt a régebben elkezdett égbolttérképezés folytatása. Ezen dolgozom már sok éve, főként fiatalokkal és külföldi kollégákkal is. A felállás a konkrét tudományterülettől függetlenül hasonló: van egy adathalmazunk (újabban divatos kifejezéssel élve „big data”), amit összegyűjtünk egy nagy műszerrel, és olyan rendszereket kell kifejlesztenünk, amelyek képesek ennek az adathalmaznak a hatékony kezelésére. Ezek a rendszerek tulajdonképpen segédeszközök azoknak a „hagyományos” vagy szaktudósoknak, akik ki akarják nyerni az adatokból az információt, akik jobb modelleket akarnak készíteni.

Az adathalmazok kezeléséhez új módszerek szükségesek, például a mesterséges intelligencia, a gépi tanulás alkalmazása. A kutatók gyakran keresnek mintázatokat az adatokban. Hogyan lehet egyszerű matematikai összefüggést találni az égen látható fényes pontok mozgására? Tycho de Brahénak még nem volt távcsöve, csak hatalmas szögmérője. Sok éven át, fáradságos munkával méregette a bolygók pozícióit, mondhatjuk, hogy ez az első csillagászati „big data”. Később, mikor Kepler kezébe került az adathalmaz, ebből találta ki az azóta is érvényes modellt a bolygók mozgására. Az új modellhez és a jobb megértéshez új adatok kellenek.

Most még sokkal nagyobb adathalmazunk van, és újabb, jobb modelleket tudunk alkotni arra, hogy megértsük, hogyan tágul az univerzum, hogyan fejlődik, mi volt a múltja, mi lesz a jövője. Ez a megközelítés egyre jobban lecsorog a mindennapi életbe is – emiatt is nagyon lelkes vagyok. Az univerzum keletkezésének megértése nagyon magasztos dolog, de ha az adatok kezelésében szerzett tudásunkat, mondjuk, a genetikai adatok esetében is fel tudjuk használni, akkor olyan dolgokhoz is hozzájárulhatunk, ami közvetlenül is számít. A rák kialakulásának megértése még a 2000-es évek elején esélytelen volt az új generációs szekvenálás elterjedése előtt. Ahogy a nagy távcsövek nélkül nem láttuk a galaxisokat, a genom feltérképezése nélkül nem láttuk a mutációkat, melyek végül a sejtek burjánzásához vezetnek.

A rengeteg adat kézben tartása nagy reményeket ad a biológiának, a genetikának, de említhetném szinte bármelyik diszciplínát az anyagtudománytól a szociológiáig.

Galaxishalmaz
Egy 3,8 milliárd fényévre található galaxishalmaz (NASA/STScI/Magellan/U. Arizona/D. Clowe et al.)

Mindenütt ugyanaz a probléma merül fel: hogyan tudunk ennyi adatot kezelni, hogyan tudjuk ezeket értelmezni, hogyan tudunk olyan modelleket alkotni, amelyek elvezetnek a jelenségek megértéséhez. Ha pedig ismerjük a dolgok működését, akkor be tudunk avatkozni, és változtatni is tudunk.

A kulcs tehát a könnyen használható keretrendszerek kidolgozása, amelyek képesek nagy adathalmazok kezelésére, hogy a szaktudósok ezekre támaszkodva állíthassák fel a modelleket.

Kepler „informatikus és szaktudós” volt egyben. Ma gyakran szétválik a kettő.

Igen, azelőtt is matematikával írták le a jelenségeket, de hirtelen megnőtt az adattáblázat. Newton megalkotta a differenciálszámítást, mert új eszközre volt szüksége a modelljéhez. Azóta pedig a világnak még bonyolultabb jelenségeit próbálja a tudomány megérteni, és ehhez újabb és újabb eszközök kellenek.

Zárójelben megjegyzem, hogy az akadémikus tudományon belül nem annyira kedvelt az informatikai megközelítés, mert az „olyan földhözragadt dolog”. Az „igazi tudós”, az csak írja a szép képleteket, és a fejében old meg mindent… Még az informatikusok is inkább tételeket szeretnének bizonyítani és új algoritmusokat kitalálni, nem pedig „csak” jól használni azt, ami van. Pedig a tudomány mindig egyfajta összetett mestermunka volt.

Igen, a laborban is.

LaborÉs csiszolták a tükröket a távcsőhöz, összeszerelték az alkatrészeket – az új műszerekhez részben mechanikus munkával jutottak el. Ehhez hasonló az adatszkóp (a datascope kifejezés Szalay Sándortól származik), ez az új tudományos nagyműszer, amivel olyasmit láthatunk meg az adatokban, amit egyébként a saját szemünkkel, a saját kezünkkel nem tudnánk. Ennek az adatszkópnak a fejlesztése volt a projekt központi témája.

Ahogy a lencséket nemcsak a távcsövekben használjuk az égi objektumok tanulmányozására, hanem a mikroszkópokban is akár a sejtek vizsgálatára, az adatszkóp szintén univerzális eszköz. Az adatrobbanás egészen távoli területeken is ugyanazt a kihívást hozza előtérbe. Korábban a társadalmat nem tudták részletesen „mérni”, a pár éve használt kérdőíves felmérések párhuzamba állíthatóak Tycho de Brahe szögmérőjével. Ma pusztán a mobiltelefon, a Twitter, a Facebook miatt hihetetlen mennyiségű információ képződik, nem is kell mérni, hanem magától gyűlik az adat. Egy másik pályázatban olyan adtabázissal dolgoztunk, az adatszkóp keretrendszerét felhasználva, amelyikben összegyűjtöttünk hárommilliárd Twitter-üzenet, amiből számos érdekes társadalmi kérdés vizsgálható meg.

Ahol talán a legnagyobb áttörés várható a digitális adatrobbanás következtében, az a genetika. Pár éve megkerestek orvos-biológus kollégák, hogy hozzáférnek egy új nagyműszerhez, és „nem férnek bele az adatok az Excelbe”. Az új generációs szekvenálással mára már nem egészen ezer dollárért bárkinek leolvassák a genomját. A humán genom több mint 3 milliárd bázispárt tartalmaz, ember és ember közt több millió eltéréssel. Az eltérések nagy része lényegtelen, vagy például a szemünk színét határozza meg, de néhány felelős lehet betegségek kialakulásáért. Itt ez a rengeteg adat, vannak kérdéseink, de hogyan szedjük ki a választ az adatokból?

Élenjáró adatbázis-technológiákat kell kidolgozni, el kell menni akár egészen a hardver szintjéig, hogy összerakjunk egy speciális rendszert, amelyet arra optimalizálunk, hogy hatékonyan kezelje a temérdek adatot. A genetikai műszerek mára már gyorsabban ontják az adatot, mint amilyen ütemben a számítógépek kapacitása növekszik. A Moore-törvényt szoktuk emlegetni, amely szerint a mikroelektronikai fejlesztéseknek exponenciálisan nő a rátája, vagy exponenciálisan csökken az ára, de a génszekvenálás sebessége ennél is gyorsabban nő. Egyszerűen gyorsabban olvassák le a géneket, mint amilyen gyorsan gyártják a diszkeket.

A nagy adathalmazok nemcsak a tudományban jelentek meg, hanem az élet minden területén. Azok a doktoranduszok, akik itt megtanulják, hogyan kell egy nagy informatikai rendszert összerakni, adatbázisokat építeni, milyen fejlett statisztikai módszereket kell használniuk, hogyan alkalmazzák a gépi tanulást, hogyan kell modellezni – tehát megtanulják mindazt, amivel a tudományt csináljuk –, néha meglepő helyeken találnak munkát. Elmennek például egy nagy fuvarozó céghez, amelynek kamionjai vannak, és GPS-ek gyűjtik, hogy mikor hol áll meg az autó, mennyit fogyaszt, milyen biztonságosan vezet a sofőr. A kamionos cégnél is keletkezik egy nagy adathalmaz. Ők nyilván gazdaságosság szempontjából szeretnék optimalizálni a működésüket: és sok-sok helyen ugyanolyan munkatársakat keresnek, akik tudják kezelni a nagy adatbázisokat, tudnak modelleket elemezni, kinyerni az adatokból a lényeges információt. A pénzügyi elemző cégek szintén sok fizikust alkalmaznak, mert ott is hasonló a kérdés: hogyan szerezhetnek a pénzügyi hálózatból olyan információt, amivel nagyobb haszonra tehetnek szert. Noha néha sajnálom, hogy egy tehetséges fiatal elhagyja a tudományt, bizonyos szempontból pozitív, hogy a gyakorlati életben is szükség van olyan képességekre, amelyek régen a tudományhoz kellettek.

2016. július

Utolsó módosítás: 2017. december 29.
Visszajelzés
Hasznos volt az oldal információtartalma az Ön számára?