Scinet.cz » IT/Počítače, Kavárna, Věda

Fyzici bojují o záchranu unikátních dat z urychlovače LEP

22.1. 2010, Oldřich Klimánek

27 km dlouhý tunel urychlovače LEP / foto: CERN

Důležitá data, jejichž získání zabralo roky a stálo v přepočtu miliardy korun, jsou v ohrožení. Část údajů se ztratila, část nejde přečíst, protože neexistuje potřebný software, popř. dnešní výpočetní platformy si s tím už neporadí. Řeč je přitom jen o jednom vědeckém projektu.

Kolega Honza Lipšanský na DSL.cz nedávno napsal článek na téma problematiky s čtením „starých“ dat, resp. médií, na kterých jsou taková data uložena. Samozřejmě, že článek byl napsán s notnou dávkou nadsázky (doufejme, vždyť jde i o rubriku O IT nevážně), nicméně někteří čtenáři se chytli a problematiku „co s daty za X let“ dovedli do takových rozměrů, že došli k závěru, že Věstonická Venuše z mladšího paleolitu může být záznamovým médiem dávných dat, jež neumíme přečíst… ;-)

Ale teď trochu vážněji.

Co s dnešními daty? Nesdílím zas tak šílenou skepsi, že všechna data se jednou ztratí nebo nepůjdou přečíst. To bychom museli začít opravdu zase od stromů, musela by se nějak ztratit kompletní lidská znalost světa. Každopádně je pravda, že optická média mají reálnou životnost kratší a jsou náchylná na poškození. Na druhou stranu právě magnetické pásky patří k tomu nejspolehlivějšímu, co v IT známe.

Dnešní data jsou často ukládána ve formátech splňujících určité standardy. Je poté jedno, kam a jak je uložíme, měly by se vždy zachovat. Horší je to u nestandardních formátů a speciálních typů dat, které umí přečíst (a nakládat s nimi) jen určitá skupina lidí (neřkuli jednotlivci). Průšvih je to tehdy, když taková data jsou opravdu cenná a jejich ztráta může znamenat to, že se v poznání dané oblasti posuneme zase o kus zpátky.

To je případ zejména vědeckých poznatků, resp. experimentálních dat. Ty se často rodí těžce a několik let. Dojde-li nakonec k tomu, že data z nákladných projektů zmizí nebo se poničí, je to průšvih. Jednak pro ověření studií, jednak také pro další výzkum. Spousta syrových dat se totiž zpracovává léta, a pokud se nedejbože ztratí, je to pro danou disciplínu problém. Nákladné projekty za stejných podmínek totiž obvykle již nejde zopakovat.

Největší leptonový urychlovač částic a data

Tohle je přesně případ částicového urychlovače LEP, Large Electron-Positron Collider. Fyzika vysokých energií právě patří mezi ty přírodní vědy, kde při mezinárodních experimentech dochází k produkci závratného množství dat.

Po rocích experimentů teď hrozí, že fyzici o svá data přijdou. O některá dokonce přišli. Současné platformy totiž mají s takovými daty a i programy velký problém.

Urychlovač LEP byl jedním z nejúžasnějších fyzikálních přístrojů, jež fyzici vytvořili. Spuštěn byl v roce 1989 poblíž Ženevy ve středisku CERN (Evropské organizaci pro jaderný výzkum) a v podzemí uloženém v prstenci (tunelu) o obvodu 27 kilometrů srážel svazky elektronů a jejich antičástic, svazky pozitronů. V roce 2000 ho vědci vypnuli a rozebrali. Už nějakou dobu se totiž připravovali na jeho nástupce, urychlovač LHC, největší fyzikální aparaturu pro výzkum hmoty na světě. Monstrózní LHC ale už sráží protonové svazky – v tomto ohledu tedy LEP zůstane největším leptonovým urychlovačem, který kdy byl sestrojen (leptony jsou skupina částic, do níž patří zmíněné elektrony a pozitrony).

Během let v urychlovači došlo k mnoha experimentům (používaly se čtyři detektory: ALEPH, DELPHI, OPAL a L3), sesbíralo se na tehdejší dobu velké množství dat. Zakrátko po spuštění v něm fyzici srážkami elektronů a pozitronů při energii zhruba 90 GeV (a při rychlosti skoro rovné rychlosti světla) připravili částice Z a poté i W (tzv. Z a W bosony; částice přenášející tzv. slabou jadernou interakci, jednu ze čtyř fundamentálních sil vesmíru). Ty byly sice už experimentálně objeveny v roce 1983 a teoreticky předpovězeny koncem 60. let, ale LEP fyzikům umožnil ověřit řadu věcí ze standardního částicového modelu.

Fyzici rovněž doufali (jak už dlouho doufají), že se jim podaří najít tzv. Higgsovy částice (Higgsovy bosony) – bohužel ani modernizace urychlovače, která umožnila v roce 2000 provést srážky s energií 209 GeV, nepomohla. Higgsovy částice zůstaly opět skryté v bezpečí sukně Matky Přírody.

Higgsovy částice bude hledat i dnešní urychlovač LHC – pro srovnání, LHC dosáhne srážek při celkové energie 14 TeV, což je tedy 70x více, než co fyzici dostali z LEPu. To by v tom musel být čert, aby se ani teď neukázaly.

Záchrana dat

Leckoho to možná překvapí, ale ještě dnes (více než devět let po odstavení urychlovače) fyzici pracují na pěkné řádce vědeckých článků, ke kterým data z LEPu potřebují. A protože experimenty už nebude možné zopakovat, jejich záchrana je pro výzkum dost důležitá. Data jsou prostě unikátní.

Z dnešního hlediska jich přitom není moc: zhruba 100 TB (náruživí stahovači si určitě už musí brousit zuby, poskytovatel je pochválí), ale přesto jsou v tom určité překážky. (Mimochodem těch dat je vlastně hodně: jen si vzpomeňme, jaké kapacitní možnosti byly v 90. letech.)

V současnosti jsou tato data (syrová, statisticky upravená i zrekonstruovaná) uložena v CERNu v systému CASTOR, zálohovém systému založeném na magnetických páscích. Jakýmsi pravidlem v CERNu je, že když se objeví nové médium, pásky se znova kopírují. Bohužel už se zjistilo, že některá data se ztratila: jednak zmizelo pár kazet, jednak mají být některé části kazet nečitelné, proto určitá data nebude možné obnovit.

Mnohem složitější než kopírovat a uchovávat data je jim porozumět. Tedy nejen uchovat data jako taková, ale rovněž veškerý software, který je s to je přečíst a kterým lze znovu odvodit a ověřit to, co dříve fyzici zjistili. Údaje bez programů schopných jejich analýzy jsou poněkud bezcenná.

Svízel je ta, že množství původního softwaru není možné spustit na dnešních výpočetních platformách.

Všechny experimenty (příslušné jednotlivým detektorům vyjmenovaným výše) používaly pro simulační a rekonstrukční kódy z velké části Fortran (ještě FORTRAN 77!) a také systém zvaný ZEBRA.

„Zatímco kompilátory FORTRANu tady s námi pravděpodobně ještě nějakou dobu pobudou, centrální podpora pro CERNLIB (čehož je ZEBRA součástí) neočekávaně skončila. Aktuální přechod na systém Scientific Linux CERN 5, migrace a ověřování CERNLIB na nové platformě bude předmětem experimentů,“ zní z CERNu. Vědci rovněž vyslovují znepokojení, že přepsání kódů s sebou může nést vážné riziko vedlejších účinků neznámých rozměrů. Některý software už kvůli komerčním knihovnám přestal fungovat úplně.

Další průšvih je, že ne všechen software je uložen v centrální databázi a ne ke všemu existuje potřebná dokumentace, která by pomohla v dalším přepisování kódů a analýzám. Navíc část programů byla vytvořena čistě jednotlivými vědci u jejich počítačů – nejenže neexistuje dokumentace k takovému softwaru, ale navíc ani samotné programy. Ty byly z počítačů vymazány, jakmile jedinec odešel z CERNu pryč.

Jak bylo řečeno, data (a s nimi související software) jsou potřeba pro stále probíhající výzkum a také pro ten budoucí. CERN upozorňuje, že data z LEPu budou hrát důležitou roli, jakmile se při fyzikálních experimentech objeví něco, co půjde nad rámec současného standardního částicového modelu. V takovém případě data z LEPu můžou posloužit jako kontrola výsledků, načež případný objev, nový model, může být potvrzen nebo vyvrácen.

V důsledku posunu v používání jazyka C++ namísto Fortranu chřadne podpora knihoven nezbytných k přístupu a analýze dat z LEPu. CERNu nezbývá nic jiného, než se v následujících letech snažit pracovat na přepisování softwaru tak, aby ze všech těch těžce nabytých údajů nezbyla jen kupa něčeho nepoužitelného. Týmy z experimentů ALEPH a OPAL proto v současnosti umožňují přístup k datům i lidem zpoza bran CERNu – tedy těm, kdo chtějí v jejich záchraně pomoci.

Z toho se CERN musí poučit: objem dat, který produkuje urychlovač LHC, je totiž nesrovnatelně větší. Nesrovnatelně: z detektorů v LHC tečou data rychlostí 300 GB/s, po filtraci pak důležité události mají datový tok asi 300 MB/s. Každý den LHC vychrlí 27 TB syrových dat.

Článek o problémech s daty a softwarem z LEPu zájemci najdou v ArXivu Cornellovy univerzity (anglicky): arxiv.org/abs/0912.1803: Data Preservation at LEP.

Oldřich Klimánek, Scinet.cz pro DSL.cz

Oldřich Klimánek

Vydavatel serveru Scinet.cz.


Komentáře (3) »

  • pajinek napsal:

    Zajímavý článek, vždycky mě zajímalo jaké platformy a jazyky se používají ve vědeckých sférách. Přechod, jak už tak bývá, je vždy bolestivý.

  • SB napsal:

    To ať se na mě nezlobí, ale tomuhle se říká bordel. Takhle to dopadá, když jsou data závislá na systému, prdí se na dokumentaci a já nevím co ještě. Skoro to dělá dojem, jako by vyráběli data jen pro to, aby nějaká byla. Nebo zpracování závažně podcenili. Čím se to dá omluvit, když jde o miliardy?

  • Karel napsal:

    Vedecky experiment se (obvykle, pokud vedu nedela diletant) NAVRHUJE tak, aby potvrdil anebo vyvratil nejakou konkretni hypotezu. Pak se data ziskana z tohoto experimentu vyhodnoti a hypoteza se bud potvrdi anebo vyvrati a experiment je ukoncen. Jen v malem procentu pripadu se mohou data pouzit k overeni nejake uplne jine hypotezy, nebot NAVRH puvodnho experimentu s tim nemohl pocitat. A pokud jde o nekolikere overeni jiz prijate hypotezy, je lepsi ji overit uplne jinym zpusobem, nez stejny experiment opakovat nebo jen zkontrolovanim prace s daty. Takze dlouhodobemu zalohovani dat, ac je technicky obtizne, bych neprikladal tak podstatnou roli.


VLOŽIT KOMENTÁŘ

Vypršel časový limit. Prosím, obnovte kontrolní otázku pomocí tlačítka napravo.