A Covid-19 járvány nem csak az orvosokat és az ápolókat, hanem az adatkezelési szakembereket is hatalmas kihívás elé állította. Különösen igaz ez az Egyesült Államokra, ahol nem volt, és ma sincs országos szintű stratégia a járvány kézbentartására, és a hatalmas ország különböző pontjain eltérő irányelvek mentén formálódott a védekezés. Ez a mozaikos szerkezet pedig rendkívül megnehezítette, hogy a szakemberek és döntéshozók átfogó képet kapjanak a járványhelyzet alakulásáról.
A járvány nem egyszerre csapott le az ország különböző részein: Seattle-ben például, ahol a vírushelyzet tavasszal az elsők között vált drámaivá, hirtelen tízszer annyi tesztelési és egészségügyi adat zúdult a szakemberekre, mint más nagyvárosokban. Az egészségügyben dolgozók pontosan tudták, hogy ezeknek a "frontvárosoknak" az információi kincset érhetnének az ország olyan területein, ahol a járványgörbe még csak felfutóban volt, és hatékonyan segíthetnék a felkészülésüket a későbbi nehéz időkre - csakhogy hiányzott egy olyan központi információs bázis, amelynek adataihoz minden kórház hozzáférhet.
Nem adom az adatom
Az Egyesült Államokról tudni kell, hogy egészségügyi rendszere rendkívül fragmentált, és noha már a járványt megelőző időkben is történtek kísérletek különböző központi adatbázisok létrehozására, ezek a próbálkozások az egészségügyi intézmények ellenállásán mindig zátonyra futottak. A kórházak elsősorban adatvédelmi okok miatt vonakodtak közreadni pácienseik egészségügyi adatait, de adattárolási rendszerük is eltért egymástól: hogy egy egészen banális példát említsünk, volt, ahol a nőbetegeket egyessel jelölték, a férfiakat kettessel, és volt, ahol fordítva.
Ráadásul a kórházak azzal is tisztában voltak, hogy adataik megosztása és kombinálása biztonsági kockázatokkal jár. Ha a betegadatok kikerülnek az őket létrehozó szervezet ellenőrzése alól, megnő az illetéktelen adathozzáférések veszélye, ami rombolja a betegnek az intézménybe vetett bizalmát, perek sorának ágyazhat meg, és hosszabb távon versenyhátrányt okoz az intézménynek. Amikor egy kórház arról dönt, hogy adatszolgáltatóként hajlandó-e részt venni egy ilyen kezdeményezésben, mérlegre kell tennie az összes előnyt és hátrányt, és ennek alapján kell meghoznia végső döntését. A Covid-19-et megelőzően inkább a nem felé billent a mérleg nyelve, a járvány azonban mindent megváltoztatott. Azok az intézmények, amelyek korábban vonakodtak részt venni egy ilyen jellegű programban, és úgy vélték, a betegek adatai náluk vannak a legjobb helyen, most egymás után felsorakoztak a kezdeményezés mellett, és ennek nyomán tavasszal elkezdődött a National Covid Cohort Collaborative Data Enclave, röviden N3C felépítése, egy olyan adatbázisé, amelyhez fogható idáig még nem készült az Egyesült Államokban.
A Titanic irányt vált
Amikor a munka elkezdődött, egészségügyi intézmények tucatjai biztosították a fejlesztőket támogatásukról, jó szándékban tehát nem volt hiány. A sikerhez azonban ez még kevés volt: ahhoz, hogy a Covid-19 adatbázis működni tudjon, a szakértőknek használható formára kellett hozniuk a beérkező adatokat. A kórházak ugyanis, mint arról korábban már volt szó, különböző módokon gyűjtik és rögzítik az egészségügyi információkat, és azelőtt semmiféle szándék nem volt a módszerek egységesítésére. Sok intézmény iszonyatos összegeket költött elektronikus adattárolási rendszerének kialakítására, és érthető okokból csak végszükség esetén akart változtatni ezen.
Az N3C csapatának egyik vezetője ahhoz hasonlította ezt a kihívást, mintha a Titanicot kellett volna irányváltoztatásra rábírniuk. Ráadásul azok a profitorientált cégek, amelyek az elektronikus adatrögzítő rendszerek szoftvereit fejlesztik, szintén nem akarták tárolási stratégiájukat külső kutatók kívánalmainak alárendelni. Vagyis az N3C szakembereinek maguknak kellett átalakítaniuk az adatokat.
Azokban az országokban, ahol központosított az egészségügyi ellátórendszer, ilyen probléma nem merül fel, hiszen az adatok egyetlen központi adatbázisba kerülnek. Ennek hiányában az N3C csapata közvetett, többlépcsős megoldáshoz folyamodott, amelynek működését egy konkrét példán mutatjuk be.
Tegyük fel, hogy egy várandós anyukánál az orvos koronavírus-fertőzésre utaló tüneteket észlel. Az eredmény felkerül az asszony elektronikus kórlapjára. Ha egészségügyi szolgáltatója részt vesz az N3C kezdeményezésben, a bejegyzés mellé zászlócska kerül, és az adathalmaz a megfelelő szűrés után átkerül az N3C hálózatába. Az N3C rendszere átalakítja, és szabványos formára hozza a páciens kezelésére és a fertőzést megelőző állapotára vonatkozó információkat, majd megfelelő minőség-ellenőrzés után, immár "előemésztett" változatban elhelyezi az N3C adatbázisban, ahol - a beteg és az adatokat rögzítő intézmény nevének kivételével - minden részletében hozzáférhetővé válik a kutatók számára.
Csaknem hetven egészségügyi intézmény szállt be az adatbázis létrehozásába, a teljes adatfeldolgozási folyamaton pedig idáig húsz intézmény adatai mentek át: ezek alkotják azt az adatbázist, amelyből a kutatók igyekeznek megfejteni, hogy egyeseknél miért jelentkeznek súlyos tünetek, miközben mások szinte tünetmentesen vészelik át a fertőzést; milyen hatással vannak a betegség lefolyására a különböző egészségügyi problémák (asztma, diabétesz, keringési betegségek stb.), és milyen kezelési módok a leghatásosabbak.
Szeptemberben az adatbázis már 65 ezer Covid-19 esetet tartalmazott, emellett gyarapította 650 ezer olyan nem Covid-19 eset is, amelyet a kutatók kontroll céljára használhatnak. Az adatbázis méretét tekintve nincsen kitűzve semmiféle célszám: minél nagyobb a halmaz, annál hatékonyabban segíti a kutatást.
Koronavírus madártávlatból
Miközben a projekt csapatának egy része támogató intézményeket toborzott, egy másik az adatok összefésülésén dolgozott, a harmadik csoport azt próbálta kitalálni, hogyan lehetne felhasználni a begyűjtött információt. Ezeket a kutatókat kisebb teamekre osztották: az egyik például a Covid-19 és a diabétesz kapcsolatát vizsgálja, a másik a vesebántalmak hatását és így tovább.
Kiemelkedően fontos annak a csoportnak a munkája, amely a terhesség és a koronavírus összefüggéseit veszi górcső alá, és azt igyekszik feltárni, a koronavírus-fertőzés milyen hatással van az anya egészségi állapotára, illetve a magzat fejlődésére. Az N3C jóvoltából nem csak szórványos, hanem az egész országra kiterjedő adatokból tudnak dolgozni, így eredményeik is sokkal megbízhatóbbak.
A hatalmas adatbázis lehetővé teszi a problémák átfogó vizsgálatát. Az Egyesült Államok különböző részein más-más módon harcolnak a járvány terjedése ellen, eltérőek a korlátozások, különbözik a lakosság demográfiai összetétele - mindezeknek az adatoknak a kombinációja sokkal teljesebb képet ad a fertőzésről, és olyan összefüggésekre, trendekre irányítja rá a figyelmet, amelyek rejtve maradnának anélkül a távlati perspektíva nélkül, amit az országos adatbázis használata tesz lehetővé.
A Covid-fertőzés bizonyos tünetei és komplikációi olyan ritkák, hogy egyes kórházakban alig egy-két betegnél találkoznak velük. A szélesebb populáción alapuló országos adatok viszont az ilyen ritkán előforduló eseteket is jól vizsgálható, statisztikailag számottevő tömegként jelenítik meg, és a nagy adattömeg a big data és a gépi tanulási technikák alkalmazását is lehetővé teszi.
Járványügyi prototípus
Az N3C jelentősége több okból is túlmutat az Egyesült Államok határain. A legfontosabb hozadéka természetesen az, hogy kutatási eredményeit az egész világon hasznosítani lehet majd a Covid-19 elleni küzdelemben. De informatikai szempontból is figyelmet érdemel a kezdeményezés, mert ha céljai teljesülnek, iránymutatásul szolgálhat minden későbbi adatmegosztási projekt számára. Ráadásul konkrét eszközt is biztosít e fejlesztésekhez: a kód, amellyel letisztítani, átalakítani és összesíteni lehet a kórházak eltérő szerkezetű adatait, készen áll, már csak használni kell. A fejlesztők lényegében létrehoztak egy olyan infrastruktúrát, amelyet másfajta járványok esetében is alkalmazni lehet. Ahogy a csapat egyik vezetője fogalmaz: öt év múlva talán már nem is az N3C adatbázisa lesz a legértékesebb, hanem a módszerek, amelyeket a felépítéséhez kifejlesztettek.