Orvosi példával világít rá a New Scientist tudományos magazin az adatok erejére. Jacques Fellay, a Lausanne-i Egyetemi Kórház gyakorló orvosa a lehető legjobb ellátást szeretné nyújtani a betegeinek. Ehhez azonban nem hagyományos orvosi eszközöket használ, hanem az adatokat. Mindannyian hordozunk olyan genetikai markereket, amelyekből az orvosok arra következtethetnek, hogy kik hajlamosak bizonyos betegségekre, például az AIDS-re vagy a hepatitisre. Ha Fellay és a többi doktor olvasni tudná ezeket a nyomokat, akkor előre láthatnák, hogy kinek van szüksége korai (adott esetben életmentő) kezelésre.
Csakhogy a genetikai markerek és a betegségek közötti összefüggések feltárásához rengeteg adatra van szükség, sokkal többre, mint amennyi egyetlen kórházban rendelkezésre áll. A különféle kórházi és másféle releváns adatbázisok egyesítése megoldást jelenthetne, de erre ma nincs egyszerű lehetőség. A genetikai adatok a felhasználásuk során olyan érzékeny információkká formálódhatnak, amelyek az embereket kínos helyzetbe hozhatják, amelyek alapján akár diszkriminálhatják is őket. Az etikai aggályok tehát nagyon erősek és komoly akadályt jelentenek Fellay és az adatokkal dolgozó orvosok számára.
A biztonságos adatmegosztás mára a fejlődés kulcskérdésévé vált. Ha nem tudjuk felhasználni a rendelkezésre álló adatokat, az nemcsak az orvoslásban, hanem minden más területen is akadályozza a fejlődést. Az adatokból azonban csak úgy lehetne kihozni a legtöbbet, hogy az elemzés során azokat senki sem látja. Ez fából vaskarika, de most egy titkosítási forma ezt mégis lehetővé teszi, ami segíthet megszüntetni a big data legnagyobb adatvédelmi problémáját.
A nyers adatokat nem lehet gondolkodás nélkül megosztani, az adatokat etikai és jogi okokból is kötelező bizalmasan kezelni. Ugyanakkor az elmúlt évtizedek során kialakított módszerek nem működnek már jól az emberek magánszférájának megóvásában. Mivel az emberekről óriási mennyiségű információ áll rendelkezésre az interneten, így még a látszólag jelentéktelennek tűnő adatmorzsákat is össze lehet vetni a nyilvános információkkal, és abból azonosítani lehet az egyéneket. Ezen nem segít az úgynevezett differenciált privát tér megjelenése sem, amelyben csak arra van lehetőség, hogy az adatok statisztikai tulajdonságairól tegyenek fel kérdéseket. Például, hogy "az emberek mekkora hányada szenved egy bizonyos betegségben? De ha elég okosak a kérdések, akkor azok révén még mindig el lehet jutni odáig, hogy a privát adatokat háromszögeljék. Ráadásul a differenciált adatvédelem csak statisztikai mintákat szolgáltat, de nem képes konkrét rekordok megjelölésére - például arra, hogy kiemeljen valakit a tömegből, akinél fennáll a betegség kockázata -, amire Fellay és a többi orvos törekedne.
Létezik azonban egy teljesen más szemléletű megoldás is, amelynek alapjait négy évtizede lerakták már. Az adatok úgy is titkosíthatók és megoszthatók, hogy bárki elemezheti őket és számításokat végezhet velük anélkül, hogy rájuk pillanthatna. Ezt úgy kell elképzelni, mintha egy veszélyes anyagot egy zárt laboratóriumi kamrában helyeznének el, amelybe csak a kamra falába épített kesztyűn keresztül lehet benyúlni. Az anyag ugyan manipulálható, de mégsem lehet szabadon hozzáférni, és nem is lopható el belőle semmi.
Ez a kesztyűs modell ihlette Ronald Rivest, Len Adleman és Michael Dertouzos adatokra kitalált modelljét 1978-ban az MIT-n. Ez egy homomorfizmusnak nevezett matematikai elképzelésen alapult, amely arra utal, hogy az adatok egyik formából a másikba átvihetők anélkül, hogy az alapstruktúra megváltozna. A lényeg, hogy ugyanazokat a számokat az algebra segítségével különböző módon lehet ábrázolni.
Képzeljük el, hogy adattulajdonosok meg akarnak osztani egy adatbázist egy mesterséges intelligenciát használó elemző céggel, de az adatbázis személyes információkat tartalmaz. A cég nem adja át az algoritmust, amelyet az adatok elemzéséhez használ, mert az üzleti szempontból érzékeny. Ennek megkerüléséhez homomorfikusan titkosított adatokat kér. A vállalatnak nincs kulcsa az adatok visszafejtéséhez, de elemezheti az adatokat, és megkapja az eredményt, amely maga is titkosított. Bár fogalma sincs arról, hogy mit jelent, amit kapott, mégis visszaküldi. Az adatok eredeti tulajdonosa most már egyszerűen visszafejtheti az eredményt, és az teljes mértékben értelmes lesz.
"Az ígéret óriási. Szinte nehéz határt szabni annak, hogy mit tehetünk, ha ilyen technológiánk van" - mondta Tom Rondeau, az amerikai védelmi kutatásokkal foglalkozó ügynökség, a DARPA szakértője a New Scientistnek.
A módszerrel az a gond, hogy az elmúlt évtizedekben a kutatók olyan homomorfikus titkosítási sémákat dolgoztak ki, amelyekkel csak korlátozott számú műveletet, például csak összeadást vagy szorzást tudtak végrehajtani. A teljesen homomorf titkosítás, vagy FHE (amely lehetővé tenné, hogy a titkosított adatokat bármilyen programon futtathassák) elérhetetlen maradt.
Az áttörés 2009-ben következett be, amikor Craig Gentry, a Stanford Egyetemen megoldást dolgozott ki azzal, hogy a véletlenszerűséget időszakosan megszüntette az adatok visszafejtésével egy másodlagos titkosítási burokban. A kesztyűskamra példájánál maradva ezt úgy lehet elképzelni, hogy egy ilyen kamrát egy másik hasonlóba helyeznek, így az elsőt ki lehet nyitni, miközben még mindig ott van egy biztonsági réteg. Ezzel először sikerült működőképes FHE-sémát létrehozni.
Csakhogy ez a módszer igen lassú volt. Az FHE-vel titkosított adatokon végzett számítások több milliószor hosszabb időt vehettek igénybe, mintha a nyers adatokkal dolgoztak volna. Gentry, amikor az IBM-nél helyezkedett el, a következő évtizedben más kutatókkal együtt azon fáradozott, hogy a folyamatot gyorsabbá tegye az eljárást az alapjául szolgáló matematika fejlesztésével. Az utóbbi időben azonban rájöttek, hogy az egyes felhasználási célokra a titkosítási alkalmazás optimalizálásával lehet nagyságrendekkel megnövelni a sebességet.
Az IBM-nek már van olyan FHE-eszközkészlete, amely képes mesterséges intelligencia és egyéb elemzések futtatására titkosított adatokon. Kutatói kimutatták, hogy a titkosított hitelkártyaadatokban fel tudják fedezni a csalárd tranzakciókat egy olyan mesterséges neurális hálózat segítségével, amely másodpercenként 4000 rekordot képes feldolgozni. Egy ugyanilyen elemzéssel pedig több mint 1500 ember tüdejének titkosított CT-vizsgálatát is át tudták nézni a COVID-19 fertőzés nyomai után kutatva.
Az IBM 2020-ban nyilvánosságra hozta a brazil Bradesco bankkal végzett kísérletének eredményeit. Az adatvédelmi aggályok és a jogszabályok gyakran megakadályozzák, hogy a bankok akár házon belül, akár külső partnerekkel megosszák az érzékeny adatokat. A tanulmányban azonban az IBM megmutatta, hogy gépi tanulás segítségével elemezhetők a bank ügyfeleinek titkosított pénzügyi tranzakciói, és valószínűsíthető azok személye, akik hitelt szándékoznak felvenni. A rendszer 10 másodperc alatt több mint 16 500 ügyfél esetében tudott előrejelzést készíteni, és ugyanolyan pontosan teljesített, mint a titkosítatlan adatokon végzett elemzés.
Más vállalatok is szívesen használják a titkosításnak ezt az extrém formáját. Például a Duality adatvédelmi cég titkosítási technológiája már beépült azokba a szoftverrendszerekbe, amelyeket az Oracle a pénzügyi bűncselekmények felderítésére használ. Ezekkel a bankoknak segít az adatok megosztásában a gyanús tevékenységek felderítésében.
Mégis, a legtöbb alkalmazás esetében az FHE feldolgozása továbbra is legalább 100 ezerszer lassabb a titkosítatlan adatokéhoz képest - mondja Tom Rondeau. A DARPA ezért indította el 2020-ban az Adatvédelem virtuális környezetben elnevezésű programot, amelynek célja az FHE futtatására tervezett speciális chipek létrehozása. Azt szeretnék elérni, hogy az FHE-vel titkosított adatok elemzése a szokásosnál csak tízszer legyen lassabb.
Még ha villámgyors is lenne, az FHE nem lenne hibátlan, mert bizonyos típusú programokkal nem működik jól. Például olyanokkal, amelyek "ha ez, akkor az" műveletekből álló elágazó logikát tartalmaznak. Az FHE létét az indokolja, hogy az adatokat olykor muszáj lenne megosztani az elemzésükhöz. A rutinszerű adatelemzés azonban - ha valaki maga végzi el - néha egyszerűbb lehet, mint küszködni az FHE-vel. A szakértők jelentős része azon az állásponton van, hogy nem egyetlen technológiára támaszkodva lehet megvédeni az emberek adatait, hanem többféle megközelítést kell kombinálni egy védelmi csomagban. Ennek az FHE fontos kiegészítő szereplője, de nem önálló nyertes, amelyik mindent visz.
Fellay és kollégái a lausanne-i Svájci Szövetségi Technológiai Intézet informatikusaival működtek együtt, akik létrehoztak egy olyan rendszert, amely az FHE-t egy másik, adatvédelmet megőrző taktikával, a biztonságos többszereplős számítással (SMC) kombinálja. Ennek során a különböző szervezetek úgy kapcsolják össze adataik darabjait, hogy egyik szervezet magánjellegű adatait sem lehet visszakeresni.
Egy 2021 októberében közzétett tanulmányban a csapat az FHE és az SMC kombinációját használta arra, hogy biztonságosan egyesítsen több forrásból származó adatokat, és felhasználja azokat a rákellenes kezelések hatékonyságának előrejelzésére, illetve az emberek genomjában található olyan sajátos variációk azonosítására, amelyek előre jelzik a HIV-fertőzés előrehaladását. A kísérlet annyira sikeres volt, hogy a csapat Svájc öt egyetemi kórházában alkalmazza betegadatok megosztásra, mind az orvosi kutatáshoz, mind pedig a személyre szabott kezelésekhez. Azaz a homomorf titkosítás belépett a gyakorlati hasznosítás világába.