Nem minden adat egyforma. De mennyi információt tartalmazhat egy adat valószínűleg? Ez a központi kérdés az orvosi vizsgálatok, a tudományos kísérletek tervezése, sőt a mindennapi emberi tanulás és gondolkodás szempontjából is. Az MIT kutatói új módszert dolgoztak ki a probléma megoldására, amely új alkalmazásokat nyit meg az orvostudomány, a tudományos felfedezések, a kognitív tudományok és a mesterséges intelligencia területén.
Az MIT néhai professzora, Claude Shannon 1948-as "A kommunikáció matematikai elmélete" című tanulmánya már véglegesen megválaszolta ezt a kérdést. Shannon egyik áttörő eredménye az entrópia fogalma az informatika területén, amely lehetővé teszi bármely véletlen objektumban rejlő információ mennyiségének számszerűsítését, beleértve a megfigyelt adatokat modellező véletlen változókat is. Shannon eredményei megteremtették az információelmélet és a modern távközlés alapjait. Az entrópia fogalma (amelynek elnevezését Neumann János javasolta Shannonak a fizikai rendszerekhez való formai hasonlóságok alapján) a számítástechnikában és a gépi tanulásban is központi szerepet játszik.
A Shannon-képlet használata azonban gyorsan számítási nehézségekbe ütközhet. Pontosan ki kellene számítani az adatok valószínűségét, ami megköveteli, hogy ismerjük az adatok valószínűségi modell szerinti keletkezésének minden lehetséges módját. Ha az adatokat létrehozó folyamat nagyon egyszerű - például egyetlen pénzfeldobás vagy egy kocka dobása -, akkor az entrópia kiszámítása is egyszerű. De gyökeresen más a helyzet, ha például az orvosi vizsgálatok problémájára gondolunk, ahol a pozitív teszteredmény több száz, egymással kölcsönhatásban álló változó eredménye, amelyek mindegyike ismeretlen. Mindössze 10 ismeretlen változóval már 1000 lehetséges magyarázat van az adatokra. Néhány százzal már több lehetséges magyarázat van, mint ahány atom létezik az ismert világegyetemben, ami az entrópia kiszámítását kezelhetetlen problémává teszi.
Az MIT kutatói egy új módszert dolgoztak ki, amellyel valószínűségi következtetés segítségével jó közelítéssel becsülhető meg számos információmennyiség, például a Shannon-entrópia. A munka egy nemrégiben bemutatott tanulmányban jelent meg, amelynek szerzője Feras Saad, Marco-Cusumano Towner és Vikash Mansinghka. A legfontosabb felismerés az, hogy az összes magyarázat felsorolása helyett inkább valószínűségi következtetési algoritmusokat használnak arra, hogy először kitalálják, mely magyarázatok valószínűek, majd ezeket felhasználva jó minőségű entrópiabecsléseket készítsenek. A tanulmány bemutatja, hogy ez a következtetésen alapuló megközelítés sokkal gyorsabb és pontosabb lehet, mint a korábbi próbálkozások.
Az entrópia és az információ becslése egy valószínűségi modellben alapvetően nehéz feladat, mivel gyakran egy nagydimenziós integrációs probléma megoldását igényli. Számos korábbi munka fejlesztett ki becsléseket ezekre a mennyiségekre bizonyos speciális esetekben, de az új, következtetésen keresztüli entrópia-becslések (EEVI) az első olyan megközelítést kínálják, amely éles felső és alsó korlátokat tud szolgáltatni az információelméleti mennyiségek széles körére. A felső és alsó korlát azt jelenti, hogy bár nem ismerjük a valódi entrópiát, kaphatunk egy nála kisebb és egy nála nagyobb számot.
"A módszerünk által szolgáltatott entrópia felső és alsó határai három okból különösen hasznosak. Először is, a felső és az alsó határértékek közötti különbség mennyiségi érzetet ad arról, hogy mennyire kell bíznunk a becslésekben. Másodszor, nagyobb számítási erőfeszítéssel nullára tudjuk szorítani a két határérték közötti különbséget, ami nagy pontossággal meghatározza a valódi értéket. Harmadszor, ezeket a határokat összeállíthatjuk úgy, hogy számos más mennyiség becsléseit alkossuk meg, amelyek megmondják, hogy a modellben szereplő különböző változók mennyire informatívak egymásról" - mondta Saad az MIT híroldalán.
Saadot a legjobban az izgatja, hogy ez a módszer lehetőséget ad a valószínűségi modellek lekérdezésére olyan területeken, mint a gépi orvosi diagnózisok. Elmondása szerint az EEVI módszer egyik célja, hogy az orvosi területen már szakértők által kifejlesztett, gazdag generatív modellek segítségével új lekérdezéseket lehessen alkalmazni olyan dolgokra, mint a májbetegségek és a cukorbetegség. Tegyük fel például, hogy van egy betegünk, akinek van egy sor megfigyelt jellemzője (magasság, súly, életkor stb.) és megfigyelt tünete (hányinger, vérnyomás stb.). A jellemzők és a tünetek ismeretében az EEVI felhasználható annak meghatározásához, hogy az orvosnak milyen orvosi vizsgálatokat kell elvégezniük a tünetekre, hogy maximalizálják az információt egy adott májbetegség (például cirrózis vagy primer epekőbélgyulladás) hiányáról vagy jelenlétéről.
A szerzők az inzulin-diagnosztikában is bemutatták, hogyan lehet a módszert használni a vércukormérések optimális időpontjának kiszámítására, amely maximalizálja a beteg inzulinérzékenységére vonatkozó információt, az inzulinanyagcsere szakértő által készített valószínűségi modell és a beteg személyre szabott étkezési és gyógyszeres beosztása mellett. Ahogy a rutinszerű orvosi nyomon követés, például a vércukorszint-monitorozás az orvosi rendelőkből a viselhető eszközök felé mozdul el, még több lehetőség nyílik az adatgyűjtés javítására, ha az adatok értékét előre pontosan meg lehet becsülni.
Vikash Mansinghka, a tanulmány vezető szerzője hozzátette: "Megmutattuk, hogy a valószínűségi következtetési algoritmusok felhasználhatók olyan információs mértékek szigorú korlátainak becslésére, amelyekről a mesterséges intelligencia mérnökök gyakran azt gondolnák, hogy nehéz kiszámítani. Ez számos új alkalmazást nyit meg. Azt is megmutatja, hogy a következtetés számítási szempontból sokkal alapvetőbb lehet, mint gondoltuk. Segít továbbá megmagyarázni, hogy az emberi elme hogyan lehet képes az információ értékének ilyen átható becslésére, ami a mindennapi megismerés központi építőköve, és segít nekünk olyan mesterséges intelligencia szakértői rendszereket tervezni, amelyeknek megvannak ezek a képességei."
https://news.mit.edu/2022/estimating-informativeness-data-0425