Bármely gépi tanulási modell sikerének legfőbb akadálya az esetek többségében a megfelelő adatok hiánya. Ha a modell akár csak egy példány esetében is kudarcot vall, a csapat biztosan új, a kontextusnak megfelelő adathalmazt keresne. Az egyik különleges adattípus, amely segíthet az ML mérnököknek, a sötét adat.
Sok kérdés merülhet fel, például, hogy mi az a sötét adat? Miben különbözik a nagy adattól? A nagy adat (big data) olyan adatokat takar, amelyek könnyen hozzáférhetők, mivel láthatóak, ellentétben a sötét adatokkal, amelyek rejtve vannak. Bár mérhetetlen számú elérhető adathalmazhoz juthatunk hozzá, nem mondhatjuk, hogy ez teljessé teszi az információhalmazt.
Az összes információ, amelyet egy személy a Google vagy a Bing keresővel elő tud ásni, a teljes adatmennyiségnek csupán 5 százalékát teszi ki. Az adatok maradék 95 százaléka, az indexeletlen adatok a mélyhálón léteznek. Pénzügyi nyilvántartások, orvosi és jogi dokumentumok, kormányzati és szervezetspecifikus adattárakban találhatóak például. Ezekhez aztán olyan adatok is hozzáadódnak, mint a képek és videók, mindösszesen pedig az adatok egy strukturálatlan összetett eleggyé válnak - írja az Analytics Insight.
Mi akadályozza meg tehát a vállalatokat a sötét adatok használatában? A probléma túlmutat az adatok láthatóságán, mivel egyre több vállalat helyezi adatait tűzfal mögé. A strukturálatlan adatok számos kihívást jelentenek az adatkezeléssel, az adatfeltárással és -osztályozással kapcsolatos SLA-kkal, valamint az adatok feldolgozásához szükséges eszközök és infrastruktúra hiányával kapcsolatban. Ezen túl az üzleti vezetés bizonyos passzív ellenállást tanúsít a sötét adatok feltárásával szemben, mivel az veszélyeztetheti a szokásos üzleti folyamatokat, ami nyugtalanítja azokat a csapatokat, amelyek a hagyományos adatokkal szoktak dolgozni.
Van egyáltalán megoldás, vagy ez örökké "vadlibakergetés" marad? - kérdi végül az Analytics Insight. Azzal válaszol, hogy amikor a vállalatok nyilvános felhőplatformokon, valamint olyan szolgáltatások keretében tárolják az adataikat, mint a PaaS és a SaaS, a sötét adatok elemzése felé vezető út zökkenőmentes lesz.