Mára a big data már olyan kihívásokra is megoldást kínál, amelyek korábban technológiai korlátokba ütköztek. A speciális feladatok elvégzésére alkalmas új technológiák azonban nem mindenhatóak, önmagukban nem oldják meg a problémákat. Alkalmazásukkor gondosan kell eljárni, hiszen a big data témakörében a feladat általában kicsit specifikusabb, mint a legtöbb informatikai projektnél.
A hatalmas adattömeget feldolgozó, elemző projektek a lehetőségek mellett olyan buktatókat is rejtenek magukban, mint egy IT-fejlesztés vagy új termék bevezetése. Tipikus problémaként jelentkeznek a projektvezetési és szervezeti kérdések, a szervezeti ellenállás leküzdése, magának a mögöttes üzleti tartalomnak a megértése, illetve annak tisztázása, hogy a felmerülő kérdésekre hogyan tud választ adni a technológia.
Senki se gondolja, hogy a nagyadatra épülő új technológiák bevezetésével elérkezett a Kánaán. Ez csak az első lépés abban az irányban, hogy a rendelkezésre álló adattömeget egy szervezet az üzlet szolgálatába tudja állítani. A projektet gondosan tovább kell vezetni, oktatni kell a munkatársakat, fogni kell a kezüket. Csak így érhető el a várt siker. Röviden így lehet összefoglalni a májusi Big Data Universe 3.0 konferencián elhangzott előadások fő mondanivalóját. A rendezvényen kitüntetett szerepet kaptak az esettanulmányok, amelyek - többek között - a chatbotok, a tanuló robotok, a virtuális és kiterjesztett valóság, a mesterséges intelligencia, a gépi tanulás, az önvezető autók, az adatvizualizáció, a fintech- és Blockchain-technológiák, az IoT témakörét érintették.
Nem feltétlenül kell megérteni a működést
A feldolgozandó adathalmaz egyik fő forrását a gépek, illetve a különféle tárgyakhoz kapcsolódó szenzorok képezik. Az ilyen típusú rendszerek jellemzője, hogy rövid idő alatt rengeteg adat keletkezhet. A big data másik kulcsterületén nem feltétlenül gépektől, hanem nagyszámú felhasználótól - például webáruházak látogatóitól - származnak az adatok.
A nagyadat köré épülő technológiák gazdag tárházában meghatározó szerepet tölt be a nyílt forráskódú Hadoop, amely elosztott rendszereken, olcsón, nagy mennyiségű adat tárolását teszi lehetővé. A felhasználók általában arra keresnek válaszokat, hogy a tárolt adatokból milyen információt lehet kinyerni, illetve abból milyen értéket lehet teremteni. A Hadoop önmagában azonban nem oldja meg az üzleti problémákat, sikeres alkalmazásához számos, a Hadoopra épülő technológiát (Cloudera, Hortonworks stb.), esetenként különféle gépi tanulási algoritmusokat kell bevetni. Olyan megoldásokat, amelyek a sok helyről érkező, változatos, nagy mennyiségű, sokszor strukturálatlan adatból értékes információhoz juttatják a felhasználókat.
- Tapasztalataink szerint a szervezetek sokszor meglehetősen nagy ellenállást tanúsítanak az említett technológiák és algoritmusok használatával szemben. Az ok egyszerű: az üzleti felhasználók jellemzően nem értik azok működését. Csak egy fekete dobozt látnak, fogalmuk sincs, mi történik benne. A konfliktus feloldásának egyik útja az alkalmazott technológiák bemutatása, lényegének elmagyarázása. A feladat nem könnyű, de megoldható, különösen a gépi tanulási algoritmusok esetében igényel sok időt és odafigyelést - fogalmaz Adorján Gábor, a konferenciát szervező Nextent Informatika Zrt. üzletágvezetője.
Egy másik kört képeznek azok a felhasználók, akik csak az adatelemzés eredményeire összpontosítanak. Számukra az a fontos, hogy egy adott adathalmazon le tudják tesztelni az alkalmazott technológia, illetve a gépi tanulási algoritmus által kihozott eredményt. A cégek - sokszor tapasztalati alapon, illetve bizonyos tervek mentén - megpróbálják előre jelezni a várható eseményeket, mérőszámokat, bevételt, forgalmat stb. Ez a predikció kiegészíthető számos külső-belső paraméterrel (iparágtól függően például a versenytársak adataival, piaci információkkal, időjárási paraméterekkel). Az így keletkező adattömeg és paraméter képezi azután a gépi tanulási algoritmusok alapadatait, amelyekkel a korábbiaknál pontosabb kép rajzolható meg a jövőről.
Kkv-k kicsit másképpen
- Sok nagy cég elkezdett már gondolkodni a nagyadatra épülő technológiák bevezetésén, illetve megkezdte szervezetének felkészítését arra, hogy a különféle algoritmusok támogassák az elemzők, vagy akár a felső- és középvezetők munkáját. A látványos eredmények eléréséhez azonban időre van szükség. Kétségtelen, hogy főleg a nagy cégeknél rengeteg adat keletkezik, és azok jó részével nem kezdenek semmit. Ennek egyik oka, hogy a hihetetlenül gyorsan keletkező adattömeget a hagyományos technológiák nem tudják kezelni. További problémát jelent a hagyományos technológiák világában a hatalmas mennyiségű adat tárolásának viszonylag nagy költsége - mutat rá Adorján Gábor.
A big data hasznosítása szempontjából a nagyvállalati szegmens egyik húzóágazata a távközlési szektor. Mellette fokozatosan zárkózik fel a gyártóipar, így például az olajipar. A hagyományos iparágak mellett rendkívül erősek ebből a szempontból a digitális világban mozgó, a nemzetközi piacon jelen lévő vállalatok, mint például a Google, az Uber vagy az Airbnb.
A kis- és középvállalatok jellemzően más helyzetben vannak, mint a nagyok. Ahhoz, hogy tevékenységüket gépi tanulási algoritmusok támogassák, nincs feltétlenül szükség bigdata-technológiákra, csupán megfelelő mennyiségű adatra. Jó példa erre a mezőgazdaság, ahol a digitalizált gépek, a földeken és az állatokon elhelyezett szenzorok adatai, illetve a visszamenőleges és előrejelzett időjárási adatok feldolgozása szolgáltathat annyi információt, ami alapján meg tudják hozni a mezőgazdasági vagy logisztikai tevékenységekre vonatkozó döntéseket.
Adattárolási megfontolások
A világszerte tapasztalható bigdata-lázban minden bizonnyal rengeteg olyan adatot is tárolunk, amit soha nem dolgoz fel senki, ami nem szolgál a döntés-előkészítés alapjául, ami nem hasznosítható. Ezek az adatok éppen úgy fölöslegesek (vagy annak tűnnek), mint egy informatikai rendszer nem használt funkciói.
Mindazonáltal a vélemények nem egységesek ebben a kérdésben. Van olyan felfogás, miszerint érdemes minden adatot tárolni, bárhol és bármikor keletkezik is, hiszen ki tudja, egyszer még fontos lehet. Változhat a cég tevékenysége, bővülhet, átalakulhat a szervezete stb. Alapvetően üzleti kérdés, hogy minden keletkező adatot tárolnak-e, vagy bizonyos szempontok szerint szelektálják azokat. Szintén üzleti, illetve a GDPR kapcsán jogi kérdés is, hogy mennyi ideig és milyen formában (például csak anonimizálva) tárolják az adatokat.
BÁRKIBŐL LEHET ADATTUDÓS
Manapság egyre több embert érdekel a bigdata-kérdéskör. Szeretnék megismerni magát a problémakört, illetve a tömeges adatokhoz kapcsolódó új technológiákat, lehetőségeket. A nagy érdeklődés dacára egyelőre kevés a képzett, tapasztalt szakember. Minden bizonnyal néhány évnek még el kell telnie ahhoz, hogy kialakuljon a senior szakértői gárda. Addig - a folyamatosan növekvő kereslet miatt - fokozódó nyomás nehezedik a meglévő adattudósokra (data scientist, data engineer). Egyre nehezebb lesz a megfelelő szakembereket megtalálni, illetve megtartani.
Az adattudós számára rendkívül fontos a matematikai alaptudás. Nem véletlen tehát, hogy korunk szakértői jellemzően matematikusok, programozó matematikusok, programtervező informatikusok, mérnökinformatikusok. Önmagában véve a magas szintű matematikai alaptudás azonban nem elegendő ahhoz, hogy valaki jó adattudóssá váljon. Legalább olyan fontos az a fajta gondolkodásmód, amellyel az adattudománnyal, a gépi tanulással kapcsolatos problémák megérthetők, sikeresen kezelhetők. A Nextent tapasztalata szerint szinte bárkiből lehet kiváló adattudós, ha nyitott az ilyen jellegű problémákra, és hajlandó sokat és folyamatosan tanulni.