Idén immár nyolcadik alkalommal rendezte meg a BI Consulting az évente sorra kerülő - 2015-ig Adattárház Fórumként ismert - Budapest Data Fórumot, amely a legpatinásabb hazai adatmenedzsment- és analitikai konferenciának számít. A kétszáz fős közönség tagjai, zömükben hazai szakemberek, a rendezvény első napján megtartott műhelyfoglalkozásokon a MongoDB használatával, az adatmodellezés korszerű technikáival, a felhőalapú bigdata-megoldások kialakításával és az adatfolyamok feldolgozásával ismerkedhettek meg közelebbről.
Hagyományaikhoz híven a harmadik napot az ingyenesen látogatható Data Job Fair zárta, amelyen az érdeklődők megtudhatták, miként válik valakiből adatkutató, és hogyan érdemes munkát keresni az adatok világában. A második nap programja plenáris és szekció-előadásokat kínált, amelyek indításaként Arató Bence, a BI Consulting ügyvezetője a bigdata-eszközöket formáló trendekről adott áttekintést.
Hadoop: a népszerűség ára
A nagy adatot jellemző 3 V - angolul velocity, variety és volume -, az adatok gyorsasága, sokrétű strukturálatlansága, valamint mennyisége közül Magyarországon még mindig az utóbbi a projektindítás leggyakoribb oka. Közvetlenül kötődik ugyanis az adattömeg méretéhez a tárolás költsége, amelyet az adat üzleti értékének, a bájtonként elért megtérülésnek (Return on Byte, ROB) a függvényében optimalizálhatnak a szervezetek.
Segítenek ebben a nyílt forráskódú bigdata-technológiák, amelyek közül a Hadoop és a Spark Magyarországon ismertebb, mint a szintén az Apache-projektek közé tartozó Flink, Kafka vagy Beam.
Négy éve, 2012-ben indultak a hazai bigdata-projektek, először az olyan startupok körében, mint például a Prezi, majd a nagyvállalatok, különösen a távközlési cégek is csatlakoztak a felhasználók táborához, és megnyíltak a területre szakosodott budapesti kompetenciaközpontok is - többek között az Ericsson, a GE és a Morgan Stanley szervezetén belül. Rövid idő alatt több, bigdata-technológiákat fejlesztő magyar feltörekvő cég is piacra lépett, melyek közül a Radoopot a Rapidminer, a SequenceIQ-t a Hortonworks már felvásárolta.
Idén ünnepli tizedik születésnapját a Hadoop, amely olcsó szervereken megbízható, elosztott és jól méretezhető adattárolást és -feldolgozást tesz lehetővé, ezért hamar belopta magát a felhasználók szívébe. A népszerűségért azonban árat fizetett - kódja mára 1,7 millió sor fölé duzzadt, és 12 ezernél több fejlesztés készült hozzá. Saját Hadoop-kiadással jelent meg számos gyártó is - például a Cloudera Impala, a HP Vertica, az IBM BigSQL, az Oracle Big Data SQL, a Teradata -, amelyekből ma már, ha csupán a jelentősebbeket nézzük, elérhető vagy tízféle. Mindez klasszikus problémákat vetett fel, a Hadoop kódja egyre inkább fragmentálódott, így nehezebb programozni, a csiszolatlanság az emberierőforrás-igénynek és a teljesítménynek sem kedvez.
Új technológiák lépnek ezért színre, mint például a nagy teljesítményű, könnyen programozható, egységes szoftverkóddal büszkélkedő Spark, amely még ötéves sincs, de világszerte már 20 ezernél több fejlesztő dolgozik vele.
A Google-lel végzett keresések alapján a Hadoop világszinten még mindig népszerűbb, mint a Spark, de ez utóbbi vonzereje gyorsabban nő, mondta Arató Bence, aki idén februárban 309 hazai Hadoop-szakembert számolt össze a LinkedInen. Mint mondta, a tábor létszáma évente mintegy 30 százalékkal bővül. Összehasonlításképp idén februárban 88 magyar szakember tüntette fel magáról a LinkedIn oldalain, hogy ért a Sparkhoz, de számuk mostanra, mindössze négy hónap alatt, közel 50 százalékkal 118-ra nőtt.
Szilárd alapok, új technológiákkal
A hagyományos adattárházak erőssége, hogy a relációs adatbázisok lekérdező nyelvére, az évtizedek óta fejlesztett, kiforrott SQL-re épülnek, így működésük minden részletében ismert, rengeteg lekérdezőeszköz használható hozzájuk. Hátrányként élik meg ugyanakkor a vállalatok, hogy ezek az adattárházak nem kezelik a strukturálatlan adatokat, és az adatok előkészítéséhez, betöltéséhez vagy egy egyedi lekérdezés programozásához szükséges idő miatt az elemzések eredménye csak hosszabb átfutással áll elő.
Egy korszerű adattárháztól a felhasználók ma már joggal elvárják, hogy az oszlopalapú adattárolást, az online adattömörítést, a memórialapú adatfeldolgozást és a gazdag formátumokat (például XML, JSON) egyaránt támogassa, továbbá jól integrálható legyen a bigdata-technológiákkal, például egy Hadoop-klaszterrel, mondta Arató Bence. A konferencia egyik főtámogatójaként a Microsoft in-memory, BI- és analitikai, bigdata- és hibrid megoldások demójával külön előadásban mutatta be, hogy a június 1-jén bejelentett SQL Server 2016 milyen funkciókkal és szolgáltatásokkal igyekszik eleget tenni a kor elvárásainak.
Az adattárházak további fejlődéséről szólva Arató Bence az automatizálást és a virtualizálást emelte ki. Egyre fontosabb igény, hogy az adatokat a különböző forrásokból kinyerő, majd elemezhető formátumra átalakító és az adattárházba betöltő ETL-rendszerek működése minél nagyobb mértékben automatizálható legyen. Gyorsan terjednek az adatvirtualizáló eszközök is, amelyek az ETL-rendszerekkel ellentétben a forrásrendszerekben hagyják az adatokat, és azokhoz valós idejű hozzáférést adnak elemzés céljából.
Felhőalapú adatmenedzsment-megoldások a legjobbak az ilyen és hasonló új technológiák bevezetéséhez, mivel segítségükkel a szervezetek egyszerűen, gyorsan és alacsony költségek mellett léphetnek a tettek mezejére. A startupok után ma már a hazai nagyvállalatoknál is gyakrabban előfordul, hogy bigdata-próbaprojektjüket a felhőben indítják, majd az eredménnyel érvelnek egy leendő IT-beruházás jóváhagyása mellett.
Nem mellékes szempont, hogy a felhőalapú megoldások egyúttal az analitikai teljesítményt fokozó fejlett hardvertechnológiákhoz - például a tisztán SSD-alapú tárolókhoz - is olyan gyors és költséghatékony hozzáférést adnak a szolgáltatók adatközpontjaiban, mint a folyamatosan megjelenő új szoftveres képességekhez.
Mind kiélezettebbé válik éppen ezért a felhőszolgáltatók versenye, és a kínálat is egyre összetettebb, az Amazon Web Services, a Google Cloud vagy a Microsoft Azure menüjének összehasonlítása már külön szakértőért kiált.
Ezzel együtt 2016-ot a felhő évének tekinthetjük Európában is, állította Arató Bence. A globális szolgáltatók egyre-másra nyitják meg helyi adatközpontjaikat, de a felhasználók körében is érezhetően erősödik irántuk a bizalom. Az Egyesült Királyság a skandináv országokkal együtt előrébb jár másoknál, ám a felhőre ma már Magyarországon is mindinkább úgy tekintenek a vállalatok, mint a szóba jöhető platformok egyikére.
Vegyes forráskódú jövő
Noha a nyílt forráskódú szoftverek új nemzedéke már eddig is sokat segített az adatmenedzsment hagyományos eszközökkel kezelhetetlen problémáinak megoldásában, egyáltalán nem biztos, hogy a jövőben egyeduralkodóvá válik a területen, mutatott rá Arató Bence a konferencia nyitóelőadásának végén.
Több jel is arra utal, hogy a szervezetek analitikai eszköztára a forráskód tekintetében még nagyon sokáig vegyes lesz. A sikeres, széles körben elterjedő, nyílt forráskódú technológiák - ahogyan azt a Hadoop példája mutatja - népszerűségük áldozatává, töredezetté válnak, ezért veszítenek innovációs lendületükből, miközben a zárt forráskódú, hagyományos megoldásokat szállítóik egyre gyorsuló ütemben - felhőszolgáltatásként folyamatosan - továbbfejlesztik. A két világ ebben az értelemben közelít egymáshoz.
Érdekes lesz például figyelemmel kísérni, hogy a Microsoft hová fog eljutni PowerBI interaktív adatvizualizációs szolgáltatásával, amelynek alapváltozata ingyenesen használható, de előfizetési díja is elég kedvező ahhoz, hogy széles körben elterjedjen.
A nyílt forráskódú üzletiintelligencia-megoldások első hullámának legsikeresebb tagjait ugyanakkor mára felvásárolták vagy kommercializálták, ahogyan azt a Stanford Egyetem kutatási projektjeként indult Tableau esete is szemlélteti. Tíz évvel alapítása után a hasonló nevű spin-off cég 2013-ban tőzsdére lépett, és ma már borsos árat kér licenceiért, amelyet a felhasználók boldogan megfizetnek, hozott példát Arató Bence.
Októberben, ugyancsak a BI Consulting szervezésében, a kiaknázás, az adatvizualizáció eszközeire fókuszál majd a Budapest BI Fórum, amelyet 2017 februárjában a trió harmadik tagja, a Budapest NOSQL Fórum követ.