Computerworld: Több szállító felhő szolgáltatás és célgép (appliance) formájában is kínálja in-memory technológiára épülő big data megoldásait. Mikor melyiket érdemes választania egy vállalatnak?
Stephen Brobst: A felhő alapú nagy adat megoldások többsége nem nyilvános, hanem magánfelhő környezetben kerül bevezetésre, ügyfeleink körében szerzett tapasztalataink is ezt igazolják. A nagyvállalati IT-vezetők többsége ugyanis vonakodik attól, hogy az érzékeny üzleti, pénzügyi és ügyfél adatokat a nyilvános felhőbe vigye.
Megteheti ezt, mivel egy nagyvállalat házon belül is ki tudja építeni a rugalmasan méretezhető infrastruktúrát, amelyen konszolidálhatja meglévő adatpiacait és adattárházait. Az új infrastruktúrára való áttéréssel az üzemeltetés gazdaságosabbá válik, de ez még kevés ahhoz, hogy valóban felhő alapú megoldásról beszélhessünk. Ehhez szükséges az is, hogy az üzleti oldal felhasználói, az infómunkások önkiszolgáló módon férhessenek hozzá az elemezni kívánt adatokhoz, valamint azon eszközökhöz és funkciókhoz is, amelyekkel agilis módon, nagyfokú önállóság mellett végezhetnek elemzéseket, és ezáltal gyorsabban juthatnak eredményekhez.
Bevált gyakorlat szerint a vállalatok többsége olyan, célzottan az analitikai feladatok megoldására optimalizált magánfelhő környezetet épít appliancek-ek bevezetésével, amely az adattárházak működéséhez szükséges adatírási-olvasási, feldolgozási teljesítményre lett finomhangolva. Bár nem kötelező érvényű, a legtöbb vállalat ezt az utat választja, mivel az általános célú magánfelhő környezetek nem adnak hasonlóan jó teljesítményt az analitika számára.
Az adattárház megoldást kereső kis- és középvállalatok, amelyek nem engedhetik meg maguknak magánfelhő környezet kiépítését, adattárház szolgáltatás (data warehouse as a service) használata mellett dönthetnek. Az adattárház szolgáltatások is felhő keretrendszerre épülnek, de ez a modell eltér a nyilvános felhőben elérhető infrastruktúra- és platformszolgáltatásoktól. Az adattárház szolgáltatás minden komponenst egyben tartalmaz, leginkább a salesforce.com-hoz hasonlíthatnám, amely az operatív CRM funkcionalitását kínálja szolgáltatás formájában. Az adattárház szolgáltatást úgy lehet elképzelni, mint egy analitikai CRM szolgáltatást, amely gyakorlatilag egy teljes funkcionalitású appliance-hez ad hozzáférést a felhőben.
Célszolgáltatások esetében sokkal jobban felügyelhető mind a hozzáférés, mind az adatbiztonság, mint azt az általános platformszolgáltatások lehetővé teszik. De meg kell róla győződni, hogy az adattárház szolgáltatást kínáló szolgáltató adatközpontjában minden vállalat biztosan külön szervereket kap, ugyanakkor a szeparált környezetben igény szerint méretezheti az erőforrásokat. Kisebb vállalatoknak mindenképp érdemes ebben az irányban elindulniuk, de nagyon körültekintően kell eljárniuk.
CW: Miért érdemes a kisebb vállalatoknak is nagy adattal foglalkozniuk?
SB: A big data meglehetősen szerencsétlen névválasztás: azt sugallja, hogy kizárólag óriási adatmennyiséget értünk alatta, holott a nagy adat esetében nem a puszta mennyiség, hanem az adatok sokfélesége a legizgalmasabb. A kisebb vállalatok is változatos forrásokból gyűjthetnek adatokat, amelyek elemzésén keresztül jobban megérthetik ügyfeleiket, optimalizálhatják beszállítói láncukat, vagy más módon növelhetik az üzleti értéket.
Az ügyfélélmény-menedzsment szempontjából például kulcsfontosságú, hogy a vállalat a tranzakciók szintjénél mélyebbre, az interakciókig leásson az adatokban. A tranzakciók elemzése hozzásegíti a vállalatot az ügyfél értékének megállapításához, az ügyfélélmény megértéséhez azonban ennél több szükséges. Az interakciókról a kisebb vállalatok is rendkívül sokféle forrásból gyűjthetnek adatokat: az ügyfelek közösségi hálókon kifejtett aktivitásától kezdve a cég weboldalát érő kattintások folyamáig, de ugyanilyen hasznosak lehetnek a cellainformációk, a meteorológiai és más, beszerezhető adatkészletek is.
CW: Az in-memory technológiára épülő big data megoldások sokkal nagyobb teljesítményűek, az elemzéseket gyorsabban lefuttatják, mint a hagyományos, merevlemezes tárolókat használó adattárházak. Megtörténhet, hogy az in-memory technológia a közeljövőben egyeduralkodóvá válik az analitika területén?
SB: Különbséget kell tennünk az adatok rendkívül gyors elérésére szolgáló in-memory technológia és az agilis adattárház megoldások között, amelyekben a végfelhasználók közvetlenül hozzáférnek az adatokhoz, önkiszolgáló módon végezhetnek elemzéseket.
Ez az adatlaboratórium koncepciója, amelyben a jellemzően fejlett adatvizualizációs képességekkel bíró eszközök segítségével az adatkutatók (data scientist) és az infómunkások az IT osztály közvetlen közreműködése nélkül is be tudják tölteni és kiértékelni az elemzésre kiválasztott adatokat. Az in-memory technológia a gyors adatelérés eszköze, ami természetesen fontos az adatlaboratóriumokban is, de a vállalat használhatja pusztán a jelentéskészítés gyorsítására is, anélkül, hogy kialakítaná az említett, agilis analitikai keretrendszert. Más szóval az in-memory technológia önmagában kevés az adattárház-gyorsításhoz.
Nem utolsósorban az in-memory technológia használatából nem következik, hogy a vállalat minden adatot mindig a gépi memóriában fog tárolni. A memóriaárak csökkennek ugyan, de az adatmennyiség gyorsabban nő, semhogy ez a megoldás gazdaságos lehetne. Felesleges is erre törekedni, mivel a vállalatnak nem kell folyamatosan gyors elérést biztosítania az adatvagyon egészéhez. Elegendő, ha az adatok 20 százalékát tárolja a gépi memóriában, vagy a gépi memóriában és memória alapú tárolókban, míg a fennmaradó 80 százalékot lassabb elérésű, de jóval költséghatékonyabb rendszerekben helyezi el.
A vállalatok éppúgy törekednek a gyorsaságra, mint a költséghatékonyságra, és a hibrid tárolókörnyezetek mindkettőt megadják nekik. Ehhez persze szükségesek azok az intelligens szoftverek is, amely minden adatot a megfelelő tárolóeszközre irányítanak. A kisebb, de intelligens memória mindig rá fog verni, a nagy, ám buta memóriára.
CW: A Teradata által azonosított öt big data trend egyike a felaprózott megoldások egységes architektúrával történő kiváltása. Milyen vállalati stratégia viheti sikerre ezt a konszolidációt?
BS: Fontos, hogy a vállalat ne egyik vagy másik technológiára esküdjön, kerülje a kizárólagosságot, és az adott analitikai feladat megoldásához a célnak megfelelő technológiát használja.
A hagyományos, relációs adatbázisok képességei korántsem korlátlanok, kevésbé kifinomultak az olyan területeken, mint például a változatos adattípusok kezelése. Hiányosságuk vezetett az adatkereső (data discovery) platformok megjelenéséhez, amelyek a relációs feldolgozásnál többre képesek. A Teradata Aster Data platformja a hagyományos, relációs technológiák és az újabb keletű big data technológiák, közöttük a MapReduce integrálásával a nem szokványos adatok, például gráfok és szöveges információk tárolását és elemezését teszi lehetővé. Emellett a nyílt forráskódú szoftverek, mint például a Hadoop, szintén vonzó alternatívát kínálnak a vállalatoknak az összes adat korlátlan idejű tárolására.
Három technológiát említettem mindössze, de már ebből is kitűnik, hogy milyen felaprózottá válhat az adatok kezelése, elemzése egy vállalaton belül. Egységes adatarchitektúra kialakításával az adatok sokkal könnyebben mozgathatók a különböző célokat szolgáló platformok között.
A Hadoop elosztott fájlrendszerében a vállalat rengeteg adatot tárolhat olcsón, de olyan szakemberek, akik közvetlenül a Hadoopból értékes információkat tudnának kinyerni, ma még gyakorlatilag nem léteznek. Ezért olyan eszközökre van szükség, amelyekkel az elemzésre szánt adatok könnyen kiemelhetők az elosztott fájlrendszerből, és ezeket az adatkereső platformok kínálják.
Az adatlaboratóriumban az adatkutatók nyilván kísérletezni akarnak ezekkel az eszközökkel és a Hadoopban tárolt adatok valamely részével. Egységes adatarchitektúránk részeként ehhez az SQL-H (SQL for Hadoop) eszközt kínáljuk, amely széles körben ismert kezelőfelületet biztosít az elemezni kívánt adatok kinyeréséhez. Az SQL–H szintén nyílt forráskódú, a Hadoop HCatalog menedzsment rétegére épül. A kísérletezés ugyanis próbálkozásokat és melléfogásokat feltételez. A korrekciókat ezért könnyűvé, gyorssá és olcsóvá kell tennünk. Az adatkutatók így mindig új adatokkal próbálkozhatnak, majd amikor valami érdekesre bukkannak, azt a vállalat adattárházában az üzleti oldal számára is hozzáférhetővé tehetik. Adatintegrációs partnereink szintén kínálnak olyan eszközöket, amelyekkel az adatok a Hadoopból az adattárházba, illetve az adattárházból az adatlaborba tölthetők.
Egységes adatarchitektúránk, amely lehetővé teszi az adatok zökkenőmentes mozgatását, a célnak megfelelő technológia használatát, mindezt a komplexitást elfedi, előre integrált módon, big data célgépek formájában érkezik. Persze nem szükséges, hogy minden vállalat minden komponenst egyben megvásároljon, ha már van Hadoop fájlrendszere, a célgépet abba is bekapcsolhatja. A legtöbb nagyvállalat már kiépítette adattárházát, ezért első lépésként adatkereső platformot vezethet be, a Hadooppal pedig várhat, amíg adatvagyonának mérete meghaladja a több tíz terabájtot.
Szem előtt kell tartani azt is, hogy a szoftver lehet ingyenes ugyan, és a hardver is olcsó, amelyen fut, a szakemberek azonban, akik menedzselni tudják az analitikai környezetet, sokba kerülnek. A nyílt forráskódú szoftver olyan, mint az ajándékba kapott kutyakölyök. Ingyen van, de a birtoklás összköltségével is számolni kell.