Nagy adatról beszél mindenki, bár valójában senki sem tudja pontosan, hogyan is kell csinálni, de miután a szervezetek ebből arra következtetnek, hogy a többiek már bigdata-elemzéseket futtatnak, azt mondják, hogy nekik is van ilyen alkalmazásuk. Egy biztos, ha terabájtos adatmennyiségekkel dolgozik egy szervezet, ha nem, egy összetett analízis hamar teljesítményük korlátaival szembesíti a hardvererőforrásokat – kezdte előadását Gael Varoquaux, a francia Inria kutatója a múlt héten megtartott BI Fórum 2014 konferencia első napján, amely a nyílt forráskódú analitikai megoldásokban rejlő lehetőségeket tárta fel.
Az adat – legyen nagy vagy kicsi – magától nem fog beszélni. Szóra bírásában a prediktív modelleket építő, tanuló gépek sokat segíthetnek, azonban a machine learning olyan terület, amelyen könnyű eltévedni, és a kirándulás hamar költségessé válhat. A gépi tanulás két fő kihívása statisztikai és informatikai jellegű, de gyakran komoly problémát jelent az IT-költségvetés szűkössége is, mondta a kutató. A kialakított rendszerek működnek ugyan, azonban törékenyek, és a változások is nehezen követhetők velük a szűken mért erőforrások miatt. A szervezetek ráadásul túl kevés adatkutatót tudnak foglalkoztatni, ami veszélyezteti az egész bigdata-programot, az könnyen összeomlik, ha a csapat egy vagy több tagját „elüti az autóbusz”.
Tanuló gépekről, nyíltan
Gael Varoquaux kollégáival azért indította a scikit-learn nyílt forráskódú projektet, hogy a machine learning technológiát a szervezetek széles körében hozzáférhetővé tegye. Közösségi fejlesztés keretében minőségi szoftverkönyvtárat készítettek ehhez Pythonban, amelyet azért választottak, mert az interaktív, általános célú programnyelvben könnyű kódot írni, olvasni.
Előadásában a kutató példákat mutatott arra, hogy a szervezetek miként mérhetik fel pontosabban tényleges bigdata-igényeiket, és az adatfolyamokat milyen módszerekkel elemezhetik hatékonyabban. Nem kell mindenkinek feltétlenül petabájtokban és elosztott környezetekben, vagy teljesen egyedi algoritmusokban gondolkodnia, a földi halandók giga- és terabájtos adatmennyiségekkel dolgoznak, amelyekhez a párhuzamos feldolgozás, a problémához megközelítően illő algoritmus is jó.
Fontos, hogy a szervezet az adattárolókról se feledkezzen meg, azoknak is fel kell nőniük a feladathoz, mert sokszor nem a feldolgozási kapacitás, hanem az adatelérés a szűk keresztmetszet. Varoquaux szerint érdemes duplikálni, gyorsítótárazni az adatokat, még akkor is, ha terabájtokról van szó. Az Inria scikit-learn csapata például egy 15 ezer eurós géppel, amely 48 processzormagot, 384 gigabájt memóriát és 70 terabájt tárolót tartalmaz, nagyobb analitikai teljesítményt ért el, mint 800 CPU-s clusterével; az új gépben, a nagy vasban ugyanis gyorsabb az adatelérés.
A scikit-learn közösség ma több mint 200 aktív tagot számlál, tevékenységüket az Inriánál kezdettől fogva egy teljes munkaidős programozó koordinálja. A projekt eddig 6 millió dollár értékű támogatást használt fel, ami jól érzékelteti, hogy egy hasonló szoftverkönyvtár kifejlesztése egyetlen vállalat számára mekkora terhet jelentene. A közösségi munka minden szempontból hatékonyabb. Az alapkódot ráadásul érdemesebb megosztani, mint házon belül tartani, mivel nem az, hanem a rajta futó, specifikus alkalmazások fognak értéket adni a vállalatnak. Ezt már a Microsoft is felismerte évekkel ezelőtt, és azóta kiterjedt programot épített a nyilt forráskódú projektek köré, a scikit-learn közösséget is támogatja, tette hozzá a kutató. A nyílt forráskódú projektek számára nem is az anyagi támogatás, hanem a láthatóság megszerzése nehéz, elérni azt, hogy a vállalatok, amelyek használják a kódot, hivatkozzanak rá.
Arató Bence, a BI Fórum konferenciát szervező BI Consulting ügyvezető igazgatója az előadást követően bejelentette, hogy jövőre a BI Akadémia kínálatában is elérhető lesz a scikit-learn tanfolyam.
Közös adatvagyonunk
Martin Alvarez az ePSI Platform tanácsadói testületének koordinátora a nyílt adatforrások (open data) felhasználásáról tartott előadást. A kormányzati szektor adatvagyonának becsült értéke az Európai Unióban évi 32 milliárd euró, és ez gyakorlatilag a polgárok tulajdona. Az Európa Bizottság ezért módosította a közszférában elérhető információk újrahasznosítására vonatkozó korábbi, 2003/98/EC számú irányelvét. Az új, 2013/37/EU számú direktíva szerint az unió tagállamainak legkésőbb 2015 júliusáig törvénybe kell iktatniuk a jogot, hogy a közintézmények által kezelt adatvagyont újra lehessen hasznosítani, akár kereskedelmi céllal is.
A folyamatról, amelyben Magyarország a sereghajtók közé tartozik, a tavaly indított European Union Open Data Portal (open-data.europa.eu) oldalai tájékoztatnak. Az Európa Bizottság értékelése szerint hazánk a 28 tagállam közül hátulról a negyedik. Alvarez szerint ennek oka, hogy sem a magyar politikusok, sem a polgárok, szervezetek körében nem ismertek az open data újrahasznosításának előnyei és lehetőségei. Annak ellenére, hogy a tavalyi BI Fórumon bemutatkozott a folyamat hazai, tematikus oldala, amely az opendata.hu címen található.
Európában egyébként már 140-nél több, meteorológiai, térképészeti és statisztikai adatokat felhasználó, opendata-projekt fut. A hét legfejlettebb országot tömörítő G7 csoport Open Data Chartája pedig kimondja, hogy a szellemi tulajdont és a személyes adatokat kivéve a közszférában elérhető minden adat nyilvános, azt időben, pontosan és nagy részletességgel, ingyenesen, közösségi licenceléssel és gépek által olvasható formában kell mindenki számára elérhetővé tenni. Mindez nemcsak a nagyobb átláthatóságot és elszámoltathatóságot szolgálja, hanem előmozdítja az innovációt, új startupokat hívhat életre, és általában közvetlenebbé teszi a polgárok és a kormányzat, az intézmények kapcsolatát, ezért reméljük, hogy az Open Data-folyamat jövő nyárra Magyarországon is felpörög.
Alvarez több példát is bemutatott a már futó projektek közül. A Mapumental applikáció a lakásbérlés helyét segít kiválasztani a tömegközlekedés térképével és az utazási idők kiszámításával Londonban. Az ugyancsak egyesült királyságbeli OpenCorporates 80 millió cég kapcsolati hálójának vizualizálásával segít a csalások megelőzésében. Az amszterdami Rijks Museum digitalizált műalkotásainak részletei tetoválóművészek palettáján jelentek meg, a CrimeWatch okosórákra írt app pedig az aktuális tartózkodási hely közbiztonsági kockázati szintjét mutatja turistáknak.
Excel-titkok
A BI Fórum második napján az üzleti intelligencia területén zajló innováció három területe került reflektorfénybe: a diagramokon túlmutató adatvizualizáció, az egyik legfontosabb, új funkció, a hagyományos prezentációkból is ismert, eléggé kézenfekvő koncepciónak számító, de immár egyre több eszközzel is támogatott történetmondás, valamint az önkiszolgáló BI.
Ez utóbbi legszélesebb körben elterjedt eszköze az Excel, legalábbis így gondoljuk, miközben fogalmunk sincs róla, hogy az üzleti felhasználók – megfelelő szabályozás és információmenedzsment hiányában – milyen hajmeresztő dolgokat művelnek vele. Az Excel táblák szennyesét teregette ki kutatásában és a BI Fórumon tartott előadásában Felienne Hermans, a Delfti Technológiai Egyetem professzora.
A kutató abból indult ki, hogy a táblázatok ugyan rendkívül jelentős szerepet töltenek be a döntéshozatal előkészítésében a szervezetek túlnyomó többségénél, kezelésük mégis aggasztó hiányosságokat mutat. Hermans a becsődölt Enron energetikai cég levelezésének egy alkészletét – 130 felhasználó 15 hónapon keresztül küldött és fogadott, több mint 700 ezer levelét – vizsgálta.
Az emailek mellékletei között 51 ezer táblázatot talált. Minden 14 levél közül egy táblázatot tartalmazott, ezekből naponta 100-at küldtek az egykori alkalmazottak, a vizsgált időszakban személyenként összesen 400-at. Emellett a levelek 3,5 százaléka szintén táblázatokról szólt, legtöbbször azok hibáiról, változtatásairól, bár ilyen mellékletet nem tartalmazott. Sok volt a duplikáció, a kutató összesen 15 770 egyedi táblázatot azonosított. Megnézte azt is, hogy az Enron-alkalmazottak mit csináltak a táblázatokban. Meglepetésére mintegy 9 ezer táblázat egyáltalán nem tartalmazott függvényeket, csupán adatokat, számítások nélkül. A fennmaradó táblák 41 százaléka is az aritmetikai funkciók és a SUM használatára szorítkozott.
A levelek 95 százaléka az Ecxelben található, több mint 350 beépített függvény tizedét sem alkalmazta.
Hermans ennek alapján megállapította, hogy a szervezeteknél elterjedt a táblázatok levelekben történő küldése és megvitatása, ami egy megosztott tárhelyhez képest kevésbé biztonságos, a jelentések és elemzések jellemzően felügyelet nélkül, strukturálatlan és követhetetlen módon készülnek, miközben a felhasználók a rendelkezésre álló funkciók és lehetőségek töredékét veszik igénybe. A kutatás részletes eredményei a Felienne.com/enron weboldalon érhetők el, az European Spredsheet Risk Gorup címén (Eusprig.org) pedig számos további Excel-horrortörténet olvasható.
A BI Fórumot idén első ízben támogató SAS Institute többek között a tananyagokkal együtt mindenki számára ingyenesen elérhető SAS Analytics U szoftvercsomagra hívta fel a figyelmet, az Omnit pedig a Yellowfin BI eszközeinek hazai elérhetőségét jelentette be. A Yellowfin BI műszerfalaiért több díjat is kapott, a Gartner BI és analitikai platformokat értékelő mágikus négyzetében idén debütált.