Rohamosan terjednek a nagy adatmennyiségek hatékony elemzésére szolgáló megoldások. Martin Heller, a CIO.com magazin szerkesztőjének cikke nyomán az alábbiakban áttekintjük napjaink legmenőbb analitikai technológiáit, módszereit és stratégiáit.
Önkiszolgáló üzleti intelligencia
Az úgynevezett önkiszolgáló BI-eszközökkel (Tableau, Qlik Sense, Power BI, Domo) a cégvezetők bármikor aktuális üzleti információkhoz juthatnak szemléletes, grafikus formátumban. Bár telepítéskor és adatforrások hozzáadásakor szükség van az informatikusok közreműködésére, az adattömeg megtisztításával és az elemzések készítésével járó munka túlnyomó részét az üzleti elemzők önállóan is el tudják végezni. Mi több, az elemzések automatikusan frissülnek, és mindig tartalmazzák a legújabb adatokat.
A vezetők vizuális felületen kezelhetik az elemzéseket, feltárva a beavatkozást igénylő problémákat. Az értékesítési adatokat elemző üzleti intelligencia által generált dashboard révén gyorsan megtalálhatják az alulteljesítő üzleteket, értékesítőket és termékeket, valamint felfedezhetnek trendeket az egy évvel korábbi és az aktuális eredmények összehasonlításával. Ezen összefüggések birtokában megalapozott döntéseket hozhatnak a jövőbeli raktárkészleteket, promóciókat és termékbevezetéseket illetően, továbbá kezdeményezhetik például új áruházak nyitását a kevésbé ellátott területeken.
Mobil dashboardok
Manapság, amikor a menedzserek ritkán tartózkodnak az irodájukban, a felügyeleti eszközöknek mobilbarát dashboardokat kell kínálniuk annak érdekében, hogy bárhol hatékonyan lehessen használni őket. A legtöbb önkiszolgáló üzletiintelligencia-eszköz rendelkezik ezzel a funkcióval, de nem minden fontos üzleti mérőszámról közölnek szükségszerűen információkat.
Ezért például egy termelőüzemben szükség lehet olyan minőségbiztosítási rendszerre, amely az összes gyártósor működését monitorozza. Minden üzemmérnöknek perceken belül tudnia kell a gyártósorok rendellenes működéséről, ami egyszerűen megvalósítható egy appal, amely minden percben lekérdezi a minőségbiztosítási adatbázist, frissít és megjelenít egy Shewhart vezérlődiagramot, valamint opcionálisan megszólaltatja a riasztót, ha meghibásodik egy gyártósor.
R programozási nyelv
Az adattudósok számos statisztikai módszerrel elemezhetik az adatokat. Az egyik leghatékonyabb és legkényelmesebb lehetőséget az ingyenes R programozási nyelv kínálja, amelynek segítségével kiváló minőségű, reprodukálható elemzések készíthetők, ugyanis a táblázatkezelőktől eltérően az R szkriptek egyszerűen auditálhatók és újrafuttathatók. Az R nyelv és kiegészítői a statisztikai, adatmanipulációs és ábrázolási módszerek széles választékát kínálják. A technológia támogatja a gépi tanulást is, de a mély neurális hálózatok esetében nem a legjobb választás, mivel ezek nagyobb teljesítményű programozási megoldást igényelnek.
A nyílt forráskódú R programozási nyelv ingyenesen elérhető. Több tucat kereskedelmi termékbe (többek között a Microsoft Azure Machine Learning Studióba és az SQL Server 2016-ba) beépítették.
Mély neurális hálózatok
A legerőteljesebb gépi tanulási algoritmusok közé tartoznak a mély neurális hálózatok, amelyek a "mély" jelzőt azért kapták, mert több rétegből tevődnek össze. A lineáris és nem lineáris feldolgozóegységeket tartalmazó rétegeket kiterjedt algoritmusok és nagymennyiségű tréningadat segítségével tanítják. Egy mély neurális hálózat tíz-húsz rejtett rétegből állhat, míg egy közönséges neurális hálózat csupán egyetlen réteget tartalmaz.
Minét több réteg van a hálózatban, annál több karakterisztikát képes felismerni. Ugyanakkor a több rétegből álló hálózat hosszabb idő alatt dolgozza fel az adatokat, és nehezebb tanítani. Mély neurális hálózatok létrehozására szolgál a Caffe, a Microsoft Cognitive Toolkit, az MXNet, a Neon, a TensorFlow, a Theano és a Torch szoftver.
TensorFlow
A TensorFlow a Google nyílt forráskódú gépi tanulási és neurális hálózati könyvtára, amely a keresőkirály legtöbb alkalmazott gépi tanulási szolgáltatásának (Fordító, Térképek, Google appok stb.) alapjául szolgál. Az adattudósok jó hasznát vehetik a TensorFlow-nak, ehhez azonban először meg kell tanulniuk a keretrendszer kezelését, ami nem éppen egyszerű feladat. Cserébe a technológia nagy rugalmasságot, valódi hordozhatóságot, a kutatási és a gyártási tevékenység összekapcsolhatóságát, a változók automatikus megkülönböztetését, valamint a GPU-k CPU-kkal szembeni előnyben részesítésével a teljesítmény maximalizálását kínálja a fejlesztőknek.
MXNet
A MXNet (mix-netnek ejtendő) a TensorFlow-hoz hasonló mély tanulási keretrendszer. Hiányzik belőle az utóbbi vizuális hibakeresője, ugyanakkor olyan imperatív programozási nyelvet kínál a tenzorszámításokhoz, amely a TensorFlow-ban nem található meg. A MXNet platform automatikusan, menet közben párhuzamosítja a szimbolikus és imperatív műveleteket, az ütemezőre épített optimalizáló réteg pedig gyorssá és memóriahatékonnyá teszi a szimbolikus végrehajtást. A MXNet jelenleg a modellek felépítését és tréningjét Python, R, Scala,
Julia és C++ nyelven támogatja. A trenírozott MXNet modellek ugyancsak használhatók előrejelzésre a Matlabben és a JavaScriptben. Függetlenül attól, hogy milyen nyelvet használunk a modell felépítéséhez, a MXNet egy optimalizált C++ back-end motort hív meg.
Microsoft Cognitive Toolkit 2.0
A Microsoft Cognitive Toolkit (CNTK) 2.0 egységesített mély tanulási eszközkészlet, amely a neurális hálózatokat irányított grafikon alapján végrehajtott számítási lépések sorozataként írja le. Sok hasonlóságot mutat a TensorFlow-val és a MXNettel, bár a Microsoft azt állítja, hogy a CNTK gyorsabb a TensorFlow-nál, különösen a visszatérő neurális hálózatok esetében. További előnye a redmondiak szerint az alkalmazásokba egyszerűbben integrálható következtetéstámogatás, valamint az, hogy elosztott tanulást is kezelő, hatékony beépített adatolvasókkal látták el. A Cognitive Toolkit a Microsoft Cortana személyi asszisztens, a Skype élő fordító szolgáltatás, a Bing kereső és néhány Xbox funkció alapjául szolgáló technológia.
Scikit-learn
A scikitek a SciPy köré épülő Python-alapú tudományos eszköztárak (a SciPy egy tudományos számításokhoz készült Python könyvtár). A Scikit-learn megbízható algoritmusok remek választékát kínáló, nyílt forráskódú gépi tanulási projekt, amely a Cythont (a Pythonról C-re fordító programot) használja a gyorsaságot igénylő funkciókhoz, például a belső hurkokhoz.
A Scikit-learn által nem lefedett területek közé tartozik a mély tanulás, a megerősítéses tanulás, a grafikus modellek és a szekvencia-előrejelzés. Alapvetően a Pythonhoz készült, így nem tartalmaz API-kat más nyelvekhez. Nem támogatja sem a PyPy futási idejű fordítót, sem a GPU-gyorsítást, amelyre a neurális hálózatok kivételével a Scikit-learnnek nincs is nagy szüksége. A Scikit-learn az egyik legkönnyebben használható gépi tanulási fejlesztőeszköz. Az algoritmusok a dokumentáció szerint működnek, az API-k konzisztensek és jól tervezettek.
Felhős tárolás és elemzés
A hatékony elemzés egyik sokat ismételt alapelve, hogy ott végezzük el a feldolgozást, ahol az adatok vannak. Ha nem követjük, vagy nem tudjuk követni ezt a szabályt, az elemzés nagy valószínűséggel komoly késleltetést szenved, mivel az adatokat a helyi hálózaton vagy az interneten keresztül az elemzés helyére kell továbbítani. Ahogy a vállalatoknál exponenciális mértékben nő a generált adatok mennyisége, és kimerül az adatközpontjuk tárolási kapacitása, mind több szervezet viszi adatait a felhőbe. Mihelyt azok a felhőben vannak, az elemzést is célszerű ott elvégezni.