Nagy adat, gépi tanulás, adatkutatás - a hatalmas adattömegek elemzésére szolgáló technológiák univerzuma robbanásszerűen tágul, az analitika az informatika éltető erejévé válik. A vállalatok az analitikai eszközöket hívják segítségül, hogy mélyebben megérthessék ügyfeleik viselkedését, pontosabban feltárhassák a rendszerek teljesítményét befolyásoló tényezőket, vagy gyorsabban azonosíthassák a bevételnövelés új lehetőségeit. Adatelemzői stratégiájuk azonban csak akkor lesz sikeres, ha lépést tartanak a legfrissebb analitikai trendekkel.
A CIO magazin hőtérképet készített tíz felhevülő és öt kihűlő trendről (10 hot data analytics trends - and 5 going cold, 2017. augusztus), amely hasznos kalauzként mutatja, mely technológiákra érdemes nagyobb figyelmet fordítani.
Digitális műszerfalak, neurális hálózatok
Olyan technológiák sorakoznak a lista élén, amelyek már évek óta forró trendnek számítanak, de egyre magasabb hőfokot érnek el.
Önkiszolgáló BI - Olyan eszközökkel, mint a Tableau, a Qlik Sense, a Power BI és a Domo az üzleti felhasználók önállóan, igény szerint nyerhetnek mély betekintést az adatokban rejlő összefüggésekbe, méghozzá az értelmezést megkönnyítő vizuális formában. Az analitikai környezetet az IT-osztálynak bizonyos mértékig ugyan elő kell készítenie, például újabb adatforrások hozzáadásakor, az adattisztítással és az elemzések létrehozásával járó feladatok zömét azonban elvégezhetik az üzleti elemzők maguk. Az elemzések azután automatikusan frissülnek a legújabb adatokkal, valahányszor megnyitják őket.
Mobil műszerfalak - Munkaidejük legnagyobb részét a vezetők íróasztaluktól távol töltik, ezért olyan menedzsmenteszközökre van szükségük, amelyeket könnyen magukkal vihetnek. A legtöbb önkiszolgáló BI-megoldás ma már kínál ilyen mobilis műszerfalakat, de szükség lehet olyan mérőszámok gyakori vagy folyamatos ellenőrzésére is, amelyek nem üzletiintelligencia-eszközből, hanem például a gyártósorokra felügyelő minőség-ellenőrző QA-rendszerből származnak. Ez is könnyen megoldható egy mobilalkalmazással, amely percenként lekérdezi a QA-adatbázist, és riaszt a határértékek átlépésekor.
R nyelv - A nyílt forráskódú R programnyelv az egyik legjobb választás reprodukálható minőségi elemzések készítéséhez. A táblázatkezelőkben írottakkal szemben az R scriptek ugyanis auditálhatók és könnyen újrafuttathatók. Könyvtárai a statisztikai módszerek olyan széles körét tartalmazzák, hogy szinte úgy tűnik, ha egy módszer létezik, akkor azt nagy valószínűséggel R-ben implementálták. Hasonlóan nagy támogatást ad az R a gépi tanuláshoz is, bár neurális hálózatokhoz nem a legjobb választás, mivel azok nagyobb feldolgozási teljesítményt követelnek, mint ami a programnyelv használata mellett jelenleg elérhető.
Mély neurális hálózatok - A tanuló algoritmusok kategóriájában a mély neurális hálózatok képviselik az elitet. Miként nevük is utal rá, a lineáris és a nem-lineáris feldolgozó egységek váltakozó rétegeiből épülnek fel - míg egy sima neurális hálózat általában pár réteget tartalmaz, addig a mély neurális hálózatok tíz-húsz vagy ennél is több réteget rejthetnek. Hatalmas adattömegeken taníthatók, így képességeik egyre kifinomultabbakká válnak. Minél több réteget tartalmaznak, annál több részletet és összefüggést ismernek fel pontosabban az adathalmazokban. Az érem másik oldala, hogy a rétegek számával együtt nő a feldolgozás időigénye, és a mély neurális hálózat tanítása is egyre összetettebbé válik.
Felhőalapú tárolás és analitika - A hatékony adatelemzés egyik hitvallása, hogy a feldolgozást közel kell vinni az adathoz, mert késleltetéshez vezet, ha az adathalmazokat kell a hálózaton mozgatni. A vállalatok azonban olyan ütemben halmoznak fel adatokat, hogy azok előbb-utóbb kimerítik a házon belüli adatközpont kapacitását, ezért a felhőben kell tárolni őket. Ha pedig az adatok a felhőbe kerültek, akkor az analitikának is követnie kell őket. Mindez oda vezet majd, hogy a vállalatok nemcsak újabb analitikai projektjeiket indítják eleve a felhőben, hanem a meglévőket is oda helyezik át.
Hadoop és IoT
Első pillantásra meglepőnek tűnhet, milyen nagyra tartott technológiák kerültek a kihűlő trendek ötös listájára.
Hadoop - Egykor bizonyosnak látszott, hogy a Hadoop a megoldás az igazán nagy adatmennyiség tárolásából és feldolgozásából fakadó minden problémára. Mára azonban a nyílt forráskódú projekt zavarba ejtő mértékben összetetté vált, így inkább súlyosbítja a felhasználók nehézségeit. Az Apache Hadoop projekt négy modulja - Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop YARN és Hadoop MapReduce - mellett vagy azok helyett a vállalatok gyakran a velük összefüggő projektekhez - Ambari, Avro, Cassandra, Chukwa, HBase, Hive, Mahout, Pig, Spark, Tez és ZooKeeper - folyamodnak, az Apache Storm és Kafka projekteket vagy a szállítók értéknövelt disztribúcióit - Amazon Elastic Map Reduce, Cloudera, Hortonworks, Microsoft HDInsight, MapR és SAP Altiscale - nem is említve. Kész káosz.
Dolgok internete - Az IoT (internet of things) lehet minden idők leginkább körbetáncolt technológiakészlete, és egyben valószínűleg a legrosszabb dolog, ami a kiberbiztonsággal valaha történt. Az IoT-megoldások szállítói az otthonoktól kezdve a viselhető digitális eszközökön és az autókon át a közműhálózatokig, gyárakig és városokig mindent az internetre csatlakoztatnának, de úgy látszik, sokkal kevésbé foglalkoztatja őket, hogy az alkalmazások csak akkor nyernek értelmet, ha biztonságosak is. Amíg a kiberbiztonság problémáját nem kezelik súlyának megfelelően, addig az IoT és a dolgok internetéről gyűjtött adatok elemzése nagyobb kockázat lesz, mint lehetőség.
Kötegelt elemzés - A harmadik műszakba kapcsolt nagygépek szalagos meghajtón tárolt adatain éjszaka lefuttatott elemzések a múlt század hetvenes éveit idézik. Ma már semmi sem indokolja, hogy a vállalat az előző napi adatokból származó információkra fanyalodjon - kivéve talán az olyan örökölt rendszereket, amelyek régi technológiájuk miatt másképp nem használhatók.
Caffe - A mélytanulás egykor ígéretes projektje, amely eredetileg egy jó keretrendszert adott a képosztályozáshoz, mostanra hullámvölgybe került. Modelljei gyakran túl nagy GPU-memóriát követelnek, kódja egy éve javításra váró hibákat tartalmaz, dokumentációja pedig finoman szólva problematikus. Több mint egy év küszködés után a Caffe 1.0-s kiadása idén áprilisban jelent meg, de a szoftver még júliusban is több mint ötszáz javítatlan hibát tartalmazott.
Havi BI-jelentések - Az önkiszolgáló BI megjelenése előtt voltak népszerűek, amikor az üzleti intelligencia még az IT-osztály fennhatósága alá tartozott. Az informatikusok fejlesztették le ugyanis az elemzéseket az üzleti oldal igényei szerint, majd ezeket minden hónap végén lefuttatták, hogy a következő hónap első napján a jelentések a vezetők postaládájában landoljanak. Ma már egy kérdés feltevése és megválaszolása között nem telhet el egy hónap, de még egy hét vagy nap sem, az időt másodpercekben, legfeljebb percekben mérjük.
Feljövő technológiák
Hőtérképén még öt feljövő technológiát sorol a felhevülő trendek közé a CIO magazin, amelyek közül több a mély neurális hálózatok építésére szolgál.
TensorFlow - A Google nyílt forráskódú könyvtára gépi tanuláshoz és mély neurális hálózatokhoz. A TensorFlow modelljeire építenek a Google olyan szolgáltatásai is, mint a Fordító, a Térkép, a beszéd- és a képfelismerés. A technológia rugalmas, hordozható és jól összekapcsolható vele a kutatás-fejlesztés, valamint az éles üzem környezete, de a keretrendszer használata alapos ismereteket követel.
MXNet - Szintén a mélytanulás TensorFlow-hoz hasonló keretrendszere az MXNet, amely az előbbiből hiányzó imperatív programnyelvet is kínál tenzorszámításokhoz. Automatikusan párhuzamosítja a feldolgozást, és több programnyelven - Python, R, Scala, Julia és C++ - írott tanító modellek használatát is támogatja, de motorját C++ nyelvre optimalizálták.
Microsoft Cognitive Toolkit 2.0 - Más néven CNTK 2.0. Egységes eszközkészlet mélytanuláshoz, amely hasonló az előző két technológiához, de a Microsoft szerint gyorsabb, mint a TensorFlow, következtetéstámogatása könnyebben integrálható alkalmazásokba, beépített adatolvasói pedig az elosztott tanulást is megengedik. A CNTK 2.0-t használja a Cortana, a Skype élő fordító, a Bing és az Xbox.
Scikit-learn - Python-alapú tudományos eszközkészlet, amely a SciPy könyvtár köré épül. A nyílt forráskódú projekt nem a mennyiségre, hanem a minőségre helyezi a hangsúlyt, így a megbízható algoritmusok szép választékát kínálja.
Jupyter Notebooks - Korábbi nevén IPython Notebook, a Jupyter Notebooks nyílt forráskódú webalkalmazás, amellyel az adatkutatók élő kódot, egyenleteket és vizualizációkat, valamint magyarázó szöveget tartalmazó dokumentumokat hozhatnak létre és oszthatnak meg. A Jupyter Notebooks az adatkutatók és a gépi tanulással foglalkozó kutatók kedvelt fejlesztőkörnyezetévé vált, helyben is futtatható, de a nagy adattal és gépi tanulással összefüggő felhőszolgáltatások - például Azure, Databricks - szabványos elemeként is elérhető.