A big data vagy nagyadat kifejezés általánosságban olyan nagyméretű és összetettségű adatkészletekre vonatkozik, amelyeket a hagyományos adatfeldolgozó szoftverekkel nem lehet rögzíteni, kezelni és ésszerű időn belül feldolgozni. A bigdata-készletek lehetnek strukturáltak, strukturálatlanok és részben strukturáltak; mindegyik típus felhasználható összefüggések feltárására. Vita tárgya, milyen mennyiségű adat tekinthető nagyadatnak, általában azonban több petabájtnyi adatot szokás így minősíteni, a legnagyobb projektek adatmennyisége pedig az exabájt kategóriában található.
Általánosan elfogadott három fő jellemzője:
- extrém mennyiségű adat;
- sokféle adattípus;
- nagy sebességet igénylő adatfeldolgozás és -elemzés.
Egy sor más komponens társul a bigdata-koncepcióhoz, amelyek lehetővé teszik a szervezeteknek, hogy az összegyűjtött adatok segítségével üzleti problémákat oldjanak meg. Ezek között megtalálható a bigdata-projekteket támogató IT-infrastruktúra, az adatelemzés, a szükséges szakértelmek és a projekteknek értelmet adó használati esetek.
A lényeg az analitika
Valójában az elemzés ad igazán értéket az összegyűjtött nagymennyiségű adatnak. Megfelelő analitika nélkül az adatok nem sokat érnek. A big data elemzésével olyan előnyökre tehetnek szert a vállalatok, mint az értékesítés volumenének növelése, az ügyfélszolgálat tevékenységének magasabb szintre emelése, nagyobb működési hatékonyság és a versenyképesség javulása. Elemzéssel összefüggésekre derül fény, következtetések vonhatók le, trendek tárhatók fel és jövőbeli események jelezhetők előre. Jobban alátámasztott üzleti döntések hozhatók például arra vonatkozólag, mikor és hol kell marketingkampányt futtatni, új terméket, illetve szolgáltatást elindítani.
Egyike a legfejlettebb elemzési módszereknek az adatbányászat, amely kapcsolatokat, mintázatokat és trendeket tár fel a nagy adatmennyiségek vizsgálata során. Az adatelemzés lehet felderítő - ilyenkor mintázatokat és kapcsolatokat tárnak fel az adathalmazban - és megerősítő, amikor statisztikai módszerekkel próbálják kideríteni, hogy egy, az adott adatkészlettel kapcsolatos feltételezés igaz-e.
Egy másik kategorizálás kvantitatív és kvalitatív adatelemzést különböztet meg, az előbbinél olyan numerikus adatokat elemeznek, amelyek statisztikai módszerekkel összehasonlítható, számszerűsíthető változókkal rendelkeznek, míg az utóbbinál nem numerikus (videó-, kép-, szöveg-) adatok elemzését végzik.
Támogató IT-infrastruktúra
Minden bigdata-projekt megfelelő infrastruktúrát igényel az adatok összegyűjtéséhez, eléréséhez, valamint az információk tárolás és feldolgozás közbeni védelméhez. Magas szinten ez a feldolgozáshoz, adatmenedzsmenthez és integrációs szoftverekhez, üzleti intelligenciához, adatelemzéshez, valamint bigdata-alkalmazásokhoz tervezett tárolórendszereket és szervereket jelent. Az infrastruktúra nagy része valószínűleg házon belül fog működni, mivel a vállalatok igyekeznek kihasználni adatközponti beruházásaikat, ugyanakkor egyre nagyobb mértékben vesznek igénybe felhőalapú szolgáltatásokat ilyen projektjeik megvalósításához.
Az adatgyűjtéshez adatforrásokra van szükség, ezek közül sok - webes alkalmazások, közösségimédia-csatornák, mobilappok és email-archívumok - már létezik. AzIoT terjedésével azonban a vállalatok egyre több eszközbe, járműbe és termékbe építenek be szenzorokat és új típusú alkalmazásokat, amelyek mind adatokat generálnak. A bejövő töménytelen mennyiségű adat tárolására megfelelő kapacitású rendszereket kell üzembe állítaniuk. Ezek közé sorolhatók a hagyományos adattárházak, az adattavak és a felhőalapú tárolórendszerek.
Ami a biztonsági infrastruktúrát illeti, ennek eszközei között megtalálható az adattitkosítás, a felhasználó-azonosítás és más hozzáférést szabályozó technológiák, a monitorozó rendszerek, a tűzfalak, a mobileszköz-felügyelet, valamint további, a rendszerek és adatok védelmét ellátó technológiák.
Bigdata-specifikus technológiákHadoop-ökoszisztéma. A Hadoop egyike azon technológiáknak, amelyek a legszorosabb kapcsolatban vannak a nagyadattal. Az Apache Hadoop projekt nyílt forráskódú szoftvereket fejleszt méretezhető, elosztott rendszerekhez. A Hadoop szoftverkönyvtár olyan keretrendszer, amely lehetővé teszi nagy adatkészletek elosztott feldolgozását számítógépek klaszterein egyszerű programozási modellek alkalmazásával. Úgy tervezték, hogy az egyszerverestől kezdve a több ezer szerveres infrastruktúrákig használható legyen.
A projekt több modult tartalmaz:
- Hadoop Common: közös segédprogramok, amelyek támogatják a többi Hadoop modult.
- Hadoop Distributed File System: nagy áteresztőképességű hozzáférést biztosít az alkalmazásadatokhoz.
- Hadoop YARN: keretrendszer feladatütemezéshez és klasztererőforrás-menedzsmenthez.
- Hadoop MapReduce: YARN-alapú rendszer nagy adatkészletek párhuzamos feldolgozásához.
Apache Spark. A Hadoop ökoszisztéma részeként működő Apache Spark nyílt forráskódú klaszteres informatikai keretrendszer, amely a nagyadat-feldolgozás motorjául szolgál a Hadoopon belül. A Spark az egyik legfontosabb elosztott bigdata-feldolgozó keretrendszerré vált, és többféle módon telepíthető. Natív támogatást nyújt a Java, a Scala, a Python (főként az Anaconda Python) és az R programnyelvekhez (az R különösen alkalmas bigdata-feldolgozáshoz), és támogatja az SQL-t, az adatstreaminget és a gépi tanulást.
Adattavak. Tárolók, amelyek rendkívül nagy mennyiségű nyers adatot tartalmaznak natív formátumban addig, amíg az üzleti felhasználóknak szükségük lesz rájuk. A digitális transzformációs projekteknek és a dolgok internete elterjedésének köszönhetően van egyre inkább szükség a használatukra. Úgy tervezték őket, hogy a felhasználók egyszerűen hozzáférhessenek nagymennyiségű adathoz, amikor erre szükség van.
NoSQL adatbázisok. A hagyományos SQL adatbázisokat megbízható tranzakciókhoz és ad hoc lekérdezésekhez tervezték, de korlátaik miatt kevésbé alkalmasak bizonyos típusú alkalmazások kiszolgálására. A NoSQL adatbázisok mentesek ezektől a korlátozásoktól, s oly módon tárolják és kezelik az adatokat, amivel lehetővé teszik a nagy működési sebességet és rugalmasságot. Sokat közülük olyan cégek fejlesztettek ki, amelyek hatékonyabb módszereket kerestek nagyméretű webhelyeik adatainak tárolásához és feldolgozásához. Az SQL adatbázisoktól eltérően sok NoSQL adatbázis horizontálisan méretezhető több száz vagy több ezer szerverre.
Memórialapú adatbázisok. A memóriaalapú adatbázisok olyan adatbázis-kezelő rendszerek, amelyek elsősorban a fő memóriát használják adattárolásra, nem pedig a lemezes háttértárakat. Gyorsabbak, mint a lemezre optimalizált adatbázisok, ami fontos szempont a bigdata-elemzéseknél.
Bigdata-szakértelmek. A nagyadat-technológiák és -elemzések speciális szakértelmeket igényelnek. Ezek egyrészt szorosan kötődnek az alkalmazott komponensekhez (Hadoop, Spark, NoSQL adatbázisok, memóriaalapú adatbázisok, elemzőszoftverek), másrészt a kapcsolódó szakterületeket érintik: adattudomány, adatbányászat, statisztikai és kvantitatív elemzés, adatvizualizáció, általános célú programozás, adatstruktúrák és algoritmusok. Általános irányítási gyakorlattal rendelkező emberekre szintén szükség van e projektek vezetésénél.
Használati esetek
A bigdata-feldolgozás és -elemzés egy sor üzleti probléma megoldására és használati esetre alkalmazható. Néhány példa:
- Vásárlóelemzés. A vállalatok a vásárlói adatok vizsgálatával javíthatják a vásárlási élményt, a konverziós arányokat, növelhetik a megtartás mértékét.
- Működés elemzése. A működési teljesítmény javítása és a vállalati erőforrások jobb kihasználása sok szervezet céljai között szerepel. A nagyadat-elemzés segíthet a vállalkozásoknak megtalálni a hatékonyabb működési módokat és növelni a teljesítményt.
- Csalások megakadályozása. Az adatelemzés segíthet a szervezeteknek azonosítani a gyanús, csalásra utaló tevékenységeket és viselkedéseket, csökkenteni a kockázatokat.
- Ároptimalizálás. Bigdata-elemzést használhatnak a vállalatok termékeik és szolgáltatásaik árának optimalizálására, a bevételek növelésére.