A mesterséges intelligencia (MI) a társadalomra és a vállalatokra gyakorolt hatásait csak most kezdjük felismerni. Az MI, a gépi tanulás és a mélytanulás különböző formái hatalmas adathalmazok alapján forradalmasítani fogják az üzleti életet, automatizálják az ismétlődő feladatokat és felgyorsítják az eredményekhez vezető utakat.
A mélytanulási alkalmazások fejlesztése általában egy háromlépcsős folyamatot követ:
• Adatelőkészítés, ahol hatalmas mennyiségű nyersanyagot alakítanak át használható adatokká.
• Modellképzés, melynek során a szoftverprogramokat úgy képzik ki, hogy az adatokból új dolgokat tanuljanak meg, új képességet szerezzenek.
• Következtetés, ahol a program az újonnan megtanultakat új adatokra alkalmazza.
Mindezek együttesen hatalmas adatnövekedést eredményeznek. Az iparági elemzők előrejelzései szerint a strukturálatlan adatok - fájlok és objektumok - kapacitása a következő néhány évben megduplázódik vagy akár megháromszorozódik. E növekedés egyik nagy hajtóerejét a mesterséges intelligencia, a gépi tanulás és a mélytanulás felhasználási esetei adják.
Az adatoknak ez a "következő korszaka" az IT-infrastruktúra vezetői számára néhány külön kihívást jelent. Először is, az adathalmazok olyan méretűek és volumenűek, amelyek minden korábbinál exponenciálisan nagyobbak. "A vezetéstámogató technológiát - lényegében a gépi tanulás egy formáját, konkrétan a gépi látást - fejlesztő néhány ügyfelünk néhány év alatt több mint egy exabájtnyi adatot generált. A méret tehát óriási" - írta a Beta Newson megjelent cikkében Eric Bassier a Quantum adattárolási és technológiai szolgáltatócég termékigazgatója.
Ráadásul a mélytanulási alkalmazások hatalmas igényeket támasztanak a tárolási infrastruktúra teljesítményével szemben. Ezeknek a hatalmas, strukturálatlan adathalmazoknak a feldolgozása rendkívül alacsony késleltetési időt kíván, és ami kritikus, a teljesítménynek hatalmas méretben is konzisztensnek kell lennie. A soros merevlemezeken alapuló lemezalapú tárolórendszerek egyszerűen nem tudnak megfelelni ezeknek a követelményeknek. Ez vezetett a teljesen flashalapú fájl- és objektumtárolás növekedéséhez, és ez a növekedés a következő öt évben fel fog gyorsulni, ahogy a flash ára csökken, és ahogy az új architektúrák olyan memóriatechnológiákat használnak, mint a nem-volatilis memória expressz (NVMe) és a távoli közvetlen memóriaelérés (RDMA), amelyek rendkívül alacsony késleltetésű elosztott tárolási architektúrákat tesznek lehetővé. A tárolórendszerek teljesítményének tehát nagyságrendekkel kell javulnia.
Végül pedig az adatok nem egy helyen töltik az életüket. Az adatközponton kívül keletkeznek és valahová elszállítják őket feldolgozásra. Ez a hely lehet a nyilvános felhő, lehet egy adatközpont, vagy valószínűbb, hogy az adatfeldolgozás részei mindkét helyen megtörténnek. Ezért ezeknek az adatoknak a mozgatása és kezelése az életciklusuk során nagyon fontos szempont. És egyre gyakrabban ezeket az adatállományokat évtizedekig - nem öt vagy hét évig - fogják megőrizni. Konkrétan az adatelőkészítéshez használt nagy adathalmazokat, valamint magukat a modelleket évtizedekig vagy még tovább is tárolhatják, arra az esetre, ha a modelleket újra kell képezni.
Mindezek a tényezők már most is nyomást gyakorolnak a hagyományos tárolási architektúrákra. A világ strukturálatlan adatainak nagy részét olyan rendszerekben tárolják, amelyeket több mint 20 évvel ezelőtt terveztek. Ezeket a rendszereket pedig akkor hívták életre, amikor a legtöbb fájlt emberek, nem pedig eszközök hozták létre, és az évtizedekig tárolandó fájlok és objektumok trillióinak és exabájtnyi adatnak a gondolata még meg sem jelent a láthatáron.