Hirdetés
. Hirdetés

Budapest Data + ML Fórum 2024 - Modern adatstack összerakhatóan

|

Vertikálisan integrált adatplatformokkal, felhőben futó vagy akár kliens eszközre telepíthető nagy és kis AI modellekkel válaszolnak a szállítók a mesterséges intelligenciát mind szélesebb körben használó vállalatok szerteágazó adatos, analitikai és automatizációs igényeire. De mennyire bízhat az üzlet az LLM-ek teljesítményében?

Hirdetés

A Budapest Data + ML Fórum idén júniusban már második alkalommal jelentkezett két nagy területet átfogó, új formátumában. A konferencia hagyomány szerint a workshopok napjával indított, majd első ízben összevont Data + ML nap következett, négy szekcióban, személyes részvétel mellett tartott előadásokkal, a harmadik napon pedig mintegy 30 külföldi szakember online előadásai zárták a programot. A résztvevők száma is minden eddiginél nagyobb volt - 120 cégtől több mint 340 szakember regisztrált, és háromnegyedük személyesen is részt vett a második nap előadásain.

Arató Bence, a konferenciát szervező BI Consulting ügyvezető igazgatója a második nap nyitó előadásában tekintette át az adatplatformok, az adattárházak és a data engineering, valamint az adattudomány, a gépi tanulás és a mesterséges intelligencia területét formáló, legfrissebb trendeket.

Vertikális integrációk...

A Gartner tavaly decemberben közreadott mágikus négyzetében (2023 Magic Quadrant for Cloud Database management Systems) a felhőalapú adatbázis-kezelő platformok nagy szállítói a feltörekvő szereplőkkel együtt ugyanúgy ott vannak a vezetők és a látnokok alnégyzetében, mint egy évvel korábban. Minimális változás, hogy az IBM, az SAP, a Cloudera és a Teradata átkerült a vizionárusok közé - az AWS, a Microsoft, a Google, az Oracle, a Databricks és a Snowflake maradt a vezetők alnégyzetében. A beruházások tervezésekor azonban figyelembe kell venni a Gartner másik összehasonlító elemzését is, amely a különféle analitikai használati esetek szerinti, kritikus fontosságú képességek alapján rangsorolja a szereplőket - ez árnyalja a képet, bár a listák élén ugyanezek a szállítók szerepelnek, csak változatos sorrendben.

További, az adatmenedzsment technológiák érettségét vizsgáló elemzésében (Hype Cycle for Data Management, 2023) a Gartner többek között azt prognosztizálja, hogy a data mesh kollaboratív koncepciójából, amely szerint a vállalati területek egymás adatigényeit szolgálnák ki, az emberi tényező miatt nem lesz semmi. A data lake ezzel szemben beérni látszik, szépen halad a görbén a termelékenység fennsíkja felé. Bár még csak most kapaszkodik fel az innovációs mozgatóerők első emelkedőjén a felfokozott elvárások csúcsa felé, hasonlóan ígéretesnek tűnik az adattermék (data product) is, amely - az adatok összegyűjtését és elemzését követően - kész információval, felismeréssel vagy funkcionalitással segíti az adatfogyasztókat az üzleti kihívások megválaszolásában.

Hirdetés

Figyelemre méltó, hogy a DBMS piac tavaly fontos mérföldkőhöz érkezett, szállítói bevételek alapján számított összmérete ugyanis első ízben 100 milliárd dollár fölé nőtt.

A piac markáns trendje a vertikális integráció. Egyre jellemzőbb a stack expanziója, platformjukon a nagy játékosok ugyanis igyekeznek átfogó, integrált szolgáltatást adni. Jó példa erre a Databricks, amely saját SQL motort, munkafolyamat ütemezőt, ETL keretrendszert, adatirányítási (data governance) megoldást és beépített AI támogatást is kínál. Saját fejlesztések és felvásárlások útján hasonló stratégiát követ a Snowflake és a többi nagy szállító is. Várható további terjeszkedésük a BI réteg irányába is - a Microsoft Fabric mintájára, amely már tartalmazza a Power BI platformot is.

Idén májusban a Snowflake például beruházott az Omni Analytics nevű cégbe, amelynek platformja a modern üzleti intelligencia rugalmasságát és gyorsaságát, valamint a beágyazott analitikát a hagyományos adatmodellező eszközök következetességével és irányítási képességeivel kombinálja. Ugyancsak ebben a hónapban Snowflake a Sigmába is újabb beruházást eszközölt. A cég BI és analitikai megoldásával a felhasználók könnyebben elemezhetik az élő adatokat, látványos vizualizációkat készíthetnek, és beágyazott, interaktív adatélményeken keresztül működhetnek együtt kollégáikkal.

...és nyílt táblaformátumok

Folytatódik a nyílt táblaformátumok versenye, amelyek a modern adatarchitektúrák fontos részeként a strukturált és félig strukturált adattömegek tárolásában segítik a vállalatokat. A két legnépszerűbb - képességeit tekintve sok mindenben hasonló, de részben eltérő - formátum a Delta Lake (UniForm) és az Apache Iceberg. Az újabbnak számító Delta Lake a Databricks és a Microsoft valamivel nagyobb támogatását élvezi, a kiforrottabb Iceberg mögött a szállítók szélesebb köre sorakozott fel. A formátumok azonban átjárhatók - mindkettő Parquet adatfájlokat és metaadat réteget tartalmaz -, az Iceberg kliensével például olvashatók a Delta Lake táblák.

A két formátum a továbbiakban még közelebb kerülhet egymáshoz, június elején, a Budapest Data + ML Fórummal egy időben a Databricks ugyanis bejelentette, hogy felvásárolta a Tabulart - az adatmenedzsmenttel foglalkozó céget, amelyet az Iceberg eredeti fejlesztői alapítottak. Táblák közötti zökkenőmentes együttműködést ígér a metaadat-fordító Apache X Table is, amelyet a fejlesztők kipróbálhatnak a GitHubon. Így végső soron az adott követelményeken, használati eseten és a meglévő technológiai környezeten múlik majd, hogy a vállalatoknak melyik táblaformátumot érdemes választaniuk.

Arató Bence az adataréna új csillagai között említette a DuckDB OLAP adatbázist, amellyel az adatkutatók és analitikusok nagy adatkészleteket elemezhetnek gyorsan és hatékonyan. A Polars egy nagy teljesítményű DataFrame könyvtár, ugyancsak hatékony adatmanipulációhoz. A dlt pedig egy nyílt forráskódú könyvtár, amely a Python scriptekhez adva különféle - gyakran kevéssé rendezett - forrásokból is betölti az adatokat a jól strukturált, élő adatkészletekbe.

Mindezen trendekből leszűrhető, hogy a sokat emlegetett és még mindig kialakulóban levő modern data stack fejlődése mindinkább az együttműködő elemekből igény szerint összerakható (composable) adatstack kialakulása felé mutat.

Modellek érája

A McKinsey legfrissebb felmérése (Global Survey on AI) szerint a vállalatok 65 százaléka már rendszeresen használja a generatív mesterséges intelligenciát, ami a mindössze tíz hónappal korábban mért arány közel kétszerese. A generatív AI iránti érdeklődés a mesterséges intelligencia más képességeit is a figyelem középpontjába állította. Míg az elmúlt hat évben változatlanul a szervezetek fele számolt be AI bevezetésről, addig a mostani felmérésben arányuk 72 százalékra szökött fel. A begyűjtött válaszok alapján a generatív AI azokon a vállalati területeken terjed a leggyorsabban, amelyek a legnagyobb üzleti értéket termetheti: a szervezetek 34 százaléka a marketing és az értékesítés, 23 százaléka a termék- és szolgáltatásfejlesztés, 17 százaléka pedig az IT-felügyelet és üzemeltetés támogatására vezette be.

Sorra jelennek meg a minden eddiginél nagyobb teljesítményű és fejlettebb képességekkel rendelkező nagy nyelvi modellek (LLM-ek), mint például az idén tavasszal debütáló, újgenerációs Meta Llama 3, vagy az OpenAI multimodális GPT-4o modellje. Mellettük azonban mind nagyobb érdeklődés övezi az olyan modellek porondra lépését is, mint a Microsoft Phi-3 kis nyelvi modellje, az Apple és a Lenovo okostelefonon futtatható modelljei, vagy például a Databricks DBRX és a Snowflake Arctic alapmodellje.

A mesterséges intelligencia további térhódításának ütemét a modellek nagy teljesítményű futtatásához szükséges, speciális processzorok piaci elérhetősége is befolyásolja - a szállítók, mint az NVIDIA jelenleg ugyanis küzdenek a hirtelen felívelő, óriási kereslet kiszolgálásával.

A legnagyobb piaci szereplők tíz- és százezres darabszámban vásárolják, egyszerűen elkapkodják a legyártott készleteket. Az NVIDIA H100-as processzorainak legnagyobb felhasználói a Microsoft, a Meta, az AWS, a Google és az Oracle. A kisebb vásárlóerővel rendelkező szervezetek emiatt hátrányba kerülnek, ezért a nyílt forráskódú alapmodelleket kínáló Hugging Face ZeroGPU néven új programot indított, amelyen keresztül az akadémiai szektorban dolgozó és más független AI fejlesztőknek 10 millió dollár értékű GPU erőforráshoz ad ingyenes hozzáférést.

Miközben a vállalatok a generatív AI egyre több előnyét tapasztalják, a technológiát kísérő, újfajta kockázatokkal is szembesülnek, mutatott rá elemzésében a McKinsey. A kockázatok az adatkezeléstől kezdve a magánélet és a szellemi tulajdon védelmén át a modellek felügyeletéig, a pontatlanságig, az elfogultságig és a megmagyarázhatóság hiányáig ívelnek, és komoly biztonsági kockázatot jelent a technológia szabálytalan használata is.

Az üzlet számára kulcsfontosságú kérdés, hogy megbízhat-e a nyelvi modellben, amelynek alapján például ügyfélszolgálati chatbotja válaszol a kérdésekre - szakmailag pontosak ezek a válaszok, a vállalat értékrendjét tükrözik, vagy éppen ellenkezőleg, a cég megítélését rontják?

Kutatók egy csoportja SaySelf néven új megközelítést és keretrendszert dolgozott ki, amelyekkel az LLM-ek működése átláthatóbbá és megbízhatóbbá tehető. Lényege, hogy a nagy nyelvi modellnek válaszaival együtt azt is meg kell adnia, mennyire biztos azok pontosságában. Az LLM-eket ennek alapján jobban lehetne kalibrálni, így magabiztosságuk és tényleges pontosságuk jobban közelítene egymáshoz, és megbízhatóbbá válnának a gyakorlati alkalmazásokban is. A SaySelf keretrendszer kódját a kutatók a GitHubon tették közzé.

Cikkünk a ComputerTrends magazin 2024. július 10-ei nyomtatott lapszámában jelent meg.

Hirdetés
0 mp. múlva automatikusan bezár Tovább az oldalra »

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.computertrends.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.