Hirdetés
. Hirdetés

Az OpenAI új hangasszisztensének is szüksége van lélegzetvételre - videó

|

A tavasszal bemutatott újgenerációs modell újabb meglepetéssel szolgált a felhasználói számára.

Hirdetés

Mint ismeretes, az OpenAI tavaly szeptemberben turbózta fel a ChatGPT szöveggenerátort a beszéd képességével, amely egy Sky néven futó női hang formájában mutatkozott be, hasonlóan az Apple-féle Sirihez vagy az Amazon Alexájához. Ám a tavasszal debütált újgenerációs GPT-4o (omni) modellhez tartozó Sky körül már volt egy kisebb botrány, miután sokak szerint teljesen úgy beszélt, mint Scarlett Johansson. Erről részletesen itt írt a PCWplus.hu, itt meg arról, hogy tényleg lemásolták-e a színésznő hangját.

A teljesen multimodális verzió egyszerre képes feldolgozni adatokat videóból, képből, hangból és szövegből natívan, valós időben, és késleltetés nélkül (320 ezredmásodperc alatt) tud kommunikálni.

A fejlett hangképességeken túl, amelyek lehetővé teszik a felhasználók számára, hogy emberi hangon beszélgessenek, a GPT-4o állítólag sokkal jobb a társalgásban, mint elődei, és ahogy majd látni fogjuk, ez az értékelés elég találónak tűnik.

A Reddit r/Singularity fórumán közzétett videóban ugyanis ez az Advanced Voice Mode hallható, amint azt mondja egy felhasználónak, hogy neki is lélegzetvételre van szüksége - mintha ténylegesen beszélne.

Amikor a felhasználó megkéri, hogy mondjon egy rakás nyelvtörőt, a fejlett hangasszisztens teljesíti a feladatot, de már akkor is megjegyzéseket tesz. Ezt követően a user azt kéri tőle, hogy ismételje meg gyorsabban és szünet nélkül, a hangvezérelt LLM egyszerűen visszautasítja.

"Bárcsak megtehetném, de nekem is ugyanúgy levegőt kell vennem, mint bárki másnak, aki beszél."

Majd azt tanácsolja, hogy próbálkozzon meg a feladattal a felhasználó és nézze meg, neki hogyan sikerül.

Hirdetés

A Reddit lévén a hozzászólásokban természetesen rengeteg elmélet született. Többek között az, hogy a modell lényege, hogy utánozza az emberi beszédet, és kerülje az olyan természetellenes megnyilvánulásokat, mint akár egy Eminem rapelés, mert ez elriasztaná a nagyközönséget. Sokak szerint a feltanítási adatokban lehet valami, ami arra készteti az LLM-et, hogy így viselkedjen, mások szerint ez nem valószínű, mert vélhetően összefüggéstelen eredményeket szülne.

Az, hogy az OpenAI új hangasszisztensének válasza egy fejlett megoldás része vagy csak egy "pimasz" reakció, nem tudni, de reméljük, hogy bizonyos határokon nem tud majd túl menni...

Hirdetés
0 mp. múlva automatikusan bezár Tovább az oldalra »

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.computertrends.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.