A Microsoft és az Open AI új módszert fejlesztett ki a nagyméretű AI-modellek finomhangolására, amelyek egyébként túl drágák az újratanításhoz, például a GPT-3-hoz.
A Microsoft Research által közzétett blogbejegyzés a µ-paraméterezés (vagy µP) nevű technikát írja le, amely a kis és nagyméretű AI-modellek viselkedése közötti hasonlóságok felfedezésére játszik, hogy a legkisebbre mérsékelje az optimalizáláshoz szükséges számítási erőforrások mennyiségét.
Bár a konkrétumok megértéséhez komoly szakismeretre lenne szükség, a lényegi üzenet a következő: a µ-paraméterezéssel olcsóbb és egyszerűbb lesz olyan nagyobb léptékű AI-modelleket fejleszteni, amelyek a ma elérhető modelleknél sokkal jobb teljesítményt képesek nyújtani.
A nagyméretű AI-modelleket azért nehéz hatékonyan betanítani, mert kevés a külső rálátás arra, hogyan változik a viselkedésük a skálázás során. Minél nagyobbak az AI-modellek a kutatók szerint, jelenleg annál kevésbé jól hangoltak.
A µ-paraméterezés azonban a nagyméretű modellek számára a jelenlegieknél sokkal alacsonyabb költséggel és sokkal nagyobb hatékonysággal kínál utat az optimalizáláshoz. Kihasználja azt a felismerést, hogy a különböző méretű neurális hálózatok bizonyos körülmények között ugyanazokat az optimális hiperparamétereket (HP) osztják meg.
Ez lényegében azt jelenti, hogy egy kis léptékű hangolási folyamat extrapolálható és leképezhető egy sokkal nagyobb modellre, ahelyett, hogy egy teljes, több milliárd paraméteres modellt kellene újratanítani a semmiből.
"A modell µP elven történő paraméterezése és a tanulási sebesség kiválasztása bárki számára megkönnyíti a mély neurális hálózatok betanításának skálázását. Ez egy gyönyörű elmélet és a gyakorlati hatás elegáns kombinációja" - mondta Johannes Gehrke, a Microsoft Research laboratóriumának igazgatója.
Az elmélet gyakorlatba ültetése érdekében a Microsoft az OpenAI-val együttműködve a µ-parametrizációt a GPT-3-on, egy olyan természetes nyelvi modellen próbálta ki, amelynek legnagyobb iterációja 175 milliárd paraméterből áll. "Miután a GPT-3 egy változatát viszonylag nagy figyelemmel paramétereztük µP-ben, egy 40 millió paramétert tartalmazó kis proxy-modellt hangoltunk, mielőtt a legjobb hiperparaméter-kombinációt átmásoltuk a GPT-3 6,7 milliárd paraméteres változatába" - magyarázta a Microsoft.
Az eredmények egészen megdöbbentőek voltak. A szakembereknek sikerült létrehozniuk a GPT-3 egy még nagyobb teljesítményű változatát, amely a 6,7 milliárd paraméteres modell előképzéséhez felhasznált számítási teljesítmény mindössze 7 százalékát használta fel.
Annak érdekében, hogy más gyakorlati szakemberek is hasznot húzhassanak ezekből az eredményekből, a Microsoft közzétett egy PyTorch csomagot, amelynek célja, hogy segítsen a µ-paraméterezés integrálásában a meglévő modelljeikbe, amelyek a gyakorlatban állítólag kényesek lehetnek.
A vállalat szerint azonban még sok mindent meg kell érteni a mesterséges intelligencia modellek skálázásával kapcsolatban, és ígéretet tett, folytatja a munkát, hogy "elvszerűbb megközelítéseket származtasson a nagyléptékű gépi tanuláshoz".