A cikkből, amely bemutatja a GAN-okat :

Egy bekezdés, amely a Helvetica-forgatókönyvet említi

Van értelme, hogy túl sok $ \ vec {z} $ -values egy $ \ vec {x} $ -value értékek problémákat okoznak. Kicsit zavart voltam azonban abban, hogy $ G $ hogyan edzett rövidebb ideig, mielőtt futna a $ D $ kijavíthatja. De amikor gugliztam a “Helvetica-forgatókönyvet”, csak a Nézz körülötted nevű paródiaelőadásra utalásokat találtam.

Mivel úgy tűnik, hogy ez tényleges dolog, nem csak paródia – hol tudhatok meg többet róla, és hogyan lehet megakadályozni? És miért hívják “Helvetica-forgatókönyvnek”?

Válasz

Túl sok valószínűségi tömeg elhelyezése egyetlen $ x $ valóban nagy probléma a GAN-okkal. Általában mód összeomlásként emlegetik. A legtöbb GAN-tanulmány megvitatja.

Kicsit zavart voltam abban, hogy a futás előtt 𝐺 rövidebb ideig tartó edzés hogyan tudja megoldani. / p>

Az elképzelés az, hogy a $ D $ diszkriminátort naprakészen tartsa a $ G $ . $ G $ kevesebbel kevesebbet edzve $ D $ -ot edz. Általában váltakozó optimalizálást végeznek a GAN-okkal, azaz a $ D $ vonatot a $ n $ iterációkhoz, majd $ G $ $ m $ iterációhoz stb. A $ D $ “feladata” az, hogy képes legyen felismerni a hamis $ G $ kimeneteket valós adatokból pontokat. De, ha nem edz eléggé $ D $ (azaz túl sokat edz $ G $ , tehát $ m > n $ ), majd $ G $ gyorsan “lefut” és kihasználja a helyi minimumokat a $ D $ -ban. $ G $ ” s szempontból, ha $ D $ “kedveli” valamilyen kimenetet $ x = G (z) $ , akkor a legegyszerűbb, ha csak csak azt adja ki $ x $ ! $ G $ kevesebbel (és így $ D $ többel) edzve ez a minimum elmozdulhat, és megakadályozza a $ G $ nem használja ki őket.

Figyelje meg, hogy a túledzett $ D $ nem “t” rossz dolognak tűnik a priori . Valójában a modernebb GAN veszteségekkel (pl. Wasserstein veszteségekkel) $ n $ hogy a lehető legnagyobb legyen. Ez csak azt jelenti, hogy a $ D $ minden lépésnél nagyszerű megkülönböztető képességre konvergál, ezért informatívnak kell lennie a $ G $ . (Valóban, a konvergencia igazolása ennek függvénye!) De a gyakorlatban az eredeti GAN esetében túledzett $ D $ általában használhatatlan lejtőkhöz vezet (lásd alább): semmi, amit $ G $ tehet, nem fogja tetszeni a megkülönböztetőnek, ezért az összes súlyfrissítés haszontalan , tehát a GAN csak hiába csapong a paramétertér körül). Ezt a hullámzást mások instabil edzésnek nevezik. 🙂

Más szavakkal, a vanília GAN számára a $ D $ alulképzés mód összeomláshoz vezethet, míg a túledzés instabilitást okozhat. Az emberek látszólag az instabilitás mérséklésére összpontosítottak, így egyszerűen túledzik a $ D $ -ot és elkerülik a mód összeomlását.

hogyan lehet megakadályozni?

Ennek mérséklésének egyik általános módja egy másik veszteségfüggvény, például egy Wasserstein-veszteség használata. Az eredeti GAN-megfogalmazás egyik problémája az, hogy (a JS divergencia minimalizálásával) nagyon informatív gradiensek lehetnek, mert a veszteség nem kezeli nagyon jól az átfedéseket nagyon kevés átfedéssel (vagyis amikor a megosztott támogatás kicsi). Bizonyos értelemben túl kemény, amikor a generátor rosszul működik. Ezzel szemben az optimális szállítási veszteség simán csökken akkor is, ha a két eloszlás távol áll egymástól. Lásd pl. a Wasserstein GAN-tanulmány és annak folytatásai.

És miért hívják “Helvetica-forgatókönyvnek”?

Az Ön által említett műsorra utal, ahol túl sok Kalcium kerül egy helyre és katasztrófát okoz. Itt katasztrófa történik, ha túl nagy generátor valószínűségi sűrűséget helyeznek el az adattér egy kis területén. 🙂

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük