GAN-verkkoja esittelevästä artikkelista :

Kappale, jossa mainitaan Helvetica-skenaario

On järkevää, että romahtaa liikaa $ \ vec {z} $ -arvot yhdeksi $ \ vec {x} $ -arvoksi aiheuttavat ongelmia. Olin kuitenkin hieman hämmentynyt siitä, miten $ G $ harjoitetaan lyhyemmäksi ajaksi ennen kuin suoritetaan $ D $ voi korjata sen. Mutta kun löysin Googlen ”Helvetica-skenaariota”, löysin vain viitteitä parodiaesitykseen nimeltä Katso ympärilläsi .

Koska näyttää siltä, että tämä on todellinen asia, ei vain parodia – mistä saan siitä lisätietoja ja miten se voidaan estää? Ja miksi sitä kutsutaan ”Helvetica-skenaarioksi”?

Vastaa

Liian suuren todennäköisyysmassan sijoittaminen yhteen $ x $ on todellakin suuri ongelma GAN-verkkojen kanssa. Yleensä sitä kutsutaan tilan romahdukseksi . Suurin osa GAN-asiakirjoista keskustelee asiasta.

Olin hieman hämmentynyt siitä, kuinka harjoittelu 𝐺 lyhyemmäksi ajaksi ennen juoksua 𝐷 voi korjata sen. / p>

Ajatuksena on pitää erotin $ D $ ajan tasalla generaattorin $ G $ . Harjoittelemalla $ G $ vähemmän, harjoittelet $ D $ enemmän. Yleensä optimointi suoritetaan vuorotellen GAN: illa, ts. Juna $ D $ $ n $ iteraatioille, sitten $ G $ $ m $ -toistoille ja niin edelleen. $ D $ : n ”työn” on kyettävä erottamaan väärät $ G $ -tuotteet todellisista tiedoista pistettä. Mutta jos et harjoittele tarpeeksi $ D $ (eli harjoitat liikaa $ G $ ) , joten $ m > n $ ), sitten $ G $ ”valuu nopeasti” ja hyödyntää paikallisia minimeja $ D $ . Alkaen $ G $ ” s näkökulmasta, jos $ D $ ”tykkää” tuotoksesta $ x = G (z) $ , sitten helpoin tapa on vain antaa vain tämä $ x $ ! Harjoittelu $ G $ vähemmän (ja siten $ D $ enemmän) antaa näiden minimien liikkua ja estää $ G $ hyödyntämättä niitä.

Huomaa, että ylikunto $ D $ ei ”t näyttää olevan huono asia a priori . Todellakin, nykyaikaisemmilla GAN-tappioilla (esim. Wassersteinin tappioilla) haluaa $ n $ olla niin suuri kuin mahdollista. Se tarkoittaa vain sitä, että $ D $ yhtyy suureksi erottelijaksi jokaisessa vaiheessa, joten sen tulisi olla informatiivinen $ G $ . (Todellakin, todisteet lähentymisestä riippuvat tämän tekemisestä!) Mutta käytännössä alkuperäisen GAN: n ylikuormitus $ D $ taipumus johtaa turhiin kaltevuuksiin (katso alla): mikään $ G $ ei voi tehdä miellyttää syrjintää, joten kaikki painopäivitykset ovat hyödyttömiä , joten GAN vain turhasti heiluttaa parametriavaruuden ympärillä). Muut kutsuvat tätä heilumista epävakaaksi harjoitteluksi. 🙂

Toisin sanoen vanilja-GAN: lle $ D $ -aliharjoittelu voi johtaa tilan romahtamiseen, kun taas ylikoulutus voi aiheuttaa epävakautta. Ihmiset ovat ilmeisesti keskittyneet epävakauden lieventämiseen niin, että yksinkertaisesti ylikuormitetaan $ D $ ja vältetään tilan romahtaminen.

miten se voidaan estää?

Yksi yleinen tapa lieventää sitä on käyttää erilaista menetystoimintoa, kuten Wassersteinin tappiota. Yksi ongelma alkuperäisessä GAN-formulaatiossa on se, että (minimoimalla JS-divergenssin) voi olla hyvin epätietoisia kaltevuuksia, koska häviö ei käsittele jakaumia hyvin vähän päällekkäin (eli kun jaettu tuki on pieni). Jossain mielessä on liian ankaraa, kun generaattorilla menee huonosti. Sitä vastoin optimaalinen kuljetushäviö vähenee tasaisesti, vaikka nämä kaksi jakaumaa olisivat kaukana toisistaan. Katso esim. Wasserstein GAN -lehti ja sen seurannat.

Ja miksi sitä kutsutaan ”Helvetica-skenaarioksi”?

Se viittaa mainitsemasi näyttelyyn, jossa liikaa kalsiumia laitetaan yhteen paikkaan ja aiheuttaa katastrofin. Tässä tapahtuu katastrofi, kun liikaa generaattorin todennäköisyystiheyttä sijoitetaan pienelle alueelle datatilaa. 🙂

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *