Hogyan készítsünk valósághű Grand Theft Auto 5 grafikákat a mély tanulással

Ez a projekt az előző cikkem folytatása. Ebben elmagyaráztam, hogyan használhatjuk a CycleGAN-okat a képstílus átvitelére, és alkalmazhatom a Fortnite grafikák konvertálására, és PUBG-ra hasonlíthatunk.

A CycleGAN egyfajta Generatív Adversarial Network, amely képes az egyik kép vizuális stílusát utánozni és a másikra átvinni. Használhatjuk arra, hogy a játék grafikája olyan legyen, mint egy másik játéké vagy a való világé.

Ebben a cikkben még néhány eredményt meg akartam osztani ugyanazon CycleGAN algoritmus segítségével, amelyre az előző munkámban kitértem. Először megpróbálom fejleszteni a GTA 5 grafikáját azáltal, hogy a való világra hasonlítok. Ezután kitérek arra, hogyan érhetjük el ugyanazokat a fotórealisztikus eredményeket, anélkül, hogy eleve nagy részletességű GTA grafikákat kellene megjelenítenünk.

Az első feladat elvégzéséhez a játékról készített képernyőképeket készítettem forrásforrásként, amelyeket valami fotórealisztikussá szeretnénk alakítani. A céltartomány a való világot reprezentáló városkép-adatkészletből származik (amire törekszünk, hogy a játékunk hasonlóvá váljon).

CycleGAN eredmények

Körülbelül három napos, mintegy 100 korszakon át tartó képzés alapján a Cyclegan modell úgy tűnik, nagyon szép munkát végez a GTA valós világhoz való adaptálásában. Nagyon szeretem, hogy a kisebb részletek nem vesznek el ebben a fordításban, és a kép még ilyen alacsony felbontás mellett is megőrzi élességét.

A fő hátrány az, hogy ez a neurális hálózat meglehetősen materialisztikusnak bizonyult: mindenhol hallucinálja a Mercedes logóját, tönkretéve a szinte tökéletes átalakítást a GTA-ból a való világba. (Ez azért van, mert a városkép-adatkészletet egy Mercedes-tulajdonos gyűjtötte össze.)

Hogyan érhető el ugyanaz a fotórealisztikus grafika kevesebb erőfeszítéssel

Bár ez a megközelítés nagyon ígéretesnek tűnhet a játékgrafika fejlesztésében, nem hiszem, hogy ennek a folyamatnak a követése rejlik a valódi lehetőségekben. Ezzel azt akarom mondani, hogy kivitelezhetetlennek tűnik egy ilyen rendkívül részletes képet renderelni, majd átalakítani mássá.

Nem lenne jobb, ha egy hasonló minőségű képet szintetizálnánk, de sokkal kevesebb idő és erőfeszítés szükséges a játék megtervezéséhez? Azt hiszem, az igazi lehetőség abban rejlik, hogy az objektumokat alacsony részletességgel rendereljük, és hagyjuk, hogy az idegháló szintetizálja a végső képet ebből a renderelésből.

Tehát a városkép-adatkészletben elérhető szemantikus címkék alapján az objektumokat a GTA képernyőképén szegmentáltam, így az alacsony részletességű grafikákat ábrázolva. Tekintsük ezt csak néhány tárgy, például út, autó, ház, ég stb. Játékmegjelenítésének, anélkül, hogy azokat részletesen megterveznénk. Ez a képstílus-átviteli modellünk bemenete lesz a játék nagyon részletes képernyőképe helyett.

Lássuk, milyen minőségű végső képek készíthetők ilyen alacsony részletességű szemantikai térképekből a CycleGAN segítségével.

A képszintézis eredményei szemantikus térképekből

Íme néhány példa arra, hogyan néz ki, amikor a GTA grafikákat szemantikus térképekből készítjük el. Ne feledje, hogy ezeket a térképeket nem kézzel készítettem. Ez nagyon unalmasnak tűnt, ezért egyszerűen egy másik CycleGAN modellt hagytam megtenni (képzett a képek szegmentálására a városképek adatkészletének felhasználásával).

Messziről jó átalakításnak tűnik, de alaposan szemügyre véve nyilvánvaló, hogy a kép hamis és mindenféle részlet hiányzik belőle.

Ezek az eredmények most 256p-osak, és 8 GB memóriával rendelkező GPU-n lettek létrehozva. Az eredeti cikk szerzői azonban megmutatták, hogy sokkal részletesebb 2048 x 1024p méretű képet lehet létrehozni több mint 24 GB memóriával rendelkező GPU segítségével. A CycleGAN pix2pixHD nevű felügyelt tanulási verzióját használja, amely ugyanarra a feladatra van kiképezve. És a fiú hamis képen elég baromi meggyőzőnek tűnik!

Következtetés

A GAN-ok nagy lehetőséget rejtenek abban, hogy megváltoztassák a szórakoztatóipar tartalmainak előállítását. Sokkal jobb eredményeket képesek produkálni, mint az emberek, és sokkal kevesebb idő alatt.

Ugyanez vonatkozik a játékiparra is. Biztos vagyok benne, hogy néhány év múlva ez forradalmasítja a játékgrafikák létrehozását. Sokkal könnyebb lesz egyszerűen utánozni a való világot, mint mindent újra létrehozni a semmiből.

Amint ezt elértük, az új játékok bevezetése is sokkal gyorsabb lesz. Izgalmas idők várnak rájuk a mély tanulás ezen előrelépéseivel!

További eredmények videoformátumban

A fenti eredmények és még sok minden megtalálható a YouTube-csatornámon és az alább beágyazott videóban. Ha tetszett, nyugodtan iratkozzon fel a csatornámra, hogy kövessem további munkáimat.

Köszönöm, hogy elolvasta! Ha tetszett ez a cikk, kérlek, kövess a Mediumban, a GitHub-on, vagy iratkozz fel a YouTube-csatornámra.