AI je uspel goljufati z najboljšimi, kar jih človeštvo ponuja, potem ko je odkril podvig v klasični arkadni igri Q * bert in tekel z njim.
Medtem ko bi prejšnje ponovitve AI pravilno igrale Q * bert, na neki točki pri učenju, kako igra deluje, odkrije podvig, ki ji omogoča, da nabira nore točke. Seveda, tako kot vsak igralec rezultatov, ponavlja postopek, da lahko na najbolj učinkovit način poveča rezultat.
V spodnjem videoposnetku si lahko ogledate AI, ki se premika po platformah. Sprva je videti, kot da brezciljno skače med ploščadmi. Namesto da bi napredoval v naslednjem krogu, se Q * bert zatakne v zanki, kjer začnejo utripati vse njegove platforme - tu lahko AI nato nadaljuje z velikimi točkami.
PREBERITE NAPREJ: Končno je diskreditiran eden najbolj kontroverznih zapisov igre
kako priti do spotify lokalnih datotek na iphone -
Kako je AI zmagal v vojni Q * bert
Razbijal je ves čas za naslov, AI je dosegel neverjetno visoke rezultate, zahvaljujoč programiranju algoritmov evolucijske strategije. Evolucijske strategije (ES) se razlikujejo od običajnega učenja okrepitve (RL), ki ga uporablja tradicionalna umetna inteligenca, saj je zaradi svojega generacijskega učenja videti bolj prilagodljiva.
Vsaka učna zanka se imenuje generacija in nadaljuje svojo nalogo, dokler ni izpolnjen zastavljeni pogoj (v tem primeru visok rezultat). Z vsako naslednjo generacijo umetna inteligenca absorbira znanje prejšnje generacije in je zato boljša pri doseganju istega cilja in preseganju. Nadaljujte in končali boste z umetno inteligenco, ki je popolnoma brez konkurence pri svoji nalogi. Tu se je točno to zgodilo z oceno Q * bert.
Orisano v papir , ki so ga prejšnji teden objavili raziskovalci na univerzi v Freiburgu v Nemčiji, kaže, da hrošč ni bila znana količina. Pravzaprav, čeprav niso preveč presenečeni nad iskanjem napake, je zanimivo videti, kako se je nato AI nadaljeval in se naučil izkoriščati vsakič, ko je igral, da bi čim bolj povečal svoj točkovalni potencial.
PREBERITE NAPREJ: Ta umetna inteligenca se je naučila obvladovati Super Mario Bros
Da bi našel napako, se je moral agent najprej naučiti skoraj dokončati prvo stopnjo - to ni bilo storjeno naenkrat, ampak z uporabo številnih majhnih izboljšav, so pojasnili raziskovalci Register . Sumimo, da je na neki točki treninga ena izmed rešitev za potomce naletela na napako in dobila veliko boljši rezultat v primerjavi s svojimi brati in sestrami, kar je posledično povečalo njen prispevek k posodobitvi - njegova teža je bila najvišja pri tehtani srednji vrednosti. To je rešitev počasi premaknilo v prostor, kjer se je vedno več potomcev začelo srečevati z isto hroščico.
Ne poznamo natančnih pogojev, pod katerimi se napaka pojavi; možno je, da se pojavi le, če agent sledi vzorcu, ki se zdi neoptimalen, [na primer, ko agent izgublja čas ali celo izgubi življenje]. Če bi bilo tako, bi bilo za običajne RL zelo težko najti napako: če uporabljate postopne nagrade, se boste naučili strategij, ki hitro prinesejo neko nagrado, namesto učnih strategij, ki nekaj časa ne prinesejo veliko nagrad in potem nenadoma zmagajte veliko.
Glej sorodno Dragster prvak Todd Rogers je po 35 letih pravkar izgubil krono Ta umetna inteligenca se že 17 dni uči obvladovanja Super Mario Bros 1-2 Oglejte si to AI, kako se naučite voziti v GTA V na Twitchu
Kljub čudovitim botovim rezultatom pa raziskovalci ne trdijo, da je to primer, da bi zagovarjali učenje ES nad RL. Dejansko imata oba sistema svoje težave in kombinacija obeh je v glavnem najboljša možnost za napredovanje.
Ista metoda ES pri drugih igrah Atari ni prinesla niti približno enakih pozitivnih rezultatov. Po drugi strani je RL odgovoren za razbijanje rekordov levo, desno in sredino, vključno s premagovanjem najboljšega svetovnega igralca GO. ES ima še vedno svoje mesto v stvareh in pravzaprav Nvidia veliko izvaja treninge z umetno inteligenco, ker zahteva več računske moči, vendar v daljšem časovnem obdobju dosega boljše rezultate.
Ne glede na to, kateri način bo postal prihodnost za razvoj umetne inteligence, vsaj ta bot, ki vara sistem, ni tako slab kot ta zdaj osramočeni svetovni prvak v video igrah .