Glavni Storitve Pretakanja AI se pri Q * bertu nauči goljufati na način, kot še nihče od ljudi

AI se pri Q * bertu nauči goljufati na način, kot še nihče od ljudi



AI je uspel goljufati z najboljšimi, kar jih človeštvo ponuja, potem ko je odkril podvig v klasični arkadni igri Q * bert in tekel z njim.

Medtem ko bi prejšnje ponovitve AI pravilno igrale Q * bert, na neki točki pri učenju, kako igra deluje, odkrije podvig, ki ji omogoča, da nabira nore točke. Seveda, tako kot vsak igralec rezultatov, ponavlja postopek, da lahko na najbolj učinkovit način poveča rezultat.

V spodnjem videoposnetku si lahko ogledate AI, ki se premika po platformah. Sprva je videti, kot da brezciljno skače med ploščadmi. Namesto da bi napredoval v naslednjem krogu, se Q * bert zatakne v zanki, kjer začnejo utripati vse njegove platforme - tu lahko AI nato nadaljuje z velikimi točkami.

PREBERITE NAPREJ: Končno je diskreditiran eden najbolj kontroverznih zapisov igre

kako priti do spotify lokalnih datotek na iphone -

Kako je AI zmagal v vojni Q * bert

Razbijal je ves čas za naslov, AI je dosegel neverjetno visoke rezultate, zahvaljujoč programiranju algoritmov evolucijske strategije. Evolucijske strategije (ES) se razlikujejo od običajnega učenja okrepitve (RL), ki ga uporablja tradicionalna umetna inteligenca, saj je zaradi svojega generacijskega učenja videti bolj prilagodljiva.

Vsaka učna zanka se imenuje generacija in nadaljuje svojo nalogo, dokler ni izpolnjen zastavljeni pogoj (v tem primeru visok rezultat). Z vsako naslednjo generacijo umetna inteligenca absorbira znanje prejšnje generacije in je zato boljša pri doseganju istega cilja in preseganju. Nadaljujte in končali boste z umetno inteligenco, ki je popolnoma brez konkurence pri svoji nalogi. Tu se je točno to zgodilo z oceno Q * bert.

Orisano v papir , ki so ga prejšnji teden objavili raziskovalci na univerzi v Freiburgu v Nemčiji, kaže, da hrošč ni bila znana količina. Pravzaprav, čeprav niso preveč presenečeni nad iskanjem napake, je zanimivo videti, kako se je nato AI nadaljeval in se naučil izkoriščati vsakič, ko je igral, da bi čim bolj povečal svoj točkovalni potencial.

PREBERITE NAPREJ: Ta umetna inteligenca se je naučila obvladovati Super Mario Bros

Da bi našel napako, se je moral agent najprej naučiti skoraj dokončati prvo stopnjo - to ni bilo storjeno naenkrat, ampak z uporabo številnih majhnih izboljšav, so pojasnili raziskovalci Register . Sumimo, da je na neki točki treninga ena izmed rešitev za potomce naletela na napako in dobila veliko boljši rezultat v primerjavi s svojimi brati in sestrami, kar je posledično povečalo njen prispevek k posodobitvi - njegova teža je bila najvišja pri tehtani srednji vrednosti. To je rešitev počasi premaknilo v prostor, kjer se je vedno več potomcev začelo srečevati z isto hroščico.

Ne poznamo natančnih pogojev, pod katerimi se napaka pojavi; možno je, da se pojavi le, če agent sledi vzorcu, ki se zdi neoptimalen, [na primer, ko agent izgublja čas ali celo izgubi življenje]. Če bi bilo tako, bi bilo za običajne RL zelo težko najti napako: če uporabljate postopne nagrade, se boste naučili strategij, ki hitro prinesejo neko nagrado, namesto učnih strategij, ki nekaj časa ne prinesejo veliko nagrad in potem nenadoma zmagajte veliko.

Glej sorodno Dragster prvak Todd Rogers je po 35 letih pravkar izgubil krono Ta umetna inteligenca se že 17 dni uči obvladovanja Super Mario Bros 1-2 Oglejte si to AI, kako se naučite voziti v GTA V na Twitchu

Kljub čudovitim botovim rezultatom pa raziskovalci ne trdijo, da je to primer, da bi zagovarjali učenje ES nad RL. Dejansko imata oba sistema svoje težave in kombinacija obeh je v glavnem najboljša možnost za napredovanje.

Ista metoda ES pri drugih igrah Atari ni prinesla niti približno enakih pozitivnih rezultatov. Po drugi strani je RL odgovoren za razbijanje rekordov levo, desno in sredino, vključno s premagovanjem najboljšega svetovnega igralca GO. ES ima še vedno svoje mesto v stvareh in pravzaprav Nvidia veliko izvaja treninge z umetno inteligenco, ker zahteva več računske moči, vendar v daljšem časovnem obdobju dosega boljše rezultate.

Ne glede na to, kateri način bo postal prihodnost za razvoj umetne inteligence, vsaj ta bot, ki vara sistem, ni tako slab kot ta zdaj osramočeni svetovni prvak v video igrah .

Zanimivi Članki

Izbira Urednika

Kaj resnično prinese 10 GB podatkov?
Kaj resnično prinese 10 GB podatkov?
Pozabite na vnaprejšnje stroške ali mesečne provizije, za nas je najpomembnejši del telefonske pogodbe dostop do podatkov o visoki hitrosti in nato dovolj podatkovnih podatkov, ki spodbujajo naše brskalne navade. Omrežje
Nasveti in triki Fallout 4: Vse, kar morate vedeti, da preživite v Commonwealtha
Nasveti in triki Fallout 4: Vse, kar morate vedeti, da preživite v Commonwealtha
Fallout 4 resnično zajema življenje po jedrskem holokavstu. Ne samo, da je svet večinoma neploden in poln mutantov in preživelih preživelih, ampak je tudi zmeden kraj, kjer tradicionalni zakoni nimajo več smisla. Je
Kako si ogledati zgodovino nakupov v Steamu
Kako si ogledati zgodovino nakupov v Steamu
https://www.youtube.com/watch?v=2TPilVjSJLw Količina vsebine v Steamu je skoraj neomejena, zaradi česar mnogi porabijo veliko denarja za platformo. Na srečo obstaja nov način za ogled celotne zgodovine nakupov. To
Kako združiti daljinski upravljalnik Samsung s televizorjem
Kako združiti daljinski upravljalnik Samsung s televizorjem
V tem članku je razloženo, kako združiti daljinski upravljalnik Samsung s televizorjem, vendar ne pozabite, da je vsak daljinski upravljalnik mogoče povezati samo z enim televizorjem hkrati.
Kako popraviti nekatere nastavitve, ki jih upravlja Windows, v Windows 10
Kako popraviti nekatere nastavitve, ki jih upravlja Windows, v Windows 10
Windows 10 naj bi uporabljali tako potrošniki kot podjetja in vključuje nekatere pomembne varnostne funkcije za slednjo skupino, ki zaposlenim omejujejo dostop do kritičnih funkcij. Toda nekateri potrošniški uporabniki sistema Windows 10 naletijo na napako, zaradi katere operacijski sistem misli, da je v lasti uporabniške neobstoječe organizacije. Evo, kako lahko potrošniki, ki imajo lastne osebne računalnike, popravijo
LG G3 in Samsung Galaxy S5: kaj je najboljši pametni telefon višjega razreda?
LG G3 in Samsung Galaxy S5: kaj je najboljši pametni telefon višjega razreda?
LG G3 in Samsung Galaxy S5 sta dva največja in najboljša pametna telefona doslej. G3 in S5 sta si na drobno za 550 in 459 funtov zaslužila trdna mesta na našem seznamu najboljših telefonov.
Kako spremenite tip PS4 NAT v tip 2
Kako spremenite tip PS4 NAT v tip 2
Če imate težave s povezavo PlayStation 4 (PS4) z omrežjem PlayStation Network (PSN), na primer pogoste prekinitve povezav ali visoke stopnje pinga, vam lahko pomaga spremeniti vrsto prevajanja omrežnih naslovov (NAT). Vedeli boste, če boste morali