Glavni Storitve Pretakanja AI se pri Q * bertu nauči goljufati na način, kot še nihče od ljudi

AI se pri Q * bertu nauči goljufati na način, kot še nihče od ljudi



AI je uspel goljufati z najboljšimi, kar jih človeštvo ponuja, potem ko je odkril podvig v klasični arkadni igri Q * bert in tekel z njim.

Medtem ko bi prejšnje ponovitve AI pravilno igrale Q * bert, na neki točki pri učenju, kako igra deluje, odkrije podvig, ki ji omogoča, da nabira nore točke. Seveda, tako kot vsak igralec rezultatov, ponavlja postopek, da lahko na najbolj učinkovit način poveča rezultat.

V spodnjem videoposnetku si lahko ogledate AI, ki se premika po platformah. Sprva je videti, kot da brezciljno skače med ploščadmi. Namesto da bi napredoval v naslednjem krogu, se Q * bert zatakne v zanki, kjer začnejo utripati vse njegove platforme - tu lahko AI nato nadaljuje z velikimi točkami.

PREBERITE NAPREJ: Končno je diskreditiran eden najbolj kontroverznih zapisov igre

kako priti do spotify lokalnih datotek na iphone -

Kako je AI zmagal v vojni Q * bert

Razbijal je ves čas za naslov, AI je dosegel neverjetno visoke rezultate, zahvaljujoč programiranju algoritmov evolucijske strategije. Evolucijske strategije (ES) se razlikujejo od običajnega učenja okrepitve (RL), ki ga uporablja tradicionalna umetna inteligenca, saj je zaradi svojega generacijskega učenja videti bolj prilagodljiva.

Vsaka učna zanka se imenuje generacija in nadaljuje svojo nalogo, dokler ni izpolnjen zastavljeni pogoj (v tem primeru visok rezultat). Z vsako naslednjo generacijo umetna inteligenca absorbira znanje prejšnje generacije in je zato boljša pri doseganju istega cilja in preseganju. Nadaljujte in končali boste z umetno inteligenco, ki je popolnoma brez konkurence pri svoji nalogi. Tu se je točno to zgodilo z oceno Q * bert.

Orisano v papir , ki so ga prejšnji teden objavili raziskovalci na univerzi v Freiburgu v Nemčiji, kaže, da hrošč ni bila znana količina. Pravzaprav, čeprav niso preveč presenečeni nad iskanjem napake, je zanimivo videti, kako se je nato AI nadaljeval in se naučil izkoriščati vsakič, ko je igral, da bi čim bolj povečal svoj točkovalni potencial.

PREBERITE NAPREJ: Ta umetna inteligenca se je naučila obvladovati Super Mario Bros

Da bi našel napako, se je moral agent najprej naučiti skoraj dokončati prvo stopnjo - to ni bilo storjeno naenkrat, ampak z uporabo številnih majhnih izboljšav, so pojasnili raziskovalci Register . Sumimo, da je na neki točki treninga ena izmed rešitev za potomce naletela na napako in dobila veliko boljši rezultat v primerjavi s svojimi brati in sestrami, kar je posledično povečalo njen prispevek k posodobitvi - njegova teža je bila najvišja pri tehtani srednji vrednosti. To je rešitev počasi premaknilo v prostor, kjer se je vedno več potomcev začelo srečevati z isto hroščico.

Ne poznamo natančnih pogojev, pod katerimi se napaka pojavi; možno je, da se pojavi le, če agent sledi vzorcu, ki se zdi neoptimalen, [na primer, ko agent izgublja čas ali celo izgubi življenje]. Če bi bilo tako, bi bilo za običajne RL zelo težko najti napako: če uporabljate postopne nagrade, se boste naučili strategij, ki hitro prinesejo neko nagrado, namesto učnih strategij, ki nekaj časa ne prinesejo veliko nagrad in potem nenadoma zmagajte veliko.

Glej sorodno Dragster prvak Todd Rogers je po 35 letih pravkar izgubil krono Ta umetna inteligenca se že 17 dni uči obvladovanja Super Mario Bros 1-2 Oglejte si to AI, kako se naučite voziti v GTA V na Twitchu

Kljub čudovitim botovim rezultatom pa raziskovalci ne trdijo, da je to primer, da bi zagovarjali učenje ES nad RL. Dejansko imata oba sistema svoje težave in kombinacija obeh je v glavnem najboljša možnost za napredovanje.

Ista metoda ES pri drugih igrah Atari ni prinesla niti približno enakih pozitivnih rezultatov. Po drugi strani je RL odgovoren za razbijanje rekordov levo, desno in sredino, vključno s premagovanjem najboljšega svetovnega igralca GO. ES ima še vedno svoje mesto v stvareh in pravzaprav Nvidia veliko izvaja treninge z umetno inteligenco, ker zahteva več računske moči, vendar v daljšem časovnem obdobju dosega boljše rezultate.

Ne glede na to, kateri način bo postal prihodnost za razvoj umetne inteligence, vsaj ta bot, ki vara sistem, ni tako slab kot ta zdaj osramočeni svetovni prvak v video igrah .

Zanimivi Članki

Izbira Urednika

Vivaldi 3.4 je tukaj s kopico novih funkcij
Vivaldi 3.4 je tukaj s kopico novih funkcij
Izšel je Vivaldi 3.4, ki vsebuje nastavljive kontekstne menije, samodejno ponovno nalaganje strani na namizju in izboljšano postavitev hitrega izbiranja v Androidu. Zdaj vključuje tudi Vivaldia, pravo arkadno igro iz 80-ih, na obeh platformah. Vivaldi se je začel z obljubo, da vam bo ponudil zelo prilagodljiv, popoln, inovativen brskalnik. Zdi se, da so se razvijalci držali
Kako skriti datoteke in mape v Linux Mint
Kako skriti datoteke in mape v Linux Mint
Tu sta dve različni metodi, ki ju lahko uporabite za skrivanje datotek in map v Linuxu v upraviteljih datotek GUI in terminalu.
Dodajte kontekstni meni Sfc Scannow v sistemu Windows 10
Dodajte kontekstni meni Sfc Scannow v sistemu Windows 10
Kako dodati kontekstni meni SFC Scannow v sistemu Windows 10. Ukaz sfc / scannow je dobro znan način za preverjanje integritete vseh sistemskih datotek sistema Windows 10. sfc.exe je orodje za preverjanje sistemskih datotek, ki je lahko koristno v številnih scenarijih in odpravlja različne težave z operacijskim sistemom Windows 10. Prihranite lahko čas
Steve Jobs: Kako je spremenil Apple?
Steve Jobs: Kako je spremenil Apple?
Ko je Steve Jobs 5. oktobra 2011 umrl, je tehnološka industrija izgubila enega vodilnih inovatorjev in voditeljev. Toda največji učinek bo vedno čutil Apple, vpliv Jobsa pa še vedno močno vpliva na
Kako izbrisati vsa neprebrana e-poštna sporočila v Gmailu
Kako izbrisati vsa neprebrana e-poštna sporočila v Gmailu
Glede na to, kako dolgo uporabljate Gmail, ste morda nabrali na tisoče e-poštnih sporočil, ki jih ne nameravate prebrati. Marsikdo bo tega preprosto prezrl in opazoval, kako se njihova mapa »Prejeto« vedno bolj razmetava. Ob enem
Kako ustvariti bližnjico za odpiranje samodejne namestitve proxyja v sistemu Windows 8.1
Kako ustvariti bližnjico za odpiranje samodejne namestitve proxyja v sistemu Windows 8.1
Tu je še en priročen nasvet, da prihranite svoj čas in izboljšate uporabnost sistema Windows 8.1 za vas. Danes bomo z vami ekskluzivno delili, kako ustvarite bližnjico za odpiranje samodejne nastavitve proxyja. To je lahko zelo koristno, če želite hitro spremeniti samodejno konfiguracijo strežnika proxy v računalniku ali tabličnem računalniku.
Kje so možnosti odjave in zaklepanja v sistemu Windows 10?
Kje so možnosti odjave in zaklepanja v sistemu Windows 10?
Oglejte si, kako dostopati do možnosti odjave in zaklepanja v sistemu Windows 10.