Metaatminties evoliucija, pagrįsta savarankiška nuoroda į savo atmintį dirbtiniame neuroniniame tinkle su neuromoduliacija

Užduotis

2 paveiksle pateikiama užduoties apžvalga, pagrįsta naudojama DMTS paradigma6. Pirma, agentas gauna tikslinį modelį, sudarytą iš penkių dvejetainių skaitmenų, kurie tyrimo etape atsitiktinai atrenkami iš 00001, 00010, 00100, 01000 ir 10000. Toliau seka delsos fazė, kurios metu agentas gauna 00000 kaip išblaškymo šabloną iš anksto nustatytą skaičių kartų, apibrėžtą lygtyje. (1), o tai turės įtakos jo atminties neapibrėžtumui.

$$ pradžia {lygiuotas} N_ {delsimas} = lfloor { frac {-1} { lambda times ln {(R)}}} rfloor + 1, end {aligned} $$

(1)

kur ( lambda ) žymi parametrą, susijusį su skirstinio forma, ir R reiškia vienodą atsitiktinį skaičių nuo [0, 1].

Vėliau, su 2/3 tikimybe, prasideda pasirinkimo fazė. Šios fazės metu agentas gauna signalą, reiškiantį, kad jis yra toje fazėje, ir pastovią reikšmę (CV), kuris pateikiamas kiekvienam įvesties neuronui kaip įvesties šablonas. Tikimasi, kad pastovi vertė bus naudojama atminties nuorodai į save. Viena agento išvestis diapazone ([-1, 1]) bus aiškinamas kaip ketinimas atsisakyti arba pradėti teismą, kai bus daugiau nei 1/3. Tokiu atveju agentas gauna nedidelį atlygį (0,3). Priešingu atveju, jei vertė lygi 1/3 arba viršija ją, tai bus interpretuojama kaip ketinimas laikyti testą. Tačiau, esant 1/3 tikimybei, pasirinkimo fazė praleidžiama kaip privaloma sąlyga.

Bandymo fazėje agentas gauna visus šablonus iš eilės atsitiktine tvarka, o išvestis svyruoja ([-1, 1]) interpretuojamas kaip atsakas į kiekvieną modelį. Tiksliau, kai atsakymas pirmą kartą viršija 1/3, atitinkamas įvesties šablonas bus interpretuojamas kaip agento pasirinkimas ir užduotis baigiasi. Jei jis atitinka tyrimo fazėje pateiktą tikslinį modelį, agentas apdovanojamas dideliu atlygiu (1,0). Priešingu atveju, jei jis neatitinka tikslo arba visi atsakymai neviršija 1/3, jis apdovanojamas niekuo (0,0).

Be to, mes priimame neišsprendžiamą sąlygą, kai agentai negauna vieno iš penkių modelių, o tyrimo etape gauna išblaškantį modelį 00000. Esant tokiai būsenai, jie gaus didelį atlygį (1.0) tik tada, kai pasirenka atmetimo parinktį. Tikimės, kad šis papildymas paspartins galimybės pasirinkti parinktį raidą.

Metaminacijos kriterijai

Paprastai sąlyga, kad agentas turėtų meta atmintį, yra ta, kad ji atitinka vieną iš bihevioristinių metaatminties paradigmų (pvz., DMTS paradigma), nepriklausydamas nuo išorinių užuominų. Čia terminas „išorinis“ (ženklai / informacija) reiškia dirgiklius, kurie neuroniniam tinklui pateikiami kaip įvesties reikšmės, o „vidinis“ reiškia dirgiklius, kurie tiesiogiai nenaudoja įvesties verčių, bet yra generuojami viduje per veiklą. paties tinklo modelio. Tačiau yra keli mechanizmai, atitinkantys šią sąlygą, kaip aptarėme ankstesniame skyriuje. Norėdami juos atskirti, apibrėžiame šiuos loginius kriterijus, susijusius su mechanizmais, pagrįstais metaatmintimi pagrįstu elgesio pasirinkimu13, kaip parodyta pav. 3. Taikydami šiuos kriterijus, galime klasifikuoti evoliucinių eksperimentų kompiuteriuose atskleistus mechanizmus ir aptarti jų evoliucinį tikimybę.

Šis kriterijus atmeta kai kuriuos sprendimus eksperimentuose, pagrįstuose DMTS paradigma, kurie buvo kritikuojami, ir kartu nereikalaujama, kad agentas stebėtų saugomą informaciją apie stimulų įvestį.

Agentas turi pasiekti net dalį savo atminties, nors to nepakanka atskirti, ar pasiekta metaatminties funkcija pagrįsta antros eilės atvaizdais, ar ne.

Šis kriterijus buvo nustatytas kaip siauriausias metaatminties apibrėžimas. Kad atitiktų šį kriterijų, agentas turėtų saugoti informaciją, sugeneruotą remiantis atminties vaizdavimo būsena (pirmos eilės vaizdavimas), kaip metavaizdavimą (antros eilės vaizdavimą). Šiame dokumente nesigilinama į žmogaus metaatminties detales. Tačiau, kaip minėta skyriuje „Įvadas“, tapo aišku, kad žmonės, atrodo, daro tikrus sprendimus darydami išvadas iš daugybės užuominų, kurias gali įvertinti. Todėl aišku, kad žmogaus atvejis atitinka kriterijus iki C2.

Neuroninis tinklas

Dirbtinis neuroninis tinklas yra matematinis modelis, įkvėptas nervų ląstelių veiklos smegenyse. 4 paveiksle pavaizduotas standartinio neurono aktyvavimo procesas tinkle, kuris lemia pagrindinę tinklo dinamiką. Visą tinklą sudaro neuronai ir nukreiptos jungtys su svorio reikšmėmis tarp neuronų. Kiekvienas neuronas (1) gauna svertinę įeinančių verčių sumą iš kitų neuronų, o (2) išveda aktyvavimo vertę, taikant netiesinę transformaciją (hiperbolinės tangentės funkciją). Šis procesas vienu metu atliekamas visiems neuronams kiekviename laiko žingsnyje, siekiant apskaičiuoti jų esamas išvesties vertes, naudojant kitų neuronų išvestis ankstesniame laiko etape. Mes leidžiame neuronams turėti pasikartojančius ryšius, kurie leidžia jų išėjimui paveikti būsimas jų įvestis.

Kiekvieno agento neuroninį tinklą sudaro keli standartiniai neuronai, įskaitant septynis įvesties ir du išvesties neuronus, ir moduliacinius neuronus (aprašytus kitame poskyryje), kaip parodyta Fig. 5. Tarp septynių įėjimų vienas įvesties neuronas gauna signalą, rodantį, ar jis yra pasirinkimo fazėje (1), ar ne (0). Kitas yra poslinkio neuronas, kuris gauna pastovią įvesties reikšmę (1,0). Kiekviena kitų penkių neuronų įvestis atitinkamai gauna vieną iš penkių įvesties modelio skaitmenų.

Tinklo topologija vystosi užtikrinant, kad neuronų skaičius būtų ne didesnis kaip 16, įskaitant standartinius ir moduliuojančius neuronus, bet neįskaitant įvesties neuronų. Kiekvienam tinklo ryšio svoriui leidžiama turėti diapazoną ([-10, 10]). Tinklas įveda tuos pačius modelius iš eilės keturis kartus pasirinkimo fazėje ir tris kartus kitose fazėse. Įvesties kartojimas yra būtinas, kai pasikartojantys tinklai naudojami įvesties poveikiui visame tinkle skleisti. Kiekviena visų neuronų vertė visose fazėse yra šiek tiek modifikuojama pridedant tinkamą Gauso triukšmo kiekį (įvesties neuronai: ( mu = 0,0 ) ir ( sigma = 0,1 )kiti neuronai: ( mu = 0,0 ) ir ( sigma = 0,0001 )). Gauso triukšmas pridedamas, kad būtų išvengta netvarių agentų evoliucijos. Manome, kad tvirtumo trūkumas yra priežastis, kodėl išsivystę agentai atitiko C1, bet ne C215.

Neuromoduliacija

Mes naudojame neuroninius tinklus su neuromoduliuotu plastiškumu7 lavinti metaatminties gebėjimus, nes manome, kad neuromoduliacija yra svarbi siekiant aukštesnės eilės pažinimo funkcijų. Tiksliau, Arnoldas ir kt.16 pasiūlė atranką mokytis ir atranką antrosios eilės mokymuisi, ty (pirmos eilės) mokymosi pokyčius, kaip priežastinius veiksnius, skatinančius atitinkamai įgimtų ir įgytų vaizdavimo formų atsiradimą, ir sėkmingai įrodė, kad kognityvinis žemėlapis, yra viena iš psichinių reprezentacijų, gali išsivystyti per antros eilės mokymąsi, pagrįstą antrosios eilės moduliacija. Mūsų modelio neuroniniame tinkle, be standartinių neuronų, taip pat yra moduliuojančių neuronų. Moduliaciniai neuronai veikia tikslinių neuronų ryšio svorių mokymosi greitį ir dinamiškai jį keičia, kaip parodyta Fig. 6. Visų pirma, moduliuojančio neurono išvestis (m_i ) moduliuoja ryšio svorio atnaujinimo taisyklės mokymosi greitį, priimdamas jį kaip moduliacinį signalą, o ne tiesiogiai paveikdamas aktyvinimo signalą. (a_i ). Jie apskaičiuojami naudojant Eqs. (2) ir (3).

$$ begin {aligned} & a_i = sum _ {j in Std} {w_ {ji} cdot o_j}, end {aligned} $$

(2)

$$ begin {aligned} & m_i = sum _ {j in Mod} _ w_ {ji} cdot o_j}, end {aligned} $$

(3)

kur (w_ {ji} ) yra jungties svoris iš presinapsinio neurono j į postsinapsinį neuroną i. Std ir Mod reiškia standartinių ir moduliuojančių neuronų, sujungtų su neuronu, rinkinius iatitinkamai. (o_j ) žymi neurono išvestį j ir apskaičiuojamas kaip (o_j = tanh {(a_j)} ). Manome, kad neuronas yra teigiamai aktyvuotas, jei jo išvesties vertė yra teigiama (arba apytiksliai 1), ir neigiamai, jei ji yra neigiama (arba apytiksliai). (- 1 )). Ryšio svoris iš neurono j į neuroną i atnaujinamas tik tada, kai jį moduliuoja vienas ar daugiau moduliuojančių neuronų naudojant Eq. (4), kuri yra pagrįsta Hebbo taisyklės išplėtimu, vadinama išplėstine hebų taisykle17.

$$ pradžia {lygiuotas} Delta w_ {ji} = tanh {(m_i)} cdot eta cdot (Ao_jo_i + Bo_j + Co_i + D), pabaiga {lygiuotas} $$

(4)

kur (o_j ) ir (o_i ) reiškia presinapsinio neurono j ir postsinapsinio neurono išvestis iatitinkamai. ( eta ), A, B, C ir D taip pat yra genetiniai parametrai. Taigi naujinimo taisyklė gali atspindėti įvairius sinapsinio atnaujinimo tipus per šių parametrų raidą.

Čia pateikiame mokymosi minimaliame neuroniniame tinkle pavyzdį Fig. 7. Pirma, neuronas moduliacijos signalus priima kaip (1). Antra, tinklas apskaičiuoja svorio dydžius, kurie turi būti pridėti prie kiekvieno ryšio svorio, remiantis išplėstine Hebbian taisykle kaip (2). Galiausiai jungčių svoriai atnaujinami kaip (3).

Evoliucinis algoritmas

Mes naudojame genetinio algoritmo variantą. Algoritmo sąranka iš esmės yra tokia pati, kaip ir siūloma6. Kiekvienas agentas turi tikrosios vertės ryšio svorių matricą (viena ašis atitinka presinapsinius neuronus, o kita – postsinapsinius neuronus) ir kiekvieno neurono tipą (standartinį arba moduliacinį), kad būtų galima nuspręsti dėl struktūros, ir penkis parametrus ( ( eta, A, B, C, D )) atnaujinimo taisyklei Eq. (4), kaip genomas. Kiekvienos jungties svoris (w_ {ij} ) ir ( eta ) yra diapazone ([-100, 100]) kol (A, ltaškai, D ) in ([-1, 1]). Šie genotipo parametrai konvertuojami į kiekvieną svorį (w_ {ji} ) fenotipe naudojant Eq. (5) ir (A, ltaškai, D ) fenotipe naudojant Eq. (6), išskyrus ( eta ).

$$ begin {aligned} & w_ {ji} = { left { begin {array} {ll} 0 &}} (| w_ {ji} ^ 3 | < 0.1) \ 10 cdot w_ } ji} ^ 3 ir {} (kitaip), pabaiga {masyvas} dešinė. pabaiga pabaiga {sulyginta} $$

(5)

$$ begin {aligned} & p = { left { begin {array} {ll} 0 & {} (| p ^ 3 | < 0.1) \ p ^ 3 & {} (kitaip), pabaiga {masyvas} dešinė. pabaiga pabaiga {sulyginta} $$

(6)

kur (p in {A, B, C, D } ). Bendras kiekvieno agento balas, gautas atliekant kiekvieno užduotį, apibrėžiamas kaip jo tinkamumas. Genetiniai operatoriai atliekami taip. Asmenys saugomi masyve ir suskirstomi į iš eilės einančius 5 dydžio segmentus (su atsitiktiniu segmentacijos poslinkiu kiekvienoje kartoje). Geriausias kiekvieno segmento individas tampa tėvu, o tada savo segmentui sukuria 5 vaikus, kartodamas kryžminimą su 0,1 tikimybe arba nukopijuodamas save kitaip. Kai įvyksta kryžminimas, partneris yra atsitiktinai atrenkamas iš visų populiacijos individų. Atsitiktiniai sveikieji skaičiai r ir c atrenkami iš [1, N]o dvi matricos generuojamos keičiantis tėvų submatricomis, kurias sudaro i, j elementai su i ir j mažesnis arba lygus r ir c, atitinkamai. Pagal plastiškumo taisyklės parametrus atliekamas vienodas kryžminimas. Tada, kaip mutacijos operatorius, su 0,1 tikimybe, Gauso triukšmas ( ( mu = 0,0 ), ( sigma = 0,3 )) pridedamas prie kiekvieno jungties svorio ir plastiškumo taisyklės parametrų, išskyrus ( eta )o Gauso triukšmas ( ( mu = 0,0 ), ( sigma = 3,0 )) pridedamas prie ( eta ). Galiausiai, kiekvieno neurono įterpimas, ištrynimas ir dubliavimas atliekami nepriklausomai, su tikimybėmis atitinkamai 0, 04, 0, 06 ir 0, 02. Kai įterpiama, pridėto neurono svoris atsitiktinai nustatomas diapazone ([-1, 1]), o neurono tipas (standartinis arba reguliuojamasis) nustatomas atsitiktinai. Šie procesai sudaro kartą ir kartojasi G laikai.

Parašykite komentarą

El. pašto adresas nebus skelbiamas.