Сауданы оңтайландыру үшін күшейтуді үйрену алгоритмі

Менің сұрағым қағазда сипатталған алгоритммен байланысты: Оңтайландырылған сауда-саттықты күшейту үшін күшейтілген оқыту

Бұл мақалада сауданы оңтайландыру мәселесін шешу үшін оқытуды күшейтетін оқыту әдістемесі қолданылады. Олар деректерді эпизодтарға бөліп, содан кейін қолданыңыз (4-беттегі сілтемесінде ) оңтайлы саясатты табу үшін келесі жаңарту ережесі (шығын функциясына) және алгоритм:

T - жалпы уақыт бірліктері, I - көлемі, L - әрекеттердің мүмкін саны, x - > c - шығын функциясын білдіреді және c_im - белгілі бір уақытта тікелей сыйақы және белгілі бір әрекет. n әрекетті жұбы болды)

enter image description here

Міне, менің сұрақтарым:

Егер мен дұрыс түсінсем, алгоритм негізінен динамикалық бағдарламалау болып табылады.

  1. Неліктен бізге шығын функциясын жаңарту ережесінде n керек. Әрбір мемлекетке бір рет келіп тұрмыз ба?

  2. Егер дұрыс түсінетін болсам, біз бұл алгоритмді әр эпизодқа (45000 эпизодты қамтитын қағаздағы эксперимент) іске қосуымыз керек. Мұндай жағдайда нәтижелерді барлық эпизодтардан қалай біріктіреміз? Яғни, әрбір эпизод оңтайлы саясатты қамтамасыз етеді. Бұл саясаттың барлығын бір саясатқа қалай қосамыз?

1

1 жауаптар

Неліктен біз шығындарды функцияны жаңарту ережесінде n қажет етеміз. Әрбір мемлекетті бір рет кездестірмейміз бе?

Жаңарту статикалық таратуды болжайды және орташа мәнді бағалайды. Әрбір бағалау жүргізілген сайын, ол әр уақыттың жалпы санынан аз болады. Формула бірінші үлгісі $ 1 $, екінші $ \ frac {1} {2} $, үшінші $ \ frac {1} {3} $ деп бағаланады, бұл өзгерістерді қолданғанда орташа мәнді алу керек әр үлестегі орташа мәнді ең жақсы бағалауды сақтай отырып, үлгілерге сəйкес келеді.

Бұл менің RL тәжірибемдегі сәл таң қалдырады, себебі ол bootstrap мәндерін (келесі қадамнан жоғары) түпкілікті бөлуден салмаққа теңдейді. Бірақ, менің ойымша, соңғы қадамнан бастап жұмыс істегендіктен, ол жақсы, сондықтан әрбір жүктеу тасығышының құны бұрынғы уақытқа дейін бармас бұрын толығымен бағалануы керек.

Егер мен дұрыс түсінсем, біз осы алгоритмді әр эпизодқа (45000 эпизодты қамтитын қағаздағы эксперимент) іске қосуымыз керек

Бұл барлық деректер жиынтығында жұмыс істейтін алгоритмге ұқсайды, онда әрбір эпизод бірдей ұзындығы $ T $. Осылайша, әрбір уақытты орындаңыз (соңғы уақыт кезеңінен басталып, соңғы сыйақы эпизод соңында орнатылғаннан кейін жұмыс істейді, сондықтан бұл тиімдірек болады) және сол уақыт кезіндегі әрбір эпизодынан алынған үлгі While (деректердің соңы емес) циклында. Сондықтан осы мәндер цикл ішінде біріктіріледі және эпизодты біріктіру үшін алгоритмге ештеңе қосудың қажеті жоқ.

1
қосылды
@MiriamFarber Біз барлық іс-шараларға қатысты мемлекеттік маңызы бар үлгілер үшін орташалаймыз; $ n $ уақытты немесе эпизодқа қарамастан, жаттығу деректерінде қанша рет мемлекеттік әрекет жұбының қанша рет көрілгенін санау керек. Мен өту көшіру x -> y жолында болмаса, кез келген кездейсоқтықты көрмеймін
қосылды автор Jeff Ferland, көзі
@MiriamFarber: Иә, осы нақты жағдайда әрбір күй/әрекет бір эпизодқа бір рет барады, себебі мемлекет уақытты қамтиды. Дегенмен, бұл әдетте оқу-жаттығу үшін дұрыс емес.
қосылды автор Jeff Ferland, көзі
Ұлы жауап! Сондықтан, жаңартылған ережеде орташаланған кезде, біз эпизодтардан орташа есептелеміз бе? Яғни, егер бір эпизод болған болса, біз әрдайым n = 0 аламыз ба? Сонымен қатар, дәл дұрыс түсінуім үшін: t = T кезінде нақты үш еселігі (t, v, a) үшін c (t, v, a) мәні мен алған барлық эпизодтардан
қосылды автор Stéphane Laurent, көзі
Тұтастай алғанда, процесте кездейсоқтық жоқ. Бұл қарапайым кері динамикалық бағдарламалау. Яғни алгоритмді бірдей деректермен бірнеше рет іске асыратын болсам, дәл сол нәтижелерді алуға болар едім, дұрыс?
қосылды автор Stéphane Laurent, көзі
Timestep - мемлекеттің анықтамасының бір бөлігі (ең негізгі жағдайда x = (t, v)), сондықтан бізде N эпизодтары бар болса, біз кез келген мемлекеттік әрекет жұпына дәл N рет келмей ме? Яғни, «эфирге бір рет барып қайтқан c (t, v, a)» деген жол емес пе? Жаңарту жолынан басқа, әрекет жұбы күйіне қосымша кірулер бар ма? (сонымен қатар қағаздан алгоритмде типо бар деп ойлаймын және мен оны v деген).
қосылды автор Stéphane Laurent, көзі