最早把這個心理學(xué)原理引人人工學(xué)習(xí)系統(tǒng)的是加nsky(1954)。1959年,加Mel在他著名的跳棋游戲中也應(yīng)用了時序差分的思想。1972年,重錘式破碎機(jī)K10p5把試錯學(xué)習(xí)和時序差分結(jié)合在一起。1978年開始,Sukon、Ba亢o、Moorc,包括KloPf等對這兩者進(jìn)行結(jié)合,開始探人研究。最伏控制于20世紀(jì)50年代被提出:為動態(tài)系統(tǒng)設(shè)計(jì)一個控制器,重錘式破碎機(jī)在從初態(tài)轉(zhuǎn)移到終態(tài)時,保證系統(tǒng)的某個性能指標(biāo)保持最小值(或最大值)。1953—1957年,Eellman提出了求解最優(yōu)控制問題的一個有效方法:動態(tài)規(guī)劃(dyna此c prosm瓤—ming)。另一個有效方法是蘇聯(lián)龐特里雅金等人于1955—1958年提出的最大值原理。重錘式破碎機(jī)動態(tài)規(guī)劃在隨后的四十年里得到深入的研究,特別是在自動控制領(lǐng)域。
1957年,Bellmsn提出了最優(yōu)控制問題的隨機(jī)離散版本,就是著名的馬爾可夫決策過程(Markov dec的on processe,AOP)。U60午Hnward提出馬爾可夫決策過程的策略迭代方法,重錘式破碎機(jī)這些都成為現(xiàn)代強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)。真正把時序差分和最優(yōu)控制結(jié)合在一起的是Watkins等提出的Q—學(xué)習(xí)[Wa廣kins以al 19891,也把強(qiáng)化學(xué)習(xí)的三條主線扭在了一起。199z年,Tesauro用強(qiáng)化學(xué)習(xí)成功了應(yīng)用到雙陸棋(back8咖咖n)中,重錘式破碎機(jī)稱為TyGa咖onLTesaur01992],從此開始了強(qiáng)化學(xué)習(xí)的深入研究。強(qiáng)化學(xué)習(xí)模型
通過主體與環(huán)境的交互進(jìn)行學(xué)習(xí)。主體與環(huán)境的交互接口包括行動(action)、獎勵(r即ard)和狀態(tài)(歡ate)。重錘式破碎機(jī)交互過程可以表述為如圖lo.1所示的形式:每一步,主體根據(jù)策略選擇一個行動執(zhí)行,然后感知下一步的狀態(tài)和即時獎勵,通過經(jīng)驗(yàn)再修改自己的策略。主體的目標(biāo)就是最大化長期獎勵。
網(wǎng)址:
www.zzyawei.com制砂機(jī)
www.zzhuaye.com破碎機(jī)
www.zzhtzgjx.com制砂機(jī)
www.hnhuaye.cn對輥破碎機(jī)
www.zzhyzg.com破碎機(jī)
www.hyzgsy.com顎式破碎機(jī)
www.zzhyzg.cn制砂機(jī),砂石生產(chǎn)線