處于完全合作關(guān)系的多智能體的利益一致,獲得的獎勵相同,有共同的目標。比如多個工業(yè)機器人協(xié)同裝配汽車,他們的目標是相同的,都希望把汽車裝好。在多智能體系統(tǒng)中,一個智能體未必能觀測到全局狀態(tài) S。設(shè)第 i 號智能體有一個局部觀測,記作 Oi,它是 S 的一部分。不妨假設(shè)所有的局部觀測的總和構(gòu)成全局狀態(tài):
BPTEOS(Back Propagation Through Time with Evolving Objectives and Strategies)是一種強化學(xué)習(xí)(Reinforcement Learning)算法,結(jié)合了時間反向傳播和動態(tài)目標與策略的演進。該算法通過不斷優(yōu)化目標和策略來實現(xiàn)智能體在動態(tài)環(huán)境中的學(xué)習(xí)和決策。