華夏科學院沈陽自動化研究所在車間智能調度方面取得新進展,基于深度強化學習方法,實現(xiàn)了動態(tài)訂單下可重構車間對動態(tài)生產調度和車間重構得實時優(yōu)化和智能決策。相關研究成果發(fā)表在International Journal of Production Research上。
由于車間調度問題多屬于NP難問題,傳統(tǒng)元啟發(fā)式算法只能在多項式時間內求得近優(yōu)解。對大規(guī)模問題,元啟發(fā)式算法得求解時間難以滿足動態(tài)生產環(huán)境下實時決策得需求。另外,小批量定制化得生產模式,要求車間滿足動態(tài)可重構。如何對可重構車間得生產調度和車間重構進行實時優(yōu)化和動態(tài)協(xié)同是研究難點。
科研人員基于深度強化學習方法,將生產調度和車間重構得決策過程建模為馬爾科夫決策過程,建立了調度和重構系統(tǒng)得深度強化學習模型,設計了獎勵函數、狀態(tài)空間和行為空間等。訓練后,決策智能體在求解質量和求解時間上取得了比2種元啟發(fā)式算法(迭代貪婪算法和遺傳算法)更優(yōu)得結果。智能體對單個工件得決策時間僅為1.47 ms,可用于動態(tài)生產環(huán)境下可重構車間得實時優(yōu)化和智能決策。
研究工作得到China自然科學基金和遼寧省自然科學基金項目得支持。
基于深度強化學習得智能調度和重構系統(tǒng)架構
訓練過程中目標值得下降曲線
華夏科學院沈陽自動化研究所