本發(fā)明涉及smt生產(chǎn),具體是一種基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法。
背景技術(shù):
1、近年來,印刷電路板(pcb)的需求不斷增加,影響其生產(chǎn)效率的關(guān)鍵的表面貼裝技術(shù)smt(surface?mounted?technology)車間的調(diào)度是一個涉及到車間和工序兩個層級、工序?qū)佑钟卸鄠€子問題的結(jié)構(gòu)復雜的車間調(diào)度問題(flow-shop?scheduling?problem,fsp)。smt-fsp(smt?flow-shop?scheduling?problem)是一個多級多子問題的動態(tài)優(yōu)化決策問題:1、在車間層面,需要解決多個任務(wù)作業(yè)的在車間的調(diào)度;2、在瓶頸工位層面,因為sms工位需要貼裝的元件數(shù)量眾多,又需將其分配給不同的sms機器,不同的貼裝順序的完工時間亦會不同;同時,車間管理還受到各種動態(tài)事件的影響,如任務(wù)作業(yè)的變化、機器故障等。
2、smt生產(chǎn)線(smt?line,smtl)包括5個工位,分別由焊膏印刷機(solder?pasteprinter,spp)、焊料粘貼檢查(solder?paste?inspection,spi)、表面貼裝系統(tǒng)(surfacemount?system,sms)、回流焊接機(reflow?soldering?machine,rsm)、自動光學檢查(autooptical?inspection,iao)等生產(chǎn)設(shè)備串聯(lián)組成,sms工位上是由至少一臺相同的sms機器組成的sms機組,除sms工位外其他工位均只配置一臺機器。每個smt車間配置至少一條smtl。smtl通常會配置多臺sms機器,這些串聯(lián)的sms機組是smt生產(chǎn)線的瓶頸,也是設(shè)備成本最高的部分。
3、當前對于這些問題的研究主要集中在某些部分,同時解決這些問題的研究成果很少發(fā)現(xiàn)。根據(jù)生產(chǎn)需求,smtl需要保持串分布式布置裝配線結(jié)構(gòu),普通的柔性生產(chǎn)線不能滿足其生產(chǎn)需求。為了提高smt-fsp的求解效率和質(zhì)量,本文提出一種基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法,使smt生產(chǎn)線對于不同的任務(wù)作業(yè)和動態(tài)事件可以在線自適應重構(gòu)。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于,提供一種基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法。本發(fā)明通過集成多個深度強化學習模型的端到端多智能體系統(tǒng),將smt-fsp作為一個系統(tǒng)問題進行解決,提高了smt生產(chǎn)線的生產(chǎn)效率。
2、本發(fā)明的技術(shù)方案:一種基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法,包括以下步驟:
3、步驟一:構(gòu)建自適應重構(gòu)smt生產(chǎn)線,采用深度強化學習模型訓練多個智能體,將多個智能體集成為多智能體系統(tǒng);
4、步驟二:采用多智能體系統(tǒng)完成自適應重構(gòu)smt車間調(diào)度問題:在sms工位上,對sms機組重構(gòu)、元件分配問題和元件放置順序問題進行聯(lián)合決策;在smt車間上,對任務(wù)作業(yè)進行排序,獲得smt車間調(diào)度方案。
5、上述的基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法,步驟一中,所述智能體包括自適應重構(gòu)智能體、sms智能體和smt智能體。
6、前述的基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法,步驟二中,所述自適應重構(gòu)智能體用于提供重構(gòu)備選方案集;所述sms智能體用于獲得重構(gòu)方案集中每個方案的元件分配問題、元件放置順序問題的解和生產(chǎn)時間;所述smt智能體用于確定smt車間任務(wù)作業(yè)的排序問題,獲得smt車間調(diào)度方案。
7、前述的基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法,步驟二中,所述采用多智能體系統(tǒng)完成自適應重構(gòu)smt車間調(diào)度問題包括:
8、決策1:根據(jù)當前正常運行的sms機器的數(shù)量,采用自適應重構(gòu)智能體獲得sms工位上的pcb板重構(gòu)備選方案集;所述重構(gòu)備選方案集滿足配料槽和吸嘴的資源約束;
9、決策2:采用sms智能體獲取重構(gòu)備選方案集中每個方案的元件分配問題和元件放置順序問題的解,得到sms工位上每個方案的最小生產(chǎn)時間;
10、決策3:采用smt智能體計算每個方案的準備時間,得到每個任務(wù)作業(yè)在sms工位的最小生產(chǎn)時間;
11、決策4:采用smt智能體,以帶權(quán)重的最小延誤時間為目標,對smt車間任務(wù)進行排序,獲得smt車間調(diào)度方案。
12、前述的基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法,決策1中,所述重構(gòu)備選方案集表示為:
13、
14、其中,為重構(gòu)備選方案;w為sms機組中當前正常運行的機器數(shù)量。
15、前述的基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法,決策1中,所述配料槽和吸嘴的資源約束為:
16、w≤m;?(2)
17、
18、
19、其中,m為sms機組中機器的數(shù)量;cti為pcbi上元件類型的數(shù)量,pcbi為通過i索引標識的pcb板;nti為pcbi上所需的吸嘴類型的數(shù)量;fs為sms機器上配料槽的數(shù)量;ns為sms機器上吸嘴的種類;為中sms機器的數(shù)量。
20、前述的基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法,決策2中,所述sms工位上每個方案的最小生產(chǎn)時間的計算如下:
21、
22、
23、
24、
25、其中,sx為pcb板原點在sms機器上的x軸坐標;sy為pcb板原點在sms機器上的y軸坐標;為元件在pcbi上的x軸坐標,為pcbi上類型為compl的第n個元件,compl為通過l索引標識的元件種類;為元件在pcbi上的y軸坐標;為中第q個sms機器;為元件在第個sms機器上的配料槽x軸坐標;為元件在第個sms機器上的配料槽y軸坐標;為在中,第k個在第個sms機器上加工過的元件為元件的生產(chǎn)時間;為sms機頭到元件配料槽的x軸距離;為sms機頭到元件配料槽的y軸距離;為sms機頭到元件貼裝位置的x軸距離;為sms機頭到元件貼裝位置的y軸距離;v為sms機頭的移動速度;t1l為元件的放置時間;t2l為元件的抓取時間;為分配給第個sms機器加工的元件數(shù)量;為的生產(chǎn)時間。
26、前述的基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法,決策3中,所述每個任務(wù)作業(yè)在sms工位的最小生產(chǎn)時間的計算如下:
27、
28、其中,為在jobj中pcbi的最短生產(chǎn)時間,jobj為通過j索引標識的任務(wù)作業(yè);為jobj中pcbi的平均準備時間。
29、前述的基于深度強化學習的smt自適應生產(chǎn)線的動態(tài)調(diào)度方法,決策4中,所述以帶權(quán)重的最小延誤時間為目標,對smt車間任務(wù)進行排序,獲得smt車間調(diào)度方案的計算過程如下:
30、
31、其中,pj為jobj的生產(chǎn)時間;oj為jobj的訂單數(shù)量;lj為jobj的延誤時間;tj為jobj的開始時間;dj為jobj的截止期限;f為車間調(diào)度方案;r為任務(wù)作業(yè)的數(shù)量;ωj為jobj的權(quán)重。
32、與現(xiàn)有技術(shù)相比,本發(fā)明的自適應重構(gòu)smt生產(chǎn)線相對于靜態(tài)的smt生產(chǎn)線組織結(jié)構(gòu),在發(fā)生動態(tài)事件的制造環(huán)境下具有更高的效率和穩(wěn)定性,當部分sms機器發(fā)生故障時,smt生產(chǎn)線可繼續(xù)運行;同時,在面對不同的任務(wù)作業(yè)時,多智能體系統(tǒng)可以自適應重構(gòu),有效提高了smt生產(chǎn)線的生產(chǎn)效率;此外,相對當前sms工位優(yōu)化中只考慮元件分配問題和元件放置順序問題兩個子問題,本發(fā)明將smt生產(chǎn)線重構(gòu)與其聯(lián)合優(yōu)化,增加了優(yōu)化的層次和深度;本發(fā)明通過集成多個深度強化學習模型的端到端多智能體系統(tǒng),將smt-fsp作為一個系統(tǒng)問題進行解決,提高了smt生產(chǎn)線的生產(chǎn)效率。