本站小編為你精心準備了隨機森林的半導體排產思考參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《電子器件雜志》2014年第三期
決策樹是隨機森林算法的基本單元,決策樹的構造是由一個隨機向量所決定。隨機森林算法的本質是組合多個弱分類器(決策樹),使其誤差減小的一種分類算法,一般采用二叉決策樹作為基本模型,其模型如圖1所示。由于二叉決策樹只能對數據進行2分類,針對多類數據需對二叉決策樹進行節點多分叉,形成每個節點多次分叉的過程,從而構造了多叉決策樹模型。隨機森林的生成過程分以下4步:Step1(Bagging過程):假設每類訓練集中有N個樣本,有放回地隨機抽取n個樣本,作為一棵決策樹的訓練樣本。Step2(分裂屬性選擇過程):假設特征向量是m維,選取m1維作為子集指定給每個節點,從m1中選擇分類效果最佳的一維特征作為接點的分類屬性,且保證在隨機森林的生長過程中m1保持不變。采用信息熵作為判斷節點分裂屬性選擇的依據,設數據集種類為m,任意一個數據集的分類概率為Pi,則信息熵表達式H(X)為從以上步驟可以看出,隨機森林算法的誤差更為穩定,克服了單一決策樹的不足,體現了多個弱分類器合成強分類器的優勢。
2算法的實現
粗日排產控制的主要任務是根據周計劃投產品種和數量信息,進行日投產品種和數量的確定。企業中常用的粗日投料策略主要有兩種:基于投產品種平均分配的投料策略和基于品種投產量平均分配的投料策略。基于投產品種平均分配的投料策略,對周計劃以品種為單位進行拆分,確定日投產品種;基于投料量平均分配的投料策略,將周計劃中的各個品種的投產數量平均分配到每日。該兩種方法都未考慮品種更換對生產的影響,導致實際生產“改機代價”較大。本文提出采用基于隨機森林的排產控制策略,以降低改機代價為目標,首先對周計劃投產品種進行聚類分析,然后在此基礎上,采用基于品種平均和投產量平均的綜合策略,確定每日投產品種和各個品種的投產數量。
2.1分類因素提取與確定(1)分類屬性及權重確定。分析半導體生產中,“改機”影響因素有:圓片尺寸、裝片膠、框架型號、模具、塑封料、等。不同屬性影響品種更換的代價不同,如模具更換需要約4h的時間,而塑封料更換僅需要15min左右的時間,利用賦權的方式對各個屬性的“改機”代價影響程度進行給定,假設單位改機時間代價為t,各個因素的權重因子為ω1,則各因素的“改機”代價如式(2)所示:(2)分類類別個數m的確定。我們將周計劃中投產的不同半導體作為分類依據,根據不同的半導體種類進行類間分類,設半導體的類別個數為m。(3)投產量對分類結果的影響。一般來說,車間中各個類型的產能基本均衡。本文假設半導體生產工序的各個類型的產能均衡,考慮品種投產量對品種劃分的影響,對每一類別內品種投產量總和進行限定,保證聚類后,各個類別的投產量也基本均衡,則每個類別中的總產量約為。
2.2基于隨機森林的排產模型我們以品種名稱、投產量、交貨期和所屬類別作為半導體排產的特征信息,設Xi是每類半導體的特我們將半導體的生產類別個數m作為分類數量,將不同種類的半導體特征向量作為訓練隨機森林的訓練集,具體步驟如下:Step1:根據半導體生產種類確定分類數,進而確定隨機森林的分叉數m,對每類半導體選取nx作為訓練集,總共mnx個訓練樣本。Step2:將不同的半導體訓練樣本分別標記模式類別(1~m)。Step3:從訓練樣本中隨機抽取0.7mnx個訓練樣本,按照第2節所述構建半導體分類決策樹。Step4:重復step3,構建多顆決策樹,生成隨機森林。Step5:將待分類的半導體排產數據通過訓練完成的隨機森林進行完全分類,確定每個半導體排產數據的模式類別。Step6:對分類后各個類別的投產品種分別進行排序,交貨期越早,排序越靠前,需進行優先生產。Step7:針對交貨期不緊張的生產訂單,則根據半導體數據分類結果進行合理的投產。
3實驗評估
3.1分類準確性實驗實驗選取7種不同型號的半導體進行研究,投產信息如表1所示。按照2.2節所述,將實驗的每種型號的半導體信息轉變為特征向量,將7種型號的半導體特征向量作為分類依據,從而完成隨機森林的構建。設每類半導體的投產量為niz,算法準確分類數為nii,平均分類準確率為pt,則將其定義。表2表明:本文算法對不同品種的半導體的分類較為準確,其平均分類準確率高達98.4%,從而驗證了算法在半導體排產中的數據分類可行性。
3.2“改機”時間比較實驗按照2.2節所述的算法流程,對待排產的半導體進行合理安排,為了方便比較不同類型的半導體粗日投料對生產的影響,假設生產車間只有一道工序,每種類型的產能各有一臺機器,改機單位時間為10min,分布對基于品種平均分配的投料策略、基于投產量平均分配的投料策略和本文提出的基于品種分類的綜合投料策略控制下的生產過程進行比較,其實驗結果如表3所示。由實驗結果可得:本文所提出的基于隨機森林對半導體品種進行分類算法能夠很好的減少改機時間代價,從而縮短生產周期,提高生產速率。為了方便計算,實驗給出的規模較小,一般在半導體實際生產中,周投產品種達上千種,本文算法在規模龐大的實際應用中更能發揮其優越性,假設背景企業中,采用該算法后,生產周期縮短了約27h,即改機時間代價降低了約27h,大大提高了生成效率。
4結束語
本文針對半導體排產問題進行深入研究分析,提出一種基于多叉樹隨機森林的半導體排產算法,該算法首先將半導體的品種名稱、投產量、交貨期和所屬類別轉化為特征信息,將其輸入到構建完成的隨機森林,從而進行數據的完全分類,利用得到的數據分類法則進行排產的評估,確定日投產的半導體種類和數量。實驗結果表明:該算法能夠有效地降低半導體排產過程中的改機時間代價,從而提高設備的利用率,大大縮短生產周期,提高生產效益。今后的工作是對現有的隨機森林純度分類依據進行深入研究,優化屬性選擇原則,從而提高算法對各類數據的適應能力。本文創新點在于首次將隨機森林算法應用到工業排產研究中,開拓了機器學習的應用領域。
作者:王玉單位:中國科學院沈陽自動化研究所中國科學院大學