基于熱擴(kuò)散核密度確定密度峰值法的歷史工況識(shí)別
引 言
近年來,隨著物聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等技術(shù)的興起,數(shù)據(jù)驅(qū)動(dòng)的方法在工業(yè)智能化的進(jìn)程中扮演著重要角色。在實(shí)際生產(chǎn)過程中,原料性質(zhì)、生產(chǎn)方案或操作條件等因素的變動(dòng)將導(dǎo)致生產(chǎn)過程的多模態(tài)化[1],如發(fā)酵過程[2]、冶金過程和鍋爐燃燒過程等,對(duì)其過程進(jìn)行數(shù)字化時(shí)往往存在著非線性、多模態(tài)和變量間的強(qiáng)相關(guān)性等問題[3-4]。因此,深入研究多模態(tài)過程的特點(diǎn)對(duì)實(shí)際生產(chǎn)有著重要作用。通過獲取歷史工況特征,不僅可以為當(dāng)前裝置選擇合適的工況模型及參數(shù)進(jìn)行優(yōu)化,也能為生產(chǎn)決策提供重要的數(shù)據(jù)參考,如污水處理裝置的智能優(yōu)化、管道泄漏的自動(dòng)化檢測(cè)和生產(chǎn)運(yùn)行狀況的有效評(píng)估[5-6]等。
在對(duì)多模態(tài)過程的研究中,由于不同工況間存在著較大的差異,研究者通常假設(shè)每種工況下的過程數(shù)據(jù)近似服從一種高斯分布,運(yùn)用主成分分析(PCA)、偏最小二乘(PLS)、獨(dú)立成分分析(ICA)和支持向量數(shù)據(jù)描述(SVDD)模型等方法提取工況數(shù)據(jù)的特征,然后建立模型應(yīng)用于過程故障檢測(cè)、過程控制和過程優(yōu)化等[7-10]。由于每種工況下的數(shù)據(jù)具有相似性,有學(xué)者將數(shù)據(jù)聚類的方法用于多模態(tài)過程的特征提取[11]。常用的聚類方法包括模糊C均值法[12]、K-均值法[13]、高斯混合模型(GMM)[14-15]和隱馬爾可夫模型(HMM)[16]等,這些方法在獲取數(shù)據(jù)特征時(shí)具有一定的有效性,但仍存在一些無法避免的缺陷。如K-均值法需要事先確定聚類數(shù)量,對(duì)數(shù)據(jù)中的噪聲點(diǎn)敏感;模糊C均值法存在聚類數(shù)量和參數(shù)選取的問題;HMM模型需要事先知道各種模態(tài)的概率且固定不變;GMM模型在使用期望最大法求解時(shí),存在計(jì)算量較大、對(duì)模型參數(shù)的初值敏感和容易陷入局部極值等問題,這些缺點(diǎn)都將導(dǎo)致無法準(zhǔn)確地識(shí)別工況[17-18]。有學(xué)者對(duì)GMM模型進(jìn)行深入研究,提出了給定模型參數(shù)初值[19]和基于信息準(zhǔn)則確定聚類數(shù)量[20]的方法,其中F-J的方法較為著名[21-22],它通過在迭代計(jì)算中不斷剔除冗余的高斯分量得出聚類結(jié)果,但是該方法需要一個(gè)較大的聚類數(shù)量導(dǎo)致計(jì)算量大且收斂困難,其結(jié)果的準(zhǔn)確性也不能保證。
快速搜索發(fā)現(xiàn)密度峰[23](CFSFDP)是基于局部密度的一種聚類技術(shù),它根據(jù)聚類中心點(diǎn)密度較大且與其他中心點(diǎn)距離較遠(yuǎn)的特點(diǎn),引入高斯核密度估計(jì)函數(shù)(KDE)計(jì)算數(shù)據(jù)點(diǎn)的密度,再通過歐氏距離計(jì)算數(shù)據(jù)點(diǎn)間的距離,從而完成數(shù)據(jù)聚類。但是該方法的聚類效果取決于截距參數(shù),為避免這一點(diǎn),有學(xué)者對(duì)其進(jìn)行改進(jìn)并提出了無須事先確定截距參數(shù)的熱擴(kuò)散核密度確定密度峰的技術(shù)[24](CFSFDP-HD)。本文提出將CFSFDP-HD技術(shù)與GMM模型結(jié)合的方法,首先通過CFSFDP-HD方法對(duì)多模態(tài)過程數(shù)據(jù)進(jìn)行聚類,然后將聚類結(jié)果作為GMM模型的初值,從而對(duì)多模態(tài)過程的工況進(jìn)行較準(zhǔn)確的估計(jì)。
1 工況識(shí)別方法
1.1 高斯混合模型
過程數(shù)據(jù) X n×d 是d維的n個(gè)樣本數(shù)據(jù),且
其中,k為高斯模型的數(shù)量,τi 和
第i個(gè)高斯模型對(duì)應(yīng)的高斯密度函數(shù)為:
模型的參數(shù)θi 常用EM法[25]求解,通過不斷地更新后驗(yàn)概率和模型參數(shù),直到模型參數(shù)幾乎不變。針對(duì)數(shù)據(jù)
E步驟:
M步驟:
其中,
基于最短信息長(zhǎng)度準(zhǔn)則的F-J方法只需對(duì)
其中,
1.2 熱擴(kuò)散核密度確定密度峰技術(shù)
基于熱擴(kuò)散的高斯核函數(shù)為:
估算任意樣本點(diǎn)i的概率密度函數(shù)為:
最佳帶寬的選擇使用了改進(jìn)的Sheather–Jones(ISJ)方法[26],其計(jì)算步驟如下:
其中,當(dāng)l ≥ 5時(shí),l的取值對(duì)
帶寬t的詳細(xì)求解步驟如下:
(1)設(shè)置一個(gè)較小的容差ε = 10-9,令yq=ε,q = 0;
(2)計(jì)算
(3)如果
計(jì)算每一樣本點(diǎn)i到最近的高密度點(diǎn)j的距離:
1.3 提出方法的計(jì)算步驟
本文提出的方法對(duì)近似服從高斯分布的未知多模態(tài)穩(wěn)態(tài)工況進(jìn)行識(shí)別時(shí),首先利用CFSFDP-HD技術(shù)對(duì)多模態(tài)過程數(shù)據(jù)進(jìn)行聚類,確定聚類中心點(diǎn)及其個(gè)數(shù)(即工況個(gè)數(shù)),然后將每一類數(shù)據(jù)的平均值和協(xié)方差作為GMM模型的初值,迭代求出不同工況的特征參數(shù)。其計(jì)算過程如下:
(1)將數(shù)據(jù)標(biāo)準(zhǔn)化處理,求取參數(shù)αk;
(2)由參數(shù)αk 和式(11)~
(3)由
(4)將每一類的特征參數(shù)作為GMM模型初值,求出最終工況參數(shù)。
通過以上步驟即可完成對(duì)歷史工況的準(zhǔn)確識(shí)別,下面通過第2節(jié)中的兩個(gè)例子對(duì)該方法進(jìn)行驗(yàn)證。
圖1
圖1 基于熱擴(kuò)散核密度的工況識(shí)別方法流程圖
Fig.1 Flow chart of recognizing operating modes based on kernel density estimation of heat diffusion
2 方法驗(yàn)證與結(jié)果分析
2.1 仿真數(shù)據(jù)
根據(jù)文獻(xiàn)[27]中的多模態(tài)仿真模型生成過程數(shù)據(jù),然后分別用本文提出的方法、K-均值法和GMM(F-J)的方法進(jìn)行工況識(shí)別,數(shù)據(jù)生成模型如
其中,e1~e3是服從[0,0.01]的高斯白噪聲分布,通過調(diào)整s1和s2的參數(shù),生成含3個(gè)變量(x1、x2和x3)的多模態(tài)過程數(shù)據(jù)。其中模態(tài)1是變量s1和s2分別服從高斯分布為[20,0.8]、[1,1.3]得到的300個(gè)數(shù)據(jù);模態(tài)2是變量s1和s2分別服從高斯分布[5,0.6]、[20,0.7]得到的300個(gè)數(shù)據(jù);模態(tài)3是變量s1和s2分別服從高斯分布[16,1.5]、[20,0.7]得到的300個(gè)數(shù)據(jù);模態(tài)4是和模態(tài)2在相同參數(shù)(工況)下產(chǎn)生的300個(gè)數(shù)據(jù),用于檢驗(yàn)三種方法能否準(zhǔn)確地獲取實(shí)際的工況狀態(tài)。
將生成數(shù)據(jù)用
圖2
圖2 仿真多模態(tài)過程數(shù)據(jù)標(biāo)準(zhǔn)化
Fig.2 Normalization of multi-modal process simulation data
圖3
圖3 仿真多模態(tài)過程數(shù)據(jù)的聚類中心決策圖
Fig.3 Clustering center decision diagram of process data for simulating multiple operating modes
表1 仿真多模態(tài)過程的工況識(shí)別結(jié)果
Table 1
項(xiàng)目 | 工況個(gè)數(shù) | 每種工況的先驗(yàn)概率 | 每種工況下變量x1, x2, x3的平均值 | 相對(duì)偏差 |
---|---|---|---|---|
實(shí)際值 | 3 | 0.25 | 11.777,296.288,12.410 | — |
0.25 | 20.467,192.899,354.307 | — | ||
0.5 | 10.351,19.900,152.718 | — | ||
本文方法 | 3 | 0.25 | 11.777,296.288,12.410 | 0,0,0 |
0.25 | 20.467,192.899,354.307 | 0,0,0 | ||
0.5 | 10.351,19.900,152.718 | 0,0,0 | ||
K-均值法 (K = 3) | 3 | 0.25 | 11.777,296.288,12.410 | 0,0,0 |
0.25 | 20.467,192.899,354.307 | 0,0,0 | ||
0.5 | 10.351,19.900,152.718 | 0,0,0 | ||
K-均值法 (K = 4) | 4 | 0.25 | 11.777,296.288,12.410 | 0,0,0 |
0.136 | 21.4211,209.428,388.063 | 4.66,8.57,9.53 | ||
0.114 | 19.3326,173.233,314.144 | 5.54,10.2,11.34 | ||
0.5 | 10.3508,19.900,152.718 | 0,0,0 | ||
GMM(F-J)法 (K = 4) | 4 | 0.25 | 11.777,296.288,12.410 | 0,0,0 |
0.203 | 10.0372,15.8427,152.52 | -2.84,-19.7,0.01 | ||
0.25 | 20.467,192.899,354.307 | 0,0,0 | ||
0.297 | 10.5662,22.6857,152.853 | 1.88,13.03,-0.05 | ||
GMM(F-J)法 (K = 5) | 4 | 0.25 | 11.777,296.288,12.410 | 0,0,0 |
0.203 | 10.0372,15.8426,152.52 | -3.03,-20.39,-0.13 | ||
0.25 | 20.467,192.899,354.307 | 0,0,0 | ||
0.297 | 10.5662,22.6857,152.853 | 2.08,14,0.09 |
2.2 TE過程
Tennessee Eastman(TE)工業(yè)過程是由美國(guó)Eastman化學(xué)品公司開發(fā)的復(fù)雜工業(yè)過程的仿真平臺(tái),它包括六種工作模態(tài),每種模態(tài)具有不同的產(chǎn)品比例(G/H),該流程包含12個(gè)操作變量、22個(gè)連續(xù)過程測(cè)量變量和19個(gè)組成測(cè)量變量[28-30]。本文選取TE過程中模態(tài)1~模態(tài)4作為多模態(tài)過程,選取41個(gè)測(cè)量變量作為工況識(shí)別的變量,其中每種模態(tài)取300個(gè)數(shù)據(jù)為1組,第5組和第3組為相同模態(tài)下的數(shù)據(jù),具體模態(tài)選取情況見表2。
表2 TE過程的模態(tài)選取情況
Table 2
項(xiàng)目 | 模態(tài) | G/H比例 | 產(chǎn)品生產(chǎn)率 |
---|---|---|---|
第1組 | 1 | 50/50 | 7038 kg/h G和7038 kg/h H |
第2組 | 2 | 10/90 | 1048 kg/h G和12669 kg/h H |
第3組 | 3 | 90/10 | 10000 kg/h G 和1111 kg/h H |
第4組 | 4 | 50/50 | 最大生產(chǎn)率 |
第5組 | 3 | 90/10 | 10000 kg/h G 和1111 kg/h H |
將過程數(shù)據(jù)用
圖4
圖4 4個(gè)TE過程變量的標(biāo)準(zhǔn)化
Fig.4 Normalization of 4 TE process variables
圖5
圖5 TE多模態(tài)過程數(shù)據(jù)的聚類中心決策圖
Fig.5 Clustering center decision diagram of TE multi-modal process
表3 TE多模態(tài)過程的工況個(gè)數(shù)及先驗(yàn)概率的識(shí)別結(jié)果
Table 3
項(xiàng)目 | 實(shí)際值 | 本文方法 | K-均值法(K = 4) | K-均值法(K = 5) | K-均值法(K = 6) | GMM(F-J)法(K ≥ 4) |
---|---|---|---|---|---|---|
工況個(gè)數(shù) | 4 | 4 | 4 | 5 | 6 | 無法得到參數(shù) |
每種工況的先驗(yàn)概率 | 0.2 | 0.2 | 0.2 | 0.2 | 0.06 | 無法得到參數(shù) |
0.2 | 0.2 | 0.2 | 0.2 | 0.08 | ||
0.4 | 0.4 | 0.4 | 0.106 | 0.06 | ||
0.2 | 0.2 | 0.2 | 0.094 | 0.2 | ||
0.4 | 0.4 | |||||
0.2 |
表4 TE多模態(tài)過程變量的識(shí)別結(jié)果
Table 4
變量 | 本文方法 | K-均值法(K = 4) | ||||
---|---|---|---|---|---|---|
平均相對(duì)偏差 | 最大相對(duì)偏差 | 最小相對(duì)偏差 | 平均相對(duì)偏差 | 最大相對(duì)偏差 | 最小相對(duì)偏差 | |
D物料流量 | -0.081 | -0.4104 | -0.0225 | -0.0814 | -0.412 | -0.0225 |
回收流量 | 0.0912 | 0.2786 | 0.0062 | 0.0909 | 0.2778 | 0.0062 |
放空率 | -1.3681 | -4.748 | -0.9476 | -1.4371 | -4.9847 | -0.9567 |
反應(yīng)器進(jìn)料量 | 0.0645 | 0.1505 | 0.0357 | 0.0644 | 0.1503 | 0.0357 |
產(chǎn)品分離器壓力 | -0.0043 | -0.0148 | -0.0014 | -0.0043 | -0.0148 | -0.0014 |
汽提塔溫度 | 0.0189 | 0.2343 | 0.0613 | 0.0186 | 0.2337 | 0.0613 |
壓縮機(jī)工作功率 | 0.1075 | 0.3217 | 0.0441 | 0.1071 | 0.3207 | 0.0441 |
反應(yīng)器組分B流量 | -0.1046 | -0.4776 | -0.1074 | -0.1054 | -0.4799 | -0.1075 |
放空氣體中G組分流量 | -0.0142 | -0.9356 | 0.1306 | -0.0173 | -0.9444 | 0.1305 |
產(chǎn)品中組分H流量 | -0.0424 | 0.4618 | 0.1825 | -0.0438 | 0.4597 | 0.1821 |
從表3可以看出本文方法得到的歷史工況的個(gè)數(shù)和先驗(yàn)概率與實(shí)際值一致;K-均值法的結(jié)果則取決于設(shè)定的聚類數(shù)量K,當(dāng)K與實(shí)際一致(K = 4)時(shí)也可以較準(zhǔn)確獲取歷史工況的個(gè)數(shù)及先驗(yàn)概率,但是當(dāng)K = 5和K = 6時(shí),其結(jié)果與實(shí)際相差較大。GMM(F-J)法則無法獲取到工況的參數(shù)。
三種方法過程變量的識(shí)別結(jié)果見表4,可以看出本文提出的方法識(shí)別結(jié)果的平均相對(duì)偏差在 -0.0043~-1.3681,最大相對(duì)偏差為-4.748,最小相對(duì)偏差為-0.0014;K-均值法識(shí)別結(jié)果的平均相對(duì)偏差在-0.0043~-1.4371,最大相對(duì)偏差為-4.9847,最小相對(duì)偏差為-0.0014。結(jié)合表3、表4可以看出GMM(F-J)法不適合本案例的工況識(shí)別,本文方法和給定準(zhǔn)確聚類數(shù)量的K-均值法都可以較準(zhǔn)確地識(shí)別出工況特征,但K-均值法的準(zhǔn)確性依賴于聚類數(shù)量的選擇,而本文方法則沒有這種約束。
3 結(jié) 論
針對(duì)目前工況識(shí)別方法的不足,提出將人工智能領(lǐng)域的CFSFDP-HD技術(shù)與GMM模型結(jié)合用于對(duì)多模態(tài)過程的歷史工況進(jìn)行識(shí)別的方法,避免了K-均值法需要預(yù)先提供準(zhǔn)確聚類數(shù)量的缺點(diǎn),并利用案例對(duì)本文所提方法進(jìn)行了驗(yàn)證,結(jié)果表明:GMM(F-J)法不能保證準(zhǔn)確地識(shí)別工況,K-均值法只有在給定正確工況數(shù)量的前提下才能獲得較好的結(jié)果,而本文方法則可方便、有效地對(duì)歷史多工況進(jìn)行準(zhǔn)確識(shí)別,具有更強(qiáng)的實(shí)用性。
符 號(hào) 說 明
過程變量的個(gè)數(shù) | |
g(x | θi ) | 第i個(gè)高斯模型所對(duì)應(yīng)的高斯密度函數(shù) |
聚類的數(shù)量,也是高斯模型的數(shù)量 | |
第k個(gè)高斯模型,也表示第k個(gè)數(shù)據(jù) | |
P(s)(Ck|xj ) | 第j個(gè)樣本點(diǎn)第s次迭代屬于第k個(gè)高斯模型的概率 |
P(di,dj,t) | 樣本點(diǎn)i到j的轉(zhuǎn)移概率 |
p(x|θ) | 概率密度函數(shù) |
高斯核密度估計(jì)函數(shù)的帶寬 | |
樣本數(shù)據(jù)矩陣,n為樣本數(shù),d為變量數(shù) | |
變量i的第j個(gè)樣本數(shù)據(jù) | |
變量i的最大樣本數(shù)據(jù) | |
變量i的最小樣本數(shù)據(jù) | |
樣本點(diǎn)到附近高密度點(diǎn)的距離 | |
第i個(gè)高斯模型的參數(shù) | |
第i個(gè)高斯分量的變量平均值 | |
樣本點(diǎn)的密度 | |
第i個(gè)高斯分量的方差 | |
第i個(gè)高斯分量的權(quán)重 |
欄目分類
- 1網(wǎng)絡(luò)直播現(xiàn)狀及前景探究
- 2淺析電影《我的父親母親》視聽語(yǔ)言特色——影視文學(xué)
- 3中美貿(mào)易戰(zhàn)的發(fā)展和應(yīng)對(duì)
- 4論微信傳播的特點(diǎn)
- 5企業(yè)如何進(jìn)行危機(jī)公關(guān)——以三星Galaxy note7爆炸門事件為例
- 6淺析網(wǎng)絡(luò)暴力的社會(huì)危害及防治對(duì)策
- 7聚酮類化合物研究進(jìn)展
- 8淺析《極限挑戰(zhàn)》的節(jié)目特色及啟示
- 9《楚門的世界》的多重隱喻解讀
- 10體育產(chǎn)業(yè)發(fā)展中存在的問題及建議
- 游戲教學(xué)法在網(wǎng)球教學(xué)中的應(yīng)用
- 心理素質(zhì)在網(wǎng)球比賽中的作用
- 綠色科技視角下企業(yè)環(huán)境績(jī)效指標(biāo)體系構(gòu)建
- 節(jié)約型基礎(chǔ)上的綠色財(cái)政稅收政策研究
- 財(cái)政投資項(xiàng)目竣工決算存在的問題及對(duì)策
- 基于精細(xì)化管理視域探析公立醫(yī)院成本管控優(yōu)化策略
- 農(nóng)村信用社在金融市場(chǎng)中的營(yíng)銷技巧探究
- 實(shí)現(xiàn)我國(guó)糧食增產(chǎn)增收的財(cái)稅政策分析
- 離子色譜法同時(shí)測(cè)定卷煙紙中幾種金屬離子的含量
- IC厭氧反應(yīng)器處理造紙廢水效率的時(shí)間分布特征研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!