數(shù)據(jù)挖掘技術(shù)綜述
數(shù)據(jù)挖掘(DM)是一門新興的交叉學(xué)科,也是現(xiàn)代科學(xué)技術(shù)相互滲透的必然結(jié)果,其基本目標(biāo)就是從大量的數(shù)據(jù)中提取隱藏的、潛在的和有用的知識和信息。這一技術(shù)自20世紀(jì)末提出以來,引起了許專家學(xué)者的廣泛關(guān)注,并應(yīng)用到金融業(yè)、零售業(yè)、醫(yī)療保健和政府決策等各個領(lǐng)域,取得了良好的社會效益和經(jīng)濟(jì)效益,具有廣闊的開發(fā)前景和應(yīng)用前景。 從數(shù)據(jù)挖掘的發(fā)展過程來看,其應(yīng)用主要經(jīng)歷了以下四個過程 一、數(shù)據(jù)挖掘模型與算法 具體來講,現(xiàn)在的數(shù)據(jù)挖掘技術(shù)主要涉及神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、數(shù)理統(tǒng)計分析、關(guān)聯(lián)規(guī)則和聚類分析等方法和學(xué)科 (一)神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)為解決大復(fù)雜度問題提供了一種相對來說比較有效的簡單方法,它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)制而建立的一種非線形預(yù)測模型,經(jīng)過學(xué)習(xí)進(jìn)行模式識別的。其工作機(jī)理是通過學(xué)習(xí)改變神經(jīng)元之間的連接強(qiáng)度。神經(jīng)網(wǎng)絡(luò)有前向神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等,在神經(jīng)網(wǎng)絡(luò)中,由權(quán)重和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)決定了它所能識別的模式類型。 (二)決策樹 決策樹學(xué)習(xí)著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在決策樹的葉結(jié)點(diǎn)得到結(jié)論。所以,從根到葉結(jié)點(diǎn)的一條路徑就對應(yīng)著一條合取規(guī)則,整棵決策樹就對應(yīng)著一組析取表達(dá)式規(guī)則?;跊Q策樹的學(xué)習(xí)算法的一個最大的優(yōu)點(diǎn)就是它在學(xué)習(xí)過程中不需要使用者了解很多背景知識(這也同時是它最大的缺點(diǎn)),只要訓(xùn)練例子能夠用屬性-結(jié)論式的方式表達(dá)出來,就能使用該算法來學(xué)習(xí)。 (三)遺傳算法 遺傳算法是一種優(yōu)化技術(shù),是模擬生物進(jìn)化過程的算法?;谶M(jìn)化理論,并采用遺傳結(jié)合、遺傳變異以及自然選擇等設(shè)計方法。遺傳算法已在優(yōu)化計算、分類、機(jī)器學(xué)習(xí)等方面發(fā)揮了顯著作用。在數(shù)據(jù)挖掘中,它還可以用于評估其它算法的適合度,在處理組合優(yōu)化問題方面有一定的優(yōu)勢,可用于聚類分析等。遺傳算法的最大特點(diǎn)在于演算簡單,但其用于數(shù)據(jù)挖掘也存在一些問題:算法較復(fù)雜,還有收斂于局部極小的過早收斂等難題未得到徹底解決。 (四)數(shù)理統(tǒng)計分析 這類技術(shù)建立在傳統(tǒng)的數(shù)理統(tǒng)計的基礎(chǔ)上。在數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對它們的分析可采用判別分析、因子分析、相關(guān)分析、多元回歸分析及偏最小二乘回歸方法等。傳統(tǒng)統(tǒng)計分析可用于分類挖掘和聚類挖掘,SAS,SPSS和BMDP是目前國際上最具影響力的3大統(tǒng)計分析軟件。 (五)聚類分析 聚類分析是多元統(tǒng)計分析方法之一,也是統(tǒng)計模式識別中非監(jiān)督模式識別的一個重要分支。在統(tǒng)計分析和模式識別領(lǐng)域,聚類已經(jīng)被廣泛研究了多年,提出了大量的理論和方法,取得了豐碩的研究成果。 聚類的研究主要包括以下幾方面: (1)聚類有效性問題。聚類有效性問題的研究是圍繞硬c-均值聚類算法和模糊c-均值聚類算法進(jìn)行的,實(shí)際應(yīng)用中,定義聚類有效性函數(shù)是最常用的方法。目前對聚類有效性問題的研究已延伸到非球狀數(shù)據(jù)分布的數(shù)據(jù)集中,如線狀和殼狀數(shù)據(jù)集。 (2)迭代優(yōu)化聚類的初始化問題?,F(xiàn)有的聚類初始化研究大致分為三種途徑:隨機(jī)采樣法,距離優(yōu)化法以及密度估計法。目前各種初始化方法各有優(yōu)缺點(diǎn),而且許多現(xiàn)有的初始化方法本身就是一種聚類方法或是多種聚類方法的綜合,因而優(yōu)化過程中也會出現(xiàn)初始化的問題。 (3)分類屬性數(shù)據(jù)聚類。圍繞分類數(shù)據(jù)類型和混合數(shù)據(jù)類型聚類問題,專家學(xué)者提出了很多新的概念和方法。其中,研究較為深入的是概念和層次聚類算法。由于概念聚類和層次聚類計算復(fù)雜,隨著新的分類屬性數(shù)據(jù)的相似度和距離函數(shù)的提出,面向分類屬性數(shù)據(jù)的基于劃分的聚類算法逐漸也應(yīng)用于數(shù)據(jù)挖掘中。 二、數(shù)據(jù)挖掘未來的發(fā)展方向 預(yù)計在未來的一段時間內(nèi),數(shù)據(jù)挖掘的研究還會深入下去,研究焦點(diǎn)可能會集中到以下幾個方面: (一)數(shù)據(jù)挖掘算法的效率和可擴(kuò)展性 目前數(shù)據(jù)庫數(shù)據(jù)量大,維數(shù)高,使得數(shù)據(jù)挖掘的搜索空間增大,發(fā)現(xiàn)知識的盲目性提高。如何充分利用領(lǐng)域的知識,剔除與發(fā)現(xiàn)任務(wù)無關(guān)的數(shù)據(jù),有效地降低問題的維數(shù),設(shè)計出高效率的知識發(fā)現(xiàn)算法是下一步發(fā)展的重點(diǎn)。 (二)數(shù)據(jù)的時序性 在應(yīng)用領(lǐng)域的數(shù)據(jù)庫中,數(shù)據(jù)在不斷地更新,隨著時間的推移,原先發(fā)現(xiàn)的知識將不再有用,我們需要隨時間逐步修正發(fā)現(xiàn)模式來指導(dǎo)新的發(fā)現(xiàn)過程。 (三)互聯(lián)網(wǎng)上知識的發(fā)現(xiàn) Www正日益普及,從中可以找到很多新的知識,已有一些資源發(fā)現(xiàn)工具來發(fā)現(xiàn)含有關(guān)鍵字的文本,但對在www上發(fā)現(xiàn)知識的研究不多。人們現(xiàn)在面臨的問題是如何從復(fù)雜的數(shù)據(jù)(例如多媒體數(shù)據(jù))中提取有用的信息,對多層數(shù)據(jù)庫的維護(hù),如何處理數(shù)據(jù)的異類性和自主性等等。
欄目分類
- 以場景、生態(tài)與科技激活文旅消費(fèi)升級新動能
- 科技金融融合賦能企業(yè)開放式創(chuàng)新
- 農(nóng)業(yè)科技創(chuàng)新驅(qū)動下的農(nóng)村產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化與農(nóng)村發(fā)展
- 數(shù)字科技與藝術(shù)設(shè)計的融合探究
- 光伏制氫摻入天然氣燃燒可行性研究
- 纖維素基摩擦納米發(fā)電機(jī)的制備及其在人機(jī)交互與能源收集中的應(yīng)用研究
- 工業(yè)機(jī)器人技術(shù)在自動化控制領(lǐng)域中的應(yīng)用
- 創(chuàng)造低碳舒適家居的追光導(dǎo)光儲能系統(tǒng)研究
- 靜電紡絲法制備納米復(fù)合纖維研究進(jìn)展
- 基于數(shù)字信號處理的無線傳輸系統(tǒng)優(yōu)化與技術(shù)突破
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級黨報?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!