一種基于知識元共現(xiàn)的ESI研究前沿知識演進(jìn)分析方法
1 引言
科學(xué)的結(jié)構(gòu)是不斷變化和蔓延生長的,正基于此,每一輪的科學(xué)革命和突破才能成為推動科技創(chuàng)新的基礎(chǔ)。如何離析當(dāng)前世界科技格局、監(jiān)測重大科技發(fā)展趨勢、掌握科學(xué)研究動態(tài)進(jìn)展、挖掘科學(xué)結(jié)構(gòu)變遷規(guī)律,是科技情報工作者和科技政策制定者所關(guān)注的重要議題。傳統(tǒng)上,人們習(xí)慣用分類、主題詞描述科學(xué)研究的秩序,但這種方式是與科學(xué)內(nèi)在結(jié)構(gòu)相違背的,要想識別科學(xué)研究結(jié)構(gòu),無疑需要對海量的科學(xué)論文進(jìn)行分析,勾勒科學(xué)論文地形圖,以保證科學(xué)主題隨時間變化時內(nèi)在含義的相對穩(wěn)定性[1-2]?!把芯壳把亍钡淖置嬉馑际侵缸吭娇茖W(xué)家在某些領(lǐng)域最前沿所進(jìn)行的領(lǐng)先研究,而計量學(xué)領(lǐng)域的“科學(xué)研究前沿”指利用科學(xué)論文網(wǎng)編織的某學(xué)科領(lǐng)域“地形結(jié)構(gòu)圖”,人們可以利用“地形圖”探尋科學(xué)結(jié)構(gòu)的本質(zhì)、揭示學(xué)科領(lǐng)域的智力與社會認(rèn)知、跟蹤科學(xué)研究發(fā)展、評估不同學(xué)科交叉影響程度等[3]。
計量學(xué)領(lǐng)域當(dāng)前對科學(xué)研究前沿的研究主要集中在識別方法上,并由不同方法的識別結(jié)果衍生了對研究前沿不同角度的認(rèn)知。例如,引文分析中的共被引分析[4]、文獻(xiàn)耦合分析[5],基于主題詞的詞頻分析[6]、共詞分析[7]、非相關(guān)知識發(fā)現(xiàn)[8]、概率主題模型[9],近年來還出現(xiàn)了離群數(shù)據(jù)挖掘[10]、語義計算[11]、論文下載使用數(shù)據(jù)分析[12]、科學(xué)文獻(xiàn)多源數(shù)據(jù)集成[13]、論文專利結(jié)合[14]等多種研究前沿探測方法。諸多方法中,SCI創(chuàng)始人E.Garfield將共被引聚類的核心文獻(xiàn)和引用這些核心論文的最新施引文獻(xiàn)一起定義為研究前沿[15],在此基礎(chǔ)上,美國科技信息研究所(Institute for Scientific Information,ISI)自2001年起推出了基本科學(xué)指標(biāo)數(shù)據(jù)庫ESI(Essential Science Indicators),成為世界上衡量科研水平與績效、跟蹤科學(xué)發(fā)展趨勢的全球性分析評價工具,而ESI的“研究前沿”(Research Fronts)數(shù)據(jù)也成為計量學(xué)領(lǐng)域研究前沿權(quán)威定義、應(yīng)用與實踐的代表。例如,基于ESI的研究前沿數(shù)據(jù),中國科學(xué)院與科睿唯安(Clarivate Analytics,原湯森路透知識產(chǎn)權(quán)與科技事業(yè)部)發(fā)布了“研究前沿系列報告”,在國內(nèi)外引起了強(qiáng)烈反響:世界權(quán)威物理學(xué)雜志Physics World專門予以評述[16],原國家副主席李源潮在中國科協(xié)工作會議上也曾引用報告的研究結(jié)果[17]。
ESI研究前沿不是靜態(tài)固化的,而是不斷演變和動態(tài)發(fā)展的,如何深入挖掘研究前沿的內(nèi)在演進(jìn)規(guī)律理應(yīng)成為科技情報領(lǐng)域的重要選題。遺憾的是,目前國內(nèi)除了利用ESI研究前沿數(shù)據(jù)對某學(xué)科領(lǐng)域熱點前沿或科研表現(xiàn)進(jìn)行整體梳理外[18-19],鮮有將研究前沿數(shù)據(jù)深入到學(xué)科領(lǐng)域知識本身進(jìn)行分析研究的報道;而且,現(xiàn)有對某領(lǐng)域研究前沿的演進(jìn)分析也往往依靠人工判讀[20],缺乏數(shù)據(jù)層面的客觀支撐。基于上述背景,本文首先對相關(guān)研究進(jìn)行梳理;然后在筆者前期展開的基于知識元科學(xué)計量的基本理論和初步實證基礎(chǔ)上[21-22],提出一種基于知識元共現(xiàn)的計量分析方法,從學(xué)科領(lǐng)域知識流動擴(kuò)散的微觀視角揭示研究前沿演化機(jī)理;并以《2016研究前沿》化學(xué)與材料科學(xué)領(lǐng)域“高效鈣鈦礦型太陽能電池”熱點前沿為例,驗證該方法對研究前沿知識演進(jìn)分析的情報有效性,以期為科技情報工作者開展科學(xué)前沿研究提供思路,也為相關(guān)領(lǐng)域發(fā)展態(tài)勢研判提供一定情報基礎(chǔ)。
2 相關(guān)研究
2.1 學(xué)科主題演化
學(xué)科主題演化一直是科學(xué)計量領(lǐng)域的熱點方向。近年來,Song等[23]開發(fā)了基于馬爾可夫隨機(jī)場的主題聚類等新型技術(shù),研究了DBLP索引中2000到2011年33個生物信息學(xué)會議主題的動態(tài)演化情況。Jensen等[24]通過由文獻(xiàn)、作者、發(fā)表地等異質(zhì)文獻(xiàn)網(wǎng)絡(luò)識別學(xué)科主題的最大影響因素,并利用異構(gòu)網(wǎng)絡(luò)元路徑(meta-path)構(gòu)建的主題演化樹(topic evolution tree)繪制了可視化科學(xué)主題演進(jìn)圖譜。Tong等[25]基于創(chuàng)新算法構(gòu)建單篇論文分類系統(tǒng)(publication-level classification system),利用直接引用、合著、共現(xiàn)等文獻(xiàn)計量方法,研究了與諾貝爾獎相關(guān)的化學(xué)學(xué)科主題國際合作的演變規(guī)律。
國內(nèi)對于學(xué)科主題演化研究也是持有關(guān)注。隗玲等[26]從文獻(xiàn)標(biāo)題中抽取主題詞,使用Blondel分區(qū)算法和節(jié)點重合度指標(biāo)對情報學(xué)學(xué)科的研究主題進(jìn)行主題交叉研究和演化分析。劉自強(qiáng)等[27]基于LDA模型識別的研究主題,進(jìn)行了主題熱度、主題狀態(tài)、主題路徑多個維度的學(xué)科主題演化分析和實證。陶易等[28]通過對數(shù)似然值確定的顯著變化高頻關(guān)鍵詞測度知識結(jié)構(gòu)的演化,并利用因子分析、社會網(wǎng)絡(luò)分析、定性分析揭示學(xué)科知識結(jié)構(gòu)的演化過程和原因。
2.2 共詞分析
共詞分析作為一種在不同學(xué)科領(lǐng)域之間傳遞與表達(dá)知識的內(nèi)容分析方法,是探索領(lǐng)域科學(xué)結(jié)構(gòu)的有效計量工具[29]。Yang等[30]在共詞分析方法基礎(chǔ)上,結(jié)合聚類樹、戰(zhàn)略坐標(biāo)圖和社會網(wǎng)絡(luò)分析等可視化手段,研究醫(yī)學(xué)信息學(xué)領(lǐng)域的內(nèi)部主題結(jié)構(gòu)。Burmaoglu等[31]基于對作者關(guān)鍵詞的共詞分析,利用戰(zhàn)略圖和演化知識圖譜研究互聯(lián)健康(connected health)領(lǐng)域的內(nèi)部主題結(jié)構(gòu)及其演變規(guī)律。此外,共詞分析方法及其可視化還曾被廣泛應(yīng)用于生物信息學(xué)[32]、人類基因組學(xué)[33]、納米技術(shù)科學(xué)[34]能諸多專業(yè)學(xué)科領(lǐng)域。
與國外相比,國內(nèi)對于共詞分析的研究主要集中在方法改進(jìn)和圖情領(lǐng)域自身應(yīng)用。例如,邵作運等[35]提出一種利用懲罰性矩陣分解(Penalized Matrix Decomposition,PMD)實現(xiàn)共詞分析的新方法,并以學(xué)科服務(wù)為例驗證該方法的聚類可視化效果。周麗英等[36]提出了利用引文耦合關(guān)系增強(qiáng)共詞分析效果的方法,發(fā)現(xiàn)此種改進(jìn)方法能更有效突出關(guān)鍵詞間相關(guān)關(guān)系。趙賓等[37]基于共詞分析和聚類分析、多維尺度分析、社會網(wǎng)絡(luò)分析等可視化手段,對國內(nèi)信息生態(tài)領(lǐng)域的研究主題分布進(jìn)行了計量剖析。
綜上所述,國內(nèi)外專家學(xué)者從不同方法角度和不同應(yīng)用場景推進(jìn)了學(xué)科主題演化和共詞分析研究,具有各自不同的創(chuàng)新特點。但是,學(xué)科主題演化和共詞分析的基本對象均為主題詞或關(guān)鍵詞,雖然一些學(xué)者提出了一定的創(chuàng)新算法,但利用LDA、PMD等抽取的主題詞和關(guān)鍵詞,仍然隸屬于文獻(xiàn)表層的知識特征,并不能代表文獻(xiàn)內(nèi)部的具體創(chuàng)新知識點。將關(guān)鍵詞或主題詞看作知識單元進(jìn)行研究,對于科學(xué)文獻(xiàn)潛在內(nèi)容的關(guān)聯(lián)發(fā)現(xiàn)、特定學(xué)科領(lǐng)域知識地圖的構(gòu)建、捕捉學(xué)科領(lǐng)域思想等方面存在局限[38]。其次,現(xiàn)有研究普遍將主題詞和關(guān)鍵詞同等看待,并沒有語義功能信息的標(biāo)注,無法反映主題詞或關(guān)鍵短語在科技文獻(xiàn)中的語義角色。例如,科技文獻(xiàn)內(nèi)不同詞或詞組可能代表著研究材料、研究方法、研究技術(shù)等,如何對文本中此類特定語義角色詞組進(jìn)行挖掘和計量分析具有重要意義。另外,通過上述梳理也可以看出,國外的學(xué)科主題演化和共詞分析研究,不但技術(shù)方法頗有創(chuàng)新,而且大多最終落腳于具體專業(yè)學(xué)科領(lǐng)域的實踐應(yīng)用。國內(nèi)相關(guān)研究雖然也有方法的改進(jìn),但將主題演化分析和共詞分析應(yīng)用到STEM學(xué)科領(lǐng)域的實證研究實屬不足,這也一定程度反映出國內(nèi)科技情報界在領(lǐng)域知識分析和學(xué)科情報研究上著力的匱乏。
針對上述問題,本文基于自然語言處理、語義標(biāo)注和文本挖掘技術(shù),提出一種利用知識元共現(xiàn)關(guān)系進(jìn)行研究前沿演化分析的計量方法。由于知識元是表征特定科學(xué)內(nèi)涵的學(xué)科專業(yè)元素或基本要素[22],因此,首先截取科技文獻(xiàn)中代表關(guān)鍵創(chuàng)新點的文本片段,然后抽取其中表征科學(xué)研究對象的知識元組分,最后利用知識元的共現(xiàn)網(wǎng)絡(luò)特征進(jìn)行研究前沿的知識演進(jìn)分析,為面向文獻(xiàn)內(nèi)部創(chuàng)新點、基于專業(yè)語義知識的學(xué)科戰(zhàn)略情報研究提供思路。
3 基礎(chǔ)理論闡述
3.1 ESI研究前沿的形成機(jī)理
某一科學(xué)領(lǐng)域最前沿的研究,往往呈現(xiàn)出科學(xué)家們頻繁密切交流的特點。這種交流可能是正式的(如論文、專著等),也可能是非正式的(如論壇、會議、電郵等),但其中最能從宏觀視角俯瞰該領(lǐng)域?qū)W科發(fā)展知識布局的便是科學(xué)家成果之間的相互引用。不同的引用模式可以表現(xiàn)出不同的知識鏈接關(guān)系,也可以反映科學(xué)家在其他知識基礎(chǔ)上建立自身工作的細(xì)粒度知識選擇過程。因此,透過代表科學(xué)家核心工作文獻(xiàn)的不同引用模式,就可以勾勒某研究領(lǐng)域特定時段狀態(tài)的科學(xué)結(jié)構(gòu)全景圖。
在基本科學(xué)指標(biāo)數(shù)據(jù)庫ESI(Essential Science Indicators)中完成上述過程便稱為研究前沿分析(research front analysis)[39]。分析過程利用共被引分析方法,通過識別6年內(nèi)多學(xué)科中引用率最高的文獻(xiàn),對各學(xué)科內(nèi)文獻(xiàn)的共被引頻次用Cosine加以標(biāo)準(zhǔn)化,以降低學(xué)科之間的差異性。標(biāo)準(zhǔn)化公式如公式(1)所示,其中共被引頻次標(biāo)準(zhǔn)化(normalized co-citation)指數(shù)為,文獻(xiàn)A和文獻(xiàn)B的共被引頻次(integer co-citation frequency of A and B)為,文獻(xiàn)A、B的被引頻次(citation frequency)分別為和:
將共被引頻次標(biāo)準(zhǔn)化之后,設(shè)置一定閾值來確定研究前沿需要處理的共被引文獻(xiàn)集,并利用單鏈路聚類法(single-link clustering)將那些關(guān)系緊密的文獻(xiàn)聚類,得到核心文獻(xiàn)簇。最終,研究前沿具有數(shù)字屬性的識別結(jié)果便能夠幫助確定該學(xué)科前沿的重要性及其發(fā)展階段(如表1所示):在每個前沿中,核心論文數(shù)及其總被引頻次共同表征該研究前沿的規(guī)模大?。缓诵恼撐募恼w被引頻次反映該研究前沿的研究熱度高低;核心論文平均出版年表現(xiàn)該研究前沿的發(fā)展速度和變遷方向;由核心論文內(nèi)經(jīng)常出現(xiàn)的關(guān)鍵詞或標(biāo)題術(shù)語所構(gòu)成的研究前沿名稱,則代表了該研究前沿的主題內(nèi)容和專題焦點。
3.2 知識元計量在研究前沿演化分析中的效用
研究前沿的構(gòu)成不會包涵一個學(xué)科的所有領(lǐng)域或全部文獻(xiàn),但是,ESI研究前沿可以幫助科學(xué)家確定某學(xué)科正在開展重要工作的研究方向以及科學(xué)共同體正在關(guān)注的重要領(lǐng)域。而研究前沿核心論文簇的施引文獻(xiàn)集,恰好成為一條探索這些重要工作或重要領(lǐng)域不斷發(fā)展與變遷方向的途徑。因為研究前沿的核心論文雖是固定的,但核心論文所對應(yīng)的施引文獻(xiàn)卻是不斷變化的,如果將核心論文簇看作研究前沿的知識基礎(chǔ),那么隨時間不斷重構(gòu)的施引文獻(xiàn)集則呈現(xiàn)了研究前沿知識的流動、擴(kuò)散和演化路徑。再者,共被引分析的缺點是具有明顯的時滯性,而將核心論文及其不斷更迭的施引文獻(xiàn)數(shù)據(jù)相融合,并在引文分析基礎(chǔ)上集成基于知識元的共現(xiàn)分析,共被引分析與共詞分析的有機(jī)結(jié)合,不僅能在數(shù)據(jù)源上彌補(bǔ)遲滯缺陷,也能在方法上最大程度保證研究前沿演進(jìn)分析結(jié)果的可靠性。
如前文所述,現(xiàn)有學(xué)科主題演化的研究對象大都是關(guān)鍵詞或主題詞,雖也能得出一定結(jié)果,但也只是文獻(xiàn)表層知識特征的反映,并不能準(zhǔn)確表征文獻(xiàn)內(nèi)部的語義專業(yè)知識。例如,某篇研究鈣鈦礦太陽能電池的科技文獻(xiàn),其關(guān)鍵詞或主題詞大都包括“鈣鈦礦”這樣的專業(yè)詞組,但往往不會包含構(gòu)成該太陽能電池材料的具體化學(xué)組分,如組成其電子傳輸層的、光敏層的等基本專業(yè)知識實體元素。其實,只有對這些代表學(xué)科領(lǐng)域創(chuàng)新的基本知識元素進(jìn)行分析,才可能真正找到解決關(guān)鍵問題、推動領(lǐng)域發(fā)展的創(chuàng)新點和突破口。基于知識元的計量分析則能提供一條解決這一問題的思路。筆者前期研究中已經(jīng)定義,知識元具有特定的科學(xué)內(nèi)涵,是某專業(yè)學(xué)科領(lǐng)域科學(xué)研究對象、方法、過程、活動及結(jié)果等科學(xué)全生命周期的專業(yè)元素或基本要素[22]。對研究前沿施引文獻(xiàn)集不同時間段的知識元組分進(jìn)行計量分析,能通過文獻(xiàn)內(nèi)所含知識元的鏈接和重組,實現(xiàn)真正的知識發(fā)現(xiàn)與增值,描繪前沿內(nèi)部學(xué)科知識的演化軌跡,厘清前沿的知識流動特征和發(fā)展變遷規(guī)律。研究前沿形成機(jī)理和知識元計量分析在研究前沿演化中應(yīng)用的理論框架圖如圖1所示。
圖1 ESI研究前沿形成機(jī)理與知識元分析在其演化研究中應(yīng)用的理論框架圖
4 研究方法
為深入到文獻(xiàn)內(nèi)蘊(yùn)含的專業(yè)知識本身,微觀定量剖析ESI研究前沿的動態(tài)變遷規(guī)律,本文提出一種基于知識元共現(xiàn)的研究前沿知識演進(jìn)分析方法(具體流程如圖2所示):以“研究前沿”核心論文的施引文獻(xiàn)全文本數(shù)據(jù)作為研究對象,首先,利用JAVA自編程序截取每篇文獻(xiàn)的“實驗/研究方法/研究材料”(包括Experimental section/Methods/Materials格式等)部分;然后,利用命名實體識別等自然語言處理技術(shù)抽取研究對象知識元(研究材料的化學(xué)要素);最后,利用Gephi等軟件進(jìn)行不同時間窗下知識元的共現(xiàn)網(wǎng)絡(luò)分析與可視化,探測研究前沿的知識演進(jìn)路徑。
圖2 基于知識元共現(xiàn)的ESI研究前沿知識演進(jìn)分析方法流程圖
第一步:研究數(shù)據(jù)獲取。在Web of Science(WoS)中檢索研究前沿核心論文的施引文獻(xiàn)題錄,并下載所有施引文獻(xiàn)的PDF全文。將施引文獻(xiàn)PDF文檔轉(zhuǎn)換為txt純文本格式,并利用JAVA自編程序截取每篇文獻(xiàn)的實驗/研究方法部分。
第二步:數(shù)據(jù)處理與命名實體識別。對截取的文本數(shù)據(jù)進(jìn)行去除標(biāo)點、去除停用詞、詞性標(biāo)注、分詞、構(gòu)建詞袋等處理,利用命名實體識別技術(shù)抽取代表每篇文獻(xiàn)關(guān)鍵創(chuàng)新知識點的知識元實體(研究材料的基本化學(xué)要素)。
第三步:知識元共現(xiàn)網(wǎng)絡(luò)構(gòu)建與分析。將每篇文獻(xiàn)實驗部分知識元共現(xiàn)配對,并將知識元共現(xiàn)數(shù)據(jù)導(dǎo)入Gephi等軟件進(jìn)行網(wǎng)絡(luò)分析和可視化分析。
第四步:研究前沿知識演進(jìn)與發(fā)現(xiàn)。利用具有不同“中心”含義的3種中心性網(wǎng)絡(luò)測量指標(biāo):點度中心性(degree centrality)、接近中心性(closeness centrality)和中介中心性(betweenness centrality),統(tǒng)計測度不同時間切片下知識元共現(xiàn)網(wǎng)絡(luò)的網(wǎng)絡(luò)特征,以網(wǎng)絡(luò)中高中心性知識元作為代表,挖掘研究前沿的知識演進(jìn)路徑;計算整體網(wǎng)中知識元的共現(xiàn)模塊度,識別頻繁共現(xiàn)的知識元社區(qū),進(jìn)行研究前沿的知識社區(qū)發(fā)現(xiàn)探測。
4.1 OSCAR4知識元實體識別
OSCAR(The Open-Source Chemistry Analysis Routines)是由英國劍橋大學(xué)化學(xué)系分子科學(xué)信息學(xué)中心自2002年開發(fā)的自然語言處理開源工具包,用于化學(xué)文獻(xiàn)數(shù)據(jù)的命名實體識別[40]。OSCAR4是OSCAR工具的第4代JAVA庫版本,集成了正則表達(dá)式識別器(Regex Recogniser)、模式識別器(Pattern Recogniser)和最大熵馬爾可夫識別器(Maximum Entropy Markov Model Recogniser),其API工作流程如圖3所示。由于面向科技文獻(xiàn)的化學(xué)實體文本挖掘并不像生物信息學(xué)那樣普及便利,因此OSCAR自開發(fā)之日起就備受關(guān)注,已經(jīng)成為歐洲專利局(European Patent Office,EPO)、歐洲生物信息研究所(European Bioinformatics Institute,EBI)、英國國家文本挖掘中心(National Centre for Text Mining,NaCTeM)等機(jī)構(gòu)和醫(yī)藥公司的重要研發(fā)工具。
圖3 OSCAR4命名實體識別工作流程圖
在ESI研究前沿的十大學(xué)科領(lǐng)域中,大多數(shù)領(lǐng)域的研究對象實質(zhì)均為化學(xué)要素知識實體。如農(nóng)業(yè)植物學(xué)領(lǐng)域中植物生理機(jī)制的鉀離子吸收、生態(tài)環(huán)境領(lǐng)域的溴系阻燃劑研究、地球科學(xué)領(lǐng)域的土壤碳循環(huán)、臨床醫(yī)學(xué)領(lǐng)域的抗病毒藥物研發(fā)、生物科學(xué)領(lǐng)域的新型病毒特征鑒定、化學(xué)材料科學(xué)領(lǐng)域的鈉離子電池、物理學(xué)領(lǐng)域的黑磷特性、工程學(xué)領(lǐng)域的納米零價鐵廢水處理等,可以說,化學(xué)知識實體作為這些研究的知識元,代表了每項領(lǐng)域主題的基本研究對象和核心創(chuàng)新元素。以太陽能電池為例,歷經(jīng)非晶硅、染料敏化、有機(jī)太陽能電池等薄膜電池的發(fā)展,鈣鈦礦太陽能電池成為第三代太陽能電池最熱門的方向,而這些太陽能電池核心材料(半導(dǎo)體薄膜等)的基本結(jié)構(gòu)成分均為a-Si、、ZnO、MgPc、CuPc、等化學(xué)實體知識元。
另外,科學(xué)文獻(xiàn)語法結(jié)構(gòu)對詞語語義特征的影響,也是保證計量對象抽取能否真正表征科學(xué)文獻(xiàn)關(guān)鍵創(chuàng)新知識點的決定因素。其實,Suppe[41]早在20世紀(jì)便發(fā)文指出,科學(xué)文獻(xiàn)中的“方法和數(shù)據(jù)解釋(Methods/Data)”部分對于評價科學(xué)新發(fā)現(xiàn)是否可以納入一門學(xué)科領(lǐng)域的共同知識基礎(chǔ)(knowledge base)至關(guān)重要。Teufel[42]在其學(xué)位論文中也發(fā)現(xiàn),不同學(xué)科寫作風(fēng)格多樣化影響著不同學(xué)科的文獻(xiàn)結(jié)構(gòu)組成,進(jìn)一步影響著領(lǐng)域知識信息的抽取語法位置構(gòu)建,而幾乎所有傳統(tǒng)科技領(lǐng)域文獻(xiàn)都含有標(biāo)準(zhǔn)的引言、方法、結(jié)果和討論部分。武漢大學(xué)陸偉教授團(tuán)隊近年來也發(fā)表了一系列文章,探究學(xué)術(shù)文本的結(jié)構(gòu)功能,基于語言學(xué)、機(jī)器學(xué)習(xí)、文本挖掘和自然語言處理等技術(shù)方法,識別章節(jié)內(nèi)容和功能框架,并將其應(yīng)用于學(xué)術(shù)搜索和關(guān)鍵詞自動抽取,已取得系列成果[43-45]??梢姡茖W(xué)文獻(xiàn)不同章節(jié)語法內(nèi)容所體現(xiàn)的語義功能,反映了學(xué)術(shù)文本不同結(jié)構(gòu)的目的性和功能性,用于計量分析的知識元抽取,理應(yīng)將不同位置結(jié)構(gòu)文本內(nèi)容所蘊(yùn)含的語義差異性作為首要考量因素。
事實上,科技領(lǐng)域文獻(xiàn)常在其“實驗/研究方法/研究材料”部分對材料制備的前期實驗進(jìn)行描述,該部分往往包含基本的化學(xué)組成和反應(yīng)機(jī)理,代表著材料合成和性能改良的關(guān)鍵創(chuàng)新知識點。例如,一篇文獻(xiàn)所截取實驗部分文本的原始段落中,有如下的實驗描述[46]:
該段語料在經(jīng)過OSCAR4知識元實體識別,進(jìn)行數(shù)據(jù)清洗、預(yù)處理、詞性標(biāo)注器過濾后,最終將得到帶有CM化合物實體標(biāo)簽的知識元詞串(即為上文中加黑加粗的詞項),結(jié)果表示如下:
可見,經(jīng)過數(shù)據(jù)處理后待實驗的文本語料,是未曾改變科學(xué)家原始實驗順序的知識元詞串,其上下文并非傳統(tǒng)意義上的字詞鏈接,而是具有表征太陽能電池器件材料制備前期、某種特定化學(xué)反應(yīng)和關(guān)聯(lián)屬性的有序知識元排列。進(jìn)而可以判定,如果化學(xué)實體要素在科學(xué)文獻(xiàn)實驗部分(包括Experimental section/Methods等格式)共現(xiàn),則代表該化學(xué)知識元對之間存在現(xiàn)實相互反應(yīng)關(guān)系(如的相互作用反應(yīng));而如果該知識元對在實驗部分頻繁共現(xiàn),則表征此類化學(xué)要素實體對作為基本知識元組分,可能在一定時段內(nèi)對促進(jìn)該領(lǐng)域的知識發(fā)現(xiàn)(新材料發(fā)現(xiàn))和創(chuàng)新(新材料性能改良)具有重要意義(如該實驗文本中化學(xué)知識元的頻繁共現(xiàn),說明此時期以材料作為吸光層和材料作為電子傳輸層的鈣鈦礦太陽能電池創(chuàng)新制備研發(fā))。因此,本文利用OSCAR4語義標(biāo)注技術(shù)從全文實驗部分抽取化學(xué)實體知識元,借助知識元對的共現(xiàn)計量分析,從微觀專業(yè)知識視角挖掘推動領(lǐng)域發(fā)展的突破口和創(chuàng)新點。
4.2 知識元共現(xiàn)網(wǎng)絡(luò)特征分析
網(wǎng)絡(luò)分析主要包括3個層面:宏觀層面統(tǒng)計(全局圖度量),包括k-核、最短距離、度分布等;中觀層面結(jié)構(gòu)(群簇聚類特征),包括聚類系數(shù)、層次聚類、模塊聚類等;微觀層面指標(biāo)(單個節(jié)點屬性),包括不同的中心性測度。本文主要應(yīng)用中心性分析和Fast unfolding社區(qū)發(fā)現(xiàn)算法對知識元共現(xiàn)網(wǎng)絡(luò)進(jìn)行分析。
4.2.1 中心性分析
(1)度數(shù)中心性(degree centrality):某知識元的度數(shù)中心性即該知識元與其他知識元的鏈接數(shù)量,如公式(2)所示,即知識元i的度數(shù)中心性,如果某知識元具有較高度數(shù),表示其居于化學(xué)反應(yīng)網(wǎng)絡(luò)的中心位置,具有權(quán)力:
(2)中間中心性(betweenness centrality):如果一個知識元處于許多其他知識元對的捷徑(geodesic,最短路徑)上,說明該知識元在資源控制上具有較高中間中心性,在連接不同子群化學(xué)反應(yīng)時起到橋梁作用,其表述為公式(3),其中是知識元j和k之間的捷徑距離(geodesic distance):
(3)接近中心性(closeness centrality):某知識元的接近中心性聚焦其知識傳遞能力,是其對整個網(wǎng)絡(luò)其他知識元化學(xué)作用影響能力測度的延伸,表述為公式(4),其中是網(wǎng)絡(luò)中兩個知識元的距離:
4.2.2 Fast unfolding社區(qū)探測
自模塊度(modularity)的概念在2004年被提出之后,進(jìn)一步推進(jìn)了用于社區(qū)探測評價的模塊度算法的發(fā)展,Blondel等[47]便于2008年提出了啟發(fā)式模塊度優(yōu)化的Fast unfolding社區(qū)識別算法,不僅大大降低模塊度運算時間,還能處理更為復(fù)雜、更大數(shù)據(jù)量的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)。本文利用fast unfolding算法進(jìn)行知識元共現(xiàn)網(wǎng)絡(luò)的社區(qū)探測,算法原理為以下兩步的迭代運行:
(1)模塊度優(yōu)化。將網(wǎng)絡(luò)中的全部N個知識元分配為N個社區(qū),計算每個知識元與鄰近知識元進(jìn)行社區(qū)組合前后的模塊度變化值ΔQ,如果結(jié)果為正,重復(fù)此過程,按順序?qū)ζ渌R元進(jìn)行社區(qū)組合,直到局部模塊度達(dá)到最大化時停止。將知識元i組合到社區(qū)C時的模塊度增量值ΔQ的計算公式如(5)所示,是C中所有鏈接權(quán)重總和,是關(guān)聯(lián)至C中所有知識元鏈接的權(quán)重之和,是關(guān)聯(lián)至知識元i鏈接的權(quán)重之和,是從知識元i到社區(qū)C中所有知識元鏈接的權(quán)重之和,m是整體網(wǎng)中所有鏈接的權(quán)重之和:
(2)新網(wǎng)絡(luò)組建。利用上一進(jìn)程探測得到的知識元社區(qū)組建新的復(fù)雜網(wǎng)絡(luò),新構(gòu)建網(wǎng)絡(luò)中知識元間的鏈接權(quán)重由對應(yīng)原兩個社區(qū)內(nèi)的知識元鏈接權(quán)重之和所決定,而同一社區(qū)內(nèi)的知識元鏈接在新網(wǎng)絡(luò)中組成閉環(huán)社區(qū)結(jié)構(gòu)。
5 實證研究
本文以《2016研究前沿》中“化學(xué)與材料科學(xué)領(lǐng)域”的“高效鈣鈦礦型太陽能電池”熱點前沿為例,對基于知識元共現(xiàn)的ESI研究前沿知識演進(jìn)分析方法進(jìn)行實驗驗證,詳細(xì)流程及結(jié)果如下。
5.1 研究數(shù)據(jù)獲取
在Web of Science中檢索該熱點前沿30篇核心論文(附表)的施引文獻(xiàn),檢索時間為2017年7月25日,共得到施引文獻(xiàn)題錄7022條(各年間施引文獻(xiàn)篇數(shù)分布及其增長趨勢預(yù)測曲線如圖4所示);在相應(yīng)數(shù)據(jù)庫中下載7022篇文獻(xiàn)的全文PDF數(shù)據(jù),共獲得PDF全文4860篇;將PDF全文轉(zhuǎn)換為Text純文本格式,并利用JAVA自編程序截取每篇文獻(xiàn)的“實驗/研究方法/研究材料”(包括Experimental section/Methods/Materials等格式)部分文本,獲取實驗文獻(xiàn)數(shù)據(jù)2677篇。4860篇PDF全文最終僅利用機(jī)器自動截取得到2677篇文本語料數(shù)據(jù)的原因有兩個:一個原因是一些期刊文獻(xiàn)可能不包含符合傳統(tǒng)標(biāo)準(zhǔn)規(guī)則結(jié)構(gòu)的“Introduction、Experimental section/Methods、Results and discussion”格式,如Journal of the American Chemical Society、ACS Nano、Journal of Materials Chemistry A等;另一個原因是一些科技文獻(xiàn)并不是原創(chuàng)的科學(xué)研究實驗性質(zhì)論文,只是“Letter”或“Communication”等通訊文摘。
每個時間段不同類型施引文獻(xiàn)數(shù)據(jù)如表2所示。
圖4 各年間原始施引文獻(xiàn)數(shù)據(jù)分布及增長趨勢預(yù)測曲線
5.2 數(shù)據(jù)處理與命名實體識別
首先對實驗數(shù)據(jù)進(jìn)行OSCAR4命名實體識別;然后進(jìn)行去除標(biāo)點、去除停用詞、詞頻過濾等數(shù)據(jù)預(yù)處理,過濾掉不需要的字符;最后通過分詞構(gòu)建詞袋模型(Bag of Words,BoW),利用PoS詞性標(biāo)注(Part-of-Speech tagging)過濾器過濾掉BoW詞包中不包含OSCAR實體標(biāo)簽的字符。處理后所得數(shù)據(jù)即為包含OSCAR化合物(Chemical Compound,CM)、本體術(shù)語(Ontology Term,ONT)、反應(yīng)名稱(Reaction Name,RN)、化學(xué)形容詞(Chemical Adjective,CJ)、酶類(Enzymes,ASE)等各類化學(xué)要素的命名實體。由于本實驗所需為CM化學(xué)實體知識元,因此還要利用Notepad++對識別出的OSCAR標(biāo)注實體過濾去噪去重,僅保留標(biāo)簽為CM的化學(xué)知識元實體。最后,將每篇文獻(xiàn)的CM知識元兩兩共現(xiàn)配對,設(shè)置一定閾值導(dǎo)入Gephi中進(jìn)行共現(xiàn)網(wǎng)絡(luò)分析。數(shù)據(jù)詳細(xì)處理流程如圖5所示。
5.3 研究前沿知識演進(jìn)分析
根據(jù)共現(xiàn)數(shù)據(jù)的多次預(yù)處理實驗,最終選擇共現(xiàn)頻次大于或等于5作為閾值篩選符合標(biāo)準(zhǔn)的知識元共現(xiàn)對,導(dǎo)入Gephi軟件生成共現(xiàn)網(wǎng)絡(luò),并計算網(wǎng)絡(luò)中心性和模塊度特征,分別對2010—2014年、2015年、2016年、2017年四個時間窗口的實驗數(shù)據(jù)進(jìn)行共現(xiàn)分析,從微觀專業(yè)知識擴(kuò)散流動視角挖掘前沿的知識演進(jìn)軌跡。
如何低成本高效利用太陽能一直是世界性科學(xué)研究焦點,在經(jīng)歷了第一代單晶硅和多晶硅太陽能電池、第二代非晶硅和多晶硅薄膜太陽能電池技術(shù)的發(fā)展,鈣鈦礦太陽能電池自2009年被首次報道、2013年被Science列為世界十大年度科學(xué)突破開始(這與圖4文獻(xiàn)年代數(shù)量分布特征相符,也一定程度證明文獻(xiàn)指數(shù)模擬預(yù)測曲線的合理性),已經(jīng)被視為最具應(yīng)用潛力的第三代高效太陽能電池,短短8年間,能量轉(zhuǎn)換效率已經(jīng)由3.8%迅猛增加到2017年的22.1%[48]。
5.3.1 2010—2014年研究前沿知識演進(jìn)特征
2010—2014年知識元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測結(jié)果分布如圖6所示(圖6~圖9中,知識元節(jié)點越大,代表度數(shù)中心性越大;節(jié)點間連線越粗、顏色越深,代表知識元共現(xiàn)頻率權(quán)重越大),知識元共現(xiàn)網(wǎng)絡(luò)中心性特征數(shù)值(表3~表6中,為比較不同網(wǎng)絡(luò)中心性特征,將中間中心性和接近中心性數(shù)值歸一化處理)與知識元共現(xiàn)頻次如表3所示。
圖5 數(shù)據(jù)處理流程圖
圖6 2010-2014年知識元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測結(jié)果分布圖
圖7 2015年知識元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測結(jié)果分布圖
圖8 2016年知識元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測結(jié)果分布圖
圖9 2017年知識元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測結(jié)果分布圖
2010-2014年作為萌芽期,研究主要集中在鈣鈦礦太陽能電池基本構(gòu)造、染料敏化與量子點電池技術(shù)改進(jìn)等方面(知識元社區(qū)C1、C5)。鈣鈦礦太陽能電池一般由導(dǎo)電玻璃基底(FTO/ITO)、電子傳輸層(通常為)、鈣鈦礦光吸收層(多為、空穴傳輸層(HTM)和金屬背電極等組成,因此、、FTO、HTM、ITO等知識元中心性數(shù)值較高。鈣鈦礦太陽能電池是由染料敏化電池、量子點電池等改進(jìn)發(fā)展而來,因而其對應(yīng)的DSSC、DSC、QDs(CdSe)等知識元中心性較高,且QDs、DSSC與共現(xiàn)頻次也較高。
具體來看,此時期主要涉及對光吸收層(C2社區(qū))、空穴傳輸層(C3社區(qū))、電子傳輸薄膜材料(C6社區(qū))等基本構(gòu)造的初步探究。自2009年作為吸光層用于染料敏化電池改進(jìn),因其獨特的晶體結(jié)構(gòu)和理化特性,一直是報道最為突出的鈣鈦礦太陽能電池高效光吸收劑;鈣鈦礦結(jié)構(gòu)通式為,光電性質(zhì)可以通過改變A、B、X離子來調(diào)節(jié),例如將金屬陽離子B換為Pb、Sn[49]等元素,或采用等吸光材料。2012年,Spiro-OMeTAD被發(fā)現(xiàn)可以代替液體電解質(zhì),作為空穴傳輸材料(HTM)提高電池穩(wěn)定性[50]。鈣鈦礦作為新一代有機(jī)薄膜太陽能電池(OPV),電子傳輸材料除由傳統(tǒng)Si發(fā)展而來的外,還可采用[51]、ZnO等其他金屬氧化物替代。此外,知識元社區(qū)C4則反映了此時期實驗制備化學(xué)試劑構(gòu)成,主要包括KBr、等。
5.3.2 2015年研究前沿知識演進(jìn)特征
2015年知識元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測結(jié)果分布如圖7所示,知識元共現(xiàn)網(wǎng)絡(luò)中心性特征數(shù)值與知識元共現(xiàn)頻次如表4所示。
相比于2010—2014年知識元社區(qū)的集中分布,可以看出2015年開始知識元社區(qū)呈現(xiàn)相對分散的布局,此時進(jìn)入鈣鈦礦太陽能領(lǐng)域前沿的初步發(fā)展時期。多孔介觀和平面異質(zhì)太陽能電池成為研究熱點(知識元社區(qū)C1、C3、C4、C5),基于/ZnO電子傳輸層,其多采用有機(jī)—無機(jī)混合結(jié)晶材料(有機(jī)金屬三鹵化物如,通常簡寫為,X=I,Br等)作為光吸收材料,該材料導(dǎo)帶底(CBM)和價帶頂(VBM)附近能帶結(jié)構(gòu)位置在合適的水平,禁帶寬度為1.55eV(對應(yīng)吸收截止波長800 nm),與太陽光譜匹配,具有良好的光吸收性能[52]??茖W(xué)家還發(fā)現(xiàn)鈣鈦礦薄膜形態(tài)的有效控制與電池性能提高密切相關(guān),而基于的薄膜制備技術(shù)成為報道焦點[53]。中心性特征分析結(jié)果也表明上述相關(guān)知識元中心性數(shù)值較高,且在知識元高頻率共現(xiàn)對中出現(xiàn)。
值得注意的是,石墨烯(graphene)及其衍生物因其獨特材料結(jié)構(gòu)和光電性質(zhì),被發(fā)現(xiàn)作為兩側(cè)透明電極、電子傳輸層、界面修飾層、空穴傳輸層可提高鈣鈦礦太陽能電池轉(zhuǎn)換效率和穩(wěn)定性(知識元社區(qū)C2),引起關(guān)注(不僅中心性數(shù)值較高,且在Top 20知識元高頻共現(xiàn)對中出現(xiàn)9次)。例如,石墨烯納米帶(GNRs)復(fù)合TiO2等作電子傳輸材料,石墨烯替代氧化銦錫(ITO)、氧化氟錫(FTO)等電極提高透光率[54],石墨烯量子點(QDs)促進(jìn)電子提取效率[55],氧化石墨烯(GO)阻滯電荷復(fù)合等。另外,C2社區(qū)還涉及Au、Cu等金屬電極材料探究。
5.3.3 2016年研究前沿知識演進(jìn)特征
2016年知識元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測結(jié)果分布如圖8所示,知識元共現(xiàn)網(wǎng)絡(luò)中心性特征數(shù)值與知識元共現(xiàn)頻次如表5所示。
通過圖8可以看出,2016年間各知識元社區(qū)分布呈現(xiàn)更加分散和交叉的態(tài)勢,此時進(jìn)入鈣鈦礦太陽能領(lǐng)域前沿的快速發(fā)展時期。圍繞鈣鈦礦太陽能電池的核心鈣鈦礦組件(知識元社區(qū)C1、C6)、空穴傳輸與電子傳輸材料(C2、C4、C5)、透明電極和金屬電極(C3)、多孔絕緣支撐材料(C7)等知識社區(qū)不僅中心地位知識元更加清晰穩(wěn)固,知識元組分也在傳統(tǒng)材料認(rèn)知結(jié)構(gòu)基礎(chǔ)上持續(xù)創(chuàng)新,出現(xiàn)了許多新興的知識元組成構(gòu)造。
具體說來,以()和為核心構(gòu)造的鈣鈦礦太陽能電池仍牢牢占據(jù)研究中心地位,其相關(guān)組分知識元中心性及共現(xiàn)頻次也均較高,但一些科學(xué)家也開始對缺乏關(guān)注的鈣鈦礦材料進(jìn)行研究,發(fā)現(xiàn)其帶隙大、可以用來吸收高能光子的優(yōu)勢值得開發(fā)[56];在前一時期將中金屬陽離子B替換為Ni、Co等進(jìn)行研究基礎(chǔ)上,科學(xué)家在此時期開始將A替換為無機(jī)物Cs等進(jìn)行無機(jī)鉛鹵鈣鈦礦材料的探索[57]。電子和空穴傳輸層作為進(jìn)行電子—空穴對分離、吸收、阻隔的關(guān)鍵部件仍是研究熱點,例如,CdTe、CdSe等無機(jī)半導(dǎo)體化合物量子點復(fù)合的電子傳輸材料引發(fā)關(guān)注,基于富勒烯衍生物PCBM)和ZnO的鈣鈦礦電池被證明具有更高電路性能[58];含硫聚合物(P3HT等)等新興空穴傳輸材料展示了不俗的空穴傳輸能力。與此同時,以為多孔絕緣材料支架的介觀超結(jié)構(gòu)鈣鈦礦電池也逐漸進(jìn)入視野[59]。
5.3.4 2017年研究前沿知識演進(jìn)特征
2017年知識元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測結(jié)果分布如圖9所示,知識元共現(xiàn)網(wǎng)絡(luò)中心性特征數(shù)值與知識元共現(xiàn)頻次如表6所示。
通過圖9可以看出,相比于2016年,2017年知識元社區(qū)又開始呈現(xiàn)相對緊湊和集中的結(jié)構(gòu)布局,中心結(jié)構(gòu)穩(wěn)固,邊緣結(jié)構(gòu)變遷方向清晰,開始進(jìn)入鈣鈦礦太陽能領(lǐng)域前沿的穩(wěn)定發(fā)展時期。代表鹵化物(halide)鈣鈦礦太陽能電池的C1和C2仍然是處于中心地位的知識元社區(qū),與其相關(guān)的等知識元中心性具有較高數(shù)值、高頻共現(xiàn)對也占據(jù)較大份額。
雖然有機(jī)鉛鹵化物鈣鈦礦太陽能電池研究仍為火熱,但其材料及高效電池器件的穩(wěn)定性、吸光材料物理結(jié)構(gòu)機(jī)理與性能等問題也逐漸引起科學(xué)家重視,逐步興起以窄帶隙甲脒基(FA)和無機(jī)等為代表的新型吸光材料(知識元社區(qū)C3、C4),以改善電池器件的穩(wěn)定性,提高電池效率。MA-和FA-基鈣鈦礦的熱重分析結(jié)果表明,(簡寫為)的熱穩(wěn)定性比都要好,使其成為擁有最高能量轉(zhuǎn)換效率的鈣鈦礦核心材料[48];等全無機(jī)鹵化鉛銫量子點吸光層和發(fā)光材料,由于導(dǎo)帶與價帶之間缺少成鍵-反鍵相互作用,具有顯著載流子遷移率和擴(kuò)散長度,能保持其優(yōu)良性質(zhì)不受缺陷影響而引起重視[60]。
另外,有毒重金屬Pb的環(huán)境污染問題和電子—空穴傳輸材料的成本問題等也成為聚焦熱點(知識元社區(qū)C5、C6)。許多研究開始致力于無鉛鈣鈦礦,如用Sn等IVA同族元素替換有毒的Pb,等Sn基鈣鈦礦太陽能電池具有較Pb基更高的電荷遷移率和更小的帶隙寬度;在此基礎(chǔ)上,以Cs、Rb等取代甲胺MA的型等無機(jī)非鉛鈣鈦礦電池也被證明具有較好光電性能[61]。目前廣為采用的Spiro-OMeTAD空穴傳輸材料成本過高,傳輸速率有限,P3HT(聚3-己基噻吩)等有機(jī)空穴傳輸材料有望推進(jìn)鈣鈦礦太陽能電池的大規(guī)模應(yīng)用[62]。
5.4 結(jié)果比較與驗證
5.4.1 結(jié)果比較分析
利用VOSviewer對研究前沿核心論文的7022篇施引文獻(xiàn)題錄數(shù)據(jù)進(jìn)行基于關(guān)鍵詞和術(shù)語主題詞的共現(xiàn)分析,并與上節(jié)中基于知識元的共現(xiàn)分析結(jié)果進(jìn)行比較,檢驗知識元共現(xiàn)方法在研究前沿知識演進(jìn)分析中的有效性和先進(jìn)性。
基于7022篇文獻(xiàn)作者關(guān)鍵詞(Author keywords)與WoS關(guān)鍵詞(KeyWords Plus)的關(guān)鍵詞共現(xiàn)結(jié)果年代分布如圖10所示(以共現(xiàn)頻次大于等于5為閾值)。
對7022篇施引文獻(xiàn)的標(biāo)題和摘要進(jìn)行術(shù)語主題詞抽取,由于術(shù)語主題詞數(shù)據(jù)量較大,以共現(xiàn)頻次大于等于10作為閾值,并利用相關(guān)性算法篩選相關(guān)性得分居于前60%的主題術(shù)語作為計量對象,其共現(xiàn)結(jié)果年代分布如圖11所示。
結(jié)合圖10和圖11的計量結(jié)果,可以看出,通過傳統(tǒng)關(guān)鍵詞和主題詞的共現(xiàn)分析結(jié)果,雖然也能發(fā)現(xiàn)一些研究前沿的演進(jìn)特點和發(fā)展方向。例如,從2014年到2016年研究范圍逐漸擴(kuò)大,研究領(lǐng)域逐步延伸和深入;經(jīng)歷了由染料敏化太陽能電池(dye sensitized solar cell)、量子點敏化太陽能電池(qdssc)到以為基本組分的碘化鉛鈣鈦礦(lead iodide perovskites)和金屬鹵化物鈣鈦礦(halide perovskite)太陽能電池的發(fā)展脈絡(luò)歷程;電子傳輸層(ETL,electron transport layer)、雜化鈣鈦礦(hybrid perovskites)、全無機(jī)鈣鈦礦量子點()、混合鹵化物鈣鈦礦薄膜(mixed halide perovskite film)等是近年來的研究熱點。但是,圖10與圖11的計量對象雖是領(lǐng)域術(shù)語,但處于網(wǎng)絡(luò)中心地位的大都是performance、efficiency、lengths、solar-cells、review、challenge、perspective、additive等無實際專業(yè)意義的詞或詞語,無法全面代表反映文獻(xiàn)中的關(guān)鍵創(chuàng)新知識點和專業(yè)領(lǐng)域語義元素,基于此類關(guān)鍵詞和術(shù)語主題詞的分析結(jié)果不能較好地精確、完整揭示鈣鈦礦太陽能電池研究前沿微觀層面的知識流動和演進(jìn)變遷特征。相較而言,基于知識元的計量分析方法則能深入到文獻(xiàn)內(nèi)部,挖掘代表該領(lǐng)域創(chuàng)新知識組分的核心專業(yè)要素,利用共現(xiàn)關(guān)聯(lián)網(wǎng)絡(luò)實現(xiàn)專業(yè)知識元的鏈接和重組,呈現(xiàn)該前沿的微觀知識結(jié)構(gòu)構(gòu)造及其演變發(fā)展規(guī)律。
圖10 施引文獻(xiàn)Author Keywords和KeyWords Plus的關(guān)鍵詞共現(xiàn)結(jié)果分布
圖11 施引文獻(xiàn)術(shù)語主題詞共現(xiàn)結(jié)果年代分布圖
5.4.2 結(jié)果驗證分析
本文是基于《2016研究前沿》數(shù)據(jù)進(jìn)行前沿演進(jìn)分析的,該前沿在2017年推進(jìn)到什么地步、發(fā)展到何種程度,對于檢驗本文分析方法的可靠性和結(jié)果的有效性具有重要參考意義。中國科學(xué)院和科睿唯安(Clarivate Analytics)于2017年11月2日全球發(fā)布的《2017研究前沿》[63]中“化學(xué)與材料科學(xué)”領(lǐng)域關(guān)于鈣鈦礦太陽能電池的最新前沿分布(表7),恰好可以成為驗證本文分析結(jié)果準(zhǔn)確性的標(biāo)尺和證據(jù)。
通過表7可以發(fā)現(xiàn),《2017研究前沿》與“鈣鈦礦太陽能電池”相關(guān)的共有4個研究前沿,包括1個熱點前沿和3個新興前沿。熱點前沿主要研究“新型有機(jī)空穴傳輸材料”,第5.3節(jié)的2016年和2017年知識演進(jìn)特征中有關(guān)“P3HT有機(jī)空穴材料”的識別結(jié)果即涉及此類研究;新興前沿聚焦“和非鉛鈣鈦礦太陽能電池”,第5.3節(jié)的2017年知識演進(jìn)特征中關(guān)于“無機(jī)鹵化鉛銫量子點材料”和“等環(huán)境友好型鈣鈦礦太陽能電池”的分析結(jié)果則很好地印證了該新興前沿的知識分布結(jié)果。
另外,由中國可再生能源學(xué)會(原中國太陽能學(xué)會)和中國科學(xué)院物理研究所自2014年開始連年舉辦的“新型太陽能電池學(xué)術(shù)研討會”,作為我國太陽能電池領(lǐng)域的權(quán)威學(xué)術(shù)會議,旨在“深入探討新型太陽能電池研究領(lǐng)域尤其是鈣鈦礦太陽能電池研究所面臨的機(jī)遇、挑戰(zhàn)及未來發(fā)展方向”[64]。至2017年5月成功舉辦的4屆學(xué)術(shù)會議恰好對應(yīng)本文的4個年段,筆者通過調(diào)研該會議每年的會議報告和會議論文,通過與各年間本文的識別結(jié)果比較,也發(fā)現(xiàn)基于知識元共現(xiàn)的研究前沿演進(jìn)分析方法,能很好地識別各時間節(jié)點所對應(yīng)的代表性知識創(chuàng)新要素,對于從微觀專業(yè)知識視角離析前沿的知識演進(jìn)和發(fā)展脈絡(luò)具有良好效用。
還需要說明的是,為實際驗證基于知識元計量的研究前沿演進(jìn)分析結(jié)果與現(xiàn)實中專業(yè)學(xué)科領(lǐng)域演變發(fā)展的吻合程度和準(zhǔn)確性,特邀請領(lǐng)域?qū)<覍Ρ疚牡淖R別分析結(jié)果進(jìn)行了審閱、校對和把關(guān),得到了領(lǐng)域?qū)<业恼J(rèn)可和好評。既證實了知識元共現(xiàn)的計量分析方法在研究前沿演進(jìn)分析應(yīng)用中的可靠性和實用性,也能再一次驗證知識元科學(xué)計量方法相比基于傳統(tǒng)關(guān)鍵詞主題詞計量分析的優(yōu)越性。
6 總結(jié)與展望
科技戰(zhàn)略情報的基本任務(wù)是:監(jiān)測分析科技發(fā)展動態(tài)和動向,為把握科技發(fā)展大勢、研判科技發(fā)展方向、識別科技創(chuàng)新突破口和生長點,提供事實數(shù)據(jù)及其關(guān)聯(lián)證據(jù)。ESI研究前沿作為對全球科技發(fā)展布局和競爭結(jié)構(gòu)的揭示,可以為前瞻謀劃和布局前沿發(fā)展方向提供重要的情報參考,而基于知識元共現(xiàn)的研究前沿演進(jìn)分析,則能從微觀視角對科技文獻(xiàn)內(nèi)部的關(guān)鍵創(chuàng)新知識元素進(jìn)行鏈接和重組,從由內(nèi)到外的科學(xué)結(jié)構(gòu)視角揭示科技發(fā)展的脈絡(luò)、規(guī)律和方向,對于識別科技創(chuàng)新突破點、把握未來科技方向也能起到一定效用。
本文在前期研究基礎(chǔ)上,提出了一種基于知識元共現(xiàn)的ESI研究前沿知識演進(jìn)分析方法,并基于2016年研究前沿數(shù)據(jù)驗證了該方法的可行性。該方法主要借助文本挖掘、語義標(biāo)注和自然語言處理技術(shù),首先截取前沿核心論文所對應(yīng)施引文獻(xiàn)全文的“實驗/研究方法/研究材料”部分文本數(shù)據(jù),然后利用OSCAR4命名實體識別技術(shù)挖掘代表每篇文獻(xiàn)關(guān)鍵創(chuàng)新知識的化學(xué)實體知識元,最后對不同時間標(biāo)簽下的知識元共現(xiàn)網(wǎng)絡(luò)進(jìn)行中心性和模塊度特征分析,進(jìn)而從微觀知識流動和科學(xué)知識結(jié)構(gòu)變遷的視角呈現(xiàn)研究前沿的知識演進(jìn)規(guī)律。通過與傳統(tǒng)基于關(guān)鍵詞和術(shù)語主題詞共現(xiàn)分析結(jié)果的比較,檢驗該方法的先進(jìn)性;利用《2017研究前沿》報告結(jié)果和權(quán)威會議論文等驗證該方法的有效性和實用性。
我國著名情報學(xué)家馬費成教授早在20世紀(jì)就提出:知識信息表達(dá)組織由物理層次文獻(xiàn)單元向認(rèn)知層次知識單元轉(zhuǎn)換、知識信息計量從語法層次向語義和語用層次發(fā)展是情報學(xué)的基本任務(wù)和目標(biāo)[65]。兩個“轉(zhuǎn)化”問題至今仍未很好解決,而作為解決此問題所嘗試的一種思路,本文也存在一些局限:全文本數(shù)據(jù)獲取仍是進(jìn)行文本挖掘的最大障礙,雖然全文挖掘相比摘要題名挖掘能得到更優(yōu)、更全面的研究結(jié)果,但醫(yī)學(xué)PubMed以外其他領(lǐng)域出版商對全文數(shù)據(jù)的供給仍存在諸多限制,全文數(shù)據(jù)復(fù)用更是難題[66];出版商提供的全文數(shù)據(jù)多為PDF文檔,將其轉(zhuǎn)換為機(jī)器易讀的文本格式不但耗時費力,化學(xué)式等領(lǐng)域?qū)嶓w轉(zhuǎn)換前后的準(zhǔn)確率和匹配問題對數(shù)據(jù)分析結(jié)果影響較大;計算機(jī)對專業(yè)知識語義尚無法做到精確理解,區(qū)分化合物和領(lǐng)域本體等命名實體的技術(shù)識別結(jié)果可能存在偏差;對專業(yè)知識元共現(xiàn)重組關(guān)系的解讀需要領(lǐng)域知識的積累,個人的專業(yè)知識儲備局限可能對一些邊緣的、隱性的關(guān)聯(lián)關(guān)系發(fā)掘具有一定影響。
因此,在未來研究中,除繼續(xù)補(bǔ)充更全備的全文數(shù)據(jù)、探究提高知識元實體識別準(zhǔn)確率的技術(shù)方法外,還將借助新型計量指標(biāo)的設(shè)計,創(chuàng)新科學(xué)計量方法和理論,重點通過解決以下問題來深化研究前沿的知識演進(jìn)研究:如何辨別研究前沿演進(jìn)中的原創(chuàng)與跟隨式創(chuàng)新,找出代表某時間段關(guān)鍵創(chuàng)新的核心知識元網(wǎng)絡(luò);如何識別上述知識元網(wǎng)絡(luò)中的代表性知識元組分,通過定量計算此類知識元在不同網(wǎng)絡(luò)中的時序遷移規(guī)律,厘析研究前沿的節(jié)律式發(fā)展進(jìn)程。
欄目分類
- 館藏《(增修)施南府志》的修復(fù)與保存
- 紙媒介在平面設(shè)計創(chuàng)作中的應(yīng)用與教學(xué)方法探討
- 廣電媒資從紙質(zhì)向數(shù)字化轉(zhuǎn)型中的敘事重構(gòu)研究
- 空間設(shè)計教學(xué)中紙藝技術(shù)的創(chuàng)意應(yīng)用與學(xué)生創(chuàng)新能力培養(yǎng)
- 人工智能驅(qū)動下的紙質(zhì)出版智能化轉(zhuǎn)型:技術(shù)融合與創(chuàng)新路徑
- 非遺傳統(tǒng)手工藝中紙張應(yīng)用的技術(shù)體系與活態(tài)傳承策略
- 紙藝術(shù)的跨文化符號:中西方剪紙的英譯對比研究
- 數(shù)智時代非物質(zhì)文化遺產(chǎn)的保護(hù)與傳承路徑——以河南剪紙為例
- 基于環(huán)保視角的紙制品企業(yè)廢物管理與再利用策略
- 圖書館紙質(zhì)文獻(xiàn)數(shù)字化存儲平臺的優(yōu)化設(shè)計與文件管理方法研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了