科學(xué)論文功能單元本體設(shè)計與標(biāo)引應(yīng)用實驗

作者：王曉光，李夢琳來源：《中國圖書館學(xué)報》日期：2020-03-24人氣：1397

0 引言

隨著科學(xué)研究事業(yè)迅速發(fā)展，科學(xué)知識增長開始加速，直接表現(xiàn)為科學(xué)論文數(shù)量的暴漲。科研工作者每年的閱讀量在日益增長，而單篇文獻(xiàn)的平均閱讀時間卻在逐漸下降，讀者不得不在短時間內(nèi)找到并閱讀完自己感興趣的文獻(xiàn)[1]。從讀者的理解對象來看，真正有價值的是這些科學(xué)文獻(xiàn)內(nèi)的特定部分而非全文。隨著知識資源形態(tài)的多樣化和用戶知識需求的精準(zhǔn)化，學(xué)術(shù)文獻(xiàn)呈現(xiàn)出細(xì)粒度和語義化發(fā)展趨勢[2]。在這樣的環(huán)境下，幫助用戶快速準(zhǔn)確定位科學(xué)論文中的情報單元，并進(jìn)行比較分析和戰(zhàn)略閱讀，就顯得尤為重要。

科學(xué)論文的組成結(jié)構(gòu)復(fù)雜，從形式結(jié)構(gòu)來看，一般包括題目、摘要、表格、圖片、參考文獻(xiàn)、腳注、詞組、句子等內(nèi)容[3]。從邏輯結(jié)構(gòu)來看，論文一般包括引言、文獻(xiàn)綜述、研究方法、結(jié)果和討論等部分[4]。規(guī)范描述并準(zhǔn)確表征論文不同內(nèi)容部分的語義屬性，是實現(xiàn)論文深度語義標(biāo)引、情報抽取、知識挖掘和知識發(fā)現(xiàn)的基礎(chǔ)[5-7]?？茖W(xué)論文內(nèi)容本體設(shè)計在語義出版研究領(lǐng)域已經(jīng)得到廣泛關(guān)注?；诓煌睦碚摵蛯嵺`視角，不同形式的科學(xué)論文內(nèi)容本體也陸續(xù)被提出[8-9]。但這些本體普遍關(guān)于論文的形式結(jié)構(gòu)和修辭結(jié)構(gòu)，沒有對論文的語義功能結(jié)構(gòu)進(jìn)行理想的表達(dá)，限制了情報的自動抽取和知識發(fā)現(xiàn)。

本文參考已有的科學(xué)論文內(nèi)容表示模型和本體模型，重點基于功能單元理論，設(shè)計了一種新型的科學(xué)論文功能單元本體(Functional Units Ontology，F(xiàn)UO)，從內(nèi)容組件的語義功能角度對科學(xué)論文的組織結(jié)構(gòu)進(jìn)行細(xì)粒度建模，并采用標(biāo)注實驗對該本體進(jìn)行可用性實驗，檢驗該本體在科學(xué)論文內(nèi)容語義功能表示上的能力。

1 相關(guān)研究綜述

1.1 科學(xué)論文的內(nèi)容組成部分及其屬性

理解科學(xué)論文的內(nèi)容組成部分及其結(jié)構(gòu)具有重要意義。從語言學(xué)角度揭示作者的寫作意圖、文本功能、修辭結(jié)構(gòu)等語義特征，對內(nèi)容組件進(jìn)行分類識別，有助于實現(xiàn)更高層次的知識組織與資源聚合[10]?；诖怂枷耄芯空咛岢隽酥T多具有廣泛影響力的科學(xué)論文內(nèi)容結(jié)構(gòu)模型，如引言—方法—結(jié)果—討論(Introduction-Method-Result-Discussion，IMRD)模型。該模型將科學(xué)論文內(nèi)容分為引言、方法、結(jié)果與討論四大部分[11]。基于此模型，Teufel在修辭理論指導(dǎo)下提出了科學(xué)論文論證塊(Argumentative Zoning，AZ)模型，該模型表征了論文內(nèi)部的論證結(jié)構(gòu)[12]。隨后，Teufel又對這一模型進(jìn)行擴(kuò)展，提出了更細(xì)粒度的框架AZ II，將作者情感傾向與文本修辭功能進(jìn)行結(jié)合，強(qiáng)調(diào)對不同觀點的比較[13]。Liakata等[14-15]認(rèn)為科學(xué)論文主要是為了闡明科學(xué)調(diào)查過程，總結(jié)實驗結(jié)果，得出科學(xué)結(jié)論，因此提出了包括11個核心知識單元在內(nèi)的核心科學(xué)概念(Core Scientific Concept，CoreSC)模型。de Warrd[16]也設(shè)計了一個包括7個類別的篇章塊模型(Discourse Segment)?；谝陨线@些模型，研究者對科學(xué)論文進(jìn)行了語義標(biāo)注實驗，構(gòu)建了一些研究性語料庫[17]，分析了各種內(nèi)容部分的語言學(xué)特征，探討了科學(xué)論文的知識建構(gòu)問題，并且為文本自動標(biāo)注提供了一定的基礎(chǔ)規(guī)則[18]。有研究表明，利用多種模型進(jìn)行協(xié)同標(biāo)注可以實現(xiàn)更豐富的語義揭示[19-20]。

除了對論文內(nèi)容組成部分進(jìn)行分類建模之外，對不同組成部分的狀態(tài)和屬性進(jìn)行描述也必不可少?！霸R”(metaknowledge)是Evans在2011年提出的一種描述知識生產(chǎn)的時間、類型及作者觀點態(tài)度的概念[21]。元知識是隱藏在論文表層符號之下的潛在知識情報，揭示這些知識有助于科學(xué)交流和情報分析。Thompson等人對元知識進(jìn)行了細(xì)致的定義，提出了EventMine-MK模型，并針對生物醫(yī)學(xué)領(lǐng)域科學(xué)論文及新聞文本分別設(shè)計了Bio-Event[22]、News-Event[23]等元知識模型，涉及知識類型、可信度、極性、程度、來源等多維屬性。de Warrd等[24]研究了論文內(nèi)容的知識屬性(Knowledge Attribution)和認(rèn)知情態(tài)(Epistemic Modality)，進(jìn)而提出了科學(xué)論文中的命題屬性模型，包含確定性等級、基礎(chǔ)、來源三個方面。此外，在引文關(guān)系研究中，陸偉等也提出了引文的8種屬性特征，如被引文獻(xiàn)類型、被引頻次、是否自引等[25]，以支持更深層次的引文分析。由此可見，對科學(xué)論文內(nèi)容組件的屬性進(jìn)行多維度的描述，不僅可以深入揭示內(nèi)容組件的語義功能，還能更好地支撐基于文獻(xiàn)的情報分析與知識發(fā)現(xiàn)。

1.2 科學(xué)論文內(nèi)容本體

科學(xué)論文內(nèi)容本體是借助本體技術(shù)對科學(xué)論文內(nèi)容組成部分的規(guī)范化和形式化的表示，是科學(xué)論文組成結(jié)構(gòu)的知識表示模型[26]。近年來，為了滿足語義出版需要，科學(xué)論文內(nèi)容本體逐漸產(chǎn)生。2007年，Groza等人提出的SALT本體定義了背景、討論、結(jié)論、動機(jī)、情景等論文內(nèi)容組件[27]。2011年，W3C提出了修辭塊本體(ORB)，將科學(xué)論文分為頭部、主體、尾部三大部分，并參考IMRD模型對主體部分進(jìn)行了細(xì)致定義，包括引言、方法、結(jié)果、討論等部分[28]。2012年，Peroni等人提出了描述科學(xué)論文修辭結(jié)構(gòu)的篇章元素本體DEO[29]，隨后又提出了描述文獻(xiàn)內(nèi)容組件的DoCO本體[30]，明確定義了諸如背景、作者貢獻(xiàn)、材料、方法等多個內(nèi)容組件。此外，Peroni等人還結(jié)合引文本體CiTO[31]、參考文獻(xiàn)本體BiRO、出版流程本體PWO、出版角色本體PRO，共同構(gòu)建了用以支撐語義出版的本體集SPAR[32]。在SPAR之外，Peroni還提出了AMO本體，定義了科學(xué)論文的論證結(jié)構(gòu)[33]。

目前，科學(xué)論文內(nèi)容本體在內(nèi)容抽取、語義關(guān)聯(lián)方面得到了應(yīng)用，但主要集中在生物醫(yī)學(xué)領(lǐng)域。Utopia Document[34]、Biotea[35]等項目借助DoCO本體對醫(yī)學(xué)和生物學(xué)領(lǐng)域科學(xué)論文進(jìn)行語義標(biāo)引，同時結(jié)合領(lǐng)域本體，開發(fā)了知識庫和語義出版系統(tǒng)。SLOR項目[36]也綜合應(yīng)用科學(xué)論文內(nèi)容本體和引用本體對科學(xué)論文內(nèi)容進(jìn)行關(guān)聯(lián)描述與語義發(fā)布。

總的來說，現(xiàn)有的論文內(nèi)容本體多以修辭結(jié)構(gòu)理論和語篇分析理論為基礎(chǔ)，對論文內(nèi)容組成部分進(jìn)行表示和建模。這種本體模型因為理論視角的問題，無法深入揭示科學(xué)論文中的情報信息。事實上，科學(xué)論文中情報信息的揭示需要結(jié)合語言學(xué)的體裁分析、情報學(xué)的知識單元理論、信息搜尋理論和知識發(fā)現(xiàn)理論等來綜合處理。為了構(gòu)建更加適合情報分析和知識發(fā)現(xiàn)的科學(xué)論文內(nèi)容本體模型，我們需要特別關(guān)注內(nèi)容組成部分的語義功能。

2 功能單元理論

功能單元理論(Functional Units Theory)是由Zhang Lei[37]在2010年提出的關(guān)于科學(xué)論文語篇結(jié)構(gòu)及內(nèi)容組織方式的理論。Zhang Lei認(rèn)為，功能單元是能夠滿足不同科學(xué)交流功能、實現(xiàn)知識傳播任務(wù)的最小內(nèi)容單元，這些內(nèi)容組件分布在論文的引言、方法、結(jié)果和討論四大部分[37]。功能單元理論借鑒了Swales的研究空間理論(Creating a Research Space，CARS)、語步分析[38]等體裁分析理論，識別出科學(xué)論文中的41個功能單元。同時，功能單元理論在信息使用模型的基礎(chǔ)上，定義了讀者閱讀科學(xué)論文的五大常用信息使用任務(wù)，包括學(xué)習(xí)背景知識(Learn about background)、學(xué)習(xí)方法(Leam how to)、參考事實(Refer to facts)、參考論證(Refer to arguments)、跟進(jìn)研究前沿(Keeping up)，并將細(xì)粒度功能單元與具體的信息使用任務(wù)進(jìn)行關(guān)聯(lián)，揭示出不同類型情報的語義功能屬性。

基于Zhang Lei提出的功能單元理論[39]，表1詳細(xì)表示了功能單元、論文IMRD結(jié)構(gòu)模型和具體信息使用任務(wù)之間的關(guān)系。功能單元理論共區(qū)分了三類功能單元，參照IMRD結(jié)構(gòu)模型定義的科學(xué)論文四大組成部分，第一類功能單元是與當(dāng)前信息任務(wù)最直接相關(guān)的功能單元，第二類是在IMRD結(jié)構(gòu)中對第一類功能單元的深入闡述，第三類則是與當(dāng)前信息任務(wù)相關(guān)，但分布在其他IMRD結(jié)構(gòu)中的功能單元。

從表1可以看出，不同的功能單元與特定信息使用任務(wù)之間存在一定的關(guān)聯(lián)關(guān)系，特定部分的功能單元發(fā)揮著特定的作用，如在引言部分，功能單元“前人研究綜述”和“前人研究貢獻(xiàn)”在信息使用任務(wù)“學(xué)習(xí)背景知識”中發(fā)揮著最重要的作用。另外，同一功能單元在不同信息使用任務(wù)中也可以扮演不同的角色。各功能單元按照信息使用任務(wù)也形成了一定的層級結(jié)構(gòu)。所以說，功能單元理論是面向信息任務(wù)、融合體裁分析的關(guān)于科學(xué)論文內(nèi)容組織方式的基礎(chǔ)理論。借助功能單元可以有效提升閱讀過程中的內(nèi)容導(dǎo)航、文獻(xiàn)精度和深度理解，能夠滿足用戶對于科研論文的不同需求，幫助用戶實現(xiàn)戰(zhàn)略閱讀[39-41]。

相較于修辭、論證等語篇分析理論，功能單元理論具有以下三點特征，使其更加適合面向深度標(biāo)引及情報發(fā)現(xiàn)的科學(xué)論文內(nèi)容本體構(gòu)建：①功能單元理論針對科學(xué)論文的語義功能和獨特語境，規(guī)定了科學(xué)論文內(nèi)容組件的類型及屬性，定義更為全面、準(zhǔn)確；②相較于一般的科學(xué)論文內(nèi)容結(jié)構(gòu)模型，功能單元理論對內(nèi)容組件的定義更為細(xì)致，對情報功能的表達(dá)更為充分；③功能單元理論探討了不同內(nèi)容組件的功能及對用戶信息使用任務(wù)的作用，將具體的內(nèi)容組件與特定的信息任務(wù)進(jìn)行了關(guān)聯(lián)，可以用以支撐面向特定信息需求的檢索與知識發(fā)現(xiàn)。因此，功能單元理論適合用于科學(xué)論文內(nèi)容本體開發(fā)。

3 科學(xué)論文功能單元本體設(shè)計

3.1 本體設(shè)計目標(biāo)

科學(xué)論文功能單元本體(FUO)的設(shè)計目標(biāo)是，從語義功能角度準(zhǔn)確定義科學(xué)論文內(nèi)容組件的類型及其屬性，構(gòu)建科學(xué)論文內(nèi)容結(jié)構(gòu)表示模型，并利用規(guī)范的本體表示技術(shù)，建立可共享和可重復(fù)使用的科學(xué)論文功能單元本體。

3.2 功能單元類型調(diào)整原則

功能單元理論借鑒了大量諸如體裁分析、語步理論等語言學(xué)基礎(chǔ)理論，因而在類目設(shè)置上具有較強(qiáng)的語言學(xué)特征，存在功能重復(fù)、累贅等現(xiàn)象。例如，引言部分的“提出假設(shè)”(Present hypotheses)和結(jié)果(Results)部分的“重述假設(shè)”(Restate hypotheses)均表示具有“假設(shè)”語義功能的內(nèi)容組件。同時，功能單元的具體類目除了對當(dāng)前內(nèi)容組件的語義功能進(jìn)行概述之外，通常還包括情感傾向、來源等屬性信息。例如，“前人研究空白”(Indicate a gap in previous research)既包含了“當(dāng)下組件的語義功能”(Indicate a gap)，又表示了組件的來源(Previous research)。

為了更加清晰地區(qū)分內(nèi)容組件及其屬性，我們首先對Zhang Lei提出的41個功能單元進(jìn)行調(diào)整。一是將具有相似含義的類目進(jìn)行合并，如將“強(qiáng)調(diào)主題重要性”(Claim importance of topic)和“陳述本研究價值”(State value of present research)合并為“研究意義”(Significance)。二是排除掉含義較為模糊或適用性不強(qiáng)的類目，如“防止反訴”(Word off counterclaim)。三是新增類目。數(shù)據(jù)一直都是科學(xué)研究必不可少的一部分，因此本研究借鑒DEO本體，新增“數(shù)據(jù)”(Data)組件，用于對數(shù)據(jù)集本身及數(shù)據(jù)分析過程的描述。四是重新界定名稱及含義。功能單元類目名稱多為“動賓結(jié)構(gòu)”，如“陳述結(jié)果”“闡明定義”等，本研究參照多數(shù)科學(xué)論文內(nèi)容結(jié)構(gòu)模型，將類目名稱改為“名詞”形式，如“結(jié)果”“主題相關(guān)定義”等，以準(zhǔn)確界定其表示的含義。五是確定各個內(nèi)容組件的屬性信息，借鑒已有的元知識表示模型，從來源、組件類型、確定性程度等多個維度確定內(nèi)容組件的屬性。

3.3 本體中的類設(shè)計

基于以上調(diào)整原則，我們設(shè)計了包含12個一級類、28個二級類的功能單元本體基本模型。其中，二級類具備一級類的語義特征。我們對方法、討論、實驗、數(shù)據(jù)等情報價值較高的部分進(jìn)行了深入劃分與界定。例如，將方法部分定義為方法描述(Method-Description)、方法選擇(Method-Selection)、方法評估(Method-Evaluation)，將實驗部分定義為實驗素材(Experiment-Material)、實驗任務(wù)(Experiment-Task)、實驗步驟(Experiment-Procedure)與實驗變量(Experiment-Variable)，將討論部分定義為要點重述(Discussion-Recapitulation)、對比(Discussion-Comparison)、貢獻(xiàn)(Discussion-Contribution)、局限性(Discussion-Limitation)，如表2所示。表2中的第四列“共現(xiàn)框架”指的是與本文定義的組件類型具有相同類目的框架，如本文定義的“背景”類，同時也存在于AZ、AZ-II、CoreSC、DiscourseSegment、DEO這些模型中。

相較于已有的修辭塊本體、篇章元素本體等，本研究提出的本體具備多層次、多粒度的特征，能夠更全面、細(xì)致地揭示科學(xué)論文內(nèi)容組成部分的語義功能特征，能夠滿足論文深度標(biāo)引的需求。

3.4 本體中的屬性設(shè)計

科學(xué)論文中的功能單元通常都帶有語境信息，如作者態(tài)度、觀點確定性程度等。這些語境信息的缺失會影響計算機(jī)對文本的正確解讀[42]。因此，科學(xué)論文功能單元本體必須表示這些屬性。我們在參考Bio-Event、News-Event兩個模型以及de Warrd的研究成果基礎(chǔ)上，設(shè)計了5類屬性，如表3所示。

在描述科學(xué)論文內(nèi)容組件時，確定性程度用以表示內(nèi)容的語義確信度，根據(jù)是否有客觀事實為依據(jù)，可以將屬性值定為高和低。如：基于客觀數(shù)據(jù)得到的結(jié)論，其確定性程度為“高”，而由推理或猜測得到的假設(shè)，確定性程度為“低”。情感傾向揭示的是內(nèi)容所傳達(dá)的正負(fù)向情緒，包括評價、判斷、推測等方面。如支持某一觀點時，情感傾向為正向；表達(dá)某一結(jié)果的不足時，態(tài)度是負(fù)向的；客觀陳述事實則為中立態(tài)度。知識類型包括調(diào)查、觀察、解釋及一般類型，與研究方法密切相關(guān)，如通過實驗法得到的內(nèi)容通常是由觀察得到的，而通過問卷法得到的結(jié)論通常歸為由調(diào)查得到的。來源包括作者本人的研究、引用他人的研究。時態(tài)包括過去、一般/現(xiàn)在、將來。如在陳述已有研究或?qū)嶒炦^程時，通常使用過去時態(tài)；在展望未來研究時，使用將來時態(tài)。以上屬性信息均可通過科學(xué)論文組件中特定的線索詞反映出來，這同時也為機(jī)器自動標(biāo)注、知識挖掘與知識發(fā)現(xiàn)提供了文本語義層面的基礎(chǔ)。

特定的內(nèi)容組件會呈現(xiàn)出相應(yīng)的屬性特征，具體如表4所示。先從屬性角度來看，一般涉及科學(xué)事實、數(shù)據(jù)和引用的，都帶有確定性程度和來源屬性。情感傾向?qū)傩砸话悴淮嬖谟凇爸黝}”“背景”“實驗”“未來工作”組件中，因為這些組件很少涉及評價、判斷等觀點性內(nèi)容。知識類型屬性不用于“緣起”“假設(shè)”“未來工作”組件。時態(tài)屬性是普適的，在英文論文中所有內(nèi)容組件都會有對應(yīng)的時態(tài)特征。再從內(nèi)容組件角度來看，“已有研究”“數(shù)據(jù)”“結(jié)果”“結(jié)論”和“討論”組件的知識形態(tài)都能涉及表3定義的5種屬性類型，因為它們都以科學(xué)事實和數(shù)據(jù)為基礎(chǔ)，需要注明引用來源，同時也會有判斷、評價性內(nèi)容產(chǎn)生，故帶有情感傾向。“假設(shè)”組件的屬性特征比較清晰，通常確定性程度值為“低”，情感傾向為正向或負(fù)向?！熬壠稹焙汀胺椒ā苯M件會帶有情感傾向?qū)傩裕驗榇蟛糠盅芯吭谘芯縿訖C(jī)和意義上都會表現(xiàn)出正向的態(tài)度，同時方法部分會涉及有效性評估?！皩嶒灐苯M件一般是客觀陳述實驗的素材、步驟、任務(wù)、變量，不存在事實、數(shù)據(jù)和結(jié)論、評判，所以不帶有確定性程度和情感傾向?qū)傩裕坏窃谶x擇實驗變量時，通常需要借鑒和引用相關(guān)研究已經(jīng)論證過的變量，因此帶有來源屬性。而“研究緣起”“假設(shè)”“未來工作”都不涉及引用，故沒有“來源”屬性，其中“未來工作”組件只是一般性陳述未來的研究方向，所以也不會涉及確定性程度、情感傾向和知識類型屬性。

3.5 基于Protégé的科學(xué)論文功能單元本體表示

在開發(fā)了本體模型后，我們使用Protégé5.1對本體進(jìn)行了表示。本體中的類如圖1所示，屬性如圖2所示。

4 基于FUO的科學(xué)論文深度語義標(biāo)引實驗

4.1 深度語義標(biāo)引方法

深度標(biāo)引(Deep indexing)是近年來被廣泛接受的新型文獻(xiàn)組織方式，意在通過對文獻(xiàn)內(nèi)部不同粒度數(shù)字資源進(jìn)行標(biāo)引與組織，表征并揭示圖表、數(shù)據(jù)及相關(guān)內(nèi)容中蘊(yùn)含的潛在知識，以滿足用戶高精度、細(xì)粒度的檢索需求，實現(xiàn)知識挖掘、共享與重組目標(biāo)[43]，已在信息檢索領(lǐng)域達(dá)成了廣泛共識[44]。科學(xué)論文內(nèi)容的深度標(biāo)引需要準(zhǔn)確定義科學(xué)論文內(nèi)容組件及其屬性信息[45]。標(biāo)引流程如圖3所示。

圖1 本體大類及其子類樹形圖

圖2 本體屬性樹形圖

圖3 科學(xué)論文內(nèi)容深度語義標(biāo)引流程

在比較分析了標(biāo)注工具GATE[46]和Annotea[47]后，我們選擇了GATE作為標(biāo)引工具。GATE由謝菲爾德大學(xué)開發(fā)，是一款集本體標(biāo)注、自然語言處理等功能模塊為一體的文本分析工具，最新版本為8.4.1。借助GATE平臺可以使用本體直接對科學(xué)論文內(nèi)容部分進(jìn)行標(biāo)引，并將標(biāo)引結(jié)果以XML的形式進(jìn)行存儲。GATE可以對不同語義單元進(jìn)行可視化呈現(xiàn)，其具體操作流程如圖4所示。

4.2 標(biāo)引結(jié)果存儲示例

標(biāo)注實驗結(jié)果可以被保存為XML文檔，示例如表5和表6所示。表5展示了學(xué)習(xí)方法部分的標(biāo)注結(jié)果代碼。這一部分主要包括方法和實驗兩大類及其子類，主要屬性包括來源、知識類型、時態(tài)等。

表6所示為研究背景部分的標(biāo)引結(jié)果，這部分側(cè)重于對已有研究的梳理及對比，屬性主要包括來源、知識類型、情感傾向、時態(tài)等。

圖4 GATE平臺的標(biāo)引流程

4.3 深度標(biāo)引實驗結(jié)果

為了驗證功能單元本體FUO對科學(xué)論文語義結(jié)構(gòu)和功能的表示能力，本研究從學(xué)術(shù)期刊Journal of the Association for Information Science and Technology中隨機(jī)抽取了2015—2018年間發(fā)表的10篇研究型論文作為實驗對象，借助FUO進(jìn)行深度語義標(biāo)引。該期刊是美國科學(xué)技術(shù)情報學(xué)會的會刊，主要發(fā)表情報科學(xué)與技術(shù)方面的論文，論文格式十分規(guī)范。隨機(jī)抽取的10篇論文如表7所示。

我們遵照前文所述流程和方法對這10篇論文進(jìn)行了標(biāo)引，并對標(biāo)引結(jié)果進(jìn)行了統(tǒng)計分析，以觀察不同類型的功能單元在科學(xué)論文中的分布情況，結(jié)果如表8和表9所示。

表8揭示了每篇論文含有的功能單元種類數(shù)量。從表8可以看出，不同的論文含有的功能單元種類數(shù)量不同，有5篇論文含有30種以上功能單元，2篇論文分別含有25種和26種單元類型。再結(jié)合表9來看，不同類型的功能單元在文章中出現(xiàn)的頻率也不同，有些功能單元如“背景”“研究目標(biāo)”十分常見，有些功能單元，如“本人研究”和“方法評估”比較少見。綜合這些統(tǒng)計數(shù)據(jù)可知，使用功能單元本體FUO可以對科學(xué)論文內(nèi)容進(jìn)行深度語義標(biāo)引，具有較好的可用性。

5 討論

5.1 多本體協(xié)同下的論文深度語義標(biāo)引

科學(xué)論文是知識的容器，蘊(yùn)含著不同類型的情報與知識?？茖W(xué)論文功能單元本體不受領(lǐng)域限制，但僅僅是一種視角。研究者還可以從不同的理論和觀察視角提出更多的論文內(nèi)容本體，揭示論文的情報結(jié)構(gòu)和功能特征。事實上，為了全面揭示一篇科學(xué)論文內(nèi)涵的科學(xué)知識和情報，還必須協(xié)同使用不同本體對科學(xué)論文內(nèi)容進(jìn)行多角度的深度語義標(biāo)引。需要特別指出的是，科學(xué)論文內(nèi)容本體與領(lǐng)域本體(醫(yī)學(xué)、生物學(xué)等)不同，兩者是不同類型的本體。在論文深度語義標(biāo)引中需要使用內(nèi)容本體進(jìn)行語義功能標(biāo)引，使用領(lǐng)域本體進(jìn)行主題標(biāo)引，兩者缺一不可。

5.2 科學(xué)論文功能單元本體中的關(guān)系定義

科學(xué)論文內(nèi)容組件間的關(guān)系在科學(xué)論文語篇有機(jī)構(gòu)成中扮演著重要角色，但關(guān)系的定義和識別較為復(fù)雜。雖然修辭結(jié)構(gòu)理論、論證理論都對內(nèi)容組件間的關(guān)系進(jìn)行了定義，但不同理論的語義關(guān)系定義存在沖突。功能單元理論對此考慮也不夠細(xì)致，所以在我們的本體模型中暫時沒有考慮這種關(guān)系定義。未來，可以借鑒體裁分析、語篇分析、情報分析等理論，對內(nèi)容組件間的語義關(guān)系進(jìn)行嘗試性定義。

5.3 面向科學(xué)情報分析的內(nèi)容組件重組

科學(xué)論文的不同部分隱藏著不同功能和價值的科學(xué)情報，揭示這些細(xì)粒度的潛在的情報具有重要意義。本研究利用功能單元本體FUO對論文進(jìn)行初步的深度語義標(biāo)引實驗，統(tǒng)計分析了不同功能單元的分布情況。事實上，如果對所有論文進(jìn)行深度語義標(biāo)引，就可以對細(xì)粒度的內(nèi)容片段進(jìn)行重新組織，從而輔助情報分析和科研工作者的戰(zhàn)略閱讀，大大提高情報工作的效率和科研工作者理解特定科研領(lǐng)域宏觀知識的效率。

6 總結(jié)

本文以功能單元理論為基礎(chǔ)，面向科學(xué)論文情報表示和揭示需求，提出了一種新的科學(xué)論文功能單元本體FUO。借助該本體和語義標(biāo)注工具GATE，對10篇樣本論文進(jìn)行深度語義標(biāo)引實驗，結(jié)果表明該本體適用于科學(xué)論文的深度語義標(biāo)引，能夠在一定程度上表示和揭示科學(xué)論文中各部件的語義功能及其屬性。

該研究借助本體技術(shù)，首次清晰地定義了科學(xué)論文的功能單元及其屬性，提出的功能單元本體FUO在信息組織、語義檢索、知識發(fā)現(xiàn)、情報分析等領(lǐng)域擁有廣闊的應(yīng)用空間。但是，隨著科學(xué)論文的數(shù)字化轉(zhuǎn)型，越來越多的內(nèi)容組件形式出現(xiàn)，如互動表格、數(shù)據(jù)集、音視頻等，如何對這些內(nèi)容組件進(jìn)行建模表示，需要進(jìn)一步考慮。不管如何，本文的研究深化了我們對論文這種知識容器的理解，完善了情報學(xué)視角下的科學(xué)論文語義結(jié)構(gòu)與功能理論。未來，我們將繼續(xù)細(xì)化功能單元的分類，并嘗試從其他理論視角提出更豐富的科學(xué)論文內(nèi)容本體。

關(guān)鍵字：論文篇論文投稿咨詢社科論文

上一篇：偶然VS必然：公共文化服務(wù)研究的興起與發(fā)展
下一篇：情報學(xué)研究范式與主流理論的演化歷程（1987—2017）

欄目分類

熱門排行

推薦信息

期刊知識