科學(xué)論文功能單元本體設(shè)計(jì)與標(biāo)引應(yīng)用實(shí)驗(yàn)
0 引言
隨著科學(xué)研究事業(yè)迅速發(fā)展,科學(xué)知識(shí)增長(zhǎng)開始加速,直接表現(xiàn)為科學(xué)論文數(shù)量的暴漲??蒲泄ぷ髡呙磕甑拈喿x量在日益增長(zhǎng),而單篇文獻(xiàn)的平均閱讀時(shí)間卻在逐漸下降,讀者不得不在短時(shí)間內(nèi)找到并閱讀完自己感興趣的文獻(xiàn)[1]。從讀者的理解對(duì)象來(lái)看,真正有價(jià)值的是這些科學(xué)文獻(xiàn)內(nèi)的特定部分而非全文。隨著知識(shí)資源形態(tài)的多樣化和用戶知識(shí)需求的精準(zhǔn)化,學(xué)術(shù)文獻(xiàn)呈現(xiàn)出細(xì)粒度和語(yǔ)義化發(fā)展趨勢(shì)[2]。在這樣的環(huán)境下,幫助用戶快速準(zhǔn)確定位科學(xué)論文中的情報(bào)單元,并進(jìn)行比較分析和戰(zhàn)略閱讀,就顯得尤為重要。
科學(xué)論文的組成結(jié)構(gòu)復(fù)雜,從形式結(jié)構(gòu)來(lái)看,一般包括題目、摘要、表格、圖片、參考文獻(xiàn)、腳注、詞組、句子等內(nèi)容[3]。從邏輯結(jié)構(gòu)來(lái)看,論文一般包括引言、文獻(xiàn)綜述、研究方法、結(jié)果和討論等部分[4]。規(guī)范描述并準(zhǔn)確表征論文不同內(nèi)容部分的語(yǔ)義屬性,是實(shí)現(xiàn)論文深度語(yǔ)義標(biāo)引、情報(bào)抽取、知識(shí)挖掘和知識(shí)發(fā)現(xiàn)的基礎(chǔ)[5-7]??茖W(xué)論文內(nèi)容本體設(shè)計(jì)在語(yǔ)義出版研究領(lǐng)域已經(jīng)得到廣泛關(guān)注。基于不同的理論和實(shí)踐視角,不同形式的科學(xué)論文內(nèi)容本體也陸續(xù)被提出[8-9]。但這些本體普遍關(guān)于論文的形式結(jié)構(gòu)和修辭結(jié)構(gòu),沒有對(duì)論文的語(yǔ)義功能結(jié)構(gòu)進(jìn)行理想的表達(dá),限制了情報(bào)的自動(dòng)抽取和知識(shí)發(fā)現(xiàn)。
本文參考已有的科學(xué)論文內(nèi)容表示模型和本體模型,重點(diǎn)基于功能單元理論,設(shè)計(jì)了一種新型的科學(xué)論文功能單元本體(Functional Units Ontology,F(xiàn)UO),從內(nèi)容組件的語(yǔ)義功能角度對(duì)科學(xué)論文的組織結(jié)構(gòu)進(jìn)行細(xì)粒度建模,并采用標(biāo)注實(shí)驗(yàn)對(duì)該本體進(jìn)行可用性實(shí)驗(yàn),檢驗(yàn)該本體在科學(xué)論文內(nèi)容語(yǔ)義功能表示上的能力。
1 相關(guān)研究綜述
1.1 科學(xué)論文的內(nèi)容組成部分及其屬性
理解科學(xué)論文的內(nèi)容組成部分及其結(jié)構(gòu)具有重要意義。從語(yǔ)言學(xué)角度揭示作者的寫作意圖、文本功能、修辭結(jié)構(gòu)等語(yǔ)義特征,對(duì)內(nèi)容組件進(jìn)行分類識(shí)別,有助于實(shí)現(xiàn)更高層次的知識(shí)組織與資源聚合[10]?;诖怂枷耄芯空咛岢隽酥T多具有廣泛影響力的科學(xué)論文內(nèi)容結(jié)構(gòu)模型,如引言—方法—結(jié)果—討論(Introduction-Method-Result-Discussion,IMRD)模型。該模型將科學(xué)論文內(nèi)容分為引言、方法、結(jié)果與討論四大部分[11]?;诖四P停琓eufel在修辭理論指導(dǎo)下提出了科學(xué)論文論證塊(Argumentative Zoning,AZ)模型,該模型表征了論文內(nèi)部的論證結(jié)構(gòu)[12]。隨后,Teufel又對(duì)這一模型進(jìn)行擴(kuò)展,提出了更細(xì)粒度的框架AZ II,將作者情感傾向與文本修辭功能進(jìn)行結(jié)合,強(qiáng)調(diào)對(duì)不同觀點(diǎn)的比較[13]。Liakata等[14-15]認(rèn)為科學(xué)論文主要是為了闡明科學(xué)調(diào)查過程,總結(jié)實(shí)驗(yàn)結(jié)果,得出科學(xué)結(jié)論,因此提出了包括11個(gè)核心知識(shí)單元在內(nèi)的核心科學(xué)概念(Core Scientific Concept,CoreSC)模型。de Warrd[16]也設(shè)計(jì)了一個(gè)包括7個(gè)類別的篇章塊模型(Discourse Segment)。基于以上這些模型,研究者對(duì)科學(xué)論文進(jìn)行了語(yǔ)義標(biāo)注實(shí)驗(yàn),構(gòu)建了一些研究性語(yǔ)料庫(kù)[17],分析了各種內(nèi)容部分的語(yǔ)言學(xué)特征,探討了科學(xué)論文的知識(shí)建構(gòu)問題,并且為文本自動(dòng)標(biāo)注提供了一定的基礎(chǔ)規(guī)則[18]。有研究表明,利用多種模型進(jìn)行協(xié)同標(biāo)注可以實(shí)現(xiàn)更豐富的語(yǔ)義揭示[19-20]。
除了對(duì)論文內(nèi)容組成部分進(jìn)行分類建模之外,對(duì)不同組成部分的狀態(tài)和屬性進(jìn)行描述也必不可少。“元知識(shí)”(metaknowledge)是Evans在2011年提出的一種描述知識(shí)生產(chǎn)的時(shí)間、類型及作者觀點(diǎn)態(tài)度的概念[21]。元知識(shí)是隱藏在論文表層符號(hào)之下的潛在知識(shí)情報(bào),揭示這些知識(shí)有助于科學(xué)交流和情報(bào)分析。Thompson等人對(duì)元知識(shí)進(jìn)行了細(xì)致的定義,提出了EventMine-MK模型,并針對(duì)生物醫(yī)學(xué)領(lǐng)域科學(xué)論文及新聞文本分別設(shè)計(jì)了Bio-Event[22]、News-Event[23]等元知識(shí)模型,涉及知識(shí)類型、可信度、極性、程度、來(lái)源等多維屬性。de Warrd等[24]研究了論文內(nèi)容的知識(shí)屬性(Knowledge Attribution)和認(rèn)知情態(tài)(Epistemic Modality),進(jìn)而提出了科學(xué)論文中的命題屬性模型,包含確定性等級(jí)、基礎(chǔ)、來(lái)源三個(gè)方面。此外,在引文關(guān)系研究中,陸偉等也提出了引文的8種屬性特征,如被引文獻(xiàn)類型、被引頻次、是否自引等[25],以支持更深層次的引文分析。由此可見,對(duì)科學(xué)論文內(nèi)容組件的屬性進(jìn)行多維度的描述,不僅可以深入揭示內(nèi)容組件的語(yǔ)義功能,還能更好地支撐基于文獻(xiàn)的情報(bào)分析與知識(shí)發(fā)現(xiàn)。
1.2 科學(xué)論文內(nèi)容本體
科學(xué)論文內(nèi)容本體是借助本體技術(shù)對(duì)科學(xué)論文內(nèi)容組成部分的規(guī)范化和形式化的表示,是科學(xué)論文組成結(jié)構(gòu)的知識(shí)表示模型[26]。近年來(lái),為了滿足語(yǔ)義出版需要,科學(xué)論文內(nèi)容本體逐漸產(chǎn)生。2007年,Groza等人提出的SALT本體定義了背景、討論、結(jié)論、動(dòng)機(jī)、情景等論文內(nèi)容組件[27]。2011年,W3C提出了修辭塊本體(ORB),將科學(xué)論文分為頭部、主體、尾部三大部分,并參考IMRD模型對(duì)主體部分進(jìn)行了細(xì)致定義,包括引言、方法、結(jié)果、討論等部分[28]。2012年,Peroni等人提出了描述科學(xué)論文修辭結(jié)構(gòu)的篇章元素本體DEO[29],隨后又提出了描述文獻(xiàn)內(nèi)容組件的DoCO本體[30],明確定義了諸如背景、作者貢獻(xiàn)、材料、方法等多個(gè)內(nèi)容組件。此外,Peroni等人還結(jié)合引文本體CiTO[31]、參考文獻(xiàn)本體BiRO、出版流程本體PWO、出版角色本體PRO,共同構(gòu)建了用以支撐語(yǔ)義出版的本體集SPAR[32]。在SPAR之外,Peroni還提出了AMO本體,定義了科學(xué)論文的論證結(jié)構(gòu)[33]。
目前,科學(xué)論文內(nèi)容本體在內(nèi)容抽取、語(yǔ)義關(guān)聯(lián)方面得到了應(yīng)用,但主要集中在生物醫(yī)學(xué)領(lǐng)域。Utopia Document[34]、Biotea[35]等項(xiàng)目借助DoCO本體對(duì)醫(yī)學(xué)和生物學(xué)領(lǐng)域科學(xué)論文進(jìn)行語(yǔ)義標(biāo)引,同時(shí)結(jié)合領(lǐng)域本體,開發(fā)了知識(shí)庫(kù)和語(yǔ)義出版系統(tǒng)。SLOR項(xiàng)目[36]也綜合應(yīng)用科學(xué)論文內(nèi)容本體和引用本體對(duì)科學(xué)論文內(nèi)容進(jìn)行關(guān)聯(lián)描述與語(yǔ)義發(fā)布。
總的來(lái)說,現(xiàn)有的論文內(nèi)容本體多以修辭結(jié)構(gòu)理論和語(yǔ)篇分析理論為基礎(chǔ),對(duì)論文內(nèi)容組成部分進(jìn)行表示和建模。這種本體模型因?yàn)槔碚撘暯堑膯栴},無(wú)法深入揭示科學(xué)論文中的情報(bào)信息。事實(shí)上,科學(xué)論文中情報(bào)信息的揭示需要結(jié)合語(yǔ)言學(xué)的體裁分析、情報(bào)學(xué)的知識(shí)單元理論、信息搜尋理論和知識(shí)發(fā)現(xiàn)理論等來(lái)綜合處理。為了構(gòu)建更加適合情報(bào)分析和知識(shí)發(fā)現(xiàn)的科學(xué)論文內(nèi)容本體模型,我們需要特別關(guān)注內(nèi)容組成部分的語(yǔ)義功能。
2 功能單元理論
功能單元理論(Functional Units Theory)是由Zhang Lei[37]在2010年提出的關(guān)于科學(xué)論文語(yǔ)篇結(jié)構(gòu)及內(nèi)容組織方式的理論。Zhang Lei認(rèn)為,功能單元是能夠滿足不同科學(xué)交流功能、實(shí)現(xiàn)知識(shí)傳播任務(wù)的最小內(nèi)容單元,這些內(nèi)容組件分布在論文的引言、方法、結(jié)果和討論四大部分[37]。功能單元理論借鑒了Swales的研究空間理論(Creating a Research Space,CARS)、語(yǔ)步分析[38]等體裁分析理論,識(shí)別出科學(xué)論文中的41個(gè)功能單元。同時(shí),功能單元理論在信息使用模型的基礎(chǔ)上,定義了讀者閱讀科學(xué)論文的五大常用信息使用任務(wù),包括學(xué)習(xí)背景知識(shí)(Learn about background)、學(xué)習(xí)方法(Leam how to)、參考事實(shí)(Refer to facts)、參考論證(Refer to arguments)、跟進(jìn)研究前沿(Keeping up),并將細(xì)粒度功能單元與具體的信息使用任務(wù)進(jìn)行關(guān)聯(lián),揭示出不同類型情報(bào)的語(yǔ)義功能屬性。
基于Zhang Lei提出的功能單元理論[39],表1詳細(xì)表示了功能單元、論文IMRD結(jié)構(gòu)模型和具體信息使用任務(wù)之間的關(guān)系。功能單元理論共區(qū)分了三類功能單元,參照IMRD結(jié)構(gòu)模型定義的科學(xué)論文四大組成部分,第一類功能單元是與當(dāng)前信息任務(wù)最直接相關(guān)的功能單元,第二類是在IMRD結(jié)構(gòu)中對(duì)第一類功能單元的深入闡述,第三類則是與當(dāng)前信息任務(wù)相關(guān),但分布在其他IMRD結(jié)構(gòu)中的功能單元。
從表1可以看出,不同的功能單元與特定信息使用任務(wù)之間存在一定的關(guān)聯(lián)關(guān)系,特定部分的功能單元發(fā)揮著特定的作用,如在引言部分,功能單元“前人研究綜述”和“前人研究貢獻(xiàn)”在信息使用任務(wù)“學(xué)習(xí)背景知識(shí)”中發(fā)揮著最重要的作用。另外,同一功能單元在不同信息使用任務(wù)中也可以扮演不同的角色。各功能單元按照信息使用任務(wù)也形成了一定的層級(jí)結(jié)構(gòu)。所以說,功能單元理論是面向信息任務(wù)、融合體裁分析的關(guān)于科學(xué)論文內(nèi)容組織方式的基礎(chǔ)理論。借助功能單元可以有效提升閱讀過程中的內(nèi)容導(dǎo)航、文獻(xiàn)精度和深度理解,能夠滿足用戶對(duì)于科研論文的不同需求,幫助用戶實(shí)現(xiàn)戰(zhàn)略閱讀[39-41]。
相較于修辭、論證等語(yǔ)篇分析理論,功能單元理論具有以下三點(diǎn)特征,使其更加適合面向深度標(biāo)引及情報(bào)發(fā)現(xiàn)的科學(xué)論文內(nèi)容本體構(gòu)建:①功能單元理論針對(duì)科學(xué)論文的語(yǔ)義功能和獨(dú)特語(yǔ)境,規(guī)定了科學(xué)論文內(nèi)容組件的類型及屬性,定義更為全面、準(zhǔn)確;②相較于一般的科學(xué)論文內(nèi)容結(jié)構(gòu)模型,功能單元理論對(duì)內(nèi)容組件的定義更為細(xì)致,對(duì)情報(bào)功能的表達(dá)更為充分;③功能單元理論探討了不同內(nèi)容組件的功能及對(duì)用戶信息使用任務(wù)的作用,將具體的內(nèi)容組件與特定的信息任務(wù)進(jìn)行了關(guān)聯(lián),可以用以支撐面向特定信息需求的檢索與知識(shí)發(fā)現(xiàn)。因此,功能單元理論適合用于科學(xué)論文內(nèi)容本體開發(fā)。
3 科學(xué)論文功能單元本體設(shè)計(jì)
3.1 本體設(shè)計(jì)目標(biāo)
科學(xué)論文功能單元本體(FUO)的設(shè)計(jì)目標(biāo)是,從語(yǔ)義功能角度準(zhǔn)確定義科學(xué)論文內(nèi)容組件的類型及其屬性,構(gòu)建科學(xué)論文內(nèi)容結(jié)構(gòu)表示模型,并利用規(guī)范的本體表示技術(shù),建立可共享和可重復(fù)使用的科學(xué)論文功能單元本體。
3.2 功能單元類型調(diào)整原則
功能單元理論借鑒了大量諸如體裁分析、語(yǔ)步理論等語(yǔ)言學(xué)基礎(chǔ)理論,因而在類目設(shè)置上具有較強(qiáng)的語(yǔ)言學(xué)特征,存在功能重復(fù)、累贅等現(xiàn)象。例如,引言部分的“提出假設(shè)”(Present hypotheses)和結(jié)果(Results)部分的“重述假設(shè)”(Restate hypotheses)均表示具有“假設(shè)”語(yǔ)義功能的內(nèi)容組件。同時(shí),功能單元的具體類目除了對(duì)當(dāng)前內(nèi)容組件的語(yǔ)義功能進(jìn)行概述之外,通常還包括情感傾向、來(lái)源等屬性信息。例如,“前人研究空白”(Indicate a gap in previous research)既包含了“當(dāng)下組件的語(yǔ)義功能”(Indicate a gap),又表示了組件的來(lái)源(Previous research)。
為了更加清晰地區(qū)分內(nèi)容組件及其屬性,我們首先對(duì)Zhang Lei提出的41個(gè)功能單元進(jìn)行調(diào)整。一是將具有相似含義的類目進(jìn)行合并,如將“強(qiáng)調(diào)主題重要性”(Claim importance of topic)和“陳述本研究?jī)r(jià)值”(State value of present research)合并為“研究意義”(Significance)。二是排除掉含義較為模糊或適用性不強(qiáng)的類目,如“防止反訴”(Word off counterclaim)。三是新增類目。數(shù)據(jù)一直都是科學(xué)研究必不可少的一部分,因此本研究借鑒DEO本體,新增“數(shù)據(jù)”(Data)組件,用于對(duì)數(shù)據(jù)集本身及數(shù)據(jù)分析過程的描述。四是重新界定名稱及含義。功能單元類目名稱多為“動(dòng)賓結(jié)構(gòu)”,如“陳述結(jié)果”“闡明定義”等,本研究參照多數(shù)科學(xué)論文內(nèi)容結(jié)構(gòu)模型,將類目名稱改為“名詞”形式,如“結(jié)果”“主題相關(guān)定義”等,以準(zhǔn)確界定其表示的含義。五是確定各個(gè)內(nèi)容組件的屬性信息,借鑒已有的元知識(shí)表示模型,從來(lái)源、組件類型、確定性程度等多個(gè)維度確定內(nèi)容組件的屬性。
3.3 本體中的類設(shè)計(jì)
基于以上調(diào)整原則,我們?cè)O(shè)計(jì)了包含12個(gè)一級(jí)類、28個(gè)二級(jí)類的功能單元本體基本模型。其中,二級(jí)類具備一級(jí)類的語(yǔ)義特征。我們對(duì)方法、討論、實(shí)驗(yàn)、數(shù)據(jù)等情報(bào)價(jià)值較高的部分進(jìn)行了深入劃分與界定。例如,將方法部分定義為方法描述(Method-Description)、方法選擇(Method-Selection)、方法評(píng)估(Method-Evaluation),將實(shí)驗(yàn)部分定義為實(shí)驗(yàn)素材(Experiment-Material)、實(shí)驗(yàn)任務(wù)(Experiment-Task)、實(shí)驗(yàn)步驟(Experiment-Procedure)與實(shí)驗(yàn)變量(Experiment-Variable),將討論部分定義為要點(diǎn)重述(Discussion-Recapitulation)、對(duì)比(Discussion-Comparison)、貢獻(xiàn)(Discussion-Contribution)、局限性(Discussion-Limitation),如表2所示。表2中的第四列“共現(xiàn)框架”指的是與本文定義的組件類型具有相同類目的框架,如本文定義的“背景”類,同時(shí)也存在于AZ、AZ-II、CoreSC、DiscourseSegment、DEO這些模型中。
相較于已有的修辭塊本體、篇章元素本體等,本研究提出的本體具備多層次、多粒度的特征,能夠更全面、細(xì)致地揭示科學(xué)論文內(nèi)容組成部分的語(yǔ)義功能特征,能夠滿足論文深度標(biāo)引的需求。
3.4 本體中的屬性設(shè)計(jì)
科學(xué)論文中的功能單元通常都帶有語(yǔ)境信息,如作者態(tài)度、觀點(diǎn)確定性程度等。這些語(yǔ)境信息的缺失會(huì)影響計(jì)算機(jī)對(duì)文本的正確解讀[42]。因此,科學(xué)論文功能單元本體必須表示這些屬性。我們?cè)趨⒖糂io-Event、News-Event兩個(gè)模型以及de Warrd的研究成果基礎(chǔ)上,設(shè)計(jì)了5類屬性,如表3所示。
在描述科學(xué)論文內(nèi)容組件時(shí),確定性程度用以表示內(nèi)容的語(yǔ)義確信度,根據(jù)是否有客觀事實(shí)為依據(jù),可以將屬性值定為高和低。如:基于客觀數(shù)據(jù)得到的結(jié)論,其確定性程度為“高”,而由推理或猜測(cè)得到的假設(shè),確定性程度為“低”。情感傾向揭示的是內(nèi)容所傳達(dá)的正負(fù)向情緒,包括評(píng)價(jià)、判斷、推測(cè)等方面。如支持某一觀點(diǎn)時(shí),情感傾向?yàn)檎颍槐磉_(dá)某一結(jié)果的不足時(shí),態(tài)度是負(fù)向的;客觀陳述事實(shí)則為中立態(tài)度。知識(shí)類型包括調(diào)查、觀察、解釋及一般類型,與研究方法密切相關(guān),如通過實(shí)驗(yàn)法得到的內(nèi)容通常是由觀察得到的,而通過問卷法得到的結(jié)論通常歸為由調(diào)查得到的。來(lái)源包括作者本人的研究、引用他人的研究。時(shí)態(tài)包括過去、一般/現(xiàn)在、將來(lái)。如在陳述已有研究或?qū)嶒?yàn)過程時(shí),通常使用過去時(shí)態(tài);在展望未來(lái)研究時(shí),使用將來(lái)時(shí)態(tài)。以上屬性信息均可通過科學(xué)論文組件中特定的線索詞反映出來(lái),這同時(shí)也為機(jī)器自動(dòng)標(biāo)注、知識(shí)挖掘與知識(shí)發(fā)現(xiàn)提供了文本語(yǔ)義層面的基礎(chǔ)。
特定的內(nèi)容組件會(huì)呈現(xiàn)出相應(yīng)的屬性特征,具體如表4所示。先從屬性角度來(lái)看,一般涉及科學(xué)事實(shí)、數(shù)據(jù)和引用的,都帶有確定性程度和來(lái)源屬性。情感傾向?qū)傩砸话悴淮嬖谟凇爸黝}”“背景”“實(shí)驗(yàn)”“未來(lái)工作”組件中,因?yàn)檫@些組件很少涉及評(píng)價(jià)、判斷等觀點(diǎn)性內(nèi)容。知識(shí)類型屬性不用于“緣起”“假設(shè)”“未來(lái)工作”組件。時(shí)態(tài)屬性是普適的,在英文論文中所有內(nèi)容組件都會(huì)有對(duì)應(yīng)的時(shí)態(tài)特征。再?gòu)膬?nèi)容組件角度來(lái)看,“已有研究”“數(shù)據(jù)”“結(jié)果”“結(jié)論”和“討論”組件的知識(shí)形態(tài)都能涉及表3定義的5種屬性類型,因?yàn)樗鼈兌家钥茖W(xué)事實(shí)和數(shù)據(jù)為基礎(chǔ),需要注明引用來(lái)源,同時(shí)也會(huì)有判斷、評(píng)價(jià)性內(nèi)容產(chǎn)生,故帶有情感傾向?!凹僭O(shè)”組件的屬性特征比較清晰,通常確定性程度值為“低”,情感傾向?yàn)檎蚧蜇?fù)向?!熬壠稹焙汀胺椒ā苯M件會(huì)帶有情感傾向?qū)傩?,因?yàn)榇蟛糠盅芯吭谘芯縿?dòng)機(jī)和意義上都會(huì)表現(xiàn)出正向的態(tài)度,同時(shí)方法部分會(huì)涉及有效性評(píng)估?!皩?shí)驗(yàn)”組件一般是客觀陳述實(shí)驗(yàn)的素材、步驟、任務(wù)、變量,不存在事實(shí)、數(shù)據(jù)和結(jié)論、評(píng)判,所以不帶有確定性程度和情感傾向?qū)傩?;但是在選擇實(shí)驗(yàn)變量時(shí),通常需要借鑒和引用相關(guān)研究已經(jīng)論證過的變量,因此帶有來(lái)源屬性。而“研究緣起”“假設(shè)”“未來(lái)工作”都不涉及引用,故沒有“來(lái)源”屬性,其中“未來(lái)工作”組件只是一般性陳述未來(lái)的研究方向,所以也不會(huì)涉及確定性程度、情感傾向和知識(shí)類型屬性。
3.5 基于Protégé的科學(xué)論文功能單元本體表示
在開發(fā)了本體模型后,我們使用Protégé5.1對(duì)本體進(jìn)行了表示。本體中的類如圖1所示,屬性如圖2所示。
4 基于FUO的科學(xué)論文深度語(yǔ)義標(biāo)引實(shí)驗(yàn)
4.1 深度語(yǔ)義標(biāo)引方法
深度標(biāo)引(Deep indexing)是近年來(lái)被廣泛接受的新型文獻(xiàn)組織方式,意在通過對(duì)文獻(xiàn)內(nèi)部不同粒度數(shù)字資源進(jìn)行標(biāo)引與組織,表征并揭示圖表、數(shù)據(jù)及相關(guān)內(nèi)容中蘊(yùn)含的潛在知識(shí),以滿足用戶高精度、細(xì)粒度的檢索需求,實(shí)現(xiàn)知識(shí)挖掘、共享與重組目標(biāo)[43],已在信息檢索領(lǐng)域達(dá)成了廣泛共識(shí)[44]??茖W(xué)論文內(nèi)容的深度標(biāo)引需要準(zhǔn)確定義科學(xué)論文內(nèi)容組件及其屬性信息[45]。標(biāo)引流程如圖3所示。
圖1 本體大類及其子類樹形圖
圖2 本體屬性樹形圖
圖3 科學(xué)論文內(nèi)容深度語(yǔ)義標(biāo)引流程
在比較分析了標(biāo)注工具GATE[46]和Annotea[47]后,我們選擇了GATE作為標(biāo)引工具。GATE由謝菲爾德大學(xué)開發(fā),是一款集本體標(biāo)注、自然語(yǔ)言處理等功能模塊為一體的文本分析工具,最新版本為8.4.1。借助GATE平臺(tái)可以使用本體直接對(duì)科學(xué)論文內(nèi)容部分進(jìn)行標(biāo)引,并將標(biāo)引結(jié)果以XML的形式進(jìn)行存儲(chǔ)。GATE可以對(duì)不同語(yǔ)義單元進(jìn)行可視化呈現(xiàn),其具體操作流程如圖4所示。
4.2 標(biāo)引結(jié)果存儲(chǔ)示例
標(biāo)注實(shí)驗(yàn)結(jié)果可以被保存為XML文檔,示例如表5和表6所示。表5展示了學(xué)習(xí)方法部分的標(biāo)注結(jié)果代碼。這一部分主要包括方法和實(shí)驗(yàn)兩大類及其子類,主要屬性包括來(lái)源、知識(shí)類型、時(shí)態(tài)等。
表6所示為研究背景部分的標(biāo)引結(jié)果,這部分側(cè)重于對(duì)已有研究的梳理及對(duì)比,屬性主要包括來(lái)源、知識(shí)類型、情感傾向、時(shí)態(tài)等。
圖4 GATE平臺(tái)的標(biāo)引流程
4.3 深度標(biāo)引實(shí)驗(yàn)結(jié)果
為了驗(yàn)證功能單元本體FUO對(duì)科學(xué)論文語(yǔ)義結(jié)構(gòu)和功能的表示能力,本研究從學(xué)術(shù)期刊Journal of the Association for Information Science and Technology中隨機(jī)抽取了2015—2018年間發(fā)表的10篇研究型論文作為實(shí)驗(yàn)對(duì)象,借助FUO進(jìn)行深度語(yǔ)義標(biāo)引。該期刊是美國(guó)科學(xué)技術(shù)情報(bào)學(xué)會(huì)的會(huì)刊,主要發(fā)表情報(bào)科學(xué)與技術(shù)方面的論文,論文格式十分規(guī)范。隨機(jī)抽取的10篇論文如表7所示。
我們遵照前文所述流程和方法對(duì)這10篇論文進(jìn)行了標(biāo)引,并對(duì)標(biāo)引結(jié)果進(jìn)行了統(tǒng)計(jì)分析,以觀察不同類型的功能單元在科學(xué)論文中的分布情況,結(jié)果如表8和表9所示。
表8揭示了每篇論文含有的功能單元種類數(shù)量。從表8可以看出,不同的論文含有的功能單元種類數(shù)量不同,有5篇論文含有30種以上功能單元,2篇論文分別含有25種和26種單元類型。再結(jié)合表9來(lái)看,不同類型的功能單元在文章中出現(xiàn)的頻率也不同,有些功能單元如“背景”“研究目標(biāo)”十分常見,有些功能單元,如“本人研究”和“方法評(píng)估”比較少見。綜合這些統(tǒng)計(jì)數(shù)據(jù)可知,使用功能單元本體FUO可以對(duì)科學(xué)論文內(nèi)容進(jìn)行深度語(yǔ)義標(biāo)引,具有較好的可用性。
5 討論
5.1 多本體協(xié)同下的論文深度語(yǔ)義標(biāo)引
科學(xué)論文是知識(shí)的容器,蘊(yùn)含著不同類型的情報(bào)與知識(shí)。科學(xué)論文功能單元本體不受領(lǐng)域限制,但僅僅是一種視角。研究者還可以從不同的理論和觀察視角提出更多的論文內(nèi)容本體,揭示論文的情報(bào)結(jié)構(gòu)和功能特征。事實(shí)上,為了全面揭示一篇科學(xué)論文內(nèi)涵的科學(xué)知識(shí)和情報(bào),還必須協(xié)同使用不同本體對(duì)科學(xué)論文內(nèi)容進(jìn)行多角度的深度語(yǔ)義標(biāo)引。需要特別指出的是,科學(xué)論文內(nèi)容本體與領(lǐng)域本體(醫(yī)學(xué)、生物學(xué)等)不同,兩者是不同類型的本體。在論文深度語(yǔ)義標(biāo)引中需要使用內(nèi)容本體進(jìn)行語(yǔ)義功能標(biāo)引,使用領(lǐng)域本體進(jìn)行主題標(biāo)引,兩者缺一不可。
5.2 科學(xué)論文功能單元本體中的關(guān)系定義
科學(xué)論文內(nèi)容組件間的關(guān)系在科學(xué)論文語(yǔ)篇有機(jī)構(gòu)成中扮演著重要角色,但關(guān)系的定義和識(shí)別較為復(fù)雜。雖然修辭結(jié)構(gòu)理論、論證理論都對(duì)內(nèi)容組件間的關(guān)系進(jìn)行了定義,但不同理論的語(yǔ)義關(guān)系定義存在沖突。功能單元理論對(duì)此考慮也不夠細(xì)致,所以在我們的本體模型中暫時(shí)沒有考慮這種關(guān)系定義。未來(lái),可以借鑒體裁分析、語(yǔ)篇分析、情報(bào)分析等理論,對(duì)內(nèi)容組件間的語(yǔ)義關(guān)系進(jìn)行嘗試性定義。
5.3 面向科學(xué)情報(bào)分析的內(nèi)容組件重組
科學(xué)論文的不同部分隱藏著不同功能和價(jià)值的科學(xué)情報(bào),揭示這些細(xì)粒度的潛在的情報(bào)具有重要意義。本研究利用功能單元本體FUO對(duì)論文進(jìn)行初步的深度語(yǔ)義標(biāo)引實(shí)驗(yàn),統(tǒng)計(jì)分析了不同功能單元的分布情況。事實(shí)上,如果對(duì)所有論文進(jìn)行深度語(yǔ)義標(biāo)引,就可以對(duì)細(xì)粒度的內(nèi)容片段進(jìn)行重新組織,從而輔助情報(bào)分析和科研工作者的戰(zhàn)略閱讀,大大提高情報(bào)工作的效率和科研工作者理解特定科研領(lǐng)域宏觀知識(shí)的效率。
6 總結(jié)
本文以功能單元理論為基礎(chǔ),面向科學(xué)論文情報(bào)表示和揭示需求,提出了一種新的科學(xué)論文功能單元本體FUO。借助該本體和語(yǔ)義標(biāo)注工具GATE,對(duì)10篇樣本論文進(jìn)行深度語(yǔ)義標(biāo)引實(shí)驗(yàn),結(jié)果表明該本體適用于科學(xué)論文的深度語(yǔ)義標(biāo)引,能夠在一定程度上表示和揭示科學(xué)論文中各部件的語(yǔ)義功能及其屬性。
該研究借助本體技術(shù),首次清晰地定義了科學(xué)論文的功能單元及其屬性,提出的功能單元本體FUO在信息組織、語(yǔ)義檢索、知識(shí)發(fā)現(xiàn)、情報(bào)分析等領(lǐng)域擁有廣闊的應(yīng)用空間。但是,隨著科學(xué)論文的數(shù)字化轉(zhuǎn)型,越來(lái)越多的內(nèi)容組件形式出現(xiàn),如互動(dòng)表格、數(shù)據(jù)集、音視頻等,如何對(duì)這些內(nèi)容組件進(jìn)行建模表示,需要進(jìn)一步考慮。不管如何,本文的研究深化了我們對(duì)論文這種知識(shí)容器的理解,完善了情報(bào)學(xué)視角下的科學(xué)論文語(yǔ)義結(jié)構(gòu)與功能理論。未來(lái),我們將繼續(xù)細(xì)化功能單元的分類,并嘗試從其他理論視角提出更豐富的科學(xué)論文內(nèi)容本體。
欄目分類
- 1短視頻走紅的原因及影響——以“抖音”為例
- 2短視頻發(fā)展現(xiàn)狀、存在的問題及意見
- 3以“李子柒”為例研究社會(huì)化創(chuàng)意下的內(nèi)容營(yíng)銷策略
- 4企業(yè)市場(chǎng)營(yíng)銷中存在的問題及對(duì)策
- 5論樹洞傳播的匿名效應(yīng)
- 6總體國(guó)家安全觀對(duì)當(dāng)代大學(xué)生的要求
- 7全媒體時(shí)代,如何做好新聞選題策劃?
- 8 “抖音”APP優(yōu)劣勢(shì)分析與短視頻產(chǎn)業(yè)的發(fā)展思考
- 9《論語(yǔ)》中孔子的“孝”思想
- 10網(wǎng)易云音樂內(nèi)容營(yíng)銷的手段分析
- 館藏《(增修)施南府志》的修復(fù)與保存
- 紙媒介在平面設(shè)計(jì)創(chuàng)作中的應(yīng)用與教學(xué)方法探討
- 廣電媒資從紙質(zhì)向數(shù)字化轉(zhuǎn)型中的敘事重構(gòu)研究
- 空間設(shè)計(jì)教學(xué)中紙藝技術(shù)的創(chuàng)意應(yīng)用與學(xué)生創(chuàng)新能力培養(yǎng)
- 人工智能驅(qū)動(dòng)下的紙質(zhì)出版智能化轉(zhuǎn)型:技術(shù)融合與創(chuàng)新路徑
- 非遺傳統(tǒng)手工藝中紙張應(yīng)用的技術(shù)體系與活態(tài)傳承策略
- 紙藝術(shù)的跨文化符號(hào):中西方剪紙的英譯對(duì)比研究
- 數(shù)智時(shí)代非物質(zhì)文化遺產(chǎn)的保護(hù)與傳承路徑——以河南剪紙為例
- 基于環(huán)保視角的紙制品企業(yè)廢物管理與再利用策略
- 圖書館紙質(zhì)文獻(xiàn)數(shù)字化存儲(chǔ)平臺(tái)的優(yōu)化設(shè)計(jì)與文件管理方法研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來(lái)源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了