認(rèn)知情報學(xué):大數(shù)據(jù)背景下情報分析的新機(jī)遇
情報分析是大數(shù)據(jù)時代情報研究中非常重要的一環(huán)。圖書館正在從信息時代向數(shù)據(jù)時代進(jìn)行過渡,并伴隨著資源的全面數(shù)字化、富媒體化以及開放共享政策的不斷完善,爆炸式增長的數(shù)據(jù)資源為傳統(tǒng)的情報分析提出了極其嚴(yán)峻的挑戰(zhàn),新的情報分析手段亟待解決,從數(shù)據(jù)時代到計算時代的轉(zhuǎn)變已經(jīng)悄然提上議程[1]。21世紀(jì)情報學(xué)的發(fā)展,離不開多學(xué)科的交叉融合,唯有在理論與實(shí)踐不斷的碰撞中,才能為情報學(xué)提供創(chuàng)新型的發(fā)展思路與更為廣闊的發(fā)展前景。國外提出的“認(rèn)知情報學(xué)”,正是對于情報學(xué)在當(dāng)代與其他學(xué)科進(jìn)行創(chuàng)新性融合實(shí)踐的解決方案。
1 認(rèn)知科學(xué)提出背景
1.1 背景學(xué)科介紹
1.1.1 認(rèn)知、認(rèn)知科學(xué)、認(rèn)知計算 認(rèn)知是一種心理活動,或是一種獲取知識,理解思想、經(jīng)驗(yàn)與感覺的過程[2]。認(rèn)知包含像是知識、注意、記憶、判斷、評價、推理、計算、解決問題、決策制定以及理解和語言的生產(chǎn)等一系列過程。在認(rèn)知過程中,利用已經(jīng)存在的知識來推理出新的知識[3]。
認(rèn)知科學(xué)(Cognitive Science)是一門交叉學(xué)科的科學(xué)研究,其主要以現(xiàn)代科學(xué)的手段來研究心智及其處理過程,即探索人類的智力如何產(chǎn)生以及人腦信息的處理過程。在認(rèn)知科學(xué)領(lǐng)域,認(rèn)知科學(xué)家們關(guān)注語言、感知、記憶、注意力、推理和情感,并為了研究上述內(nèi)容將一些諸如語言學(xué)、心理學(xué)、計算機(jī)科學(xué)、人工智能、哲學(xué)、神經(jīng)科學(xué)、人類學(xué)等學(xué)科的知識運(yùn)用其中[4]。
到目前為止,在學(xué)術(shù)界與工業(yè)界還沒有對于認(rèn)知計算(Cognitive Computing)廣泛認(rèn)同與接受的定義[5-7]。認(rèn)識計算最早追溯到模擬人腦的計算機(jī)系統(tǒng)的人工智能,20世紀(jì)90年代后,研究人員開始用認(rèn)知計算一詞來表明可以教計算機(jī)像人腦一樣去進(jìn)行思考而不僅僅是開發(fā)一種人工系統(tǒng)[8]。通常對于認(rèn)知計算的理解是指計算機(jī)通過使用硬件或者軟件來模仿人大腦的功能,來輔助進(jìn)行決策制定[9]。
一般來說,認(rèn)知計算描述了基于人工智能的科學(xué)學(xué)科和信號處理的技術(shù)平臺。這些平臺包括一系列諸如機(jī)器學(xué)習(xí)、推理、自然語言處理、語音識別和圖像識別、人機(jī)交互等多種技術(shù)。一個認(rèn)知計算系統(tǒng)通常會包含以下幾個特征:適應(yīng)性[10]、互動性、輔助功能、上下文理解能力[11]。
1.1.2 情報學(xué)、情報分析 情報學(xué)(Informatics)最初創(chuàng)建于1956年,是由德國的計算機(jī)學(xué)家K.Steinbuch提出,情報學(xué)一詞由“information”與“automatic”組成,描述了信息自動交互的過程。一般認(rèn)為,情報研究包括情報收集、情報分析、情報處理與情報傳播這四個階段,其中,情報分析是情報研究過程中的非常重要的階段。
情報分析亦稱信息分析,是根據(jù)社會用戶的特定需求,以現(xiàn)代信息技術(shù)和軟科學(xué)研究方法為主要手段,以社會信息的采集、選擇、評價、分析和綜合等系列化加工為基本過程,形成新的、可增值的情報產(chǎn)品,為不同層次科學(xué)進(jìn)行決策服務(wù)的社會化智能活動[12]。
情報分析是一個涵蓋領(lǐng)域非常廣的交叉學(xué)科,它涉及眾多領(lǐng)域,例如,計算機(jī)科學(xué)、信息系統(tǒng)、信息技術(shù)與統(tǒng)計學(xué)等。近年來,隨著計算機(jī)技術(shù)的飛速發(fā)展,更多使用數(shù)字化的方式來處理信息,情報分析的研究也逐漸偏向信息技術(shù)方向。隨著人工智能的發(fā)展,一些諸如情感計算、社會計算、認(rèn)知計算等領(lǐng)域,也正在與情報分析進(jìn)行交叉融合。本文重點(diǎn)分析認(rèn)知計算與情報分析在新時代碰撞出的火花——認(rèn)知情報學(xué)(Cognitive Informatics,CI)。
1.2 大數(shù)據(jù)與學(xué)科融合背景下認(rèn)知情報學(xué)的提出
大數(shù)據(jù)時代,海量、高速、多樣的數(shù)據(jù)為情報學(xué)提出了更為嚴(yán)峻的考驗(yàn)。如何從海量數(shù)據(jù)中獲取有效的信息,如何處理類型更加多樣的富媒體化數(shù)據(jù),如何對組織更加復(fù)雜的信息進(jìn)行分析,如何有效地從龐雜的數(shù)據(jù)中抽取出知識,都是情報分析的難點(diǎn)。而認(rèn)知計算的四大特性——輔助、理解、決策、發(fā)現(xiàn),不僅為大數(shù)據(jù)提供了新的解決方案,同時也為情報分析帶來了新的可能。
認(rèn)知計算一般包含的技術(shù)與應(yīng)用與人工智能密切相關(guān),而人工智能正是認(rèn)知計算的基礎(chǔ),例如,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、推理、自然語言處理、圖像處理、語音處理、人機(jī)交互、特征提取、知識抽取、知識挖掘、數(shù)據(jù)可視化等。早在20世紀(jì)末,這些應(yīng)用已經(jīng)擴(kuò)展到了情報學(xué)中輔助情報分析工作。
實(shí)際上在情報科學(xué)的許多研究領(lǐng)域都在借鑒認(rèn)知計算的技術(shù),或者說是人工智能的一些技術(shù)來為之服務(wù)。如基于語義的信息組織、知識抽取、知識挖掘、知識發(fā)現(xiàn)和智能情報檢索等,均希望能夠從人的認(rèn)知角度去組織與管理信息,或從信息資源中挖掘出具有認(rèn)知價值的知識等[8]。許多情報分析研究也在不斷地吸取認(rèn)知計算領(lǐng)域的研究成果,例如,在情報學(xué)中的引文數(shù)據(jù)分析借鑒了認(rèn)知計算中的關(guān)聯(lián)數(shù)據(jù)分析來為之服務(wù),在數(shù)字圖書館的個性化服務(wù)中也借鑒了認(rèn)知計算的自適應(yīng)頁面展示的思想來為不同類型的用戶展示出不同的頁面內(nèi)容,認(rèn)知計算中的專家系統(tǒng)也被應(yīng)用到了情報服務(wù)中來輔助用戶進(jìn)行更好的決策。
認(rèn)知計算雖然早被應(yīng)用到了情報分析過程中去,但其作為一個獨(dú)立的概念出現(xiàn),標(biāo)志一個新領(lǐng)域的誕生卻是在21世紀(jì)初。2002年,美國的IEEE召開了第一屆認(rèn)知情報學(xué)國際年會,正式提出“認(rèn)知情報學(xué)”這一概念與研究領(lǐng)域[13]。
認(rèn)知情報學(xué)是對計算機(jī)科學(xué)、情報學(xué)、認(rèn)知科學(xué)和智能科學(xué)的跨學(xué)科研究,其研究大腦和自然智能的內(nèi)部信息處理機(jī)制和過程,以及在認(rèn)知計算中的工程應(yīng)用[14]。認(rèn)知情報學(xué)作為一個多學(xué)科交叉的研究領(lǐng)域,主要解決一些由許多研究領(lǐng)域共享的問題,例如,計算智能、現(xiàn)代情報學(xué)、計算機(jī)科學(xué)、人工智能、認(rèn)知科學(xué)、認(rèn)知計算等研究領(lǐng)域。
2 認(rèn)知情報學(xué)相關(guān)研究
在國外,認(rèn)知情報學(xué)已經(jīng)逐漸受到包括政府、研究機(jī)構(gòu)、研究人員等的日益重視,成為認(rèn)知科學(xué)的一個重要研究領(lǐng)域與研究熱點(diǎn)。但目前在國內(nèi),還并未形成像在國外一樣穩(wěn)定且有力的研究力量,還處于初步發(fā)展階段,并且還未直接提出如國外一般明確的認(rèn)知情報學(xué)的概念,并未將其作為獨(dú)立的領(lǐng)域進(jìn)行專門研究,只是在若干研究中,提出了與認(rèn)知計算融合的概念。故此處只展開國外對認(rèn)知情報學(xué)研究的論述,國內(nèi)的研究暫且不表。此外,還總結(jié)了國外研究中對于認(rèn)知情報學(xué)的理論框架。
2.1 國外認(rèn)知情報學(xué)研究歷史
從早年開始,各國政府就對認(rèn)知計算表現(xiàn)出濃厚的熱情與支持。2002年,美國國家科學(xué)基金會(NSF)和美國商務(wù)部(DOC)共同資助的“聚合四大技術(shù),提高人類性能”計劃中,認(rèn)知科學(xué)便名列其中,被視為是21世紀(jì)四大前沿技術(shù),處于最優(yōu)先發(fā)展的地位。同時,早期歐盟資助的聚合技術(shù)及其對社會科學(xué)與人文科學(xué)的影響(CONTECS)項(xiàng)目也強(qiáng)調(diào)了認(rèn)知科學(xué)的重要性[8]。
國外早在21世紀(jì)初就將認(rèn)知計算與情報學(xué)進(jìn)行了成功的交叉融合。IEEE認(rèn)知情報學(xué)國際學(xué)術(shù)會議(ICCI)從2002年的第一屆認(rèn)知情報學(xué)會議開始,迄今已經(jīng)舉辦16屆,促進(jìn)了認(rèn)知情報學(xué)涉及的相關(guān)領(lǐng)域及其技術(shù)的發(fā)展。
從ICCI會議名稱的變化,我們能清楚地了解到認(rèn)知情報學(xué)領(lǐng)域的變化,2002—2010年,會議名稱一直是認(rèn)知情報學(xué)國際會議(ICCI),從2011年至今,會議正式更名為認(rèn)知情報學(xué)和認(rèn)知計算國際學(xué)術(shù)會議(ICCI*CC),認(rèn)知計算已經(jīng)作為其中的重點(diǎn)被單獨(dú)列出作為會議的名稱。
其中,2016年ICCI*CC的會議主題為“Cognitive Computation,Learning,and Big Data Systems”,正式提出了將認(rèn)知計算應(yīng)用到大數(shù)據(jù)系統(tǒng)中去,解決大數(shù)據(jù)系統(tǒng)在處理數(shù)據(jù)時面臨的諸如生產(chǎn)速度極快、規(guī)則與邏輯難以識別等問題,重點(diǎn)探討了諸如語義化處理、自動推理、大數(shù)據(jù)的認(rèn)知基礎(chǔ)等問題。
2.2 認(rèn)知情報學(xué)理論框架研究
目前國外關(guān)于認(rèn)知情報學(xué)的理論框架包含以下4個領(lǐng)域的內(nèi)容:自然智能、抽象智能、符號數(shù)學(xué)與認(rèn)知計算[14]。認(rèn)知情報學(xué)通過模擬基礎(chǔ)的智能形式,抽象出來并進(jìn)行數(shù)學(xué)建模,最后進(jìn)行認(rèn)知計算。整個框架從物理世界到抽象世界、從認(rèn)知到計算,層層遞進(jìn),模擬了人類知識發(fā)現(xiàn)、知識推理的過程。
1)自然智能基礎(chǔ)理論主要研究了在認(rèn)知情報學(xué)中涉及的人類本身就存在的智能,主要包含以下經(jīng)典理論:信息物質(zhì)能量IME模型、大腦的分層參考LRMB模型、實(shí)體屬性關(guān)系OAR模型、自然智能NI模型。
2)抽象智能是將自然智能的概念更加抽象化,從底層研究神經(jīng)、認(rèn)知、功能與邏輯。抽象智能通過建立通用的數(shù)學(xué)模型來表征如何將信息轉(zhuǎn)化為行動與知識。抽象智能解釋了不同形式智能的基礎(chǔ)的運(yùn)行處理機(jī)制,研究了學(xué)習(xí)、思考、推理等過程。經(jīng)典的抽象智能模型有通用抽象智能模型(Generic Abstract Intelligence Mode,GAIM)[15]等。
3)符號數(shù)學(xué)是利用數(shù)學(xué)來對現(xiàn)實(shí)世界中抽象出來的一些實(shí)體、關(guān)系、感知信息、邏輯概念、知識等進(jìn)行建模,用數(shù)字化的形式將物理世界表征為抽象世界,為下一步進(jìn)行認(rèn)知計算提供計算基礎(chǔ)。
4)認(rèn)知計算模擬了大腦處理信息的過程,對用符號數(shù)學(xué)建立好的數(shù)學(xué)模型進(jìn)行處理。認(rèn)知計算一般包含如下技術(shù):推理、自然語言處理、語音識別和圖像識別、人機(jī)交互等多種技術(shù)。
整個流程如圖1所示。
圖1 認(rèn)知情報學(xué)理論基礎(chǔ)
3 認(rèn)知情報學(xué)對情報學(xué)的支撐
下面分別從理論、技術(shù)兩個角度來探討認(rèn)知情報學(xué)對情報分析的支撐。認(rèn)知計算是認(rèn)知情報學(xué)的核心基礎(chǔ),故在探討時,會涉及利用認(rèn)知計算的一些理論與技術(shù),來表征認(rèn)知情報學(xué)的一些特征。
3.1 情報理論支撐
許多情報學(xué)家從認(rèn)知科學(xué)的角度對情報科學(xué)的相關(guān)理論進(jìn)行過研究和探索,并形成了一些基于認(rèn)知科學(xué)的情報科學(xué)理論[8]。在描述認(rèn)知情報學(xué)理論支撐時,從認(rèn)知計算的三個能力領(lǐng)域發(fā)現(xiàn)、決策與交流[16]來機(jī)行分析。
1)發(fā)現(xiàn)。發(fā)現(xiàn)是認(rèn)知能力的體現(xiàn)。認(rèn)知計算的發(fā)現(xiàn)的能力與情報學(xué)范式中的“認(rèn)知觀范式”聯(lián)系緊密。認(rèn)知觀范式的主要觀點(diǎn)是情報的接受與傳遞需要與用戶的知識結(jié)構(gòu)發(fā)生作用,并以知識結(jié)構(gòu)的改變和完善為目的,基本上描述了認(rèn)知過程中的知識發(fā)現(xiàn)過程。在情報學(xué)諸多流派中,認(rèn)知科學(xué)與情報學(xué)的屬性結(jié)構(gòu)學(xué)派的聯(lián)系尤為密切。
屬性結(jié)構(gòu)學(xué)派的情報學(xué)家布魯克斯認(rèn)為情報學(xué)的基本任務(wù)是探索和組織客觀知識,并提出了著名的布魯克斯方程式K(S)+ΔI→K(s+Δs),闡明了情報與知識之間的關(guān)系,并將情報定義為“是使人原有的知識結(jié)構(gòu)發(fā)生變化的那一小部分知識”[17]。在認(rèn)知過程中,強(qiáng)調(diào)利用已經(jīng)存在的知識來推理出新的知識,正是描述的知識發(fā)現(xiàn)過程,與認(rèn)知情報學(xué)中涉及的認(rèn)知科學(xué)部分不謀而合。另外,該學(xué)派的另一位著名的情報學(xué)家貝爾金使情報學(xué)和認(rèn)知科學(xué)的關(guān)系不斷得到繼續(xù)深化和體系化。他從認(rèn)知觀的角度提出了情報的概念,提出知識非常態(tài)狀態(tài)(ASK),即用戶之所以有情報需求,是認(rèn)識到自己存在知識的非常態(tài)以至于無法解決某種問題,也無法正確描述需要什么來解決非常態(tài),因此情報檢索的目的就在于描述、理解和解決知識的非常態(tài)[17]。知識非常態(tài)狀態(tài)本質(zhì)也是一種尋求知識發(fā)現(xiàn)的過程。
2)決策。認(rèn)知計算的決策能力是基于事實(shí)的,并且可以隨著新知識的獲取而不斷更新迭代,并做出無偏見的決策。認(rèn)知計算的決策能力,與情報學(xué)的競爭情報服務(wù)范式密切相關(guān)。競爭情報服務(wù)主要指的是人們通過合乎規(guī)范的方式進(jìn)行信息收集、信息分析和信息服務(wù)。其主要提供的服務(wù)包含咨詢服務(wù)、決策信息服務(wù)、情報分析服務(wù)等。
競爭服務(wù)范式的服務(wù)對象是決策咨詢、商業(yè)決策、戰(zhàn)略決策等情報需求,這與認(rèn)知計算的能力領(lǐng)域中“決策”相對應(yīng)。目前,認(rèn)知計算系統(tǒng)更多地扮演一種顧問角色,向真人用戶提供一組選項(xiàng),而最終決策由真人用戶給出。認(rèn)知計算的“決策”能力可以為競爭情報服務(wù)提供決策支持。
3)交流。認(rèn)知計算的交流能力是指,認(rèn)知計算可以通過學(xué)習(xí)海量的、復(fù)雜多樣的數(shù)據(jù)來發(fā)現(xiàn)其中的規(guī)則,并實(shí)時地為人們提供這些信息,其可以通過專家級的援助與理解能力,從根本上改變?nèi)撕拖到y(tǒng)交互的方式[16]。通過深入的領(lǐng)域洞察并及時、自然、有輔助作用地呈現(xiàn)信息給用戶。
認(rèn)知計算的交流能力與情報學(xué)的學(xué)術(shù)信息服務(wù)范式聯(lián)系緊密。學(xué)術(shù)信息服務(wù)范式主要指通過學(xué)術(shù)信息服務(wù)、圖書館信息服務(wù)、學(xué)科信息服務(wù)來輔助科學(xué)交流。在該范式下,涉及的領(lǐng)域諸如數(shù)字圖書館自動化與服務(wù)、知識化服務(wù)等,認(rèn)知計算都能為之提供良好的人機(jī)交互支撐。
3.2 情報技術(shù)支撐
認(rèn)知計算三個能力的實(shí)現(xiàn),離不開5個要素:學(xué)習(xí)、個性化交互、可擴(kuò)展性、多種數(shù)據(jù)類型處理以及無處不在的服務(wù)[16]。這5個要素與情報學(xué)的技術(shù)緊密相關(guān),是情報學(xué)的支撐技術(shù)。
談及情報學(xué)利用到的技術(shù),首先會先涉及情報學(xué)所涵蓋的服務(wù)。一般情報服務(wù)主要涵蓋如下幾個方面:自動收集不同信息源的信息、對收集到的信息進(jìn)行深入分析與挖掘、情報檢索、將有價值的信息向用戶進(jìn)行個性化情報服務(wù)等。這些服務(wù)通常會涉及自然語言處理、實(shí)體識別、語義檢索、個性化推薦、數(shù)據(jù)挖掘、社會網(wǎng)絡(luò)分析、數(shù)據(jù)庫、模式識別等技術(shù)。
認(rèn)知計算學(xué)習(xí)要素的實(shí)現(xiàn),主要會涉及情報領(lǐng)域自動收集的不同信息源的信息,同時還涉及知識發(fā)現(xiàn)等相關(guān)技術(shù);個性化交互要素的實(shí)現(xiàn),與情報學(xué)中為不同用戶進(jìn)行個性化推薦技術(shù)緊密相關(guān);可擴(kuò)展性要素的實(shí)現(xiàn),同時也為大數(shù)據(jù)環(huán)境下信息海量增長為情報學(xué)的知識發(fā)現(xiàn)帶來種種困難提供了新的可能的解決方案;多種數(shù)據(jù)類型的處理,也與情報領(lǐng)域積極擴(kuò)展自然語言處理之外的、更加復(fù)雜的數(shù)據(jù)的嘗試相聯(lián)系,未來可以為情報學(xué)在相關(guān)類型數(shù)據(jù)處理上進(jìn)行技術(shù)支撐,例如,情報領(lǐng)域現(xiàn)在對圖像處理也展開了積極的探索,傳統(tǒng)文本中不能分析的電路圖等進(jìn)行有效分析與利用,已經(jīng)比較成功的嘗試可以抽取其中的電路元件進(jìn)行分析,構(gòu)建電路設(shè)計元知識表示[18];無處不在的服務(wù),與信息服務(wù)中的數(shù)字圖書館、科技情報服務(wù)中隨時隨地遠(yuǎn)程實(shí)驗(yàn)追蹤與控制[19]等技術(shù)服務(wù)相輔相成。
4 認(rèn)知情報學(xué)為情報分析帶來新機(jī)遇
大數(shù)據(jù)時代的到來,席卷了所有的行業(yè),情報領(lǐng)域自然也不能例外。變革賦予情報領(lǐng)域的卻不僅僅是陣痛,還有陣痛之后更為明晰的洞見與思考,以及對于情報分析未來走向更為明確的設(shè)計。
大數(shù)據(jù)為情報分析帶來了許多非常有價值的內(nèi)容,比如,數(shù)據(jù)變得越來越容易獲取與透明化程度越來越高、能夠更好地通過大量的瀏覽記錄來發(fā)現(xiàn)用戶需求、更好地為用戶提供個性化服務(wù)、更好地輔助用戶進(jìn)行決策、能夠催生出許多新的服務(wù)模式與產(chǎn)品、可以進(jìn)行實(shí)時數(shù)據(jù)分析、促進(jìn)數(shù)據(jù)驅(qū)動的發(fā)現(xiàn)與創(chuàng)新[20-21]。但是,與此同時,大數(shù)據(jù)的“4V”特征同時也為情報分析帶來了一些挑戰(zhàn)。
4.1 大數(shù)據(jù)時代情報分析面臨的挑戰(zhàn)
情報分析在大數(shù)據(jù)時代進(jìn)入了飛速發(fā)展期,科技出版物每年的增長率大概在9%左右,每9年左右科技產(chǎn)出大概就會翻倍[22]。大數(shù)據(jù)的研究價值可以媲美“石油”,但如何進(jìn)行挖掘與開采其價值,一直都是難點(diǎn)。
海量數(shù)據(jù)將會為情報分析提供前所未有的有價值的信息,但與此同時,如何對龐雜的數(shù)據(jù)進(jìn)行分析,發(fā)掘看似“雜亂無章”的數(shù)據(jù)之間的關(guān)聯(lián),也是難點(diǎn)之一,當(dāng)前情報分析中僅有極小的一部分?jǐn)?shù)據(jù)被整合、分析、利用并且發(fā)掘出其中內(nèi)涵與價值,大部分?jǐn)?shù)據(jù)仍是尚未開發(fā)利用的。
大數(shù)據(jù)同時還具有“高速”的特征,即其生產(chǎn)速度極快,而傳統(tǒng)的情報分析很大程度上是不能做到完全自動分析的,必須要有人工的參與才能進(jìn)行,如何將情報分析過程實(shí)現(xiàn)完全自動化,也是大數(shù)據(jù)對于情報分析提出的嚴(yán)峻挑戰(zhàn)。
大數(shù)據(jù)的“多樣性”表征除了以前在情報分析的利用較多的結(jié)構(gòu)化數(shù)據(jù)外,非結(jié)構(gòu)化數(shù)據(jù)也在其中占有相當(dāng)大的比例。事實(shí)上,近年生產(chǎn)出來的數(shù)據(jù)大部分都是非結(jié)構(gòu)化的數(shù)據(jù),例如文本、音頻、視頻等富媒體數(shù)據(jù),是未來情報分析中非常重要且不可忽視的部分,將其他的富媒體化數(shù)據(jù)納入情報分析的范疇,將會極大地豐富情報分析的內(nèi)容與提高情報分析質(zhì)量,但與此同時,這些非結(jié)構(gòu)化的數(shù)據(jù)對情報分析工作提出了極大的挑戰(zhàn)。
最后就是數(shù)據(jù)的質(zhì)量問題,當(dāng)前幾乎所有領(lǐng)域中的數(shù)據(jù)都充斥著大量的沖突數(shù)據(jù)與噪聲數(shù)據(jù),會很大程度上干擾專業(yè)人員做出正確的情報分析。傳統(tǒng)的情報分析在收集完數(shù)據(jù)之后,需要人工判斷信息的真實(shí)與否,而大數(shù)據(jù)時代,如此海量的數(shù)據(jù)已經(jīng)不是人力可及,必須借助計算機(jī)進(jìn)行自動判斷與分析才能滿足時代對于情報分析的要求。
4.2 認(rèn)知情報學(xué)為情報分析帶來新機(jī)遇、新應(yīng)用場景
數(shù)據(jù)時代猶如海浪一般席卷而來,從數(shù)據(jù)到信息、到知識、到智慧、到解決方案的整個過程的活動[1]需要計算能力的不斷推動。認(rèn)知情報學(xué)為知識發(fā)現(xiàn)與決策方案的制定提供了極具前景的解決方案,加速從數(shù)據(jù)到知識再到行動的轉(zhuǎn)化過程,推動數(shù)據(jù)時代邁向計算時代。
4.2.1 大數(shù)據(jù)情報分析的解決方案 大數(shù)據(jù)蘊(yùn)含著巨大有價值的信息的同時,其數(shù)據(jù)量之大、數(shù)據(jù)類型之廣、生產(chǎn)速度之快、數(shù)據(jù)質(zhì)量之痛,都為從業(yè)人員提出了不少難題,只有層層盤剝、深入大數(shù)據(jù)背后的礦藏,才會提取出其中最有價值的資源。
對于目前情報分析僅僅分析利用了一部分?jǐn)?shù)據(jù)而很大一部分的數(shù)據(jù)被閑置并沒有被開發(fā)利用、發(fā)掘其內(nèi)涵價值的問題,認(rèn)知計算為其提供了一個新的解決方案,認(rèn)知計算是主要設(shè)計來整合與分析大的數(shù)據(jù)集的[23],為情報分析中的海量數(shù)據(jù)提供了解決思路。對于大數(shù)據(jù)產(chǎn)生速度極快的、傳統(tǒng)的人工參與的情報分析已經(jīng)不足以滿足大量數(shù)據(jù)的分析需求,認(rèn)知計算通過創(chuàng)建特定的應(yīng)用場景,通過不斷的人機(jī)互動以及與環(huán)境之間的互動,通過學(xué)習(xí)、推理和分析做出恰當(dāng)決策來模擬人類的思維處理過程,可以快速對短時間內(nèi)生產(chǎn)出來的大規(guī)模數(shù)據(jù)進(jìn)行處理分析,并且可以無偏倚地對之進(jìn)行評價。例如,在生命科學(xué)領(lǐng)域,由于生產(chǎn)速度極快,每年文獻(xiàn)約提高9%,每9年文獻(xiàn)即可翻一番[23],在該領(lǐng)域可以依托認(rèn)知計算的分析、推理能力,對科技文獻(xiàn)中的例如藥物、疾病等實(shí)體,利用已有的知識,通過文章的描述自動推理出新的藥物、疾病的關(guān)系,提高新藥的問世效率以及疾病的攻關(guān)速度。
針對各類富媒體化數(shù)據(jù)情報分析難以滿足的問題,認(rèn)知計算可以理解科技論文等非結(jié)構(gòu)化數(shù)據(jù),并且將結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)結(jié)合處理[23],為數(shù)字圖書館向各種數(shù)據(jù)類型拓展業(yè)務(wù),例如音頻、視頻、圖像等數(shù)據(jù)的處理,提供了新的可能。其可以支撐數(shù)字圖書館向真正的多媒體化的圖書館進(jìn)行轉(zhuǎn)型,未來的圖書館在其支撐下,可以包含更加豐富多樣化的資源,諸如名師講課視頻、音頻等,并對視頻、音頻等自動分析處理,可以直接對其中的內(nèi)容進(jìn)行跨數(shù)據(jù)類型的檢索。比方說,可以根據(jù)通過文字直接檢索出視頻中與之相關(guān)的一小段內(nèi)容或者與文字描述相關(guān)的圖片。
4.2.2 重新定義知識發(fā)現(xiàn) 在情報分析方面,傳統(tǒng)的基于數(shù)據(jù)計算的數(shù)據(jù)挖掘技術(shù)正向基于內(nèi)容的知識發(fā)現(xiàn)技術(shù)發(fā)展[8]。但在基于內(nèi)容的知識發(fā)現(xiàn)實(shí)現(xiàn)過程中,捕捉非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)含的深層含義一直是一大難點(diǎn)。以科技領(lǐng)域?yàn)槔匀徽Z言處理會面臨的困難重重,例如,不同行業(yè)、不同學(xué)科、不同語言、不同的術(shù)語表示方式,等等,一直是自然語言處理的難點(diǎn)??梢越柚J(rèn)知計算在某個特定領(lǐng)域訓(xùn)練,學(xué)習(xí)相應(yīng)的語言、術(shù)語、該領(lǐng)域中的思維模式以及通過與專家的交互來輔助理解該領(lǐng)域的知識。例如,IBM在醫(yī)療領(lǐng)域,通過認(rèn)知計算向醫(yī)生提供專家級的輔助能力,幫助醫(yī)生精準(zhǔn)、迅速地識別癌癥,給癌癥病人盡可能多的治療時間,延長病人生命。
認(rèn)知計算在實(shí)現(xiàn)自動知識發(fā)現(xiàn)的過程中,含有細(xì)粒度實(shí)體的知識圖譜的創(chuàng)建是實(shí)現(xiàn)特定領(lǐng)域知識發(fā)現(xiàn)非常重要的一環(huán)?,F(xiàn)在各個領(lǐng)域都有成功的領(lǐng)域知識圖譜的創(chuàng)建,例如生物領(lǐng)域Smartfigures知識圖譜[24]、地理領(lǐng)域的CrowdGeoKG知識圖譜[25]、醫(yī)學(xué)領(lǐng)域的KnowLife知識圖譜[26]。除此之外,還有各大數(shù)據(jù)出版社,如Springer、Elsevier等,推出內(nèi)容更加豐富的知識圖譜,這些知識圖譜中包含了更細(xì)粒度的實(shí)體,如期刊論文、論文附屬數(shù)據(jù)、數(shù)據(jù)集、圖書、參考文獻(xiàn)、專利、臨床實(shí)驗(yàn)、機(jī)構(gòu)、會議、作者、主題領(lǐng)域、資助項(xiàng)目、下載閱讀數(shù)量以及對應(yīng)的軟件工具等[1]內(nèi)容。
抽取出離散的知識要素后,可以在其上進(jìn)行關(guān)系抽取,實(shí)現(xiàn)自動的知識發(fā)現(xiàn)。例如,從文獻(xiàn)中抽取蛋白質(zhì)的相互作用[27],抽取藥物與其不良反應(yīng)[28],抽取公司之間的合作、競爭關(guān)系[29]等。在其上建立應(yīng)用,可以輔助用戶的日常工作,如加速新藥的問世、識別潛在的合作競爭關(guān)系來確立本公司的經(jīng)營管理方案等。
除了對于論文中細(xì)粒度實(shí)體間關(guān)系的知識自動發(fā)現(xiàn),還可以對整個篇章知識結(jié)構(gòu)進(jìn)行知識發(fā)現(xiàn),幫助用戶迅速發(fā)現(xiàn)文章的脈絡(luò),包括研究目的、方法、手段、工具、結(jié)論等[30],高效地利用科技文獻(xiàn),加快知識獲取過程。
4.2.3 新型的人機(jī)交互環(huán)境 在人機(jī)交互方面,認(rèn)知計算可以輔助情報分析在為用戶進(jìn)行服務(wù)時提供非常好的解決方案,通過專家級的援助與理解能力,直接將解決方案嵌入到用戶的搜索、瀏覽等行為中去,與用戶進(jìn)行深度交互,為用戶提供更加高效的、舒適的專家服務(wù)來輔助用戶做出更好的決策。目前已有人機(jī)推理網(wǎng)絡(luò)(HuMaINs)[31]的探索,通過機(jī)器無偏倚的認(rèn)知能力來輔助人類去規(guī)避非理智的決策。人機(jī)推理網(wǎng)絡(luò)可以應(yīng)用于網(wǎng)絡(luò)教育,通過個性化的定制方案,為不同的用戶提供根據(jù)用戶水平自動調(diào)整教學(xué)難度以及教學(xué)目標(biāo)的教學(xué)內(nèi)容;還可以應(yīng)用于醫(yī)學(xué)健康領(lǐng)域,將醫(yī)生納入循環(huán)中,共同為患者的治療方案做出決策;此外,在科學(xué)發(fā)現(xiàn)中,可以利用人機(jī)推理系統(tǒng),突破以往的需要人為設(shè)定好數(shù)據(jù)以及技術(shù)的限制,將人與機(jī)器同時納入解決問題的循環(huán)中去,在交互中共同去探尋復(fù)雜問題的解決方案。
除此之外,問答式服務(wù)、無人化服務(wù)方式也日益提上日程,成為新的服務(wù)模式。認(rèn)知計算良好的推理與學(xué)習(xí)能力為深度理解人們的問題以及提供更為“專”“精”的答案提供了可能性。在未來,應(yīng)用于圖書館的自動問答機(jī)器人將會代替人工成為主流,更好的分析理解能力與龐大的知識庫會使圖書館自動問答機(jī)器人在服務(wù)質(zhì)量上不遜于人工服務(wù),并且還可以結(jié)合射頻識別技術(shù)、物聯(lián)網(wǎng)、無人機(jī)駕駛等技術(shù),實(shí)現(xiàn)精準(zhǔn)地定位服務(wù)以及自動書架取書等服務(wù)。
5 結(jié)束語
認(rèn)知計算通過模擬人類的思維來進(jìn)行感知、推理與應(yīng)激反應(yīng),已經(jīng)逐漸被各領(lǐng)域所關(guān)注并且嘗試使用。認(rèn)知計算有著處理各種類型的數(shù)據(jù)、理解數(shù)據(jù)、評估數(shù)據(jù)并且可以從數(shù)據(jù)中學(xué)習(xí)出潛在的、未知的、新穎的洞見[23]的能力,可以加速科研工作者的科研過程,在情報分析領(lǐng)域有著自己獨(dú)特的優(yōu)勢,可以完善傳統(tǒng)情報分析技術(shù)在大數(shù)據(jù)時代的不足。但目前國內(nèi)對于認(rèn)知情報學(xué)的研究剛剛起步,還不成熟,并未提出明確的概念,將認(rèn)知計算與情報分析交叉融合進(jìn)行實(shí)踐的探索還并不成熟。認(rèn)知計算會大大加快將信息轉(zhuǎn)化為知識與行動的過程,為情報分析面臨的當(dāng)前信息環(huán)境迅猛的變革提供新的解決方案,為整個行業(yè)的服務(wù)業(yè)態(tài)探索提供新的思路。
欄目分類
- 館藏《(增修)施南府志》的修復(fù)與保存
- 紙媒介在平面設(shè)計創(chuàng)作中的應(yīng)用與教學(xué)方法探討
- 廣電媒資從紙質(zhì)向數(shù)字化轉(zhuǎn)型中的敘事重構(gòu)研究
- 空間設(shè)計教學(xué)中紙藝技術(shù)的創(chuàng)意應(yīng)用與學(xué)生創(chuàng)新能力培養(yǎng)
- 人工智能驅(qū)動下的紙質(zhì)出版智能化轉(zhuǎn)型:技術(shù)融合與創(chuàng)新路徑
- 非遺傳統(tǒng)手工藝中紙張應(yīng)用的技術(shù)體系與活態(tài)傳承策略
- 紙藝術(shù)的跨文化符號:中西方剪紙的英譯對比研究
- 數(shù)智時代非物質(zhì)文化遺產(chǎn)的保護(hù)與傳承路徑——以河南剪紙為例
- 基于環(huán)保視角的紙制品企業(yè)廢物管理與再利用策略
- 圖書館紙質(zhì)文獻(xiàn)數(shù)字化存儲平臺的優(yōu)化設(shè)計與文件管理方法研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了