本站小編為你精心準備了大數據在情報學研究的影響參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
[摘要]在大數據環境下,情報學正面臨一個全新的發展機遇。文章從研究過程出發考察大數據對情報學研究的影響,主要包括:拓展了情報學的問題域,創新了新的研究方法,開拓了新的數據來源和數據獲取方式、擴大了數據規模,提供了新的研究工具,增加了研究人員的參與度和學科影響力。深刻洞察情報學研究在大數據環境中的變化,找到有價值的研究問題,才能不斷產出有影響力的成果,不斷促進學科發展,擴大情報學的影響力和滲透力。
[關鍵詞]大數據情報學研究;研究過程;研究創新;學科發展
大數據作為一種新的理念和技術,對現代生活產生了重要影響,同時它也作為一種科學圖景,為不同領域學科發展提供了新的契機。在大數據環境下,社會信息化和智能化程度有了前所未有的提升,技術環境也發生了革命性變化。目前出現了許多與情報學、信息管理學發展密切相關的技術,包括:作為現實世界的轉換路徑和介質的數字化技術、擁有取之不盡數據來源的互聯網/物聯網技術、創建即時可用計算環境的云計算技術、形成移動泛在信息行為的智能手機和終端技術、以及無孔不入的時空分析GIS技術[1]。這些技術全方位多角度滲透到人文社會科學各個領域和各個方面,給人文社會科學帶來了活力,引起了這些學科研究范式的深刻變革。情報學作為專門研究數據、信息和知識組織與利用的學科,其影響更是首當其沖,大數據不僅極大豐富了情報學研究內容,也給情報學理論和方法帶來了深刻影響,為情報學滿足用戶信息服務需求提供了新模式,給情報學發展帶來了新的機遇。我們可以從不同的視角和側面研究大數據對情報學的影響,但就學科發展和研究而言,考察大數據對情報學研究過程的各個要素即研究問題、研究方法、研究數據、研究工具的影響,是最根本的、最能揭示大數據及當代信息技術對情報學研究影響的實質和方式。
1拓展了情報學的問題
域問題是一個學科研究的入口,無論學科發展還是研究實踐,問題都是其首要環節和基礎要素。有沒有豐富的問題,這些問題在所處的介質、場景、時間和空間上有沒有層次性、延展性是學科創新和突破的關鍵。因為學科發展就是通過不斷提出問題、解決問題,揭示事物的本質和規律。過去我們常常聽到一些博士生和碩士生抱怨找不到恰當的論文題目,不知道研究什么問題。這可能是本身對問題的把握不足,也可能是在傳統小數據環境下的確找不到更多的問題進行研究。在上世紀90年代,人們曾提出大情報觀,試圖將自身的觸角延伸到社會經濟的各個方面和各個領域,也嘗試借助信息資源管理、知識管理來拓展情報學研究的空間,但學科所處的傳統介質、空間和場景都非常有限,而從這些介質、空間和場景中提煉出來的研究問題也很有限。在大數據環境下,情報學所處的介質、空間和場景發生了根本變化。情報學傳統的介質是紙質文獻,主要以論文、專利、報紙、科技報告、政策文本等為載體[2]。這種介質不僅存儲不便,加工處理和傳遞交流也很困難。數字化將文字、圖像、聲音等一切對象都轉化為0和1,存儲在計算機中,進一步上傳至互聯網,建立了人與自然的“數字體系”關聯。在情報學領域,數字介質帶來的直接變化是存儲介質替代了傳統檔案,而后又出現了數字化書籍、數字報刊雜志、數字圖書館等等。數字化手段使得人類或人類思想文本轉變成為巨大的數字庫[3]。情報學誕生于紙質信息環境,因此對情報學領域而言,數字介質最直接的效益便是解決了人類知識需求與供給之間的阻礙。除了傳統的文獻、文本資源移植到數字介質中,在數字介質中產生的一些原生數字資源也進一步拓展了情報學研究資源,并與之融為一體,例如圖像、音頻、視頻、網頁等等都成了情報學領域的研究資源。同時,經過數字化轉化,社會、經濟和文化得以在無邊的數字空間中飛速發展,人類的信息過程也發生了全方位、全鏈條、全要素的變化。在數字介質中,信息鏈演化加速,范圍拓展,提出了許多過去沒有的問題。在傳統紙質介質背景下,情報學的研究場景主要是圖書館、文獻中心和情報中心的工作流程,即圍繞文獻生成、獲取、加工、存儲、檢索、傳遞和利用展開。例如,典型的工作流程一般是首先由出版商生產紙質文獻,通過一次分發,被圖書館或文獻中心采集,經過加工整理成為目錄、索引、文摘和題錄等二次文獻,再通過二次分發,被信息服務中心采集,向用戶提供服務[4]。在新場景中,情報學工作流程完全被顛覆,一次分發和二次分發沒有明顯的界限,信息生產者、加工者和用戶的角色并不固定。
互聯網改變了傳統信息傳播模式,出現了以用戶為中心來組織、傳播信息的場景;物聯網改變了傳統信息傳播主體,信息的發送者和接受者不是人而是物;機構知識庫改變了信息存在和利用的形式,作為一種群體知識成果進入到人們視野中。隨著科技的發展和應用深入,還會出現不斷突破以往固定情報工作流程的新場景,并涌現出新問題,不斷促進情報研究的發展。在傳統介質下,情報學所處的空間是圖書館、文獻中心、情報中心為主體的物理空間,傳統的情報工作流程在有限的物理空間中形成了固定模式,各個環節中的問題也基本確定,沒有拓展的余地。在當代大數據環境下,情報學面對的空間是互聯網、傳感網和通信網三位一體的虛擬空間,在這個新空間中,情報工作模式發生了革命性變化。過去只能在物理空間中進行的信息加工組織傳遞轉移到了虛擬空間,或者在物理空間和虛擬空間中交叉進行。社會信息形態和人類信息活動在新空間中發生了巨大變化,其次是新空間提供了一個全方位研究和計算的新平臺。利用虛擬空間,情報學研究工作的績效得到空前彰顯。傳統的情報學研究方法、工具和手段能夠在新的空間中得到運用和拓展。這些突破傳統框架的新介質、新空間和新場景的問題都是跨學科、跨領域的研究問題。諸如新出現的社交媒體、輿情傳播、商品評論、信息行為、多渠道信息替代、大規模文本統計等,很難確定屬于哪個學科,應該由誰去研究?虛擬空間中的犯罪問題應該由哪些學科去主導?因為這些新出現的研究問題往往更為綜合,涉及要素更為多元,不僅僅來自情報學領域,還需要運用很多其他學科的知識進行交叉分析,因此跨學科、跨領域的合作非常關鍵。在新的技術環境下,情報學研究需要汲取其他領域專業知識,同時也可以為其他專業提供新的思維和引導;情報學研究人員要到其他領域去找問題,也歡迎其他領域的專家來到情報學領域。同時,這些新問題的解決對情報學變革有著重要的現實意義,不管是能夠產生好的成果,或是形成巨大的挑戰,都是促進情報學研究進步的一個重要機遇。
2創新了情報學的研究方法
研究方法是解決問題的鑰匙,提煉出好的科學問題,還需要有針對性很強的研究方法。研究方法對任何一個學科都十分重要,甚至可以視為一個學科是否成熟的標志。美國的LIBRARYTRENDS雜志曾經總結了圖書館學、情報學在過去相當長一段時間里常使用的幾種研究方法,包括實證研究、案例研究、系統性綜述、縱向研究、生活史。另外,扎根理論、引文分析與計量也是圖書情報學界常常使用的方法。這些方法今天仍在情報學研究中發揮著重要作用,但也顯現出較大的局限性。最大的局限在于數據來源的有限性和主觀性,表面看來所有數據和資料都源于對被調查對象針對訪談或問卷的回答,是客觀準確的一手數據,事實上,被調查對象在回答問題時,帶有很大的隨意性和主觀性,有時也存在對問題理解的歧義。因此研究結論的正確性將大打折扣。依賴研究人員個人收集、閱讀文獻的系統性綜述縱向研究其實也帶有很大的主觀性和隨意性,難以保證結論客觀準確。隨著情報學所處的介質、空間、場景的變化,問題域不斷拓展,情報學研究工作的復雜性也隨之提升,傳統研究方法的局限性越來越大,由此引入和產生了許多新的研究方法,例如:社會網絡分析、復雜網絡分析、大數據分析、認知計算、社會感知計算、平行計算、數據挖掘、機器學習等等。為情報學利用實時數據、大規模數據和客觀數據開展研究提供了條件。結合對過去與現在情報學研究方法的對比,可以認為大數據環境下,情報學研究方法呈現出從介入性方式到非介入性方式、從部分探究到整體研究、從人工分析為主到計算機分析為主的變化趨勢。面對當前大數據帶來的洶涌而至的信息潮流,情報學研究涉及的問題越來越廣,吸引了不同學科領域的一些學者關注情報學研究,所運用的方法也不斷推陳出新,為情報學科的發展注入了新的活力。例如,統計物理學家采用統計物理模型和復雜網絡方法研究引文網絡,建立了更加抽象、但又能夠刻畫真實網絡特征的模型;計算機科學家借用強大的計算能力和模型研究網絡信息分布及傳播規律,采用計算實驗和平行系統研究情報工作模式,采用大規模電子蹤跡和用戶生成內容研究信息行為。這些研究不僅大大豐富了情報學研究,還帶來了情報學研究范式的革命。這些研究方法所呈現出來的特點,符合大數據時代的特征,代表著情報學研究方法的拓展和進步。其實,研究方法并沒有好壞之分,新的研究方法的出現代表著突破傳統研究方法的局限,說明可以解決過去無法解決的問題,達到曾經無法企及的目標,這對科學研究意義重大。
3增加了數據獲取的渠道、方式和規模
情報學研究離不開數據支持,同時情報學也是與數據十分密切的學科,許多著名的數據庫或網站都是情報學家的杰作,如我們熟知的科學引文數據庫,不僅僅用于科研服務,還被廣泛用于科學評價、人才評價和研究機構評價等工作;又如,ResearchGtea、Med-linePusl等平臺不僅僅提供信息服務,而且提供了豐富的數據。與小數據環境相比較,情報學在數據獲取渠道、方式和規模上都發生了巨大變化,對情報學研究也產生了巨大影響。(1)數據獲取渠道的變化情報學研究方法的變化和數據獲取渠道的變化是相互影響、相互促進的,過去情報學研究的數據獲取渠道單一,主要以文本文獻作為數據對象和基礎,而當代信息技術環境下,情報學數據獲取渠道不僅包括文獻數據庫數據,還包括商業數據、網絡數據和政府數據,常見的數據類型分為電子蹤跡、用戶生成內容(UGC)、文本數據、空間位置數據[5],這些數據形式都極大地豐富了情報學研究中的數據來源。情報學研究數據渠道的拓展,改變了科學交流的方式,同時也帶來了新的研究思路。以往情報學者研究信息搜索或利用行為,主要是通過問卷形式獲取用戶數據,現在則可以方便地利用點擊流和搜索日志,如用戶點擊網絡情況、瀏覽情況以及IP地址等,這些數據都屬于電子蹤跡,也可以通過用戶生成內容(UGC)。再如,有關文獻計量或信息計量分析,過去主要依賴的是引文數據庫。但隨著情報學數據獲取的渠道變得豐富,信息計量學的數據不再僅僅圍繞傳統的引文庫展開,Altmetric.com公司提供的許多替代計量的指標就包括有公共政策文件、主流媒體、維基百科、專利數據等等;PlumAnalytics公司提供的PlumXMetrics指標就包含使用、捕獲、提及、社交媒體和引文指標。這些指標所包含的數據來源,其廣度和深度遠遠超過了過去的范圍。通常認為,通過正式交流渠道獲取文獻信息進行科研評價具有一定的局限性。因此,數據來源渠道的擴大,使得科研評價方法得到創新,并且突破局限搭建更客觀、公正的評價體系。這不單單是信息計量分析發展的突破口,也是情報學科不斷發展的源泉。(2)數據獲取方式的變化數據獲取方式的變化,主要體現在客觀數據向實時數據的轉變。過去情報學在研究過程中使用客觀數據就比較多(這也是與其他領域最大的差別),主要運用傳統結構化數據庫,如各種圖書館資源、引文庫等,情報學運用客觀數據具有成熟的經驗。但如今的客觀數據,可以通過網絡實時日志、社交媒體、開放API、點擊流等方式來獲取,也就是實時數據。實時數據也可以稱為“熱數據”[6],相應的,我們可以把過去積累下來的檔案性數據稱為“冷數據”。情報學以往一直擅長用冷數據分析傳統成熟的問題,并且取得了很好的成果。如今也有能力和條件獲取熱數據,這對解決學科近期的、當前的熱點問題、前沿問題和敏感問題非常重要。冷數據是靜態的、穩定的、有序的和成熟的數據,比較容易把握,選擇性雖然受限,但結果可以預期。相對而言,熱數據則是動態、多樣、復雜、無序的數據,不僅獲取有難度,分析要求時效性,結果也很難把握。這對情報學信息分析提出了更高的要求。對于熱數據的獲取,可以通過現代化手段或工具對某個特別現象相關的所有數據進行持續跟蹤。例如運用大數據采集技術對網絡信息進行自動化獲取,采用眾包(Crowdsourcing)的方式開放、動態地進行協同化信息組織等等。數據獲取在情報學研究工作中占有重要的地位,在大數據環境下顯得更加重要。(3)數據規模的變化在小數據環境下,情報學研究中的數據規模是有限的,情報分析、用戶研究、行為研究、計量研究等通常不過針對幾十篇文章、幾十個用戶來進行分析,因為早期分析大規模數據缺乏相應的數據源、渠道和工具。但現階段存儲計算環境發生了重大變化,可以基于現有技術條件來分析處理海量數據。可以看到現在存留在虛擬空間中的數據規模已經從TB級別上升到了PB級別,甚至未來還會出現EB、ZB甚至是YB級別。面對如此龐大的數據量,情報學領域中越來越多的文獻統計研究都是圍繞大規模的作者、用戶以及文獻展開分析。情報學領域的大規模數據源也吸引了其它學科的專家進入情報學研究領域,大大提高了情報學領域的門檻。例如計算科學、統計物理學,這些領域的專家研究信息計量問題,他們擁有處理大規模數據的模型和計算優勢,動輒分析幾十萬作者、上千萬篇文獻數據,這些技術手段和文獻統計工作大大提高了情報學領域的研究水平。從不同的數據渠道、獲取方式和規模的變化,可以了解到隨著數字化和網絡化程度不斷加快,情報學研究數據來源具有明顯的改善和提升。這些量級、結構、維度空前的數據來源,為研究人員全面探究數據背后事物的真實要素、環節時態給予支持,為情報學研究進一步探究人類信息活動和滿足社會信息需求提供了數據保障。
4提供了新的研究工具
在數據來源日趨龐雜和數據化日益明顯的情況下,情報學對研究工具性能也提出了新的要求。新技術為傳統資料的分析處理提供了新的手段,傳統的研究方法在新技術環境下延伸出新的思路。第一,出現了許多專門針對大數據的集成、管理及分析的技術,這些技術以某種軟件或系統為載體,極大提高了情報學研究的效率,可以稱為有形的研究工具。第二,網絡環境作為一種全新的社會形態和活動空間,在這個空間中涌現出一些新的研究方法和實驗手段,但沒有一定形式的載體,稱為無形的研究工具。(1)有形研究工具從數據采集來講,根據不同領域的數據來源有不同的數據采集工具,例如運用日志采集、網絡爬蟲或網站公開API等方式獲取網絡數據,用傳感器工具獲取自動產生的數據。在數據存儲階段,除了關系型數據庫和數據倉庫,建立在分布式存儲基礎上的云存儲已經成為大數據存儲的主要趨勢。在數據分析階段,傳統的分析方法無法滿足數據分析需求時,出現了新的大數據處理工具,包括批數據處理、流數據處理、以及非結構化數據處理工具,例如文本數據處理、圖數據處理[7-8]。在數據呈現階段,其挑戰在于數據維度高、需求多樣化,面向大數據主流應用的信息可視化技術,主要包括文本可視化、網絡可視化、時空數據可視化、多維數據可視化等。大數據時代的一系列分析工具幫助情報學研究人員更為有效、可信地處理數據,研究者已經充分認識到,那些以往只能依靠人工,必須付出大量人力、財力和時間成本來分析處理的信息資料,現在依托大數據技術體系可以運用計算機系統進行高效率、低成本的分析處理。(2)無形研究工具網絡虛擬空間中形成的社區平臺、社交媒體平臺等,涵蓋了人們生產、生活方方面面的信息。通過互聯中介來進行各項人類和社會規律的研究,消除了物理時空的限制,這是許多傳統研究方法不能比擬的,比如互聯網實驗法和在線數據分析法。傳統社會科學中有三種數據獲取方式:實驗室、田野實驗和自然實驗,但今天互聯網提供了一個天然實驗室,通過互聯網實驗室進行各種各樣的實驗,包括信息行為分析、信息計量等。再如前面提到的眾包,通過協同的方式能以較低成本找到更為有效或具代表性的樣本,同時兼顧匿名性、質量及成本。在虛擬數字空間中,以傳統的研究方法為基礎,不斷呈現出新的思路和方法,這些方法為滿足情報學研究人員進行探究和揭示人類信息活動的規律提供了無限可能性。
5增加了研究人員的參與度
一方面,在過去研究過程中,研究人員獲取數據的方式,以及實證分析、案例分析等,都需要密切依靠用戶和調查對象配合。在當代信息技術環境下,可以通過工具從網上獲取客觀數據,或者通過網絡虛擬實驗室采集研究數據,并不需要被調查對象的配合和響應,不僅提高了研究效率,而且是研究結論更加客觀準確。對于研究人員自身而言,除了研究的主體角色外,還可以通過互聯網實驗平臺進行自我體驗或檢驗。另一方面,情報學是一個距離數據很近的學科,所做的工作就是文獻、信息、知識的組織,一直都是跟數據、信息、知識打交道,積累了豐富的數據分析處理經驗,創新了許多研究方法。大數據大大拓展了許多原有的數據資源的應用范圍,使得情報學可以引領其他學科,尤其是人文社會科學研究中的數據分析處理,也能夠為其他學科提供研究工具和方法。可以認為,情報學研究人員有足夠的空間和機會來一展所長。
6結束語
改變意味著機遇,在新的背景下,情報學研究無論是在研究范式、研究對象、還是研究工具和手段上,都面臨巨大的變化。因此,情報學研究應該察覺大勢、順應潮流,在大數據時代應該抓住機遇展現自身的優勢。對于獲取處理批量的、動態的、交互式的、以及實時的數據,所應運而生的一些有形和無形的研究工具,包括數據挖掘技術、數據處理技術、數據可視化技術等等,在情報學研究中應該予以充分重視和運用。在應用上,情報學科具有良好的發展前景,情報工作和情報學自產生到近幾十年的發展過程中,基本上都是作為后勤服務保障性系統出現的。大數據環境帶來了巨大改變,情報學善于捕捉、處理和利用數據的傳統將使它在整個人文社會科學研究中發揮引領作用,甚至在未來一段時間內,可能會對社會各行各業帶來重要影響,因此強調重視情報學領域復合型、交叉型人才的培養。但從歷史經驗來看,新的環境在帶來機遇的同時,也必然會存在各種挑戰和困難。對于情報學研究而言,獲取信息的價值是信息增值的核心過程,而問題引導才是從大數據中提煉價值的核心。情報學者在解決自身學科問題基礎上,可以展開跨學科跨領域研究,在更廣闊的背景下進一步促進情報學的發展。
作者:馬費成;張瑞;李志元 單位:武漢大學信息資源研究中心