美章網 資料文庫 期刊引文有效性識別研究范文

期刊引文有效性識別研究范文

本站小編為你精心準備了期刊引文有效性識別研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

期刊引文有效性識別研究

1引文有效性的定義及分析引文

引用是否有效的核心是施引論文中的觀點是否真實有效的出現在被引文獻之中。一般來說,引用參考文獻通常有4種情況:1)引用有歷史背景和意義的文獻;2)引用實驗中的方法;3)引用支持性或批判性的證據;4)引用相關文獻用于比較。科研工作者出于上述目的在引用他人的概念、數據、觀點時出于表達的需要,通常有直接引用、間接引用、轉引以及隱含引用幾種情況。無論哪種引用目的、哪種引用方式,參考文獻的觀點、數據、表述需要真實有效的出現在施引文獻中,方可判定引文是有效引用。鑒于參考文獻表明了科學研究的某種繼承性,本文認為在施引文獻和參考文獻之間天然存在相關性,但一般情況下兩者之間并不存在上下關系、同義關系或整體———部分等相關關系,施引文獻和參考文獻的整體相關性并不高。施引文獻和參考文獻兩者相關只是因為施引文獻引用了參考文獻中的部分內容、觀點或數據,即參考文獻被引用的內容和施引文獻中引用的內容具有相似性。一般來說,直接引用的內容相似性高,間接引用或轉引的內容相似性略低。因此本文認為,如施引文獻中引用的文字內容與參考文獻中的某段表述、數據、觀點具有相似性,則稱為引文有效,否則則稱為引文無效。對引文有效性的識別可用參考文獻與施引文獻引用的文本內容的相似性程度進行度量。

2文本相似度計算

一般來說,相關文本的兩個或多個變量之間存在以下依存關系:上下關系、同義關系、反義關系、整體———部分關系,主體———屬性關系等,反映出文本變量之間的關聯。相似文本的變量之間則一般表現為同義關系、上下關系、整體———部分關系。由于應用場景以及需要解決問題、達成目標的差異性,學界對文本相似度尚沒有統一定義。本文認為文本相似度分析是指對兩個給定的文本通過詞匯、語句、段落進行比較,判定兩者的差異,從而確定文本的相似程度,通常用[0,1]之間的某個數值進行度量。相似性越強,數值越接近1(意味著比較的文本完全相同);相似性越弱,數值越接近0(意味著比較的文本完全不同)。

3期刊引文有效性識別方法與實現

對引文有效性的識別即對引用內容與參考文獻內容相似度的計算。本文的引文有效性識別方法主要分成3步:文本表示,特征詞權重確定,相似度計算。3.1參考文獻的文本表示文本表示是指從參考文獻和引用內容中抽取出能體現參考文獻主要內容的特征詞,以形成參考文獻的向量表示,包括參考文獻和施引文獻引用的內容部分,主要解決抽取什么特征向量和抽取多少特征項量的問題。期刊論文是人類自然語言的文本表示,屬于非結構化信息。為了便于計算機處理論文信息,需要將論文進行預處理,即將非結構化的論文信息轉化為能夠被計算機直接處理的結構化文本信息,通常有分詞和去停用詞兩個步驟。分詞就是將待比較的論文切割成單個的詞,并根據詞性進行標注。目前常用的漢語分詞系統有:ICTCLAS分詞系統、HTTPCWS、SCWS———簡易中文分詞系統、PhpanAl-ysis、盤古分詞、MMSEG4J無組件分詞系統以及中國科學院的NLPIR中文分詞系統。NLPIR中文分詞系統可以基于信息交叉熵自動發現新特征語言,從較長的文本內容中自適應測試語料的語言概率分布模型,實現自適應分詞,在本文的期刊引文識別方法中分詞效果最好,是本文主要使用的分詞方法[6]。文本預處理的第二步是去停用詞。所謂停用詞是指出現頻率較高但實際意義不大的詞,包括連詞、嘆詞、語氣詞等沒有實際意義的功能詞以及地名、人名等詞匯詞。去除、過濾停用詞可以有效降低文本相似度計算的誤差,提高計算效率并節省存儲空間。目前使用的停用詞都是根據人類經驗非自動化生成的,由此匯集而成停用詞表,目前尚沒有普遍應用的通用停用詞表工具。已有停用詞表包括哈工大停用詞詞庫”、“四川大學機器學習智能實驗室停用詞庫”、百度停用詞表“等。3.2特征詞權重確定特征項的權重計算是期刊引文識別中極為重要的過程,和文本相似度計算的效率密切相關。TF-IDF(TermFre-quency-InverseDocumentFrequency)權重計算方法是向量空間模型中最常使用的權重計算方法之一。TF-IDF的主要思想是詞語的重要性跟它在文本中出現的次數成正比,但跟它在語料庫中出現的次數成反比。3.3相似度計算及引文有效性判定本文使用相似度來表示文本間的相似程度,相似度越大文本間差異就越小,文本越相似。余弦相似度是實踐中非常有效的一個相似度度量方法,其思想是通過計算兩向量間夾角的cos值來度量文本間的相似程度,夾角越小,余弦值越接近于1。

4實驗及結果

實驗選用某本刊2015年第一期為實驗文本集,獲得論文25篇,參考文獻260篇。出于數據獲取的便利考慮,本研究剔除了圖書、報紙、專利及外文類等參考文獻,獲得中文論文類參考文獻95篇;作為比對,在每篇論文中隨意劃取一段敘述作為引用內容,并增加無關參考文獻1篇做為虛假引用的參考文獻(為了回避偶然性,取其它學科論文做為參考文獻),獲得虛假引文25篇。經過文本預處理之后,根據向量空間模型,分別計算期刊論文與參考文獻和虛假引文的余弦匹配度。

5結束語

文獻的不當引用是一個長期、復雜且相對隱蔽的現象,既屬于學術道德問題,又屬于學術規范問題。對期刊虛假引文的有效識別只是規范引文不當引用的第一步,但無法解決引文引而不注、過度引用、模糊標注等問題[9]。廣大學者、期刊界、管理者應共同重視引文不當問題的緊迫性和重要性,逐步推出針對不當引用行為的監督、獎勵機制,鼓勵廣大學者及編輯人員發現、修正虛假引用、引而不注、匿引等不合理引用問題,為不端引用行為監督工作提供可靠的依據。

主站蜘蛛池模板: 亚洲国产av无码精品| 国产小视频免费观看| 东京加勒比中文字幕波多野结衣| 欧美亚洲777| 在线观看一区二区三区视频 | 九九在线精品视频| 欧美精品在线一区二区三区| 免费黄色网址网站| 色国产精品一区在线观看| 国产成人精品午夜二三区| 18禁男女爽爽爽午夜网站免费 | 天天做天天添天天谢| 中文字字幕在线精品乱码app | 亚洲免费人成在线视频观看| 草莓视频污污在线观看| 国产欧美精品区一区二区三区| 91视频第一页| 天天操天天干天天摸| 三上悠亚日韩精品| 无码精品一区二区三区免费视频 | 最新国产成人ab网站| 亚洲日韩亚洲另类激情文学| 男女一进一出抽搐免费视频| 又大又粗又爽a级毛片免费看| 边吃奶边摸下面| 国产强伦姧在线观看无码| 亚洲欧美自拍明星换脸| 怡红院在线视频精品观看| 久久久久久久综合狠狠综合| 日韩电影在线|中韩| 亚洲a∨无码精品色午夜| 欧美日韩一区二区三区麻豆| 四虎影视在线永久免费看黄| 黄色毛片视频在线观看| 国产精品久久久久久一区二区三区 | 人妻熟妇乱又伦精品视频| 精品一区二区三区在线视频| 又爽又黄有又色的视频| 翁公厨房嫒媛猛烈进出| 国产a免费观看| 色婷婷综合久久久|