亚洲国产成人久久一区二区三区,97av在线视频,人人婷婷色综合五月第四人色阁

本站小編為你精心準(zhǔn)備了期刊引文有效性識別研究參考范文，愿這些范文能點(diǎn)燃您思維的火花，激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

期刊引文有效性識別研究

1引文有效性的定義及分析引文

引用是否有效的核心是施引論文中的觀點(diǎn)是否真實(shí)有效的出現(xiàn)在被引文獻(xiàn)之中。一般來說，引用參考文獻(xiàn)通常有4種情況:1)引用有歷史背景和意義的文獻(xiàn);2)引用實(shí)驗(yàn)中的方法;3)引用支持性或批判性的證據(jù);4)引用相關(guān)文獻(xiàn)用于比較。科研工作者出于上述目的在引用他人的概念、數(shù)據(jù)、觀點(diǎn)時(shí)出于表達(dá)的需要，通常有直接引用、間接引用、轉(zhuǎn)引以及隱含引用幾種情況。無論哪種引用目的、哪種引用方式，參考文獻(xiàn)的觀點(diǎn)、數(shù)據(jù)、表述需要真實(shí)有效的出現(xiàn)在施引文獻(xiàn)中，方可判定引文是有效引用。鑒于參考文獻(xiàn)表明了科學(xué)研究的某種繼承性，本文認(rèn)為在施引文獻(xiàn)和參考文獻(xiàn)之間天然存在相關(guān)性，但一般情況下兩者之間并不存在上下關(guān)系、同義關(guān)系或整體———部分等相關(guān)關(guān)系，施引文獻(xiàn)和參考文獻(xiàn)的整體相關(guān)性并不高。施引文獻(xiàn)和參考文獻(xiàn)兩者相關(guān)只是因?yàn)槭┮墨I(xiàn)引用了參考文獻(xiàn)中的部分內(nèi)容、觀點(diǎn)或數(shù)據(jù)，即參考文獻(xiàn)被引用的內(nèi)容和施引文獻(xiàn)中引用的內(nèi)容具有相似性。一般來說，直接引用的內(nèi)容相似性高，間接引用或轉(zhuǎn)引的內(nèi)容相似性略低。因此本文認(rèn)為，如施引文獻(xiàn)中引用的文字內(nèi)容與參考文獻(xiàn)中的某段表述、數(shù)據(jù)、觀點(diǎn)具有相似性，則稱為引文有效，否則則稱為引文無效。對引文有效性的識別可用參考文獻(xiàn)與施引文獻(xiàn)引用的文本內(nèi)容的相似性程度進(jìn)行度量。

2文本相似度計(jì)算

一般來說，相關(guān)文本的兩個(gè)或多個(gè)變量之間存在以下依存關(guān)系:上下關(guān)系、同義關(guān)系、反義關(guān)系、整體———部分關(guān)系，主體———屬性關(guān)系等，反映出文本變量之間的關(guān)聯(lián)。相似文本的變量之間則一般表現(xiàn)為同義關(guān)系、上下關(guān)系、整體———部分關(guān)系。由于應(yīng)用場景以及需要解決問題、達(dá)成目標(biāo)的差異性，學(xué)界對文本相似度尚沒有統(tǒng)一定義。本文認(rèn)為文本相似度分析是指對兩個(gè)給定的文本通過詞匯、語句、段落進(jìn)行比較，判定兩者的差異，從而確定文本的相似程度，通常用［0，1］之間的某個(gè)數(shù)值進(jìn)行度量。相似性越強(qiáng)，數(shù)值越接近1(意味著比較的文本完全相同);相似性越弱，數(shù)值越接近0(意味著比較的文本完全不同)。

3期刊引文有效性識別方法與實(shí)現(xiàn)

對引文有效性的識別即對引用內(nèi)容與參考文獻(xiàn)內(nèi)容相似度的計(jì)算。本文的引文有效性識別方法主要分成3步:文本表示，特征詞權(quán)重確定，相似度計(jì)算。3.1參考文獻(xiàn)的文本表示文本表示是指從參考文獻(xiàn)和引用內(nèi)容中抽取出能體現(xiàn)參考文獻(xiàn)主要內(nèi)容的特征詞，以形成參考文獻(xiàn)的向量表示，包括參考文獻(xiàn)和施引文獻(xiàn)引用的內(nèi)容部分，主要解決抽取什么特征向量和抽取多少特征項(xiàng)量的問題。期刊論文是人類自然語言的文本表示，屬于非結(jié)構(gòu)化信息。為了便于計(jì)算機(jī)處理論文信息，需要將論文進(jìn)行預(yù)處理，即將非結(jié)構(gòu)化的論文信息轉(zhuǎn)化為能夠被計(jì)算機(jī)直接處理的結(jié)構(gòu)化文本信息，通常有分詞和去停用詞兩個(gè)步驟。分詞就是將待比較的論文切割成單個(gè)的詞，并根據(jù)詞性進(jìn)行標(biāo)注。目前常用的漢語分詞系統(tǒng)有:ICTCLAS分詞系統(tǒng)、HTTPCWS、SCWS———簡易中文分詞系統(tǒng)、PhpanAl-ysis、盤古分詞、MMSEG4J無組件分詞系統(tǒng)以及中國科學(xué)院的NLPIR中文分詞系統(tǒng)。NLPIR中文分詞系統(tǒng)可以基于信息交叉熵自動(dòng)發(fā)現(xiàn)新特征語言，從較長的文本內(nèi)容中自適應(yīng)測試語料的語言概率分布模型，實(shí)現(xiàn)自適應(yīng)分詞，在本文的期刊引文識別方法中分詞效果最好，是本文主要使用的分詞方法［6］。文本預(yù)處理的第二步是去停用詞。所謂停用詞是指出現(xiàn)頻率較高但實(shí)際意義不大的詞，包括連詞、嘆詞、語氣詞等沒有實(shí)際意義的功能詞以及地名、人名等詞匯詞。去除、過濾停用詞可以有效降低文本相似度計(jì)算的誤差，提高計(jì)算效率并節(jié)省存儲空間。目前使用的停用詞都是根據(jù)人類經(jīng)驗(yàn)非自動(dòng)化生成的，由此匯集而成停用詞表，目前尚沒有普遍應(yīng)用的通用停用詞表工具。已有停用詞表包括哈工大停用詞詞庫”、“四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫”、百度停用詞表“等。3.2特征詞權(quán)重確定特征項(xiàng)的權(quán)重計(jì)算是期刊引文識別中極為重要的過程，和文本相似度計(jì)算的效率密切相關(guān)。TF－IDF(TermFre-quency－InverseDocumentFrequency)權(quán)重計(jì)算方法是向量空間模型中最常使用的權(quán)重計(jì)算方法之一。TF－IDF的主要思想是詞語的重要性跟它在文本中出現(xiàn)的次數(shù)成正比，但跟它在語料庫中出現(xiàn)的次數(shù)成反比。3.3相似度計(jì)算及引文有效性判定本文使用相似度來表示文本間的相似程度，相似度越大文本間差異就越小，文本越相似。余弦相似度是實(shí)踐中非常有效的一個(gè)相似度度量方法，其思想是通過計(jì)算兩向量間夾角的cos值來度量文本間的相似程度，夾角越小，余弦值越接近于1。

4實(shí)驗(yàn)及結(jié)果

實(shí)驗(yàn)選用某本刊2015年第一期為實(shí)驗(yàn)文本集，獲得論文25篇，參考文獻(xiàn)260篇。出于數(shù)據(jù)獲取的便利考慮，本研究剔除了圖書、報(bào)紙、專利及外文類等參考文獻(xiàn)，獲得中文論文類參考文獻(xiàn)95篇;作為比對，在每篇論文中隨意劃取一段敘述作為引用內(nèi)容，并增加無關(guān)參考文獻(xiàn)1篇做為虛假引用的參考文獻(xiàn)(為了回避偶然性，取其它學(xué)科論文做為參考文獻(xiàn))，獲得虛假引文25篇。經(jīng)過文本預(yù)處理之后，根據(jù)向量空間模型，分別計(jì)算期刊論文與參考文獻(xiàn)和虛假引文的余弦匹配度。

5結(jié)束語

文獻(xiàn)的不當(dāng)引用是一個(gè)長期、復(fù)雜且相對隱蔽的現(xiàn)象，既屬于學(xué)術(shù)道德問題，又屬于學(xué)術(shù)規(guī)范問題。對期刊虛假引文的有效識別只是規(guī)范引文不當(dāng)引用的第一步，但無法解決引文引而不注、過度引用、模糊標(biāo)注等問題［9］。廣大學(xué)者、期刊界、管理者應(yīng)共同重視引文不當(dāng)問題的緊迫性和重要性，逐步推出針對不當(dāng)引用行為的監(jiān)督、獎(jiǎng)勵(lì)機(jī)制，鼓勵(lì)廣大學(xué)者及編輯人員發(fā)現(xiàn)、修正虛假引用、引而不注、匿引等不合理引用問題，為不端引用行為監(jiān)督工作提供可靠的依據(jù)。

期刊引文有效性識別研究范文

擴(kuò)展閱讀

推薦期刊

中國科技期刊研究

科技期刊發(fā)展與導(dǎo)向

世界核心醫(yī)學(xué)期刊文摘·胃腸病學(xué)分冊

世界核心醫(yī)學(xué)期刊文摘·兒科學(xué)分冊