學術期刊影響力排序與分區方法

時間:2022-03-10 05:20:28

導語:學術期刊影響力排序與分區方法一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

學術期刊影響力排序與分區方法

學術期刊(以下簡稱“期刊冶)在促進科學知識的創新、科技成果的轉化以及社會科技的進步等方面發揮著重要作用。在一定時間內某期刊所出版的學術論文對后續某段時間內相關領域知識創新的促進能力被稱之為期刊影響力[1]。期刊排序分區是衡量期刊影響力的重要指標,通常由某種或某些文獻計量學指標(又稱“期刊表征因素冶)來度量,對總體評估期刊的學術質量、宏觀考量期刊的辦刊定位與出版策略、學術績效短期評價、圖書機構期刊采購等具有非常重要的參考意義。特別地,從科研管理實踐來看,期刊排序分區是對于以數量勝質量、賺取獎金和應付考核投機行為的低成本有效對策[2]。最常見的期刊影響力度量指標是影響因子。普遍認為,影響因子越大,期刊影響力就越大。因此,期刊排序分區方法通常與影響因子有關。例如,適用于SCI英文期刊的排序分區方法主要包括:科睿唯安公司的期刊引用報告分區方法(簡稱“JCR分區冶)[3]和中國科學院文獻情報中心的分區方法(簡稱“中科院分區冶)[4]。在JCR分區方法中,將某一個學科的所有期刊都按照上一年的影響因子降序排列后,依據學科內期刊總數目,平均將這些期刊分為4個區,每個所占期刊數目比例為25%。在中科院分區方法中,采用期刊的前3年影響因子均值進行降序排位,然后將這些期刊以固定但非平均的方式劃分為四個區,期刊的區分位分別是5%,6%~20%,21%~50%,51%~100%。然而,隨著各個學科知識創新日漸加速、跨學科研究日趨普遍、文獻出版方式日呈多樣化,僅僅使用影響因子來進行期刊分區存在一定的缺陷。研究工作者試圖開發一個更為合理的期刊影響力度量指標,探索可以較為全面反映學術期刊質量和影響力的新型期刊分區方法。在影響因子基礎上,人們已經研究了多種新的指數,如h指數[5,6]、及其改進g指數[7]、特征因子[8-9]、f(x)指數[10]、PR8指數[11]以及學術期刊影響力指數(AcademicJournalCloutIndex,CI)[12]等。特別地,中國科學文獻評價研究中心的期刊影響力指數CI,目前已經成為了國內中文期刊文獻分區的重要依據。該指標是一種依賴于將“總被引頻次冶和“影響因子冶的非線性綜合指標[12]。CI分區方法首先將期刊的CI值作為排序度量值對特定學科的所有期刊進行降序排位,然后采用與JCR分區相似的方式,依據某個學科內所有期刊的數量來平均分割成四個分區。盡管影響因子是衡量期刊影響力的重要指標,但是期刊影響力是多個方面因素的綜合影響結果,其影響因素指標體系是由一系列具有內在關聯的評價指標所構成[13]。顯然,綜合各種指標的期刊影響力評價方法能夠從多個層面反映出期刊影響力的真實水平。然而,當前分區方法沒有反映出其它多種期刊因素(如即年指標、半衰期、互引指數等)。近年來,不少研究趨向于利用采用相關系數[14]、線性回歸[15]、因子分析[16-17]等線性分析方法綜合多種期刊表征因素,進行期刊影響力綜合評價并排序。盡管文獻[14]中同時也使用TOPSIS來捕獲期刊表征因素之間非線性關系,但僅限于因素之間的二次關系。總的來說,當前方法難以捕獲多個期刊表征因素之間的非線性關系,而且難以描述特定學科內期刊的全局和局部關系。另外,諸多期刊因素之間存在多重共線性關系會干擾期刊影響力評價。因此,針對目前的分區方法不足,本文利用相關系數矩陣和方差膨脹因子挑選高獨立性的若干重要期刊表征因素,并利用深度自編碼器的高維非線性刻畫能力,綜合集成這些因素,從而生成一種新的期刊排序度量指標并基于此進行期刊分區。

1方法

1.1實證數據選取與預處理。本文數據來源于2017年中國學術期刊影響因子年報(人文社會科學)[12],總共選擇“圖書館學;情報學冶(以下簡稱“圖情冶)、“法律冶和“體育冶三個學科中的學術期刊為實證研究樣本,其中“圖情冶學科包含43種期刊,“法律冶學科包含94種期刊,“體育冶包含41種期刊。每一種期刊包含學術期刊影響力指數(AcademicJournalCloutIndex,簡稱CI)和期刊分區(Q),以及35項學術期刊計量指標或表征因素(簡稱“因素冶)。例如,復合類指標、綜合類指標、人文社科影響因子指標、出版指標、引證指標、網絡傳播指標等。因為少量期刊缺失個別因素的數據,需要對數據進行篩選。本文采用如下篩選方案:(1)剔除存在較多缺失因素數據的期刊:“圖情冶期刊中的英文期刊《JournalofDataandInformationScience》,“法律冶期刊中的《中國法律評論》、《交大法學》、《蘇州大學學報(法學版)》、《國際法研究》、《醫學與法學》、《廣西政法管理干部學院學報》、《河南警察學院學報》、《中國律師》、《新疆警察學院學報》、《廣州市公安管理干部學院學報》、《遼寧公安司法管理干部學院學報》、《中國刑警學院學報》,“體育冶期刊中的英文期刊《JournalofSportandHealthScience》和《當代體育科技》;(2)存在缺失單個因素數據的期刊,采用該學科內其它期刊該因素值的平均值作為其估計值,如《情報學報》的“web即年下載率冶;(3)用邊界值代替非確切數值,如“>20冶的數值均以“20冶替代;(4)刪除不必要的冗余因素和分區無關因素,如“影響因子排序冶是與“影響因子冶的冗余,“研究層次冶是與分區無關的因素。最終選用42種“圖情冶期刊,82種“法律冶期刊和39種“體育冶期刊為研究對象,每一種期刊均包含33個因素,如表1所示。根據中國學術期刊影響因子年報的方法,這些因素分為三組,分別是:“上年期刊主要影響因子冶,“其它各類計量指標冶和“人文社科類影響因子、被引頻次及可被引文獻量冶,詳細信息如表1所示。因為所有期刊影響力因素的取值范圍差異很大,比如“復合總被引冶的數值量級可達上萬,而“復合影響因子冶的數值量級只有10左右,所以本文采用數據標準化來減少計算誤差。標準化的定義為:z(i)=x(i)-滋(i)滓(i)(1)其中為x(i)為期刊x的第i個因素的原始數值,滋(i)和滓(i)分別為數據中所有期刊的該因素的均值和標準差,z(i)為標準化之后該因素的數值。1.2深度自編碼器。深度自編碼器(以下簡稱自編碼器)作為深度學習領域的重要組成部分,是一種無監督的深度神經網絡[18]。它不僅能夠表達高維非線性變量關系,而且能夠將其壓縮為低維關系,從而為衡量期刊的排序分區提供一個可視化的表達和分析。在實際應用當中,自編碼器具有重建過程簡單、可堆疊多層等優點,通常由輸入層、編碼解碼隱含層和輸出層組成。其中,輸入層和輸出層維度(神經元數目)相等,輸入層和隱含層之間構成編碼器,輸入信號x沂Rd通過編碼過程在編碼隱含層產生含數據特征的激勵a沂Rm,解碼隱含層和輸出層之間構成解碼器,a通過解碼過程得到重構信號y沂Rd,解碼是編碼的逆向運算。在本文中,x代表期刊,用d個期刊因素表示,y表示重構之后的期刊。自編碼器的訓練目標是使原始輸入y抑x,從而捕獲數據中最重要的信息。如圖1所示,本文采用L層自編碼器,其過程可用如下公式表示:輸入層-編碼隱含層:a(1)=f(Wx+b)(2)編碼隱含層:a(i+1)=f(W(i)a(i)+b(i)),i=1,…,L(3)其中,W和b分別為各層的權值矩陣和偏置項,L為編碼隱含層的數目,f(誗)為激活函數,本文中采用sigmoid函數,其定義為f(z)=11+e-z,值域為[0,1]。在本文的自編碼器實現中,輸入層包含神經元數目對應于期刊因素的數目。同時,也設計了包含不同隱層數目的自編碼器構架,用來調查特定學科內期刊的全局和局部關系以及期刊排序分區。在可視化當中,最后一個編碼隱含層的神經元輸出值分別作為期刊的坐標值。該值又稱為隱空間主元值,簡稱隱元值。

2實證分析

2.1期刊因素分析與選擇。盡管期刊擁有多達33個因素,然而有的因素與其它因素密切相關,相互之間存在較高的相關性,導致因素之間存在共線性問題。比如在2017年的“圖情冶期刊中,第2個因素“復合影響因子冶與第3個因素“復合他引影響因子冶之間的相關性高達0.9969,它與第4個“復合5年影響因子冶之間的相關性為0.9768。再如,第11個因素“可被引文獻量冶與第33個因素“可被引文獻量2016冶的相關系數等于1,其中的原因在于數據來源于2017年中國學術期刊影響因子年報,所以這兩個因素包含相同的數據。指導期刊發展的首要任務是明確重要的因素、并剔除冗余的因素。以“圖情冶期刊為例,我們首先計算了方差膨脹因子(簡稱VIF)。結果表明,“可被引文獻比冶(15.279)、“基金論文比冶(22.645)、“平均引文數冶(24.273)、“引用半衰期冶(20.735)和“被引半衰期冶(15.520)這五個因素的VIF在15和25之間,存在較嚴重的共線性現象,括號中數值為對應的VIF值;更為嚴重的是,其它因素的VIF遠大于25,甚至高達10的7次方,存在極度共線性現象。由此可見,“圖情冶期刊的因素之間存在非常嚴重的多重共線性現象。其次,按照表1里面的因素編號順序,我們計算了建立因素之間的兩兩相關系數矩陣,從而挑選共線性程度較低的期刊因素。因為我們不關注相關性的正負,而是關注相關性的大小,所以相關系數矩陣包含的是相關系數的絕對值。為了進一步分析這些因素之間的關系,我們應用非負矩陣分解算法對該矩陣實施聚類。經觀察發現,這些因素可以形成4個聚類。其中,第1個聚類包含11個因素,包括10種綜合類、復合類以及社科統計源期刊引用的影響因子和即年指標、以及“web即年下載率冶,其內部的平均相關系數高達0.935。第2個聚類包含10個因素,包括8種復合類、綜合類總被引和各種統計源引用、“被引期刊數冶和“總下載量(萬次)冶,其內部的平均相關系數為0.841。第3個聚類包含7個因素,包括4種可被引文獻量、2種半衰期和“引用期刊數冶,其內部的平均相關系數為0.545。第4個聚類包含5個因素,分別是“可被引文獻比冶、“基金論文比冶、“平均引文數冶、“他引總引比冶、“互引指數冶,其內部的平均相關系數較低,僅為0.229。圖2(a)顯示了因素相關系數圖,其中節點表示期刊因素,連邊表示因素之間的相關系數,粗連邊表示高相關性,細連邊表示低相關性;為了突顯聚類,因素聚類用虛線框和對應的序號進行標定。最后,針對相關系數很高的聚類,只選擇其中第一個因素作為該聚類的代表因素。對于相關系數較低的聚類,選擇全部的因素。總共獲得了8個因素,包括“復合總被引冶、“復合影響因子冶、“可被引文獻量冶、“可被引文獻比冶、“基金論文比冶、“平均引文數冶、“他引總引比冶和“互引指數冶。在重新計算它們的VIF之后,我們發現由于“可被引文獻量冶的VIF值(4.314)相對其它的因素而言數值較大,而且與其他因素的相關性超過了0.600,因此為了降低共線性程度進一步剔除了該因素。最終采用其它7個因素進行期刊影響力分析。如圖2(b)所示,這些因素的VIF值均小于2.500,平均VIF值為1.693,“基金論文比冶具有最大的VIF值2.207。同時,我們也統計了它們之間的相關系數。如圖2(c)表示,其相關性絕對值總體較低,平均相關系數僅為0.250;最大的相關性發生在“基金論文比冶因素,它分別與“平均引文數冶和“復合影響因子冶之間的相關系數值為0.557和0.520;最小的相關性發生在“復合影響因子冶和“他引總引比冶之間,兩者幾乎完全獨立。這些結果表明,所選因素之間具有很低的共線性程度,可以用來進行下一步的期刊排序,從而可以用來指導期刊發展和提高期刊影響力。2.2基于深度自編碼器的期刊排序。在實證分析中,根據隱層數目與神經元數目,設計了不同構架的自編碼器,以將上一節選出的期刊因素拼接在一起作為自編碼器的輸入。采用了四種不同層數的自編碼器構架,其隱層數目分別為1,2,3,4,并分別調查了每一種構架對應的隱層神經元數目。通常隱層數目在3及以上的自編碼器被稱為深度自編碼器。為了描述方便,這里采用{A,B,C,D}的格式來表示自編碼器構架,其中字母數目表示層數,字母本身表示該層的神經元數目。以“圖情冶期刊為例,我們設計了漸進式的構架設計策略,即先調查隱層數目為1時對應的神經元數目,然后在此基礎上調查隱層數目為2時對應的神經元數目,以此類推,直至確定最后一個自編碼器構架中的神經元數目。具體過程如下:(1)當采用一個隱層{L}的時候,我們分別調查了L分別等于2~10、15、20、30、40、50和60條件下自編碼器的隱空間輸出結果。由于CI是目前最好的期刊影響力度量指標之一,我們計算了第一個隱元與CI的相關系數,并期望第一隱元能夠正向衡量期刊影響力,所以選擇這個相關系數為正且數值最大時對應的神經元數目作為該隱層的最佳神經元數目。我們發現,L=3對應最好結果。同時,該值也可為多個期刊的影響力分布提供了一種可視化手段。因此我們選擇3作為自編碼器{L}的隱層神經元數目,同時也是自編碼器{L,3}中第二個隱層的神經元數目。(2)當自編碼器采用{L,3}構架時,我們分別調查了L在同樣條件下自編碼器的隱空間輸出結果。通過與上一步類似的方法,確立隱層神經元數目L=5。(3)當自編碼器采用{L,5,3}構架時,確立隱層神經元數目L=50。(4)當自編碼器采用{L,50,5,3}構架時,確定隱層神經元數目L=30。雖然可以繼續增加層數時,但是采用更多隱層構架的自編碼所產生的隱元數值卻越來越小,趨向于過擬合。最終,我們最多只考慮采用四層的深度自編碼器構架。此外,盡管最終獲得了三個維度的隱變量,但結果表明只取前兩個隱元來顯示期刊分布就足夠了。圖3(a)、(b)、(c)、(d)分別顯示了“圖情冶期刊由四種自編碼器生成的隱空間分布。為了方便可視化,使用CI分區作為期刊的標記,其中圓點、方塊、三角和淺藍菱形分布表示1、2、3、4區期刊。由四個不同構架自編碼器生成的期刊分布結果如下:(1)當采用第1個自編碼構架時:對比CI分區結果,第一個隱元與CI值的Spearman相關系數等于0.7582。其中,CI值排名前三的1區期刊《中國圖書館學報》、《圖書情報工作》、《情報雜志》與其它1區期刊相對分散;有兩個1區期刊《大學圖書館學報》《圖書館論壇》與2區期刊靠近;大多數2區期刊與1區期刊鄰近,但《醫學信息學雜志》遠離其它2區期刊;隸屬于3區的期刊與4區期刊和2區期刊均呈現較大重疊混雜。(2)當采用第2個自編碼構架時:第一個隱元與CI值的Spearman相關系數等于0.8028。期刊分布更加突顯了1區期刊與其它期刊的不同,大部分1區期刊保持與其它期刊分離的狀態;兩個2區期刊《情報學報》和《現代圖書情報技術》靠近1區期刊;此外,在2區期刊當中,除了《醫學信息學雜志》之外,《現代情報》也略遠離其它同分區期刊;4區期刊《圖書情報導刊》遠離其它的同分區期刊。(3)當采用第3個自編碼構架時:期刊的分布范圍進一步縮小,期刊分區邊界初步顯現,呈現出與第一個隱元相關的趨勢,其與CI值的spearman相關系數為0.826;CI值排名第一和第二的1區期刊《中國圖書館學報》《圖書情報工作》突顯出了與其它期刊不同,而其他兩個2區期刊《情報學報》和《現代圖書情報技術》呈現靠近1區期刊的趨勢,分別與《情報雜志》、《情報理論與實踐》和《情報科學》相近。(4)當使用第4個自編碼構架時,所有期刊被映射成一條近似單調直線,能夠使用第一個隱元對期刊進行排序和分區,其中第一個隱元與CI值的Spearman相關系數為0.8503;1區期刊可分為三組,第一組包括《中國圖書館學報》和《圖書情報工作》;第二組包括《情報雜志》《情報理論與實踐》《情報資料工作》《情報科學》《圖書情報知識》《圖書與情報》,但是2區期刊《情報學報》和《現代圖書情報技術》位于其中;第三組包括《大學圖書館學報》《圖書館論壇》,但是它們與其他分區的期刊混雜在一起。此外,其它分區期刊存在不同程度的混雜重疊。總的來說,自編碼器能夠一個以非線性方式綜合了多個高獨立性期刊因素的期刊排序度量,其第一個隱元可以用來作為期刊排序度量值(排序得分)。另外,也應用深度自編碼器在“法律冶期刊和“體育冶期刊。由于篇幅限制,只選用了采用一個隱層和四個隱層這兩種自編碼器構架的期刊排序結果,如圖4所示。期刊排序結果表明,這兩大類期刊表現為與“圖情冶期刊相似的規律。當采用一個隱層時,期刊較為分散,第一個隱元與CI的相關系數分別為0.748和0.501,但是該構架利于發現離群期刊,如“法律冶期刊里面的《法制與社會》和《武漢公安干部學院學報》,“體育冶期刊中的《冰雪運動》。當采用四個隱層時,期刊分布呈現規律性,第一個隱元與CI的相關系數分別為0.796和0.838。再次說明,第一個隱元可以用來作為分區得分。2.3分區方法對比。現有分區方法均根據期刊順序和數量來實施,可分為基于平均劃分的方法和基于固定非平均劃分的方法。前者的代表方法包括JCR分區方法和CI分區方法,后者的代表方法有中科院分區。基于現有的劃分策略,本節對應地設計了深度學習平均分區方法(簡稱DL平均分區)和深度學習非平均方法(簡稱DL非平均分區),并以“圖情冶期刊為例進行對比分析。JCR分區和中科院分區分別使用影響因子作為期刊排序度量,而中國學術期刊影響因子年報(簡稱“年報冶)提供的兩大類影響因子:復合類和綜合類。為了實施后續的期刊分區方法對比,首先調查了復合類影響因子與綜合類影響因子在JCR分區和中科院分區中的差異。對比結果表明,兩者無論是對于JCR分區還是對于中科院分區而言,結果非常接近,在42個“圖情冶期刊中只有2個期刊的分區不同。因此,在后續的分區方法對比當中,只采用“復合影響因子冶(簡稱“影響因子冶)來分析JCR分區和中科院分區結果。對應于期刊分區策略,分區方法對比分為兩個部分。首先,以CI分區為基準,對比了采用平均劃分的JCR分區方法和DL平均分區方法。主要對比結果如下:(1)在CI的1區期刊列表中,JCR分區將《情報科學》和《圖書館論壇》分為2區,DL平均分區將《大學圖書館學報》和《圖書館論壇》分為2區;(2)在CI的2區期刊列表中,JCR分區將《圖書館雜志》《國家圖書館學刊》分為1區,將《圖書館理論與實踐》和《醫學信息學雜志》為3區;DL平均分區將《情報學報》和《現代圖書情報技術》分為1區,將《圖書館雜志》、《圖書館工作與研究》和《圖書館理論與實踐》為3區;(3)在CI的3區期刊列表中,JCR分區和DL平均分區同時將《中華醫學圖書情報雜志》分為2區、將《農業圖書情報學刊》和《農業網絡信息》分為4區;此外,JCR分區將《文獻》為4區,而DL平均分區卻將其分為2區,將《圖書館學刊》和《四川圖書館學報》分為4區;(4)在CI的4區期刊列表中,JCR分區將《大學圖書情報學刊》《圖書館界》為3區,DL平均分區將《古籍整理研究學刊》《圖書館界》《數字圖書館論壇》《中國典籍與文化》分為3區。其次,以采用非平均劃分的中科院分區為基準,對照CI值和CI分區,設計了一個CI非平均分區,并對比了DL非平均分區。主要對比結果如下:(1)中科院分區的兩個1區期刊中,CI和DL非平均分區將《大學圖書館學報》分別分為2區和3區;(2)在中科院分區的六個2區期刊中,CI和DL非平均分區都將《圖書情報工作》分為1區,將《情報雜志》分為2區;前者將《情報資料工作》《現代圖書情報技術》分為3區;后者將《圖書情報知識》《圖書與情報》分為3區;(3)在中科院分區的十三個3區期刊中,CI和DL非平均分區都將《情報理論與實踐》《情報科學》分為2區;前者將《信息資源管理學報》分為4區;后者將《情報學報》分為2區,將《圖書館雜志》《圖書館工作與研究》分為4區;(4)在中科院分區的二十一個4區期刊中,CI非平均分區將《圖書館理論與實踐》分為3區,DL非平均分區將《中華醫學圖書情報雜志》和《文獻》分為3區。綜上所述,在給定平均劃分條件下,三種分區方法在1區和4區的分區結果差異不大;在給定非平均劃分條件下,由于非平均劃分條件下1區和2區期刊數目較小,三種分區方法的結果差異稍大;少量期刊主要表現為分區差值臨近,沒有出現跨越一個及以上分區的差異情況;此外,《中國圖書館學報》在所有分區結果中均排名第一。詳細對比結果如表2和表3所示。

3結論

現有分區方法(JCR分區、CI分區和中科院分區)只使用單個期刊因素或兩個期刊因素對期刊進行排序,而忽視了能夠充分反映期刊性質的其它多種期刊因素。另外,在使用多種期刊因素來評價期刊影響力時,因素之間的多重共線性關系會干擾評價的準確性。針對這些問題,本文以“圖書館學;情報學冶為實例進行研究。首先,利用相關系數矩陣和方差膨脹因子挑選了高獨立性的七個重要期刊因素,包括“復合總被引冶、“復合影響因子冶、“可被引文獻比冶、“基金論文比冶、“平均引文數冶、“他引總引比冶和“互引指數冶。然后,應用漸進式深度自編碼器構架設計策略,提出了一種基于深度自編碼器的期刊排序方法。實例研究結果表明,本文方法不僅能提供一個多層次分析特定學科中期刊的全局和局部關系,而且能夠以非線性方式將多個期刊表征因素融合為單個期刊排序得分,進而能進行期刊影響力排序并實施期刊分區。