學術論文社交媒體可見性分析

時間:2022-04-24 05:05:06

導語:學術論文社交媒體可見性分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

學術論文社交媒體可見性分析

1引言

互聯網的發展催生社交媒體的繁榮,越來越多的學者在社交媒體上進行學術信息交流,學術論文、著作等出版物也得以在社交媒體中廣泛傳播。學術出版物的社交媒體可見性有助于學術成果的傳播同時增強公眾感知[1],也有利于學者提升學術聲譽和獲取信任[2]。同時,社交媒體拓展了傳統基于被引量的學術影響力評價體系[3],使得科研產出的社會影響力也受到學者關注。當前,學術成果的社會影響力主要通過其社交媒體可見性進行衡量,各類基于社交媒體的Altmetrics指標,本質都是探究觀測對象是否被社交媒體提及或分享,即科研產出是否在社交媒體中可見。學術論文作為科學研究成果的主要載體,其影響力是衡量學者及科研機構影響力的關鍵。學術論文的社交媒體可見性反映前沿知識從學界向更廣受眾的傳播和擴散,體現了在學術界以外更為廣泛的傳播力和影響力,預測學術論文的社交媒體可見性有助于理解其在社交媒體中的傳播力和客觀探討學術論文的社會影響力。學術論文在社交媒體中的傳播是科學的社會傳播途徑之一,相關研究大多集中于探討傳播模式和傳播路徑[4],也有學者探究學術論文傳播平臺的差異以及社交媒體用戶分享論文的動機[5]。然而,鮮有學者對學術論文在社交媒體中是否可見及其影響因素進行研究。學術論文作為一種信息,其傳播受到本身的多維特征影響[6]。基于此,本文以預測學術論文在社交媒體中的可見性為目標,從論文、作者與期刊三個方面探究學術論文社交媒體可見性的影響因素,并以糖尿病相關論文為例,采用多種機器學習算法預測其在推特中的可見性,對比分析不同算法的性能差異和各影響因素的貢獻大小。

2相關研究

2.1學術文獻的社交媒體傳播模式。學界使用社交媒體人數的增加,加速了學術論文的傳播,使得學者、論文、出版物的社交媒體可見性得以增強[7-8]。學術論文在社交媒體中的傳播模式以及傳播所帶來的社會關注度的提升成為學者們的研究熱點。不同類型社交媒體平臺的功能與受眾存在明顯差異,較多研究針對單一平臺傳播特征進行探討,或對比不同平臺的傳播差異。推特(Twitter)與臉書(Facebook)作為面向公眾的社交媒體平臺的典型代表,是主要的關注對象。Alperin等以推特中得到廣泛傳播的學術論文為研究對象,通過探究其轉發者粉絲網絡的構成,發現大多數學術論文主要在單連接的社區中傳播,并且向公眾的傳播較為有限[4]。Zhang等則發現論文相關推文(Tweet)的時機和推特帳戶類型會影響其在社交媒體上的受關注程度[5]。以學者為主要用戶的學術型社交網絡如Mendeley、ResearchGate等同樣備受關注。相關研究主要集中于探究平臺中被廣泛傳播的論文的特征、傳播效果[9]以及傳播受眾類型[10]等。另外,學術論文在不同類型社交媒體平臺中的傳播差異也是學者們關注的熱點。Holmberg和Vainio就以推特和Mendeley為例,探究了影響學術論文在不同社交媒體中引起在線關注的原因,發現Mendeley上的關注是由于學術界的讀者而引起的,而推特上受到關注的原因則與更廣泛的社會受眾有關[11]。綜上所述,鮮有學者關注學術論文在社交媒體上是否可見這一問題,亟需探究具有怎樣特征的學術論文能夠在社交媒體中可見。2.2面向影響力預測的學術論文特征。針對文獻被引量預測的研究對學術論文的特征選擇與描述的關注較多。Tahamtan等從198篇相關文獻中識別出28個與引用頻次相關的學術論文特征,并將其分為論文相關、作者相關與期刊相關三個維度[12]。Xie等則從論文相關、作者相關、參考文獻相關以及引文相關四個維度構建學術論文特征描述框架,該框架共包含66種可能與引文數量相關的特征,其中46個特征被證實與論文被引量具有顯著相關性[13]。盡管學者針對學術論文特征類別的劃分方式不同,但總的來看可分為論文、作者以及期刊等三個方面。論文相關特征的研究關注點大多是與論文知識內容無關的“外部特征”,如文章長度[14]、關鍵詞個數[15]、文章的類型[16]、文章的語言、出版時長、參考文獻數量[13]、資助基金[17]以及開放獲取情況[18]。也有部分學者考察了能夠表征文章知識內容的特征,諸如論文質量、創新性、研究主題[19-20]等。然而,如何科學合理地量化相應特征仍是亟需解決的問題。其次,作者數量、作者基于引文的學術影響力(如h指數)、作者發文量以及作者所屬機構等作者相關特征[21]也得到學者廣泛關注。隨著國際合作論文的日益頻繁,學術論文是否存在跨國合作、作者的國別數量是否與論文影響力、質量相關也成為學者們關注的焦點[22]。學術論文期刊的級別一定程度上能夠反映論文的質量,期刊相關特征也成為相關研究討論的重點。其中,期刊影響因子[23]、出版語言[24]、出版形式[25]等特征與論文被引量之間的關系得到眾多學者的關注。此外,一些Altmetrics指標,如提及數、讀者數、下載數等,也被用作學術論文特征[26-27]。2.3數據驅動的學術論文影響力預測。學術論文的影響力包括學術影響力與社會影響力兩方面。針對論文學術影響力的預測較多,相關研究主要利用論文的多維度特征建立模型預測論文的被引頻次[28-29]。例如,Yu等使用論文的外部特征、作者、出版物以及引文的特征,基于逐步回歸分析預測論文的被引量[30]。Cao等提出了一種利用論文出版后短期(3年)的被引量預測其未來被引量的方法[31]。Singh研究了論文早期引用者的影響力對論文長期的被引頻次的影響[32]。也有學者將論文所在學術網絡的相關信息用于預測其未來的被引頻次。例如,Sarigöl等利用科學家的合著網絡和作者集中度的方法來預測高被引論文[33];Pobiedina等使用引文網絡的頻繁圖形模式挖掘提高了論文被引頻次預測的準確率[34]。常用的預測論文被引頻次方法包括經典的機器學習方法、時間序列模型、復雜網絡的鏈路預測等方法。用于預測被引頻次的機器學習方法包括邏輯回歸、樸素貝葉斯、支持向量機、隨機森林[35]和人工神經網絡[28]等分類算法模型,以及分位數回歸[36]、半連續回歸[37]、梯度提升回歸樹[38]等回歸模型。而時間序列模型的方法側重于對論文被引頻次累積過程的分布進行建模[39-40],并基于不同的分布模型確定論文未來的被引頻次。復雜網絡的鏈路預測方法則是利用論文的引文網絡,常采用基于節點的相似性和基于最大似然估計的方法預測論文之間的引用關系[41-42],從而達到預測論文被引頻次的目的。學術論文的社會影響力比其學術影響力更加難以衡量。目前,學者對于如何客觀評價學術論文的社會影響力仍缺乏統一認識,針對論文社會影響力預測的研究較少,相關方法也存在不足。考慮到論文的學術影響力和社會影響力都受到論文本身特征的影響,本研究借鑒論文學術影響力預測的相關方法,來預測學術論文社交媒體可見性。

3論文社交媒體可見性預測方法

3.1學術論文特征框架構建。基于以往針對學術論文特征的研究,本文從論文、作者和期刊三個方面構建學術論文多維特征框架,選擇了26個具有代表性的特征用于后續的機器學習算法模型。(1)論文特征論文相關特征主要包括研究內容、形式結構和學術影響力三方面的多個特征。在研究內容方面,使用主題類別和WebofScience類別兩個特征來揭示論文的內容。論文形式結構的特征是指與內容無關的外部特征,包括論文的語言、文章類型、開放獲取狀態、論文長度(頁數)、關鍵詞數量、資助基金、出版時間等屬性。論文的學術影響力特征是之后一段時間內,所獲得的使用次數和被引頻次等。論文相關特征如表1所示。為確定論文的主題類別,本研究將論文題錄數據中每一篇論文的標題、摘要、關鍵詞等文本進行連接,形成語料庫,對語料庫進行清洗并轉化為文檔-詞頻矩陣,在此基礎上設置不同的主題數分別訓練LDA(LatentDirichletAllocation)主題模型,并計算模型的困惑度,根據最小困惑度原則確定最佳主題數,通過最佳主題模型確定每一篇學術論文的所屬主題。(2)作者特征論文作者及科研機構的學術水平和影響力也對其傳播有一定影響,權威機構和專家學者的研究成果更容易獲得媒體的報道和公眾的關注,也更容易在社交媒體上可見。本文從學術論文作者影響力和作者合作程度兩個方面確定了12個作者相關特征。其中,作者影響力方面的特征包括作者發文量、被引量及H指數[43]等指標。考慮到全部作者對論文均有貢獻,而第一作者和通訊作者通常更加重要。因此,本研究分別從第一作者、通訊作者和全部作者(團隊)的角度計算了以上作者影響力指標,合計9個特征。作者合作程度方面的特征包括作者數量、作者機構數量和國別數量,這些特征反映了學術論文的國際合作程度和論文被主動傳播的機會。作者相關的特征如表2所示。若論文的題錄信息中未注明通訊作者,視第一作者為通訊作者,以避免相應特征出現缺失值。此外,針對同名作者,本文以文獻[44]中的方法為基礎,根據作者的orcid、姓名、地址等信息按圖1中規則進行作者消歧。首先對比兩個作者的orcid,若不一致,則判定為不同作者;若作者的orcid信息缺失,則對比兩位作者的標準姓名縮寫[45](縮寫形式為姓在前、名在后,且只縮寫名而不縮寫姓)。若標準姓名縮寫不一致,則判定為不同作者;否則,繼續對比兩位作者的完整姓名,若出現不一致,則判定為不同作者;否則繼續計算作者通訊地址的相似度,若兩位作者的地址相似度大于0.8或兩個地址存在包含關系,則認為通訊地址一致,判定為同一個作者。為檢驗作者消歧方法的有效性,本文通過解析WOS數據集中的作者字段,得到全部作者記錄,從中隨機抽取274組共1004條同名作者,分別檢索每位作者對應的原論文并通過文章詳情頁進入相應作者的WOS個人主頁,通過對比每組同名作者的主頁鏈接及內容是否完全一致,對作者身份進行人工判別。同時,根據圖1中的消歧方法編寫Python程序進行自動消歧試驗,對比人工判別和機器判別的結果后發現,本文提出的作者消歧方法的準確率達到98.3%。(3)期刊特征期刊是學術時的重要載體,期刊的影響力也在一定程度上反映了學術論文的研究質量和學術價值。高影響力的期刊往往對論文的質量和創新性要求更高,也更加受學者關注。因此,發表在高影響力期刊上的論文可能更容易被關注和傳播,期刊的影響力對學術論文的社交媒體可見性也存在影響。為客觀表征期刊影響力,本文選取了JournalCitationReports中3個較為重要的指標,分別是總被引量、影響因子和特征因子分值,它們從三個方面反映了期刊的特征。其中,總被引量這一絕對統計量反映期刊在當年總體規模上的影響力。影響因子則消除了不同期刊發文量的差異,是反映期刊學術影響力的相對統計量。而特征因子分值還考慮了引文所在期刊的質量,并排除了自引。通過對三個指標的各年數據進行平均,可以消除同一期刊的影響力在時間維度上的差異,使不同期刊的影響力對比更為客觀。基于這3個JCR指標分別計算年平均值形成的期刊相關特征如表3所示。3.2基于分類的論文社交媒體可見性預測模型。(1)分類模型整體流程社交媒體可見性主要用于表征學術論文是否能夠在社交媒體上被提及與傳播,本研究將學術論文的社交媒體可見性預測問題轉為二分類問題,分類模型的整體流程如圖2所示。首先,基于學術論文的特征框架從原始數據集中提取論文的多維特征,并將論文在推特上的總提及量作為其社交媒體可見性的評估指標,由此得到每一篇論文的類別標簽。若論文的推特總提及量大于0,說明是社交媒體可見的,標記為正類,若推特總提及量等于0或論文在altmetric.com平臺無任何記錄,則標記為負類。其次,將論文樣本集劃分為訓練集和測試集,選擇適當的分類算法在訓練集上擬合模型,在測試集上對各模型的性能進行評估及對比。最后,使用性能最佳的預測模型,對新論文的類別標簽進行預測,對以達到利用論文、期刊和作者等多維特征預測學術論文社交媒體可見性的目的。(2)特征編碼與標準化特征編碼。對于論文相關特征中的主題類別、WebofScience類別、語言、文章類型、開放獲取狀態等5個離散特征,使用基于Python的機器學習工具scikit-learn進行one-hot編碼,將其全部轉化為向量形式,便于參與機器學習模型的計算。特征標準化。使用z-score標準化將全部特征保持在同一尺度上,并使得轉換后的數據符合標準正態分布。計算公式如下:𝑧−𝑠𝑐𝑜𝑟𝑒=𝑥−𝜇𝜎(1)其中,𝜇為特定特征列的樣本均值,𝜎為對應特征列的樣本標準差。(3)分類算法選擇與訓練結合學術論文數據集的特征和二分類任務的特點,本研究選擇了邏輯回歸、支持向量機、樸素貝葉斯、LightGBM、AdaBoost、隨機森林以及人工神經網絡等7種不同的機器學習算法分別實現分類模型。將經過預處理的學術論文數據集隨機劃分為80%的訓練集和和20%測試集,并在訓練集上采用k折交叉驗證的方法調整超參數。已有研究表明,10折交叉驗證提供了在偏差與方差之間的最佳平衡[46],因此實驗中k設置為10。各機器學習模型訓練完成后,分別調用模型對測試集中的學術論文樣本的社交媒體可見性進行預測,并將預測結果與其真實的類標簽對比,以評估各個分類器的性能。選擇常見的二分類模型性能評估指標對預測模型進行評估,包括模型的準確率(Accuracy),模型的精確率(Precision)和召回率(Recall)以及F1-得分(F1-score)。

4實驗結果與分析

4.1數據來源。健康問題是學界與公眾共同關注的焦點,生物醫學相關學術論文作為一種高質量的健康信息,其在社交媒體中的傳播不僅有助于學者擴大研究成果的影響力,也使公眾能夠獲取最新的健康知識,從而達到知識擴散和科學普及的效果。根據世界衛生組織的數據[47],糖尿病在2016年直接造成160萬例死亡,是全球前10位死亡原因之一。因此,本文以糖尿病相關的學術論文為例開展研究。論文特征數據主要來源于PubMed、WebofScience以及JournalCitationReports3個數據庫。PubMed提供超過3000萬生物醫學文獻的數據[48],是本文的主要數據來源。以"diabetesmellitus"[AllFields]為條件檢索PubMed數據庫,設置文獻出版時間范圍為2012年1月1日至2018年12月31日,篩選出版類型為“JournalArticle”的文獻,并剔除數據集中作者信息為空或作者為匿名的記錄,剩余有效數據一共119334條,PubMed數據下載時間為2019年8月25日。由于PubMed提供的文獻題錄信息不包括被引量、開放獲取等特征,本文基于醫學文獻唯一標識符PubMedID,使用Python程序生成檢索式,并通過爬蟲程序在WOS中對已獲取文獻進行二次檢索以補全論文特征信息,WOS數據獲取時間為2019年8月29日。另外,本文在JCR數據庫下載了2012年至2018年的期刊引證報告,并通過標準期刊名對應到糖尿病論文數據集中的每一篇文獻。JCR數據獲取時間為2019年9月19日。Haustein等發現,醫學、心理學及社會科學等學科領域的文獻在推特平臺上最受關注[49]。此外,高Altmetrics指標的論文,其底層數據量主要由推特貢獻[50]。altmetric.com作為主流的替代計量工具之一,能夠提供從多種在線平臺追蹤到的科研成果的關注數據[51],本文在altmetric.com通過檢索糖尿病論文的PubMedID,獲取了在該平臺有推特提及記錄的論文截至2019年8月29日的相關數據。4.2數據基本特征描述。糖尿病論文數據集包含119334篇學術論文,其基本情況如表4所示:論文來源于4753種期刊,分別以24種語言撰寫,其中英文論文116864篇,其次為西班牙語論文806篇。文章類別有Article、Review和“其他”3種,其中Article98358篇,Review14843篇。本文利用糖尿病相關學術論文的標題、摘要、關鍵詞等文本信息建立了LDA主題模型,實驗中最佳主題數為20,根據文檔-主題概率分布得到每一篇論文的主題,各個主題包含的論文數量如圖3所示。可以發現,主題15是當前糖尿病論文數據集上最大的一個主題,共有13651篇學術論文屬于該主題。另一個較大的為主題4,有11673篇學術論文屬于該主題。主題12是最小的一個主題,僅有1654篇文獻屬于該主題。總體來看,糖尿病相關論文的主題分布是不均衡的,反映出學術論文在內容層面的特征也是存在較大差異的。4.3論文的社交媒體可見性分析。糖尿病相關學術論文社交媒體可見性分布如表5所示。可以看出,51%的論文在推特中至少被提及了一次,即有51%的糖尿病相關論文在社交媒體中可見。從數據分布來看,本研究數據集的類別是均衡的,適合直接采用分類算法進行預測。根據學術論文特征描述框架,本文分別從論文、作者、期刊三個方面探究社交媒體可見的糖尿病論文的特征,并將其與社交媒體不可見論文的特征進行對比。(1)論文相關論文相關的特征同時包含數值特征和類別特征,社交媒體可見的糖尿病相關論文與不可見的論文,其論文相關數值特征的基本統計指標對比如表6所示。可以發現,無論是否社交媒體可見,糖尿病相關論文在使用次數和被引頻次這兩個反映學術影響力的特征上,其均值都是顯著高于中位數的。說明較多論文的使用次數和被引頻次都較少,而少數論文的使用次數和被引頻次較多以至于拉高了均值。對比社交媒體可見和不可見論文的特征可以發現,社交媒體可見的論文,其使用次數、被引頻次兩個特征的均值及中位數都要顯著高于不可見論文的對應指標,說明社交媒體可見的論文,其總體的學術影響力更高。此外,社交媒體可見的糖尿病相關論文,其出版時長的均值、中位數和標準差都小于不可見論文的對應指標。說明可見的論文,都是在出版后較短時間內獲得社交媒體的關注,而未在短期被提及的論文,也較難在長期獲得社交媒體的關注。對于論文相關的類別特征,本文統計了全部社交媒體可見的糖尿病相關論文的主題分布,如圖4所示。和圖3對比可以發現,社交媒體可見的60898篇學術論文的主題分布與數據集中全部糖尿病相關論文的主題分布基本上是一致的,最大的主題仍是主題15,其次是主題4。說明社交媒體可見的論文并未在研究主題上表現出特異性。(2)作者相關就作者相關特征來看,無論是否可見,論文在作者團隊平均被引頻次、第一作者被引頻次、通訊作者被引頻次這三個特征上,其均值都要顯著高于中位數,如表7所示。說明較多論文其作者的被引頻次是較少的,而少數論文其作者的被引頻次極高以至于拉高了均值。對比社交媒體可見和不可見論文的作者相關特征可以發現,社交媒體可見的糖尿病相關論文,其作者團隊平均被引頻次、第一作者被引頻次、通訊作者被引頻次三個特征的均值和中位數都顯著高于不可見的糖尿病相關論文的對應指標,結合表6的分析,說明社交媒體可見的論文與其作者在被引頻次這一計量指標上是相互促進的。此外,對比h指數、發文量有關特征的統計指標可以發現,社交媒體可見的論文在這些特征上的均值都要高于不可見論文的對應均值,說明社交媒體可見的論文,其作者的總體學術影響力略高。(3)期刊相關社交媒體可見的糖尿病相關論文,其期刊相關3個特征的均值和中位數都要顯著高于不可見論文的對應指標,如表8所示。說明社交媒體可見的論文較多來源于高水平期刊,期刊的影響力可能在一定程度上促進了論文的社交媒體可見。社交媒體可見的糖尿病論文數量排名前10的期刊如圖5所示。可以發現,排名前10的期刊擁有的社交媒體可見論文數量呈三級階梯狀分布。PLOSONE和DiabetesCare提供了糖尿病研究領域最多的社交媒體可見的學術論文,分別都有超過2000篇的學術論文在推特上被提及,是糖尿病研究領域社交媒體可見性最高的兩本期刊。Diabetes、Diabetologia、DiabeticMedicine以及DOM等4本期刊的被提及論文數量都在1000左右。就期刊的定位來看,排名前10的期刊中,除了PLOSONE是一本包容性較高的跨學科期刊,ScientificReports是關注自然科學與臨床醫學的期刊,BMJOpen是關注多學科及治療領域的醫學期刊以外,絕大多數期刊都是專注于糖尿病這一細分研究領域的專業期刊。根據每一本期刊擁有的社交媒體可見的糖尿病論文數量,本文劃分了4個層級,并統計了各層級下的期刊數量和被提及論文總量,如表9所示。可以發現,絕大部分社交媒體可見的糖尿病相關論文是來源于一小部分核心的期刊,這些期刊擁有的被提及糖尿病論文數量都在10篇以上,說明這部分期刊在糖尿病研究領域具有較高的社交媒體關注度和可見性。4.4社交媒體可見性預測結果分析。采用7種不同的機器學習算法對學術論文的社交媒體可見性進行預測,結果如表10所示。其中,LightGBM、隨機森林和AdaBoost等集成學習算法效果較好,三個分類模型的F1得分都達到了0.70左右,LightGBM方法的分類準確率達到了0.70,隨機森林和AdaBoost模型的準確率分別為0.69和0.68,說明在本研究確定的學術論文特征框架下,集成學習的方法通過將多個分類器學到的信息互補,能夠更有效地預測學術論文的社交媒體可見性。另外,傳統的機器學習方法,例如邏輯回歸、支持向量機,在本研究定義的分類任務中表現差強人意。支持向量機模型的F1得分和準確率都達到了0.68,邏輯回歸模型的F1得分和準確率都達到了0.67。最后,樸素貝葉斯方法和人工神經網絡應用于學術論文社交媒體可見性預測的表現稍差,盡管樸素貝葉斯模型的F1得分達到了0.68,但其準確率僅有0.54,精確率也僅有0.53,而召回率異常偏高,人工神經網絡的F1得分達到了0.67,準確率僅有0.65,而召回率達到了0.99,說明這兩個模型將大量樣本預測為正類,存在一定偏差。為客觀評估各分類算法性能的顯著性差異,對部分算法在交叉驗證集上的準確率進行t檢驗。在顯著性水平為0.05的情況下,LightGBM算法的性能顯著優于其他算法,說明LightGBM算法用于學術論文的社交媒體可見性預測是最有效的。此外,LightGBM、隨機森林、AdaBoost等集成學習算法的性能顯著優于邏輯回歸、支持向量機、樸素貝葉斯等傳統的機器學習算法。4.5特征重要性分析隨機森林是以決策樹為基學習器的集成學習方法,可以通過計算各個特征在所有決策樹上的平均貢獻來測量特征的重要性。本研究使用隨機森林評估在學術論文社交媒體可見性預測任務中學術論文各個特征的重要性,根據特征重要性確定對學術論文的社交媒體可見性影響較大的因素。影響較大的前10個特征及其重要性如表11所示,總的來看,論文、作者、期刊三方面特征均會影響學術論文的社交媒體可見性。其中期刊相關特征的重要性程度最高,期刊的年均影響因子位列第一,重要性為0.074,而期刊的年均特征因子分值和年均被引量在預測論文的社交媒體可見性中也十分重要,說明在高影響力期刊上發表的論文更可能在社交媒體中可見。此外,出版時長對學術論文社交媒體可見性的影響位居第二,重要性為0.061。已有研究發現,超過80%的社交媒體可見的論文都是在發表后一年之內被推特提及[52]。本文的研究進一步驗證了這一現象,未在發表后短期被提及的論文,未來也較難在社交媒體中可見。其他論文相關的特征中,論文的使用次數和被引頻次重要性也很高,說明論文的學術影響力在一定程度上影響其社交媒體可見性,學術影響力較高的論文更可能被用戶在社交媒體中分享與傳播。已有研究發現,更長的論文獲得的被引量也更大[14],本文也發現論文的頁數對其社交媒體可見性的影響較大。對于作者相關特征而言,作者被引頻次的影響較為突出。無論是作者團隊的平均被引頻次,還是第一作者的被引頻次、通訊作者的被引頻次,重要性排名都比較靠前。說明論文作者的學術影響力尤其是整個研究團隊的學術影響力對于論文的社交媒體可見性影響較大。而作者數量、機構數量等特征對可見性的影響卻較小,說明論文的合作程度對其社交媒體可見性影響較小,社交媒體用戶在提及學術論文時可能更加看重作者的影響力而不是作者數量或機構的多少。

5結語

本文從論文、作者、期刊三個方面構建學術論文的特征描述框架,以糖尿病相關論文為例,對社交媒體可見和不可見論文的特征進行對比分析,并基于特征描述框架使用多種機器學習算法對論文的社交媒體可見性進行預測,同時對各個特征在預測中的重要性進行評估,評估結果可作為提升學術論文社交媒體可見性的參考途徑。結果表明,社交媒體可見的糖尿病相關論文,其總體的被引頻次和使用次數都高于不可見的論文,且可見的論文較多來源于高水平期刊和高影響力作者。就預測模型而言,以LightGBM為代表的集成學習的方法,對論文的社交媒體可見性的預測效果是最佳的,其準確率達到了0.70,顯著高于其他機器學習算法,隨機森林和AdaBoost兩種集成學習方法的預測效果同樣較佳。就學術論文特征描述框架而言,論文相關、作者相關和期刊相關的三類特征都對論文的社交媒體可見性有一定影響。期刊相關特征對于預測論文社交媒體可見性影響較大,其中期刊的年均影響因子這一特征最為重要。論文相關特征中,出版時長是對論文社交媒體可見性影響較大的,其次是論文使用次數、被引頻次等反映論文學術影響力的特征。作者相關特征中較為重要的是作者被引頻次對應的三個特征,說明作者的學術影響力在一定程度上影響了論文的社交媒體可見性。

本文作為學術論文的社交媒體傳播力預測初探,僅選擇了糖尿病相關論文作為研究對象,今后需要擴大數據集,開展多學科多領域的學術論文社交媒體可見性分析和預測,以發現學術論文社交媒體可見性的學科差異和普遍規律。此外,本文僅針對推特這一平臺開展研究,未來可結合學術論文在多個社交媒體平臺的傳播數據,形成其社交媒體可見性的綜合指標,以全面反映學術論文在社交媒體中的傳播力和影響力。最后,本研究將學術論文的社交媒體可見性預測簡化為二分類問題,僅考慮了論文是否在社交媒體中可見,沒有衡量其社交媒體可見的程度或受關注程度,后續研究可以對論文的社交媒體可見性程度進行分級,將二分類問題轉為多分類問題,以便根據論文的社交媒體可見性評估其傳播力或社會影響力,建立從論文的學術影響力到社會影響力的完整預測框架和流程。

作者:李綱 管為棟 馬亞雪 毛進 單位:武漢大學信息資源研究中心