關鍵詞范文10篇
時間:2024-02-02 02:59:50
導語:這里是公務員之家根據多年的文秘經驗,為你推薦的十篇關鍵詞范文,還可以咨詢客服老師獲取更多原創文章,歡迎參考。
思想研究關鍵詞的思考
一、社會主義改造
新中國成立后,前七年這段時間,我們一般又會把它分為兩個階段:一個階段是國民經濟恢復時期,從1949年新中國成立到1952年底;另一個階段則是社會主義改造時期,從1953年到1957年。通常所說的“社會主義改造”,是指和中國共產黨,依據新民主主義革命勝利所創造的向社會主義過渡的經濟政治條件,采取社會主義工業化和社會主義改造同時并舉的方針,實行逐步改造生產資料私有制的具體政策,從理論和實踐上解決了在中國這樣一個占世界人口四分之一且經濟文化落后的大國建設社會主義制度的艱難決策和過程。把握社會主義改造,我們需要注意以下幾個問題。一是中國共產黨和對中國應該用多長時間、采取什么樣的方式過渡到社會主義這一問題的認識,經歷了從最初設想的先搞一段新民主主義建設,將來“一舉過渡”到“逐步過渡”的變化。1948年9月,在中共中央召開的政治局會議上,劉少奇作了《關于新民主主義的建設問題》的報告。當談到何時向社會主義過渡問題時,他說“過早地采取社會主義的政策是要不得的”,“過早地消滅資本主義的辦法,則要犯‘左’傾的錯誤”。表示贊同,并特別補充說:到底何時開始全線進攻?也許全國勝利后還要15年。當時的意思是,建國后要繼續搞一段時間的新民主主義,使工業和整個國民經濟在恢復的基礎上得以發展,使新民主主義內部的社會主義因素逐步增加,等到條件基本成熟,再向社會主義轉變。關于轉變的時間,最初的設想是15年。1949年3月,黨的七屆二中全會上,又提出大約需要15到20年。同年9月第一屆全國政協會議期間,有黨外民主人士詢問要多少年過渡到社會主義,回答說:大概要二三十年吧。從上述這些提法來看,基本構想是先搞10年、15年或更長一點時間的新民主主義,然后再向社會主義過渡。也就是說,建國之初“要搞一段新民主主義,是真心實意的”。只是,隨著國內形勢的變化,的構想稍微有所改變。1951年2月18日,他在中共中央政治局擴大會議上正式提出“三年準備,十年建設”的戰略構想,并在會議決議要點中強調指出:“三年準備、十年計劃經濟建設的思想,要使省市級以上干部都明白。準備時間,現在起還有二十二個月,必須從各方面加緊進行工作。”然而,“三年準備,十年建設”的構想,還不是最后的定見。1951年中央政治局擴大會議結束不久,他就改變了這一構想,開始談論向社會主義過渡的構想。1952年9月24日在中央書記處的會議上,在聽取關于“一五”計劃輪廓問題同蘇聯商談情況的匯報后,講了一段話,大意是:我們現在就要開始用10年到15年的時間基本上完成到社會主義的過渡,而不是10年或者以后才開始過渡。
1952年10月,劉少奇率代表團參加蘇共,期間受委托,于10月20日給斯大林寫了一封信,請示中國逐步過渡到社會主義的問題。10月24日,斯大林接見中共代表團時說:“我覺得你們的想法是對的。當我們掌握政權以后,過渡到社會主義去應該采取逐步的辦法。”這次會談的情況,劉少奇以電報的形式向作了匯報。這就更加堅定了逐步過渡的決心。1953年2月,在中央書記處會議上講了在湖北視察時同孝感地委負責同志談話的內容,他說:什么叫過渡時期?過渡時期的步驟是走向社會主義。我給他們用扳指頭的辦法解釋,類似過橋,走一步算是過渡一年,兩步兩年,三步三年,10年到15年走完。1953年6月15日,主持召開中央政治局會議,討論李維漢所作《關于資本主義工業中的公私關系問題》的報告。在會議上的講話中,正式提出過渡時期總路線,并作了系統闡述。指出:“從中華人民共和國成立,到社會主義改造基本完成,這是一個過渡時期。黨在過渡時期的總路線和總任務,是要在十年到十五年或者更多一些時間內,基本上完成國家工業化和對農業、手工業、資本主義工商業的社會主義改造。”〔1〕二是過渡時期總路線的實質。黨在過渡時期總路線的實質是逐步地改變生產關系,基本完成對生產資料私有制的社會主義改造,使生產資料的社會主義公有制即全民所有制和集體所有制成為我國社會的經濟基礎。正如所說:“黨在過渡時期的總路線的實質,就是使生產資料的社會主義所有制成為我國國家和社會的唯一的經濟基礎。”〔2〕他在另一次談話中對此說得更為清楚:“總路線也可以說就是解決所有制的問題。國有制擴大———國營企業的新建、改建、擴建。私人所有制有兩種,勞動人民的和資產階級的,改變為集體所有制和國營(經過公私合營,統一于社會主義),這才能提高生產力,完成國家工業化。”〔3〕三是社會主義改造和改革之間的關系。社會主義改造的成果解放了生產力,促進了工農業和國民經濟的發展,人民生活水平有了明顯提高,人民民主政權更加鞏固,并由此建立起社會主義社會制度。但改造過程中也有缺點和偏差。
在1955年夏季以后,農業合作化以及對手工業和個體商業的改造要求過急,工作過粗,改變過快,形式也過于簡單劃一,以致在長期間遺留了一些問題。1956年資本主義工商業改造基本完成后,對于一部分原工商業者的使用和處理也不很適當。相比成績來說,缺點和偏差是微不足道的。在探討我國社會主義改造與社會主義改革的關系時,有人用指導現在的社會主義改革的思想觀點來否定過去的社會主義改造;也有人用指導過去的社會主義改造的思想觀點來否定現在的社會主義改革鼓吹“早知今日,何必當初”。確實,社會主義改造是為了實現從新民主主義社會向社會主義社會的過渡,從而建立社會主義基本制度;社會主義改革是為了完善社會主義制度。二者存在明顯的區別。同時,社會主義改造與社會主義改革也具有深層的內在聯系,都是為了解放生產力,發展生產力;都是中國共產黨領導中國人民朝著社會主義方向而奮斗的偉大歷史進程中的大膽探索;社會主義改革不是對社會主義改造的否定,而是對社會主義改造理論和實踐的進一步發展,兩者是一脈相承的。
二、趕超“躍進”
鴉片戰爭以來,實現中華民族的獨立富強和中國人民的富裕幸福,就成為中國人夢寐以求的事情。為此,許多仁人志士拋頭顱灑熱血前赴后繼。新中國成立后,百廢待興。作為中國最高領導人的,希望以最快的建設速度盡快改變貧窮落后的面貌,使中國真正發展、強大起來,自立于世界民族之林。1954年6月,曾指出:“現在我們能造什么?能造桌子椅子,能造茶碗茶壺,能種糧食,還能磨成面粉,還能造紙,但是,一輛汽車、一架飛機、一輛坦克、一輛拖拉機都不能造。”其憂慮、急迫之心溢于言表。1956年8月,在黨的八大預備會議上第一次提出了“超美”設想:“我們這個國家建設起來,是一個偉大的社會主義國家,將完全改變過去一百多年落后的那種情況,被人家看不起的那種情況,倒霉的那種情況,而且會趕上世界上最強大的資本主義國家,就是美國。”1957年11月,赴蘇聯參加十月革命勝利40周年慶典活動。隨后出席在莫斯科召開的共產黨、工人黨代表會議。這次會議可以說是世界共產黨的狂歡,各國代表意氣風發、縱談全球大事、指點江山。會上,赫魯曉夫提出蘇聯要在15年時間在工農業最重要產品的產量、某幾項工業產量方面趕上和超過美國。受赫魯曉夫的刺激,提出中國在15年后可能趕上或者超過英國。1958年4月,寫《介紹一個合作社》的批語說:“十年可以趕上英國,再有十年可以趕上美國,說‘二十五年或者更多一點時間趕上英美’是留了五年到七年的余地的。‘十五年趕上英國’的口號仍不變。”〔4〕1958年5月,在黨的八大二次會議上,李富春提出:七年趕上英國,十五年趕上美國。在批語中改為:七年趕上英國,再加八年或者十年趕上美國。1958年6月21日,在中央軍委擴大會議上又一次將趕超時間提前,他說:我們三年基本超過英國,十年超過美國,有充分把握。在這種趕超氛圍的影響和鼓舞下,“”發動了。“”運動,在生產發展上追求高速度,以實現工農業生產高指標為目標。要求工農業主要產品的產量成倍、幾倍甚至幾十倍地增長。這種脫離實際的躍進,必然帶來無盡的災難。注意到了這種情況,并逐步作出改變。1960年12月24日至1961年1月13日,中共中央在北京召開工作會議期間,說:這三年都是指標高了,后來退不下來了。1958年北戴河會議后從9月份開始大搞,1959年廬山會議反右傾后又大搞,1960年又一年,這三年大煉鋼鐵擠了農業。還說:過去總是冷得不夠,熱得多了一點。現在看來,搞社會主義建設不要那么十分急。十分急了辦不成事,越急就越辦不成,不如緩一點,波浪式地向前發展。此后,社會主義建設的戰略步驟回到正確的軌道。
期刊關鍵詞抽取方法
1引言
關鍵詞是與文章內容和主旨密切相關的短語,被廣泛應用于新聞報道、學術期刊等領域。關鍵詞可以提高文檔的管理和檢索效率,還可以為一些文本挖掘任務提供豐富的語義信息,例如文檔的分類、聚類、檢索、分析和主題搜索等任務[1]。期刊的關鍵詞對應學術期刊中的keywords部分,包含簡單關鍵詞(SimpleWord,SW)和復雜關鍵詞(ComplexWord,CW)兩大部分,其中SW表示由一個簡單詞組成的關鍵詞,CW表示由多個簡單詞組成的關鍵詞。根據IEEEExplorer[2]統計數據顯示,每年約有24萬篇新學術期刊被收錄。根據某些學科期刊的要求,在文獻發表時作者需要在期刊中對關鍵詞進行注明。但仍有一些學科的出版物與早期發行的期刊、書籍、文獻的部分章節不包含關鍵詞等信息。缺乏關鍵詞會在期刊的查閱和參考過程中造成困難。雖然可以使用索引對全文進行檢索,但這種方法工作量大、且檢索結果依賴于分詞效果,難以給出準確的檢索結果。而關鍵詞抽取就是從文章中選擇一小部分單詞或短語來描述文章重要內容[3]。因此,需要尋找一種有效的期刊關鍵詞抽取方法。針對傳統方法的不足并結合最新研究成果,本文提出了一種基于融合詞性的BiLSTM-CRF的期刊關鍵詞提取方法。在實現數據時序和語義信息挖掘的同時,也保證了單詞與單詞之間的關聯性。在真實數據上的實驗結果表明融合詞性的BiLSTM-CRF模型是一種有效的期刊關鍵詞自動抽取方法。
2相關工作
目前,關鍵詞抽取任務主要有兩種方法,基于無監督的方法和基于有監督的方法[4,5]:2.1基于無監督的方法:無監督方法僅通過一些事先規定的關鍵詞權重的量化指標,計算權重排序關鍵詞重要性來實現。TFIDF是字符串頻率關鍵詞[6,7]抽取的一種典型方法,其本質是無監督的,可以簡單快捷的進行關鍵詞抽取。該方法僅掃描語料庫一次,即可獲得所有單詞的文本頻率。但除了詞頻之外,仍需要考慮許多因素,例如詞的詞性以及在文本中的位置等。為了提高該方法的性能,必須人工的對其許多規則進行設計[5]。在新聞領域,字符串頻率方法比有監督的機器學習方法更有效。因為機器學習的方法在模型訓練時需要花費大量的時間,并且文檔需要標注。其次,每天都會發生新事件,新聞的內容具有多樣性。但無監督方法只提供了單詞在文本中的相對重要程度,無法有效地綜合利用詞法和語義信息對候選關鍵詞進行排序[8]。2.2基于有監督的方法:有監督的方法將關鍵詞抽取問題視為判斷每個候選關鍵詞是否為關鍵詞的二分類問題,它需要一個已經標注關鍵詞的文檔集合來訓練分類模型,即通過在一個有標注的數據集上訓練分類器,以便決定候選詞中哪些是關鍵詞。不同的機器學習算法可以訓練出不同的分類器,如樸素貝葉斯[9],決策樹[10]、最大熵算法[11]和支持向量機[12]等是關鍵詞抽取中的代表性方法,通過大量數據來訓練分類器。可見有監督方法可以利用更多信息具有更大的優勢,且實驗效果比無監督方法好[4]。這種方法具有較高的準確性和較強的穩定性,但需要很大的語料庫,且所有文本需要進行標注。標注人員具有一定的主觀性并且標注任務具有復雜性。不同的標注人員在進行同一個文本的標注時,具有不同的認知和看法,標注的質量會影響模型的性能。并且上述方法都將關鍵詞抽取問題視為一個二分類問題,對每個單詞獨立處理,忽略了文本結構信息。為解決該問題,可以將關鍵詞抽取問題轉化為序列標注問題,常用的模型有最大熵模型(MaximumEntropy,ME),隱馬爾科夫模型(HiddenMarkovModel,HMM),條件隨機場模型(ConditionalRandomField,CRF)。其中CRF模型的應用最為廣泛,性能也最好,可以較為精確的實現關鍵詞的有效提取,但卻需要人工設計特征,特征設計的優劣與否將會直接影響到模型的性能和最終的抽取效果。隨著深度學習的不斷發展,深度神經網絡,尤其是長短期記憶網絡(LongShortTermMemory,LSTM)模型,前一時刻隱藏層的信息可以加入到當前時刻的輸出,通過LSTM層可以高效地利用上下文信息,處理長序列依賴問題。通過結合LSTM模型和CRF模型,綜合利用多種信息,可以使得效果更好[13]。在近期的研究中,已有學者將BiLSTM-CRF網絡模型用于開放式關系抽取[14]、命名實體識別[15]、中文分詞[16]等自然語言處理任務中。Alzidy等已經將BiLSTM-CRF網絡用于關鍵詞抽取任務中[17],使用固定的詞嵌入來表示單詞,輸入網絡,得到序列標注結果。
3融合詞性與BiLSTM-CRF的抽取模型
針對從文本中自動抽取關鍵詞的問題,現有的解決方法大多基于二分類的思想。這種方法忽略了單詞之間的關聯性,將每個詞視為獨立的部分,因此無法通過聯系上下文來準確把握文的有效信息,從而導致模型具有較差的關鍵詞抽取能力。針對該問題,本文結合條件隨機場與深度學習中雙向長短期記憶網絡(BidirectionalLongShortTermMemory,BiLSTM)模型可以自動提取特征的優勢,將期刊關鍵詞的抽取問題轉化為序列標注問題,提出了融合詞性與BiLSTM-CRF的期刊關鍵詞抽取方法。融合詞性與BiLSTM-CRF的關鍵詞抽取模型如圖1所示:關鍵詞自動抽取模型共包含三大部分:(1)對期刊文本進行分詞和詞性標注的預處理;(2)將預處理后的文本使用word2vec模型進行WordEmbedding向量化,獲取字詞的向量表達式;(3)使用BiLSTM-CRF模型實現關鍵詞的自動抽取。3.1特征提取:(1)詞性標注在關鍵詞組合的過程中,可能會采用不同的詞性組合方式,但通過對期刊中大量的關鍵詞研究發現,期刊中的關鍵詞一般由名詞,形容詞和動詞組合形成[13],因此在實驗中需要對詞性進行標注,例如:信號控制單元(n+vn+n),高性能電池(ad+n),其中,n表示名詞,vn表示動詞,ad表示形容詞。加入詞性特征對期刊關鍵詞的識別有一定作用。(2)依存句法分析依存句法分析就是確定一個句子中詞語與詞語之間的依存關系或者對句子的句法結構進行分析。詞語之間的依存關系主要有介賓關系、動賓關系、主謂關系等。本文采用語言技術平臺[18](LanguageTechnologyPlatform,LTP),對期刊文本進行依存句法分析,通過過濾不可能組成關鍵詞的依存關系,可以提高識別關鍵詞的效果。(3)詞向量表示本文采用Word2Vec模型[19]中的Skip-gram模型[21]來訓練詞向量。Skip-gram模型是在已知當前詞語的情況下,去預測上下文信息。模型的目的是要學到好的詞向量表示,然后能夠很好的預測它上下文的詞語。Skip-gram模型如圖2所示。在訓練詞向量的過程中分別將詞、詞性、依存句法分析等特征通過word2vec工具轉換成詞向量表示,詞的維度為200維,詞性和依存句法分析的維度分別為10維,最后通過嵌入式向量引入模型進行融合,生成最終的特征向量表示。3.2LSTM網絡:循環神經網絡(RNN)[20]被廣泛應用于命名實體識別、語音識別等自然語言處理任務中,具有記憶歷史信息的能力,能夠使模型通過長距離的特征對當前的輸出進行預測。但隨著RNN網絡深度和訓練時長的增加,在對較長序列數據處理時存在梯度消失和梯度爆炸的問題。LSTM網絡與傳統的RNN具有相似的網絡結構,通過使用專門構建的記憶細胞代替RNN網絡中隱藏層的更新模塊,使LSTM網絡具有發現和探索數據中長時間的依賴信息的能力。LSTM的神經元結構如圖3[21]所示。由上圖可知,LSTM模型使用門結構對細胞狀態進行保持和更新,一個LSTM存儲單元主要由輸入門(i),輸出門(o),遺忘門(f)和記憶細胞(c)組成。LSTM模型可以通過下列公式實現:其中,σ表示Sigmoid函數,tanh是雙曲正切函數,t表示當前時刻,t-1表示前一時刻,it、ft、ot、ct分別表示當前時刻輸入門、遺忘門、輸出門和記憶細胞的輸出,W和b分別表示模型訓練過程中的權重矩陣和偏置向量。在序列標注任務中,由于引入了記憶單元和門結構,在輸入句子較長時,可以防止距離當前詞語較遠但依賴關系較強的信息被遺忘。本文定義標簽集{B,M,E,O},其中,B表示CW的首部和SW,M表示CW的中部,E表示CW的尾部,O表示其他文本,LSTM模型[22]如圖4所示。在對期刊的關鍵詞進行抽取時,通常需要在給定時間訪問過去或未來的輸入特征,而單向LSTM網絡只能處理和存儲前一時刻信息,因此可以使用圖5所示的雙向LSTM網絡[22]來完成該任務。這樣可以在指定的時間范圍內有效地使用上下文信息。其中,過去的特征通過Forward狀態獲取,未來的特征通過Backward狀態獲取。然后使用時間的反向傳播來訓練BiLSTM網絡。隨著時間推移,在展開的網絡上進行的前向和后向傳播與傳統網絡的前向和后向傳播類似,但需要設置隱藏狀態。在對整個句子進行前向和后向傳播的時候僅需要在句子的開頭將隱藏狀態重置為0。由圖5可知,BiLSTM網絡可以同時獲取較長語句的前后文信息,保證了上下文之間的依賴關系。在期刊關鍵詞抽取任務中,若起始詞為關鍵詞,LSTM網絡會忽略語句開頭與結尾間的依賴關系,因此會導致誤判。因此,BiLSTM模型為有效的進行關鍵詞抽取奠定了基礎。3.3融合詞性特征的BiLSTM-CRF模型:條件隨機場是一種針對序列標注問題效果最顯著的條件概率模型,其本質是一個無向圖模型。本文在BiLSTM模型的基礎上,結合CRF處理序列標注問題的天然優勢,有效的引入標簽之間的轉移關系,構建轉移狀態矩陣,從而更有效的實現關鍵詞的自動抽取。將BiLSTM網絡和CRF網絡整合為BiLSTM-CRF模型,如圖6所示。通過BiLSTM網絡,模型可以有效的利用過去的輸入特征和未來的輸入特征挖掘期刊文本數據的隱含特征,通過CRF層,利用狀態轉移矩陣模型可以有效的利用過去和未來的文本的標簽信息預測當前的標簽。由圖6可知,BiLSTM-CRF主要包含WordEmbedding向量化,BiLSTM網絡,CRF三個部分。模型的輸入為分詞和進行詞性標注后的序列文本。在WordEmbedding向量化過程中使用Word2Vec模型[19]通過訓練后,根據給定的語料庫可以快速有效地把對文本內容的處理簡化為K維向量空間中的向量運算,將一個詞語表達成向量形式,從而可以使用向量空間上的相似度來表示文本語義上的相似度。本文使用Word2Vec模型中的Skip-Gram模型,通過給定單詞來預測上下文信息,使用無監督的方式通過學習文本來用詞向量的方式表征詞的語義信息。將獲取的融合詞性后的詞向量輸入BiLSTM網絡中,得到包含前后文信息的文本序列的雙向表達,通過CRF預測最終的標簽序列。
論文關鍵詞寫作格式
關鍵詞是科技論文的文獻檢索標識,是表達文獻主題概念的自然語言詞匯。科技論文的關鍵詞是從其題名、層次標題和正文中選出來的,能反映論文主題概念的詞或詞組。
關鍵詞是為了適應計算機檢索的需要而提出來的,位置在摘要之后。早在1963年,美國ChemicalAbstracts從第58卷起,就開始采用電子計算機編制關鍵詞索引,提供快速檢索文獻資料主題的途徑。在科學技術信息迅猛發展的今天,全世界每天有幾十萬篇科技,學術界早已約定利用主題概念詞去檢索最新發表的論文。作者發表的論文不標注關鍵詞或敘詞,文獻數據庫就不會收錄此類文章,讀者就檢索不到。關鍵詞選得是否恰當,關系到該文被檢索和該成果的利用率。
1關鍵詞分類
關鍵詞包括敘詞和自由詞。
1)敘詞——指收入《漢語主題詞表》、《MeSH》等詞表中可用于標引文獻主題概念的即經過規范化的詞或詞組。
2)自由詞——反映該論文主題中新技術、新學科尚未被主題詞表收錄的新產生的名詞術語或在敘詞表中找不到的詞。
關鍵詞寫法論文
1關鍵詞分類
關鍵詞包括敘詞和自由詞。
1)敘詞——指收入《漢語主題詞表》、《MeSH》等詞表中可用于標引文獻主題概念的即經過規范化的詞或詞組。
2)自由詞——反映該論文主題中新技術、新學科尚未被主題詞表收錄的新產生的名詞術語或在敘詞表中找不到的詞。
2關鍵詞標引
為適應計算機自動檢索的需要,GB/T3179—92規定,現代科技期刊都應在學術論文的摘要后面給出3~8個關鍵詞(或敘詞)。關鍵詞的標引應按GB/T3860-1995《文獻敘詞標引規則》的原則和方法,參照各種詞表和工具書選取;未被詞表收錄的新學科、新技術中的重要術語以及文章題名的人名、地名也可作為關鍵詞標出(自由詞)。
煤炭資源關鍵詞搜索算法研究
K-means算法在煤炭資源關鍵詞搜索算法中的研究
K-means算法是比較典型的搜索引擎算法。K-means算法接受輸入量k;然后將n個數據對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的。K-means算法的工作過程說明如下:首先從n個數據對象任意選擇k個對象作為初始聚類中心;而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數。k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。具體如下:輸入:kdatan①選擇k個初始中心點,例如c0data0…ck-1datak-1;②對于data0…。datan分別與c0…cn-1比較,假定與ci差值最少,就標記為i;③對于所有標記為i點,重新計算ci所有標記為i的dataj之和/標記為i的個數;④重復2、3直到所有ci值的變化小于給定閾值。
FCA算法在煤炭資源關鍵詞搜索算法中的研究
在其理論中每個形式概念由兩部分組成:外延(對象部分)和內涵(屬性部分)。形式概念分析的兩個重要的組成部分是形式背景和概念格。概念格的每一個節點是一個形式概念,由兩部分組成:外延和內涵。外延,即概念所覆蓋的所有對象的集合;內涵,則被認為這些對象所擁有的共同特征的集合。概念格作為形式概念分析核心的數據結構,本質上描述了對象和特征之間的聯系,表明了概念之間泛化和例化之間的關系,其相應的Hasse圖,則實現了對數據的可視化。在搜索引擎算法中,根據文本匹配的基本原理,研究基于形式概念分析(FCA)的文本匹配方法,主要是使用FCA的方法來表示網頁,使網頁的內容表達的更合理,根據現在的網頁表示形式,制定與之適合的網頁與用戶輸入的關鍵詞的匹配操作,以便更加準確地計算網頁與用戶所輸入的關鍵字的匹配程度,根據用戶對檢索到的網頁感興趣的程度來修改對網頁的表示,以提高信息檢索的質量。當煤炭技術人員和煤炭愛好者輸入查詢文本或者關鍵字的時候,根據網頁與用戶輸入的關鍵詞的匹配操作,便可以返回所要搜索的結果。
K-means算法與FCA算法的實驗結果的比較
在實驗過程中運行的機器是1臺PC,配有CPUIntelPentium(雙核),內存為2GB,硬盤160G,運行的操作系統為WindowsXPSP3。算法實驗結果如表1所示,算法時間對比如表2所示。通過上述實驗中發現FCA算法程序運行時間明顯比K-means算法運行時間長,但是準確率比K-means算法算法高一些;使用概念格提高了準確率,由于FCA算法較復雜,但是運行時間比較長;使用K-means算法,由于FCA算法較簡單,所以節省了運行時間。
新媒體時代期刊關鍵詞撰寫方法
隨著科學技術不斷改革發展,信息技術促進了各個行業的融合發展,也給傳統的出版行業帶來了巨大的變革,與出版相關的新知識、新技術、新工具不斷涌現。隨著大數據中心及數字化知識服務平臺建設,關鍵詞在新興交叉領域期刊中發揮著重要作用。然而,隨著查詢工具的更新,根據文章題目和內容也能查找到相關文獻。關鍵詞標引的規范化及標準化能夠展現編審質量的優劣,以關鍵詞為核心的論文變化已引起期刊、報紙、圖書和情報界的關注。中國科技協會在關于建設世界一流科技期刊的調研活動中提出,關鍵詞作為搜索文章的重要因子,在科技期刊數字化出版服務平臺中起到重要作用,關鍵詞應適應新要求以提高我國科技期刊的國際影響力和學術服務能力。但近年來,相關研究者對論文關鍵詞的研究尚少,對關鍵詞變化和數量的改變并無有效的反饋。因此,本文闡述新時代期刊關鍵詞的改變,以期為關鍵詞的應用提供參考。
一、關鍵詞的意義與作用
1.關鍵詞意義關鍵詞最早是為了適應計算機檢索需要而提出來的,它的產生伴隨著計算機的發展。在網絡化發達的今天,關鍵詞應與時代共同進步,適應時代變化,更好地發揮其作用。1963年,美國化學文摘ChemicalAbstracts從第58卷起,開始采用電子計算機編制關鍵詞索引,關鍵詞由此成為提供快速檢索文獻資料的主要方式和主要途徑。我國相關的標準規定也定義了學術論文中的關鍵詞,即文獻標引工作從報告、論文中選取的能夠反映全文主題內容的單詞或術語[1]。2.關鍵詞作用第一,揭示論文的主旨內容。關鍵詞是從論文中提取出的代表論文主旨內容和關鍵內容的詞匯,其作為論文的代表詞語,反映了論文研究的重點領域。關鍵詞作為表述論文的中心內容以及有實質意義的代表詞匯,直接、客觀地揭示了論文主體的本質,反映了研究成果的創新內容和核心內容,揭示了科研內容之間的內在聯系、學術研究的方向,為檢索提供了依據[3]。關鍵詞是學術論文中不可缺少的組成部分,是論文主要內容的濃縮,是作者精煉的概括論文主題的詞匯,讀者通過關鍵詞可以迅速了解論文的主要內容[4]。關鍵詞選用關系到該文被檢索的概率和該成果的利用率。簡潔明了的關鍵詞能夠突出論文成果的關鍵性內容,幫助讀者排除冗余的內容。第二,關鍵詞是文獻重要的檢索入口。學術期刊集群化發展是國際趨勢。當前,我國科技期刊集群化尚處于初步發展階段[5]。集群化期刊的發展促進了論文的集群化,在此過程中,關鍵詞的檢索作用格外重要。因此,作者與編輯都應注重關鍵詞的選擇,發揮關鍵詞的重要作用。關鍵詞是重要的檢索入口、檢索手段。當文獻過多,不能一目了然時就要使用關鍵詞進一步限定,將文獻量限定在合適的閱讀范圍內[6]。關鍵詞方便檢索期刊編制索引和輸入計算機檢索系統,有利于完善學術期刊的編制年終索引,有利于讀者了解論文的主題,還可以編制個人檢索卡片[7]。當前,大數據、人工智能、區塊鏈以及所有主流技術都離不開檢索,關鍵詞的作用愈加凸顯。
二、關鍵詞撰寫存在的問題
在目前的論文寫作中,仍有部分作者不明確論文關鍵詞的選取原則、標引方法、呈現方式,甚至不懂得利用專業檢索工具提高論文關鍵詞標引的正確率和效率,導致論文內容不夠鮮明,嚴重制約了論文的利用率和檢索率[8]。為減少此類現象的發生,編輯應正確引導作者,作者也應提高自身的敏銳性和鑒別力,重視論文關鍵詞的撰寫。隨著論文投稿規范化進程的深入,關鍵詞作為展現論文內容的重要表征、關鍵信息,成為學術論文中必備的組成部分,關鍵詞詞頻統計成為發現研究熱點的重要方法[9]。通過研究關鍵詞屬性與論文引用之間的關系發現,關鍵詞數目對論文影響力沒有顯著影響,但關鍵詞的詞序對于文獻檢索而言非常重要。因此,論文關鍵詞中應體現創新點,使論文從諸多文獻中脫穎而出,增加讀者的辨識度[10]。目前,關鍵詞撰寫主要存在選用通用詞、漏選關鍵詞、標引深度不合適、排列順序混亂等問題。通過統計科類期刊論文標引的關鍵詞發現,關鍵詞從本身論文題目中提取的較多,基本能揭示論文研究的主題內容和創新點,與文獻內容相符率高,篇名所含的信息涵蓋面廣而具有檢索能力[11],但從側面也反映出科技期刊關鍵詞的標引原則和方式還有待改進。在科學迅猛發展的今天,全世界每天發表的學術論文達數十萬篇,在這海量的論文中找到所需文獻,關鍵詞檢索不失為一種快捷而高效的檢索方法。新媒體時代,隨著查詢工具的更新,根據文章的題目和內容也能查到相關文獻,關鍵詞的作用日趨下降。但在近年來的實際應用中,關鍵詞個數呈現持續增加趨勢。科技論文與引文數據庫(CSTPCD)2017年統計,全國科技核心期刊共53.6萬篇,著錄使用約144萬個關鍵詞,每篇論文平均使用7.6個關鍵詞,超過80%的文章用的關鍵詞為5—10個關鍵詞。在關鍵詞數量上升的同時,部分文章為提高檢索概率,甚至增加文章字數而濫加關鍵詞,使原本精準的關鍵詞充斥了諸多煩冗的信息。
三、關鍵詞的撰寫方法
簡論關鍵詞和閱讀理解
在英語學習過程中,我們對于關鍵詞并不陌生,通常認為關鍵詞是指名詞、動詞、形容詞等一些實詞,這些詞語經常在句子中充當句子的主要成分,表達重要的信息。顯然,這種定義主要是從語法角度進行考慮,而且常以句子為單位進行分析。其實,關鍵詞還可以放在更宏觀的篇章語境中進行理解,并且成為英語閱讀理解活動的中心。
篇章語境下關鍵詞的確定不應以詞性為準,在有些情況下一些虛詞同樣也可以成為關鍵詞。確定一個詞是否“關鍵”最重要的是分析該詞同它所在的句子、段落或篇章的關系,即它是不是集中體現該句、該段、該篇想要傳達的信息,是否承載著足夠的信息量,是否是新信息。是否是新信息這一點至關重要,關鍵詞應該傳達新信息,所以之前出現的關鍵詞在以后的分析和理解中可能已經不再關鍵了,因為它已成為已知信息。不過,它可以為之后關鍵詞的尋找確定方向。
在閱讀理解過程中把握第一關鍵詞也即全篇的關鍵詞十分重要,通常該詞就是篇章的中心,其他的關鍵詞都是圍繞它而展開的。那么怎樣確定這第一關鍵詞呢?一般情況下,應該到文章或材料的題目中去尋找,而且這樣的關鍵詞不一定只有一個。依此,閱讀理解的過程就變成了一次探索發現之旅,從一個關鍵詞到下一個關鍵詞,然后聯綴各詞去帶動整篇文章的理解。這樣一來,學生在閱讀活動一開始就十分明確自己應該關注的對象,圍繞關鍵詞展開閱讀訓練,一方面可以提高其閱讀速度,另一方面也可以使其較為準確地把握文章的主要信息和邏輯結構。
一、文章題目中的關鍵詞
文章題目本身就是對文章內容的高度概括,其中的關鍵詞常為傳達主要信息的實詞,如名詞、動詞、形容詞和分詞等。同時,在確定關鍵詞時還要注意文章題目所采取的結構和句式,抓住作者論述的重點。確定題目中的關鍵詞目的在于:把握文章論述的對象、明確文章展開的角度、把握作者論述的態度、預測文章論述的內容、為閱讀過程中查找其他關鍵詞做好準備。
二、段落中的關鍵詞
高中歷史“關鍵詞”教學法研究
摘要:在高中的歷史課堂教學中,“關鍵詞”教學法得到廣泛應用。這種教學方法能夠幫助學生進行自主學習,提高教學效率。
關鍵詞:高中歷史;“關鍵詞”教學法;應用
在高中歷史課堂上,“關鍵詞”教學法能夠突出文章的重難點,有效地幫助學生理解和掌握文章的基本內容,同時幫助學生更好地進行文章閱讀。下文就簡單地分析“關鍵詞”教學法在高中歷史課堂中的應用。
一、歷史“關鍵詞”教法的基本概念
高中的歷史學科中,教材中的內容比較復雜、文字量大,同時每一節課堂中學生需要掌握的知識點很多。加上課堂時間有限,老師雖然想對學生進行知識拓展,但是因為教學目標等各種限制,最后只能按照課本知識進行傳統教學,無法調動學生的學習興趣,降低了教學效率。在高中歷史課堂教學中采用“關鍵詞”教學法,能夠有效地將歷史教材中所涉及的歷史概念、線索、階段、時間、事件概括出來。通過幾個關鍵詞有效地將歷史的脈絡進行清晰解析,學生能夠通過“關鍵詞”很好地將重要的知識點進行標記,并進行記憶和學習,通過關鍵詞有效地銜接和切入重要的歷史事件和史實。在歷史教學中,通過對文章的重難點內容進行關鍵詞的發現、提取和運用,就是我們所說的“關鍵詞”教學。
二、“關鍵詞”教學法在高中歷史課堂中的應用方法
護理論文關鍵詞引導研究論文
護理論文的撰寫過程中部分作者對關鍵詞標引的基本知識,標引的基本原則及標引技巧未能了解和掌握。不僅影響文章的質量及影響力,更不利于期刊文獻被數據庫收錄和檢索,使被引用的頻率降低,醫學研究成果及水平達不到最大值?
筆者結合多年編輯工作,就護理論文中標引關鍵詞存在的問題進行分析。
一、關鍵詞標引的意義
關鍵詞的定義是指能代表文獻主要內容的具有實質性意義的語詞。是未經規范化處理的自然語言,其優點是不必查閱詞表。作者可根據文獻內容自行標引。可及時反映學科領域出現的名詞術語。作為學術論文,在正文前由作者標引若干個能體現該文主題內容的關鍵詞(或詞組)已成為一種學術規范。有助于讀者了解該文的主旨,更有助于期刊籍此編制卷或年主題索引,同時,也為收錄該刊的各種檢索工具對文獻進行主題標引提供參考。關鍵詞一般是使用文稿中的詞匯。作者所列關鍵詞一般是從文章的標題(文摘)中抽取具有概括性的主題概念詞,因為醫學論文的題目”能夠確切概括論文的性質和基本內容。表達論文的主題思想,具有信息性。但多年的工作中發現作者在關鍵詞的標引中存在用詞不規范等弊端。中華醫學會系列雜志在稿約中規定。關鍵詞的選取要以MesH表以及《中醫藥學主題詞表》為準,但目前關鍵詞標引中存在的問題較多。據報道占26%。大部分作者在關鍵詞的選取上未以MesH表及(中醫藥學主題詞表》為準。因此,在關鍵詞的選擇上最好參考MESH表或Medlime數據庫選詞。
二、關鍵詞標引存在的問題
目前,醫學期刊每篇文章關鍵詞標引數量偏步。且絕大多數從文章的題目中選取,不能全面揭示文章的內容,標引詞過少直接影響期刊文獻被數據庫收錄,并影響其在數據庫中被檢索利用的頻次,從而影響到期刊的影響因子、總被引頻次等。我國科技期刊在國內外科學界的顯示度和被引頻次低徽。與關鍵詞選取基本知識、技巧、規范化及標引質量不高有直接的關系。主要表現在以下幾方面。
品讀六中全會公報關鍵詞
品讀六中全會公報關鍵詞
品讀黨的十六屆六中全會公報,發現有不少與數字有關的關鍵詞。把這些關鍵詞用數字串連起來,既便于學習、把握重點,又便于記憶。
與“一”有關的關鍵詞:
一個中心:以經濟建設為中心;
一個地位:把構建社會主義和諧社會擺在更加突出的地位;
一個重點:以解決人民群眾最關心、最直接、最現實的利益問題為重點;