數據分析在卷煙產品質量檢測的應用

時間:2022-05-26 10:23:28

導語:數據分析在卷煙產品質量檢測的應用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

數據分析在卷煙產品質量檢測的應用

摘要:卷煙產品日常檢測中會產生大量數據,這些數據包含著豐富的、有用的信息,但信息往往并不是直觀地一目了然,需要應用數理統計的各種方法對檢測數據進行統計、分析處理,從而認識事物的內在規律,發現問題,進而指導生產實際的決策。例如,①數據的基本統計量,可以了解到抽檢樣品的質量穩定性和符合性;②在此次試驗當中使用的分析方法不同會在一定程度上影響到最終的結果;③科學的試驗設計,可以有效減少試驗次數,短時間得到預期的試驗效果,進而優化試驗方案;④穩健統計方法可以相對客觀地評價參加能力驗證實驗室的實驗結果,在所有試驗參與者中所處的水平。

關鍵詞:數理統計;數據分析卷煙產品質量檢測

數理統計是用數學統計分析的方法來解決實際問題的學科,屬于數學研究領域的一類分支,能夠通過對事物的觀察來找到現象發生背后的規律,然后利用統計數據來做出預測。數理統計已經變成了多個不同學科發展過程中的重要內容,通過選擇合適的統計分析方法,能夠對試驗得到的海量數據進行深入分析,從這些數據當中提取出規律,然后作為后續工作的指導意見。通過數據分析能夠獲取產品的詳細信息,并且在生產過程中嚴格把控多個不同的環節。在數理統計學科應用到實際生活的過程中,需要人們根據實際的需求來采取合適的統計分析方法。有關于數理統計的理論基礎早在20世紀就已經初步形成,但是一直到計算機誕生之后才被廣泛地應用于多個不同學科。在檢測方面,試驗分析是一個非常重要的環節,若是缺乏試驗分析,就無法對所做的研究進行仔細分析,也很難從海量的數據里面找到相應的規律,無法提供給決策足夠的參考信息[1-5]。對數理統計與數據分析在卷煙產品質量日常檢測實驗中的應用作介紹性交流,以期實驗室檢測人員對數理統計與數據分析方法的重視和運用。

1數據的整理

在對產品進行檢測的過程中,機器會輸出各類不同的數據。這些數據不僅囊括了產品的各項指標,同時也可以從中找出規律,幫助更好地發現問題。但是,這些初步輸出的數據是需要分析之后才能為研究者所用。在海量的數據當中去除那些無效的信息,而將有效的信息進行梳理分析,這樣才能夠最終獲得想要的內容,做出更為準確的決策。例如,煙草質量監督檢測站日常的檢測工作中,以卷煙成品檢測對煙支圓周指標檢測數據分析為例,如果檢測200支卷煙,就會得到200個圓周數據,這些數據肯定有波動,但肯定也有規律可循。(1)樣本均值(x)極差(R)、標準偏差(S)等值越大,那么波動也會越大;該數值可以較為準確地反映出數據的波動大小。簡單的數學統計就可以知道數據的變化規律,還可以通過劃分范圍來歸納統計,如劃分出卷煙品牌、某機臺生產的煙支、某種機型生產的煙支,再相互比較圓周的差異變化。(2)需要了解更為完整的波動規律,則需進一步歸納出頻數分布和正態分布函數:此公式表示樣本落入(a,b)區間內的概率等于(a,b)橫坐標和曲線所包含的面積,其中σ越大,曲線越寬,說明數據越離散,反之則越集中。(3)均值的置信區間μ=x±ts姨n姨姨,表示95%的范圍均值x為真值μ的機會。(4)顯著性檢驗,也稱為假設檢驗,對于H0,假設x=μ,觀測值和已知值沒有差別,當H0被拒絕,其對立的H1則被接受。這2個不同的均值一般是利用t檢驗來進行對比的,如果是多個樣本均值,那么是需要用F檢驗來完成,某事件頻率的比較則用x2檢驗。這些檢驗方法較常用且有效。如日常檢測分析煙草原料中總糖含量(%),檢測結果為:近紅外光譜快速檢測法得到的數據為x2=23.8,S2=0.28;化學流動分析檢測法得到的數據為x1=22.4,S1=0.21;2種方法均進行了10組檢測,即n1=n2=10;S2=0.0613;自由度為18,若p=0.05,查表得t0.05=2.1,則t>t0.05,由于t>t臨界,則拒絕H0。假設檢驗表明2種方法比較有顯著差異,需要重新校正近紅外模型。而F<F臨界=4.026,表示這兩類不同的檢測之間不存在統計學意義上的標準誤差。(5)異常值的檢驗[5],在梳理分析數據的時候,常常會碰到這樣的情況,就是在一組數據里面會發現個別跟均值相差較大的數據,這些數據一般被分析者叫做是異常值,通常是因為在試驗過程中的錯誤操作而造成的。在處理異常值的時候要謹慎,需要找到該數據產生的原因,如果是正常操作那么也需要納入最后的統計當中,能夠來統計分析異常值的檢驗方法有很多,最為常用的有格拉布斯檢驗法及奈爾檢驗法等,分別適用于未知偏差及已知偏差2種不同的情況。以狄克遜單側情形檢驗為例:將n個測定值按小到大的順序排列x(1)≤x(2)≤…≤x(n-1)≤x(n)可能的異常值:x(1)或x(n)。若統計量f0>f(α,n),則應剔除x(1)或x(n)。從上面的算式當中,可以知道每次檢測只能夠處理一個異常值。在刪除異常值之后,其最終的測定數量也需要進行再一次確定,一直統計處理到沒有。具體的臨界值等信息可以參考表1。狄克遜檢驗臨界值(單側部分)和統計量計算公式見表1。

2通過數理統計找出對結果有直接影響或影響較大的因素

主要有2種方法:方差分析和回歸分析。

2.1方差分析

一般被叫做變異系數分析,通常是需要將觀察值所產生的變異進行分類。利用單因素方差來對某個因素所造成的變化進行統計,如幾種不同卷煙加工工藝作用同一卷煙規格樣品,每種工藝方式作用4個卷煙樣品,對樣本的主流煙氣焦油量考查表示如下:變異原因變異表現通過考查數據,發現卷煙加工工藝對組間變異影響較為顯著,進而考查哪種工藝對降低焦油量作用明顯。還有雙因素和正交方差分析,可以從多個影響因素中篩選出更為顯著的主要因素,考查影響因素之間有無交互作用。例如,按照煙草行業企標《YC/T161—2002煙草及煙草制品總氮的測定連續流動法》規定的方法來進行總氮的測定,其化學原理為:首先,將煙草或煙草制品在濃硫酸和相關催化劑的輔助下,經過消化分解,待檢測物中的氮全部會轉換成氨,然后加入次氯酸鈉,在堿性環境下,氨被氧化為氯化胺,接著跟加入的水楊酸鈉進行反應,最終產生靛藍染料,接著進行比色測定,可以看出濃度會跟吸光度表現出正比關系,就可以得到氮含量。在此測定的過程中,會有多種不同的因素影響濃度值結果,如催化劑的使用量、消化程度及硫酸用量等,這些因素不可避免地會影響到測定結果。觀察這些因素所引起的誤差進行統計分析,可以得到影響較大的因素。

2.2回歸分析

可以通過該分析方法來明確各類因素之間存在的關系,并且以回歸方程的方式來進行預測,最終得到因變量所產生的變化,有些是可確定的函數關系,有些是不確定的相關關系。按照因變量跟自變量的數量可以將回歸分析分為一元分析及多元分析兩類。按照函數表達式的不同可以分為線性分析和非線性分析兩類。在許多儀器檢測定量分析中,經常要使用到回歸分析,物質的濃度(或含量)與吸光度、峰高、峰面積、譜線的強度等具有相關關系,根據不同濃度x產生對應的y值,建立線性回歸方程y=a+bx,并通過:當r=1,意味全部測試點落在直線上,r2表示由x說明y的誤差在總誤差中的比例,r2越接近1,則線性擬合回歸的越好。

3試驗的設計與優化

化學分析中經常需要進行方法的選擇與優化如反應條件的優化;在色譜分析當中篩選色譜柱、柱箱溫度的選擇與調整、設備操作參數的設置等,這些條件都需要試驗的設計和優化。如何得到既能使分析過程穩定、結果準確,又能節約資源、人力、物力,并且無污染的方法呢?首先,試驗設計的目的就是要使試驗指標達到最優,要求指標具有可比性,把有影響因素的定性指標定量后以具體數值表示,統稱目標函數據。一般將能夠影響試驗結果的因素叫做因子,并且將因子在試驗過程當中的狀態叫做因子水平。例如,在進行不同溫度影響膠黏度的試驗當中,溫度的高低就是因子的不同水平,將其設置為3個梯度,分別為25,50,80℃,則溫度因素有3個水平。如果所選因素的水平發生變化時,沒有引起觀測指標的變化,則表明所選因素沒有影響,應從試驗中剔除,重新進行因素的選擇。以表2為例:膠黏劑中乙酸乙烯脂含量試驗(按卷煙膠的固含量降序排序)見表2。由表2中數據可以看出,膠黏劑中固含量的大小與乙酸乙烯脂的含量大小沒有顯著的線性關系,與pH值和黏度也沒有顯著相關關系。影響膠黏劑中乙酸乙烯脂含量的因素需要重新選擇其他因素來考查,比如膠黏劑生產合成過程中的反應條件,合成中使用的化學試劑及用量等。根據試驗方式的差異,可以將試驗分為同時及序貫2種不同的類型。前者主要是指在試驗的過程中對考查因素進行同時設計,這樣可以得到各個因素水平的最終數據,根據數據來進行分析,試驗不分前后,也不會相互影響。一般有正交試驗、配方試驗等類型。而后者屬于一種單純形優化法。

4實驗室能力驗證結果的評價

認可實驗室按照國家認可委的《能力驗證規則》要求需定期參加能力驗證試驗[6]。適合的數理統計方法的選擇決定了能力驗證評價的公正力。通過認可的實驗室檢測人員應該掌握能力驗證試驗結果的統計處理方法和評價規則,以便讀懂試驗組織者公布的結果報告。如果用常用的平均值作為參考值的比較方法,其缺點是當出現個別特別大或特別小的離群值時就會歪曲測量結果。在沒有參考值可以利用的情況下,為了避免離群值的不良影響,在檢測實驗室的能力驗證中,通常采用一些受離群值影響較小的比較穩健的統計量代替易受影響統計量。在實際能力驗證結果評價時,一般采用中位值代替平均值,用標準四分位數間距代替標準偏差等[6]。由于中位數相當于平均值,作為參考值。標準IQR相當于標準偏差,則Z比分數的最大允許值相當于包含因子k。因此對參加能力驗證的實驗室的Z比分數為:Z≤2為滿意結果,結果在95%的置信區間內;2<Z<3為可疑結果(或稱有問題結果),結果出現的可能性小于5%,概率較小,故可疑;Z≥3為離群結果(或稱不滿意結果),結果出現的可能小于1%,一般不會發生,如果發生,則說明離群。

5結語

通過以上實例,檢測人員可以了解認識,面對日常檢測工作產生的大量數據,如何應用數理統計與數據分析方法進行統計分析,獲取可以指導生產實際的有用信息:①數據的基本統計量,如均值(x)、極差(R)、標準偏差(S);頻數分布和正態分布函數;假設檢驗,異常值的檢驗等可以了解到抽檢樣品的質量穩定性和符合性。②方差分析和回歸分析等方法可以確定檢測試驗結果的影響因素。③科學的試驗設計,可以有效地減少試驗次數,短時間內得到預期的試驗效果,進而優化試驗方案,從而指導產品維護、提質和產品開發。④穩健統計方法可以相對客觀地評價參加能力驗證實驗室的試驗結果,在所有試驗參與者中所處的水平。列舉了卷煙產品檢測中,試驗數據處理的常用的數理統計與數據方法。應用的關鍵為要掌握方法的原理,及其分析處理的類型,在解決實際碰到的問題時能夠迅速地判斷所需的方法。其他數據統計、分析處理方法,如多元統計分析、化學計量學等,雖然原理相對復雜,但隨著各種統計商業軟件的開發與應用,要實現各種方法相應的功能已不是難事。常用的數據分析軟件有SPSS,SAS,Design-Expert,Matlab,Origin,以及最常用的Excel等,只要熟練掌握其中1~2種軟件的使用方法,相信完全可以滿足日常檢測數據分析處理需求。

作者:關斌 常宇 張常記 李強 葉茵 徐淑浩 李慕顏 單位:紅云紅河煙草(集團)有限責任公司紅河卷煙廠 四川中煙工業有限責任公司什邡卷煙廠