數(shù)據(jù)分析方法范文
時(shí)間:2023-04-02 20:26:30
導(dǎo)語(yǔ):如何才能寫好一篇數(shù)據(jù)分析方法,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
大家還記得數(shù)據(jù)分析的三大作用嗎?我們來(lái)做下回顧:
(1)現(xiàn)狀分析:告訴你過(guò)去發(fā)生了什么;
(2)原因分析:告訴你為什么發(fā)生了;
(3)預(yù)測(cè)分析:告訴你將來(lái)發(fā)生什么。
明確數(shù)據(jù)分析這三大作用后,那么大家是否思考過(guò)這三大作用都要通過(guò)什么方法來(lái)實(shí)現(xiàn)呢?現(xiàn)在我們就來(lái)看看數(shù)據(jù)分析三大作用都需要用哪些數(shù)據(jù)分析方法來(lái)實(shí)現(xiàn)。這三大作用基本可分別對(duì)應(yīng)對(duì)比、細(xì)分、預(yù)測(cè)三大基本方法,每個(gè)基本方法都有相應(yīng)具體的數(shù)據(jù)分析方法,如對(duì)比基本方法下有對(duì)比分析、分組分析、結(jié)構(gòu)分析、交叉分析、矩陣分析、綜合評(píng)價(jià)分析等,這些方法核心關(guān)鍵詞都是對(duì)比。下面我們就來(lái)學(xué)習(xí)這幾個(gè)常用的分析方法。
對(duì)比分析法
第一個(gè)數(shù)據(jù)分析方法就是對(duì)比分析法。它可是數(shù)據(jù)分析的基本方法之一。對(duì)比分析法,是指將兩個(gè)或兩個(gè)以上的數(shù)據(jù)進(jìn)行比較,分析它們的差異,從而揭示這些數(shù)據(jù)所代表的事物發(fā)展變化情況和規(guī)律性。對(duì)比分析的特點(diǎn)是:可以非常直觀地看出事物某方面的變化或差距,并且可以準(zhǔn)確、量化地表示出這種變化或差距是多少。
對(duì)比分析法可分為靜態(tài)比較和動(dòng)態(tài)比較兩類。
(1)靜態(tài)比較是在同一時(shí)間條件下對(duì)不同總體指標(biāo)的比較,如不同部門、不同地區(qū)、不同國(guó)家的比較,也叫橫向比較,簡(jiǎn)稱橫比。
(2)動(dòng)態(tài)比較是在同一總體條件下對(duì)不同時(shí)期指標(biāo)數(shù)值的比較,也叫縱向比較,簡(jiǎn)稱縱比。
這兩種方法既可單獨(dú)使用,也可結(jié)合使用。進(jìn)行對(duì)比分析時(shí),可以單獨(dú)使用總量指標(biāo)、相對(duì)指標(biāo)或平均指標(biāo),也可將它們結(jié)合起來(lái)進(jìn)行對(duì)比。比較的結(jié)果可用相對(duì)數(shù)表示,如百分?jǐn)?shù)、倍數(shù)等指標(biāo)。
目前對(duì)比分析常用的有以下幾個(gè)維度:
(1)與目標(biāo)對(duì)比。實(shí)際完成值與目標(biāo)進(jìn)行對(duì)比,屬于橫比。例如每個(gè)公司每年都有自己的業(yè)績(jī)目標(biāo)或計(jì)劃,所以首先可將目前的業(yè)績(jī)與全年的業(yè)績(jī)目標(biāo)進(jìn)行對(duì)比,看是否完成目標(biāo)。
(2)不同時(shí)期對(duì)比。選擇不同時(shí)期的指標(biāo)數(shù)值作為對(duì)比標(biāo)準(zhǔn),屬于縱比。與去年同期對(duì)比簡(jiǎn)稱同比,與上個(gè)月完成情況對(duì)比簡(jiǎn)稱環(huán)比。通過(guò)對(duì)比自身在不同時(shí)間點(diǎn)上的完成情況,就可知道自身是進(jìn)步還是退步。
(3)同級(jí)部門、單位、地區(qū)對(duì)比。與同級(jí)部門、單位、地區(qū)進(jìn)行對(duì)比,屬于橫比。這樣可了解自身某一方面或各方面的發(fā)展水平在公司、集團(tuán)內(nèi)部或各地區(qū)處于什么樣的位置,明確哪些指標(biāo)是領(lǐng)先的,哪些指標(biāo)是落后的,進(jìn)而找出下一步發(fā)展的方向和目標(biāo)。
(4)行業(yè)內(nèi)對(duì)比。與行業(yè)中的標(biāo)桿企業(yè)、競(jìng)爭(zhēng)對(duì)手或行業(yè)的平均水平進(jìn)行對(duì)比,屬于橫比。同樣我們也可了解自身某一方面或各方面的發(fā)展水平在行業(yè)內(nèi)處于什么樣的位置,明確哪些指標(biāo)是領(lǐng)先的,哪些指標(biāo)是落后的,進(jìn)而找出未來(lái)發(fā)展的方向和目標(biāo)。
(5)活動(dòng)效果對(duì)比。對(duì)某項(xiàng)營(yíng)銷活動(dòng)開(kāi)展前后進(jìn)行對(duì)比,屬于縱比。做這樣的比較可以分析營(yíng)銷活動(dòng)開(kāi)展得是否有效果,效果是否明顯;還可對(duì)企業(yè)投放廣告的前后業(yè)務(wù)狀況進(jìn)行對(duì)比分析,了解投放的廣告是否有效果,如品牌知名度是否提升、產(chǎn)品銷量是否有大幅增長(zhǎng)等。
對(duì)比分析的維度不限于以上5點(diǎn),這里只是列出常用的5種維度,當(dāng)然還有其他維度,可根據(jù)自己的實(shí)際情況采用不同的維度進(jìn)行對(duì)比分析。
進(jìn)行對(duì)比分析時(shí)還要考慮以下幾點(diǎn)因素:
(1)指標(biāo)的口徑范圍、計(jì)算方法、計(jì)量單位必須一致,即要用同一種單位或標(biāo)準(zhǔn)去衡量。如果各指標(biāo)的口徑范圍不一致,必須進(jìn)行調(diào)整之后才能進(jìn)行對(duì)比。沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),就無(wú)法比較。例如600美元與3000元人民幣就無(wú)法直接比較,需要根據(jù)當(dāng)期的匯率進(jìn)行換算后才可進(jìn)行比較,否則不具有可比性。
(2)對(duì)比的對(duì)象要有可比性。例如不能拿廣州市與華西村、美國(guó)與亞洲進(jìn)行對(duì)比。總之對(duì)比對(duì)象之間相似之處越多,可比性就越強(qiáng)。因此,我們?cè)谶x擇和確定對(duì)比對(duì)象時(shí),一定要分析它們是否具有對(duì)比的意義。
(3)對(duì)比的指標(biāo)類型必須一致。無(wú)論絕對(duì)數(shù)指標(biāo)、相對(duì)數(shù)指標(biāo),還是其他不同類型的指標(biāo),在進(jìn)行對(duì)比時(shí),雙方必須統(tǒng)一。例如2012年廣州的GDP值與2012年深圳GDP增長(zhǎng)率,是無(wú)法進(jìn)行對(duì)比的。
分組分析法
數(shù)據(jù)分析不僅要對(duì)總體的數(shù)量特征和數(shù)量關(guān)系進(jìn)行分析,還要深入總體內(nèi)部進(jìn)行分組分析。分組分析法是一種重要的數(shù)據(jù)分析方法,這種方法是根據(jù)數(shù)據(jù)分析對(duì)象的特征,按照一定的標(biāo)志(指標(biāo)),把數(shù)據(jù)分析對(duì)象劃分為不同的部分和類型來(lái)進(jìn)行研究,以揭示其內(nèi)在的聯(lián)系和規(guī)律性。
分組的目的就是為了進(jìn)行組間對(duì)比,是把總體中具有不同性質(zhì)的對(duì)象區(qū)分開(kāi),把性質(zhì)相同的對(duì)象合并在一起,保持各組內(nèi)對(duì)象屬性的一致性、組與組之間屬性的差異性,以便進(jìn)一步運(yùn)用各種數(shù)據(jù)分析方法來(lái)解構(gòu)內(nèi)在的數(shù)量關(guān)系,因此分組分析法必須與對(duì)比分析法結(jié)合運(yùn)用。
分組分析法的關(guān)鍵在于確定組數(shù)與組距。在數(shù)據(jù)分組中,各組之間的取值界限稱為組限,一個(gè)組的最小值稱為下限,最大值稱為上限;上限與下限的差值稱為組距;上限值與下限值的平均數(shù)稱為組中值,它是一組變量值的代表值。
結(jié)構(gòu)分析法
結(jié)構(gòu)分析法是指研究總體內(nèi)各部分與總體之間關(guān)系的分析方法,即總體內(nèi)各部分占總體的比例。一般某部分的比例越大,說(shuō)明其重要程度越高,對(duì)總體的影響也就越大。例如通過(guò)對(duì)國(guó)民經(jīng)濟(jì)的構(gòu)成分析,可以得到國(guó)民經(jīng)濟(jì)在生產(chǎn)、流通、分配各環(huán)節(jié)占國(guó)民經(jīng)濟(jì)的比重,或是各部門貢獻(xiàn)比重,揭示各部分之間的相互聯(lián)系及其變化規(guī)律。
結(jié)構(gòu)分析法的優(yōu)點(diǎn)是簡(jiǎn)單實(shí)用,在實(shí)際的企業(yè)運(yùn)營(yíng)分析中,市場(chǎng)占有率就是一個(gè)非常經(jīng)典的應(yīng)用。
交叉分析法
交叉分析法通常用于分析兩個(gè)或兩個(gè)以上分組變量(字段)之間的關(guān)系,以交叉表形式進(jìn)行變量間關(guān)系的對(duì)比分析,所以也叫交叉表分析法。交叉表當(dāng)然也有二維以上的,維度越多,交叉表就越復(fù)雜,所以在選擇幾個(gè)維度的時(shí)候需要根據(jù)分析的目的決定。
交叉分析的原理就是從數(shù)據(jù)的不同維度綜合進(jìn)行分組細(xì)分,以進(jìn)一步了解數(shù)據(jù)的構(gòu)成、分布特征。
矩陣分析法
矩陣分析法是指根據(jù)事物(如產(chǎn)品、服務(wù)等)的兩個(gè)重要屬性(指標(biāo))作為分析的依據(jù),進(jìn)行分類關(guān)聯(lián)分析,進(jìn)而找出解決問(wèn)題的一種分析方法,也稱為矩陣關(guān)聯(lián)分析法,簡(jiǎn)稱矩陣分析法。
矩陣以屬性A為橫軸,屬性B為縱軸,組成一個(gè)坐標(biāo)系,在兩坐標(biāo)軸上分別按某一標(biāo)準(zhǔn)(可取平均值、經(jīng)驗(yàn)值、行業(yè)水平等)進(jìn)行刻度劃分,構(gòu)成4個(gè)象限,將要分析的每個(gè)事物對(duì)應(yīng)投射至這4個(gè)象限內(nèi),進(jìn)行交叉分類分析,直觀地將兩個(gè)屬性的關(guān)聯(lián)性表現(xiàn)出來(lái),進(jìn)而分析每一個(gè)事物在這兩個(gè)屬性上的表現(xiàn),因此它也稱為象限圖分析法。
綜合評(píng)價(jià)分析法
綜合評(píng)價(jià)分析法是針對(duì)事物不同方面的數(shù)量特征,運(yùn)用數(shù)學(xué)、統(tǒng)計(jì)等方法,得出綜合數(shù)量水平的一種分析方法。綜合評(píng)價(jià)分析法的基本思想是將多個(gè)指標(biāo)轉(zhuǎn)化為一個(gè)能夠反映綜合情況的指標(biāo)來(lái)進(jìn)行分析評(píng)價(jià)。如不同國(guó)家的經(jīng)濟(jì)實(shí)力,不同地區(qū)的社會(huì)發(fā)展水平,各企業(yè)經(jīng)濟(jì)效益評(píng)價(jià)、企業(yè)內(nèi)各員工績(jī)效評(píng)價(jià)等,都可以運(yùn)用這種方法。進(jìn)行綜合評(píng)價(jià)分析,主要有5個(gè)步驟:
步驟1:確定綜合評(píng)價(jià)指標(biāo)體系,即包含哪些指標(biāo);
步驟2:收集數(shù)據(jù)并進(jìn)行不同計(jì)量單位的數(shù)據(jù)標(biāo)準(zhǔn)化處理;
步驟3:確定指標(biāo)體系中各指標(biāo)的權(quán)重;
步驟4:對(duì)經(jīng)過(guò)處理后的指標(biāo)進(jìn)行匯總計(jì)算綜合得分;
步驟5:根據(jù)綜合得分對(duì)參評(píng)對(duì)象進(jìn)行排序,得出結(jié)論。
篇2
一、看數(shù)據(jù)分布
最簡(jiǎn)單的拆分方法就是不看平均值,看數(shù)據(jù)分布。因?yàn)榉?是“總和”或者“平均”類的統(tǒng)計(jì)數(shù)據(jù)都會(huì)丟失掉很多重要的信息。例如李嘉誠(chéng)來(lái)我們公司參觀,這一時(shí)間我們公司辦公室里的“平均資產(chǎn)”就會(huì)因?yàn)槔罴握\(chéng)一個(gè)人 被抬高到人均幾億身家。如果有人根據(jù)這個(gè)“平均資產(chǎn)”數(shù)據(jù)來(lái)判定說(shuō)我們辦公室的人都是豪華游艇的潛在顧客,這自然是荒謬的。
可實(shí)際上,我們每天都在做著類似的判斷,比如當(dāng)我們聽(tīng)到說(shuō)顧客“平均在線時(shí)間”是3分34秒,就可能根據(jù)這個(gè)時(shí)間來(lái)進(jìn)行業(yè)務(wù)決策,例如設(shè)置“停留時(shí)間超過(guò)3分34秒為高價(jià)值流量”,或者設(shè)置系統(tǒng),在用戶停留了3分34秒還沒(méi)有下單的話就彈出在線客服服務(wù)窗口。我們?cè)O(shè)置這些時(shí)間點(diǎn)的根據(jù)是“平均停留時(shí)間”,在我們的想象里,我們的每個(gè)顧客都有著“平均的”表現(xiàn),停留時(shí)間大致都是3分34秒,可實(shí)際上真正的顧客訪問(wèn)時(shí)間有長(zhǎng)有短,差別巨大:
在一些數(shù)據(jù)中我們可以看得出來(lái),訪客平均停留在頁(yè)面的時(shí)間非常的短暫,具體的也就是說(shuō),問(wèn)需要在淘寶數(shù)據(jù)分析上面下工夫的,那么,究竟該怎么弄才能比較好的呢?這個(gè)就看個(gè)人是怎么想的了,這里也就不多說(shuō)了。
再舉一個(gè)例子,比如我們看到上個(gè)月平均訂單金額500元/單,這個(gè)月也是500元/單,可能會(huì)覺(jué)得數(shù)字沒(méi)有變化。可是實(shí)際上有可能上個(gè)月5萬(wàn)單都是400~600元,而這個(gè)月5萬(wàn)單則是2萬(wàn)單300元,2萬(wàn)單400元,5千單500元,5000單超過(guò)2500元 ——客戶購(gòu)買習(xí)慣已經(jīng)發(fā)生了巨大變化,一方面可能是客戶訂單在變小(可能是因?yàn)楫a(chǎn)品單價(jià)下降,采購(gòu)數(shù)量減少,或者客戶選擇了比較便宜的替代品),另一方面 出現(xiàn)了一些相對(duì)較大的訂單(可能是中小企業(yè)采購(gòu),或者是網(wǎng)站擴(kuò)充產(chǎn)品線見(jiàn)效了)。——看數(shù)據(jù)分布可以讓我們更容易發(fā)現(xiàn)這些潛在的變化,及時(shí)的做出應(yīng)對(duì)。
二、拆因子
很多時(shí)候我們很難直接從數(shù)據(jù)變化中分析出具體的原因,這時(shí)可以考慮拆分因子,將問(wèn)題一步步細(xì)化找尋原因。
例如網(wǎng)站轉(zhuǎn)化率下降,我們要找原因。因?yàn)椤稗D(zhuǎn)化率”=“訂單”/“流 量”,所以“轉(zhuǎn)化率”下降的原因很可能是“訂單量下降”,“流量上升”,或者兩者皆是。按照這個(gè)思路我們可能發(fā)現(xiàn)主要的原因是“流量上升”和“訂單量升幅 不明顯”,那么
下面我們就可以來(lái)拆解“流量”的構(gòu)成,例如拆成“直接訪問(wèn)流量”、“廣告訪問(wèn)流量”和“搜索引擎訪問(wèn)流量”再看具體是哪部分的流量發(fā)生了變 化,接下來(lái)再找原因。這時(shí)我們可能看到說(shuō)是搜索引擎訪問(wèn)流量上升,那就可以再進(jìn)一步分析是付費(fèi)關(guān)鍵詞部分上升,還是自然搜索流量上升,如果是自然流量,是 品牌(或者網(wǎng)站名相關(guān))關(guān)鍵詞流量上升,還是其他詞帶來(lái)的流
量上升——假如最后發(fā)現(xiàn)是非品牌類關(guān)鍵詞帶來(lái)的流量上升,那么繼續(xù)尋找原因——市場(chǎng)變化(淡季旺季之類),競(jìng)爭(zhēng)對(duì)手行動(dòng),還是自身改變。假如剛好在最近把產(chǎn)品頁(yè)面改版過(guò),就可以查一下是不是因?yàn)楦陌孀屗阉饕媸珍涀兌啵瑱?quán)重變高。接下來(lái)再分析自己到底哪里做對(duì)了幫助網(wǎng)站SEO了(比如把頁(yè)面導(dǎo)航欄從圖片換成了文字),把經(jīng)驗(yàn)記下來(lái)為以后改版提供參考;另
一方面還要分析哪里沒(méi)做好(因?yàn)樾略隽髁康遣](méi)有相應(yīng)增加太多銷售),研究怎樣讓“產(chǎn)品頁(yè)面”更具吸引力——因?yàn)閷?duì)很多搜索引擎流量來(lái)說(shuō),他們對(duì)網(wǎng)站的第一印象是產(chǎn)品頁(yè)面,而不是首頁(yè)。
三、拆步驟
還有些時(shí)候,我們通過(guò)拆分步驟來(lái)獲取更多信息。
舉兩個(gè)例子:
第一個(gè)例子:兩個(gè)營(yíng)銷活動(dòng),帶來(lái)一樣多的流量,一樣多的銷售,是不是說(shuō)明兩個(gè)營(yíng)銷活動(dòng)效率差不多?
如果我們把每個(gè)營(yíng)銷活動(dòng)的流量拆細(xì)去看每一步,就會(huì)發(fā)現(xiàn)不一樣的地方。營(yíng)銷活動(dòng)B雖然和營(yíng)銷活動(dòng)A帶來(lái)了等量的流量,可是這部分流量對(duì)產(chǎn)品更感興趣,看完著陸頁(yè)之后更多的人去看了產(chǎn)品頁(yè)面。可惜的是雖然看產(chǎn)品的人很多,最后轉(zhuǎn)化率不高,訂單數(shù)和營(yíng)銷活動(dòng) A一樣。
這里面還可以再深入分析(結(jié)合之前提到的分析方法,和下一章要說(shuō)的細(xì)分方法),但是光憑直覺(jué),也可以簡(jiǎn)單的得出一些猜測(cè)來(lái),例如兩個(gè)營(yíng)銷活動(dòng)的顧客習(xí)慣不太一樣,營(yíng)銷活動(dòng) B的著陸頁(yè)設(shè)計(jì)更好,營(yíng)銷活動(dòng) B的顧客更符合我們的目標(biāo)客戶描述、更懂產(chǎn)品——但是我們的價(jià)格沒(méi)有優(yōu)勢(shì)等等這些猜想是我們深入進(jìn)行分析,得出行動(dòng)方案的起點(diǎn)。至少,它可以幫助我們
更快的累計(jì)經(jīng)驗(yàn),下次設(shè)計(jì)營(yíng)銷活動(dòng)的時(shí)候會(huì)更有的放矢,而不是僅僅寫一個(gè)簡(jiǎn)單report說(shuō)這兩個(gè)營(yíng)銷活動(dòng)效果一樣就結(jié)案了。(注:這是個(gè)簡(jiǎn)化的例子,實(shí)際上還可以分更多層)
第二個(gè)例子可能更常見(jiàn)一些,比如網(wǎng)站轉(zhuǎn)化率下降,我們可以拆成這樣的漏斗:
這樣拆好之后,更能清楚地看到到底是哪一步的轉(zhuǎn)化率發(fā)生了變化。有可能是訪客質(zhì)量下降,都在著陸頁(yè)流失了,也可能是“購(gòu)物車–>登錄”流失了(如果你把運(yùn)費(fèi)放到購(gòu)物車中計(jì)算,很可能就看到這一步流失率飆升),這樣拆細(xì)之后更方便我們分析。
曾經(jīng)有一個(gè)例子就是轉(zhuǎn)化率下降,市場(chǎng)部查流量質(zhì)量發(fā)現(xiàn)沒(méi)問(wèn)題,產(chǎn)品經(jīng)理查價(jià)格競(jìng)爭(zhēng)力也沒(méi)問(wèn)題——最后發(fā)現(xiàn)是技術(shù)部為了防止惡意注冊(cè),在登錄頁(yè)面加了驗(yàn)證碼(而且那個(gè)驗(yàn)證碼極度復(fù)雜),降低了“登錄頁(yè)面–>填寫訂單信息“這一步的轉(zhuǎn)化率。
四、細(xì)分用戶族群
很多時(shí)候,我們需要把用戶行為數(shù)據(jù)拆分開(kāi),看不同族群的人有什么不同的表現(xiàn),通過(guò)比較異同來(lái)獲取更多的洞察。從實(shí)踐出發(fā),客戶族群細(xì)分的方法主要有三種:
篇3
2、方法二:分列。選中A2:A20數(shù)據(jù)區(qū)域,數(shù)據(jù)選項(xiàng)卡,分列。下一步,分隔符號(hào)選擇逗號(hào),下一步,目標(biāo)區(qū)域選擇$2$2。完成,所有數(shù)據(jù)都分列出來(lái)了。
3、方法三:分組對(duì)比法。分組之后,我們就可以對(duì)數(shù)據(jù)進(jìn)行匯總計(jì)算了。常見(jiàn)的方法是通過(guò)求和、平均值、百分比、技術(shù)等方式,把相同類別的數(shù)據(jù),匯總成一個(gè)數(shù)據(jù),減少數(shù)據(jù)量。
4、方法四:數(shù)據(jù)透視表。點(diǎn)擊【插入】選項(xiàng)卡中的【數(shù)據(jù)透視表】,打開(kāi)對(duì)話框,確定選區(qū),點(diǎn)擊確定。然后就可以在新的工作表中看到數(shù)據(jù)透視表視圖,只需要拖動(dòng)表格字段到【行】【列】【值】中,就可以得到相應(yīng)的數(shù)據(jù)統(tǒng)計(jì)表格。
篇4
關(guān)鍵詞:基因調(diào)控網(wǎng)絡(luò);自組織圖聚類;機(jī)器學(xué)習(xí)
中圖分類號(hào):TP274文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)15-20ppp-
The Research Content And Data Analysis Methods On the Gene Regulatory Networks
GUO Zhi-long1,2,JI Zhao-hua1,3,TU Hua-wei1,LIANG Yan-chun1
(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.Dalian Huaxin Software Corporation,DaLian 116000,China; 3.Inner Mongolia Xing'an Vocational and Technical College,Wulanhaote 137400,China)
Abstract:Gene regulatory networks,which reveals the complex phenomena of life from the view of the complex interactions of genes,is very important to understand the functional genomics for researchers.The article focuses on the research content and data analysis methods about gene regulatory networks.
Key words:gene regulatory networks;Self-organizing Map;machine learning
基因調(diào)控網(wǎng)絡(luò)是計(jì)算機(jī)科學(xué)、數(shù)學(xué)、信息學(xué)向分子生物學(xué)滲透形成的交叉點(diǎn),是運(yùn)用生物信息學(xué)的方法和技術(shù)通過(guò)數(shù)據(jù)采集、分析、建模、模擬和推斷等手段研究復(fù)雜的基因網(wǎng)絡(luò)關(guān)系。作為一種系統(tǒng)的、定量的研究方法建立在包括分子生物學(xué),非線性數(shù)學(xué)和程序算法設(shè)計(jì)等知識(shí)等基礎(chǔ)上,運(yùn)用生物信息學(xué)的方法和技術(shù)通過(guò)數(shù)據(jù)采集、分析、建模、模擬和推斷等手段,整合已有的實(shí)驗(yàn)數(shù)據(jù)和知識(shí),構(gòu)建生物基因調(diào)控網(wǎng)絡(luò),從整體的層次,了解細(xì)胞的功能;從整體的角度,闡述基因參與的生物調(diào)控過(guò)程,在全基因組水平上以系統(tǒng)的、全局的觀點(diǎn)研究生命現(xiàn)象及其本質(zhì),是后基因組時(shí)代研究的重要內(nèi)容。
1 基因調(diào)控網(wǎng)絡(luò)概念
基因調(diào)控網(wǎng)絡(luò)本質(zhì)上是一個(gè)連續(xù)而復(fù)雜的動(dòng)態(tài)系統(tǒng),即復(fù)雜的動(dòng)力系統(tǒng)網(wǎng)絡(luò)。
1.1 基因調(diào)控網(wǎng)絡(luò)的定義
生物體任何細(xì)胞的遺傳信息、基因都是同樣的,但同一個(gè)基因在不同組織、不同細(xì)胞中的表現(xiàn)并不一樣。一個(gè)基因的表達(dá)既影響其它的基因,又受其它基因的影響,基因之間相互促進(jìn)、相互抑制,在特定的細(xì)胞內(nèi)和時(shí)間下綜合環(huán)境等因素這樣的大環(huán)境中呈現(xiàn)活化狀態(tài),構(gòu)成一個(gè)復(fù)雜的基因調(diào)控網(wǎng)絡(luò)。
1.2 基因調(diào)控網(wǎng)絡(luò)的特性:
基因調(diào)控網(wǎng)絡(luò)是連續(xù)的多層次動(dòng)力系統(tǒng)模型,具有穩(wěn)定姓、層次性、復(fù)雜性、動(dòng)態(tài)性等。
1.2.1 復(fù)雜性
生物具有大量的基因,諸多基因組成各個(gè)模塊,不同的基因網(wǎng)絡(luò)模塊可以在不同層次上發(fā)生相互作用,同一個(gè)基因可能參與各種不同的分子機(jī)理,使得基因網(wǎng)絡(luò)有著高度的復(fù)雜性。
1.2.2 層次性
基因調(diào)控網(wǎng)絡(luò)具有一定層次結(jié)構(gòu),按照調(diào)控元件、motif、模塊和整個(gè)網(wǎng)絡(luò)的四層結(jié)構(gòu),將各個(gè)節(jié)點(diǎn)有規(guī)律的來(lái)接在一起。調(diào)控元件分為順式(cis-)和反式(trans-)兩種類型, 分別表示受調(diào)控基因的結(jié)合位點(diǎn)DNA 序列和結(jié)合在該序列上對(duì)基因起激活或者抑制作用的轉(zhuǎn)錄因子。Motif 和模塊都是由基因集合構(gòu)成的調(diào)控模式, 是分析網(wǎng)絡(luò)局部特征和網(wǎng)絡(luò)構(gòu)成以及研究調(diào)控機(jī)理的重要結(jié)構(gòu)。
1.2.3 動(dòng)態(tài)性
生物過(guò)程是動(dòng)態(tài)的,用來(lái)理解生物過(guò)程意義的基因調(diào)控網(wǎng)絡(luò)自然就動(dòng)態(tài)存在。基因調(diào)控網(wǎng)絡(luò)是隨著生物過(guò)程的動(dòng)態(tài)發(fā)生而具有動(dòng)態(tài)的特性,不同條件、不同時(shí)間的基因調(diào)控網(wǎng)絡(luò)是不同的。
1.2.4 穩(wěn)定性
基因調(diào)控網(wǎng)絡(luò)的穩(wěn)定性體現(xiàn)在生物體緩解突變的影響方面,功能上無(wú)關(guān)基因之間的相互作用可以抵抗系統(tǒng)突變;一個(gè)基因在突變中喪失的功能,有另外一個(gè)或更多具有相似功能的基因所補(bǔ)償,以減弱該突變對(duì)表型造成的影響,保持生物進(jìn)化中的穩(wěn)定性。
1.2.5 功能模塊性
基因調(diào)控相關(guān)的生物功能主要是通過(guò)網(wǎng)絡(luò)模塊來(lái)實(shí)現(xiàn)的,有適當(dāng)尺度下的動(dòng)力學(xué)特征和生物學(xué)功能解釋的模塊是由多個(gè)motif 構(gòu)成的,實(shí)現(xiàn)相同功能的基因或蛋白質(zhì)存在拓?fù)浣Y(jié)構(gòu)上是相關(guān)的。
1.3 基因調(diào)控網(wǎng)絡(luò)研究的目的
通過(guò)對(duì)基因調(diào)控網(wǎng)絡(luò)的研究,識(shí)別和推斷基因網(wǎng)絡(luò)的結(jié)構(gòu)、特性和調(diào)控關(guān)系,認(rèn)識(shí)復(fù)雜的分子調(diào)控過(guò)程,理解支配基因表達(dá)和功能的基本規(guī)則,揭示基因表達(dá)過(guò)程中的信息傳輸規(guī)律,清楚整體的框架下研究基因的功能。
2 基因調(diào)控網(wǎng)絡(luò)研究?jī)?nèi)容
基因調(diào)控網(wǎng)絡(luò)的研究是假設(shè)兩個(gè)基因列譜相似,則這兩個(gè)基因協(xié)作調(diào)控,并可能功能相近,有同樣表達(dá)模式的基因可能有同樣的表達(dá)過(guò)程。基因調(diào)控網(wǎng)絡(luò)主要在三個(gè)水平上進(jìn)行:DNA水平、轉(zhuǎn)錄水平、翻譯水平。DNA水平主要是研究基因在空間上的關(guān)系影響基因的表達(dá);轉(zhuǎn)錄水平主要研究代謝或者是信號(hào)轉(zhuǎn)導(dǎo)過(guò)程決定轉(zhuǎn)錄因子濃度的調(diào)控過(guò)程;翻譯水平主要研究蛋白質(zhì)翻譯后修飾,從而影響基因產(chǎn)物的活性和種類的過(guò)程。基因轉(zhuǎn)錄調(diào)控信息隱藏在基因組序列中,基因表達(dá)數(shù)據(jù)代表基因轉(zhuǎn)錄調(diào)控的結(jié)果,是轉(zhuǎn)錄調(diào)控信息的實(shí)際體現(xiàn)。
基因調(diào)控網(wǎng)絡(luò)試圖從DNA微陣列等海量數(shù)據(jù)中推斷基因之間的調(diào)控關(guān)系,對(duì)某一物種或組織中全部基因的表達(dá)關(guān)系進(jìn)行整體性研究。采用帶有反饋回路的基因網(wǎng)絡(luò),首先是按照同步或反同步表達(dá),以及表達(dá)強(qiáng)度的變化,系統(tǒng)地識(shí)別各基因的特點(diǎn),再用聚類的方法將各基因歸類,在此基礎(chǔ)上構(gòu)建基因調(diào)控網(wǎng)絡(luò),分析相關(guān)控制參數(shù).利用其本身或調(diào)節(jié)位點(diǎn)或拓?fù)浣Y(jié)構(gòu)進(jìn)行不同的研究。
3 基因調(diào)控網(wǎng)絡(luò)研究數(shù)據(jù)分析方法
篇5
關(guān)鍵詞:數(shù)據(jù)分析 決策支持 數(shù)據(jù)倉(cāng)庫(kù)
中圖分類號(hào):F27 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2013)02(b)-0014-01
隨著醫(yī)藥制造業(yè)在我國(guó)整個(gè)制造業(yè)中的地位逐步提高,如何有效提升企業(yè)管理決策水平是我國(guó)醫(yī)藥制造業(yè)企業(yè)正面臨的關(guān)鍵問(wèn)題。目前,眾多信息融合、數(shù)據(jù)分析和決策分析方法正為企業(yè)現(xiàn)代化發(fā)展做出重要貢獻(xiàn)。文提出一種醫(yī)藥制造企業(yè)的數(shù)據(jù)分析和決策支持設(shè)計(jì)方案,實(shí)現(xiàn)多維數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的高效分析,繼而進(jìn)行分級(jí)決策支持。數(shù)據(jù)分析和決策支持系統(tǒng)主要是對(duì)存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)中的各級(jí)粒度數(shù)據(jù)進(jìn)行處理,并返回用戶所需的分析和決策信息。系統(tǒng)主要任務(wù)是定制固定和自由統(tǒng)計(jì)報(bào)表、多維數(shù)據(jù)分析以及決策支持。
1.醫(yī)藥制造企業(yè)數(shù)據(jù)分析方法
系統(tǒng)多維數(shù)據(jù)分析的主要關(guān)鍵技術(shù)包括如下。
(1)多維數(shù)據(jù)分析的核心是將一條或多條多維查詢指令輸入進(jìn)平臺(tái)接口中;接口調(diào)用查詢解析器對(duì)多維查詢指令進(jìn)行解析和分解;接著查詢優(yōu)化器接收經(jīng)過(guò)解析后的多維查詢指令,并對(duì)指令進(jìn)行一系列的優(yōu)化;最后查詢處理器執(zhí)行優(yōu)化后的多維查詢指令,獲取數(shù)據(jù)、加工數(shù)據(jù)以及返回查詢結(jié)果,為了能夠提高多維數(shù)據(jù)分析的效率,文需要對(duì)以下內(nèi)容進(jìn)行考慮。
①對(duì)于新出現(xiàn)的一些多維數(shù)據(jù)分析應(yīng)用,系統(tǒng)將這些多維數(shù)據(jù)分析作為一個(gè)特殊的關(guān)系操作符(稱為多維操作符),考慮它與傳統(tǒng)關(guān)系操作符間執(zhí)行順序變換的等價(jià)規(guī)則。從而,基于這些等價(jià)變換規(guī)則和附加條件,通過(guò)改變多維操作符與傳統(tǒng)關(guān)系操作符之間的執(zhí)行順序來(lái)有效提高數(shù)據(jù)分析的效率。同時(shí),給出充分的理論證明以及代價(jià)模型來(lái)論證所給等價(jià)變換規(guī)則的正確性和有效性。
②當(dāng)用戶提出的多維數(shù)據(jù)分析應(yīng)用在查詢優(yōu)化器中沒(méi)有對(duì)應(yīng)的操作函數(shù)表示時(shí),系統(tǒng)采用如下方案:確定多維數(shù)據(jù)分析的精確代價(jià)模型;基于代價(jià)的方式擴(kuò)展傳統(tǒng)的查詢優(yōu)化樹(shù)(主要是擴(kuò)展注釋連接樹(shù));將這些多維數(shù)據(jù)分析作為一個(gè)特殊的關(guān)系操作符(稱為多維操作符),考慮它與基本關(guān)系操作,聚集操作以及rank操作之間組合的等價(jià)關(guān)系的約束條件和正確性判定;在擴(kuò)展的查詢優(yōu)化樹(shù)上使用等價(jià)規(guī)則,通過(guò)操作的上移,下移,增加操作符,變換操作符等機(jī)制生成代價(jià)最小的查詢操作執(zhí)行序列;多維操作符的物理層面上的實(shí)施;將多維操作符集成進(jìn)傳統(tǒng)的查詢優(yōu)化器之后將如何影響執(zhí)行計(jì)劃的搜索空間;擴(kuò)展傳統(tǒng)查詢優(yōu)化器的搜索執(zhí)行計(jì)劃的算法,權(quán)衡執(zhí)行計(jì)劃的有效性和生成執(zhí)行計(jì)劃的時(shí)間開(kāi)銷。
③當(dāng)存在多個(gè)數(shù)據(jù)分析應(yīng)用時(shí),采用的技術(shù)是:從祖先數(shù)據(jù)立方體獲取子孫數(shù)據(jù)立方體的代價(jià)模型;根據(jù)多維數(shù)據(jù)分析的自身特點(diǎn),有效選擇近似最優(yōu)數(shù)據(jù)立方體的方法;根據(jù)代價(jià)模型,考察邏輯上如何將所有給出的多個(gè)多維數(shù)據(jù)分析分組,每個(gè)組由一個(gè)相同的祖先數(shù)據(jù)立方體來(lái)回答;根據(jù)多維數(shù)據(jù)分析的底層實(shí)現(xiàn)機(jī)制,將每個(gè)組中的多個(gè)多維數(shù)據(jù)分析通過(guò)物理上的共享機(jī)制進(jìn)行有效的同步進(jìn)行,節(jié)省不必要的物理上的時(shí)間開(kāi)銷。
2.決策支持方案
醫(yī)藥制造企業(yè)決策支持模塊應(yīng)用的考慮主要包含三個(gè)部分,即決策模型庫(kù)的構(gòu)造、決策分析的實(shí)施以及多環(huán)節(jié)協(xié)作決策的實(shí)施,為了能夠有效且正確地讓各級(jí)管理者和用戶進(jìn)行決策,需要對(duì)以下內(nèi)容進(jìn)行考慮。
(1)醫(yī)藥制造業(yè)決策模型庫(kù)建立。決策模型庫(kù)主要用于存放進(jìn)行企業(yè)用戶決策分析的模型。針對(duì)醫(yī)藥生產(chǎn)過(guò)程中的材料采購(gòu)、庫(kù)存管理、產(chǎn)品生產(chǎn)、市場(chǎng)營(yíng)銷、財(cái)務(wù)管理與人力資源管理等方面的數(shù)據(jù),構(gòu)建進(jìn)行決策的模型。決策模型可以通過(guò)一定程度的授權(quán),獲得訪問(wèn)數(shù)據(jù)的權(quán)限。在此前提下,根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中獲取的數(shù)據(jù),進(jìn)行由用戶指定目標(biāo)的決策支持。系統(tǒng)對(duì)現(xiàn)有模型組成元素及其組成結(jié)構(gòu)的知識(shí)進(jìn)行描述,并且獲取模型構(gòu)造過(guò)程中的各類推理算法。對(duì)于由人機(jī)交互接口實(shí)現(xiàn)機(jī)器理解的決策問(wèn)題,平臺(tái)通過(guò)模型概念詞及其屬性等相關(guān)知識(shí),獲取適合新決策問(wèn)題的匹配模型結(jié)構(gòu)等信息。然后再根據(jù)模型構(gòu)建推理算法自動(dòng)用新問(wèn)題的屬性值填充匹配模型的框架,最終構(gòu)造出決策問(wèn)題模型。
(2)醫(yī)藥制造業(yè)決策分析實(shí)施。決策分析的實(shí)施就是決策模型進(jìn)行求解的過(guò)程。模型的求解主要是通過(guò)對(duì)決策問(wèn)題的理解,獲取用戶所需要決策的目標(biāo),意圖等方面信息,進(jìn)而通過(guò)合適的決策模型將可獲得的數(shù)據(jù)進(jìn)行分析,利用一定的規(guī)則和模型的求解算法得出有效的決策意見(jiàn),并提交給用戶。本系統(tǒng)通過(guò)對(duì)每個(gè)模型所包含求解算法進(jìn)行規(guī)范的描述,對(duì)于具有通用求解算法的模型,通過(guò)調(diào)用模型中所包含的求解算法很容易對(duì)問(wèn)題進(jìn)行求解。而對(duì)于求解算法不存在或者不確定應(yīng)采用哪種算法實(shí)施求解時(shí),平臺(tái)將從以往成功的決策案例中,選擇與需要求解的問(wèn)題相似的范例,通過(guò)范例求解的方法對(duì)問(wèn)題進(jìn)行求解。對(duì)于取得較好決策效果的案例,平臺(tái)會(huì)進(jìn)行相關(guān)的記錄,同時(shí)存放在數(shù)據(jù)層的公用數(shù)據(jù)庫(kù)中,方便在決策分析時(shí)調(diào)用相似范例進(jìn)行求解。
(3)多環(huán)節(jié)協(xié)作決策支持。對(duì)于企業(yè)而言,一次決策往往不可能通過(guò)單一的決策模型得到有效求解。本項(xiàng)目擬通過(guò)多模型的協(xié)作決策提供解決方案。系統(tǒng)從兩個(gè)方面實(shí)施協(xié)作決策。一方面,通過(guò)人機(jī)智能交互接口實(shí)施有效的智能理解,進(jìn)行復(fù)雜問(wèn)題分解,得到結(jié)構(gòu)有序的子問(wèn)題、與決策問(wèn)題相關(guān)聯(lián)的事實(shí)、數(shù)據(jù)等以及確定求解方案;另一方面,平臺(tái)可以調(diào)用需要參與決策的模型,針對(duì)分解的子問(wèn)題來(lái)選擇與決策相關(guān)的需要的模型,采取協(xié)調(diào)的合作機(jī)制來(lái)確保多個(gè)模型為特定的決策目標(biāo)而工作。
篇6
關(guān)鍵詞 :電線電纜 直流電阻 測(cè)試方法 存在問(wèn)題
1、 電線線纜直流電阻測(cè)試問(wèn)題分析及解決措施
1.1 電線線纜直流電阻測(cè)試問(wèn)題分析
電線線纜的導(dǎo)體直流電阻測(cè)試在當(dāng)下的輸電系統(tǒng)的發(fā)展中意義重大,雙臂電橋在測(cè)量1歐姆以下的電阻值方面具有重要的應(yīng)用。
《電線電纜電性能試驗(yàn)方法第4部分:導(dǎo)體直流電阻試驗(yàn)》3.4條對(duì)具體的這方面測(cè)量?jī)?nèi)容進(jìn)行了標(biāo)準(zhǔn)化確定:在四段測(cè)量夾具的處理中,應(yīng)該在注意電位接點(diǎn)跟電流接點(diǎn)之間的測(cè)量,要保證相應(yīng)的電流、電位接點(diǎn)之間的距離要比斷面周長(zhǎng)的1.5倍大。但是在當(dāng)前的測(cè)試設(shè)備的生產(chǎn)中,大部分廠家并沒(méi)有考慮到這方面問(wèn)題,在相關(guān)的產(chǎn)品使用中并不能實(shí)現(xiàn)距離的自由調(diào)試,而是跟絕緣材料之間連接在一起,這種情況就不能夠滿足當(dāng)下電線線纜直流電阻的測(cè)試要求,這方面的問(wèn)題也是當(dāng)下亟待解決的。如果使用這種產(chǎn)品僅僅能夠?qū)崿F(xiàn)對(duì)斷面周長(zhǎng)在1.5倍情況下的測(cè)量工作,在準(zhǔn)確性的控制方面還比較成熟,但是如果電線線纜的截面不在相關(guān)的標(biāo)準(zhǔn)范圍之內(nèi),相關(guān)的測(cè)量結(jié)果就會(huì)出現(xiàn)很多問(wèn)題,準(zhǔn)確性也就受到很嚴(yán)重的影響這樣的實(shí)例在現(xiàn)實(shí)的測(cè)量中有很多,比如:假設(shè)夾具電位接點(diǎn)與電流接點(diǎn)間距為60mm,那么它所對(duì)應(yīng)的所能準(zhǔn)確測(cè)量的導(dǎo)體斷面周長(zhǎng)最大為40mm,從中能夠O到電線線纜的截面面積,具體數(shù)值約為127mm2。也就是說(shuō)用此夾具來(lái)測(cè)量截面積為127mm2以上的導(dǎo)體電阻時(shí)不能夠?qū)崿F(xiàn)準(zhǔn)確性的完全控制。?除此之外,在夾具夾持一些截面不規(guī)整的電線線纜的時(shí)候,特別是像大截面絞合成型電線線纜,這種電線線纜截面通常為扇形、弧形或三角形。如果出現(xiàn)夾持時(shí)電流接點(diǎn)夾頭接觸情況正常,而電位接點(diǎn)夾頭接觸不正常的狀況下,甚至當(dāng)電流接點(diǎn)夾頭已經(jīng)加緊,而電位接點(diǎn)夾頭卻還難以與導(dǎo)體接觸,都無(wú)法完成正常的測(cè)量工作。在這樣的情況下還堅(jiān)持使用,就會(huì)造成夾具的磨損、變形,上述的狀況也就會(huì)出現(xiàn)。
1.2 電線線纜直流電阻測(cè)試問(wèn)題解決措施
在以上具體的測(cè)試分析中,本人針對(duì)實(shí)際的測(cè)試過(guò)程,提出了以下的改進(jìn)方法:第一是針對(duì)電流夾具的調(diào)試問(wèn)題,將導(dǎo)體夾具上電流接點(diǎn)夾頭與電位接點(diǎn)夾頭間距設(shè)置為自由變化的形式,測(cè)量人員在一般的情況系測(cè)量長(zhǎng)度為1m的電線線纜的電阻,這種情況下可以將電線線纜夾具上電位接點(diǎn)夾頭可固定為1m,而將電流接點(diǎn)夾頭設(shè)計(jì)為可在底座上自由移動(dòng)的結(jié)構(gòu),進(jìn)行底座的合理調(diào)整。如果做到“每個(gè)電位接點(diǎn)與相應(yīng)的電流接點(diǎn)之間的間距不小于試樣斷面周長(zhǎng)的1.5倍”的情況,就能夠?qū)ι鲜龅臓顩r進(jìn)行解決。第二是進(jìn)行解決電位接點(diǎn)夾頭與導(dǎo)體不能良好接觸的問(wèn)題。這方面的問(wèn)題也很好解決,在設(shè)計(jì)中可以將夾具上電流接點(diǎn)夾頭與電位接點(diǎn)夾頭設(shè)計(jì)為獨(dú)立夾緊與松開(kāi)的結(jié)構(gòu)。在這種情況下能夠保證電流接點(diǎn)夾頭與電位接點(diǎn)夾頭同時(shí)與導(dǎo)體緊密接觸,并且能夠?qū)σ蜷L(zhǎng)期使用夾頭磨損、變形而不能夾緊的問(wèn)題進(jìn)行預(yù)防。
以上分析中可以發(fā)現(xiàn),在相關(guān)的電線線纜測(cè)試中,需要對(duì)具體的測(cè)量標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)的精確控制,也是保證測(cè)量精確度的關(guān)鍵,相關(guān)的數(shù)據(jù)分析中要以標(biāo)準(zhǔn)作為中心。注重在夾具方面的分析,并加強(qiáng)對(duì)具體夾具位置的設(shè)計(jì),另外還要考慮到設(shè)備的使用周期,在維護(hù)設(shè)備方面制定合理的標(biāo)準(zhǔn),保證測(cè)試的整個(gè)過(guò)程。
2、 電線線纜直流電阻測(cè)試中溫度對(duì)測(cè)量的影響
大部分人都知道,溫度在導(dǎo)體的電阻影響因素中占據(jù)重要的地位。gb/t?3048-2007中對(duì)導(dǎo)體直流電阻測(cè)量的溫度范圍進(jìn)行了規(guī)定,如果溫度達(dá)到不到相關(guān)的要求,測(cè)試人員一般情況下會(huì)人為改變環(huán)境溫度,空調(diào)調(diào)節(jié)的方式在調(diào)試中的到了廣泛的應(yīng)用。但是在使用空調(diào)的時(shí)候會(huì)出現(xiàn)檢流計(jì)滑動(dòng)的現(xiàn)象,這就就不能夠在穩(wěn)定的條件下完成測(cè)量。這種情況下溫度在變,也就導(dǎo)致導(dǎo)體電阻也會(huì)慢慢發(fā)生變化,而檢流計(jì)的靈敏性也是一個(gè)重要問(wèn)題,所以這種情況下的測(cè)量一般不允許出現(xiàn)環(huán)境溫度變化的情況,要等到環(huán)境溫度穩(wěn)定的時(shí)候才能夠完成測(cè)量。而且試樣一定要在測(cè)量環(huán)境中保持足夠長(zhǎng)的時(shí)間,使其自身溫度與環(huán)境溫度達(dá)到平衡,因?yàn)楫?dāng)測(cè)量人員在調(diào)節(jié)環(huán)境溫度時(shí),這個(gè)過(guò)程中的試樣溫度并不會(huì)與環(huán)境溫度出現(xiàn)一樣的變化值,因此在測(cè)量過(guò)程中,溫度變化的現(xiàn)象也時(shí)有發(fā)生。并且空調(diào)不應(yīng)對(duì)著測(cè)量裝置,以免檢流計(jì)難以穩(wěn)定。不管怎樣說(shuō),測(cè)量中一定要對(duì)溫度進(jìn)行合理的分析,只有擺脫溫度的限制,才能夠?qū)崿F(xiàn)測(cè)量的準(zhǔn)確性。
3、 接觸電阻及測(cè)量電流對(duì)測(cè)量的影響
由于測(cè)量電路連接電線的接觸電阻側(cè)面按鍵之間的問(wèn)題會(huì)導(dǎo)致測(cè)量結(jié)果的變化,一定程度上,一定要確保電纜側(cè)鍵和可靠的接觸才能夠保證測(cè)量結(jié)果的正確性。測(cè)量者經(jīng)常使用的導(dǎo)體電阻不同的截面積,但是電流測(cè)量的大小確實(shí)相同的,這方面的取值不太合理。測(cè)量電流的保證實(shí)在最低靈敏度的前提下,應(yīng)使用比較小的電流,電流過(guò)大容易產(chǎn)生過(guò)多熱量,從而使阻力變大,測(cè)量應(yīng)在最短的時(shí)間內(nèi)完成,時(shí)間太長(zhǎng)的情況下,也會(huì)讓電線線纜產(chǎn)生熱量。
4、結(jié)論
在電線電纜導(dǎo)體直流電阻測(cè)試過(guò)程中要對(duì)測(cè)量工具進(jìn)行不斷地優(yōu)化,又要根據(jù)具體的數(shù)據(jù)分析,對(duì)相關(guān)測(cè)試數(shù)據(jù)范圍進(jìn)行控制,這樣會(huì)取得很好的測(cè)量效果。另外要保持客觀嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度,在測(cè)量過(guò)程中保持清醒的頭腦,對(duì)具體的流程進(jìn)行精確的控制,這樣才能夠得到準(zhǔn)確、可靠的數(shù)據(jù)。
參考文獻(xiàn):
[1]董耀.直流高壓高阻箱測(cè)試方法的研究[j].甘肅科技.2009(06).
篇7
為保證排放達(dá)標(biāo),降低車輛尾氣對(duì)環(huán)境的污染,本田車輛采用空燃比傳感器和加熱型氧傳感器進(jìn)行高精度空燃比控制,其控制過(guò)程如圖1所示。
在此首先對(duì)空燃比傳感器及氧傳感器進(jìn)行簡(jiǎn)要說(shuō)明。
四線型空燃比傳感器是電流型線性傳感器,其電流與混合氣濃稀對(duì)應(yīng)關(guān)系如圖2所示。
當(dāng)檢測(cè)到尾氣含氧較多,即混合氣較稀時(shí),空燃比傳感器顯示為負(fù)值,且絕對(duì)值越大,表示混合氣越稀。相反,當(dāng)檢測(cè)到尾氣含氧較少,即混合氣較濃時(shí),空燃比傳感器顯示為正值,且絕對(duì)值越大,表示混合氣越濃。
氧傳感器為電壓型開(kāi)關(guān)式傳感器,其電壓與混合氣稀濃對(duì)應(yīng)關(guān)系如圖3所示。
當(dāng)混合氣較濃時(shí),其顯示接近1.00V;當(dāng)混合氣較稀時(shí),其顯示接近0V。對(duì)于空燃比傳感器+三元催化轉(zhuǎn)換器+氧傳感器的高精度空燃比控制,由于空燃比控制精度高,同時(shí)利用三元催化轉(zhuǎn)換器的催化轉(zhuǎn)化延遲作用,可使氧傳感器信號(hào)保持在比較穩(wěn)定的值,約為0.60V。如果一直過(guò)高,接近1V,則說(shuō)明混合氣過(guò)濃;一直過(guò)低,接近0V,則說(shuō)明混合氣過(guò)稀。
下面說(shuō)明車輛的空燃比控制過(guò)程。
當(dāng)車輛處于穩(wěn)定狀態(tài)時(shí),發(fā)動(dòng)機(jī)控制單元將進(jìn)行閉環(huán)控制,即通過(guò)空燃比傳感器和氧傳感器檢測(cè)尾氣濃稀情況,進(jìn)而在基本噴油量的基礎(chǔ)上,進(jìn)行噴油脈寬的實(shí)時(shí)調(diào)整。其調(diào)整公式可表示為:噴射時(shí)間(T)=基本噴射時(shí)間×各種噴射補(bǔ)償系數(shù)+電壓補(bǔ)償時(shí)間。
短期燃油調(diào)整值(Short Term Fuel Trim)即是各種噴射補(bǔ)償系數(shù)之一。其有效調(diào)整范圍為0.69~1.47。當(dāng)短期燃油調(diào)整值大于1時(shí),說(shuō)明空燃比傳感器及氧傳感器檢測(cè)到尾氣含氧量過(guò)多,進(jìn)而判斷發(fā)動(dòng)機(jī)混合氣偏稀,于是通過(guò)乘以一個(gè)大于1的短期燃油調(diào)整值,增加實(shí)際噴油脈寬。例如:基本噴油脈寬為3.00ms,如果短期燃油調(diào)整值為1.20,在其他條件不變的情況下,經(jīng)過(guò)補(bǔ)償后的噴油脈寬即為3.0×1.2=3.60ms。相反,當(dāng)短期燃油調(diào)整值小于1時(shí),說(shuō)明空燃比傳感器及氧傳感器檢測(cè)到尾氣含氧量過(guò)少,進(jìn)而判斷發(fā)動(dòng)機(jī)混合氣偏濃,于是通過(guò)乘以一個(gè)小于1的短期燃油調(diào)整值,減少實(shí)際噴油脈寬。
將短期燃油調(diào)整值進(jìn)行平均化處理的數(shù)值,就稱為長(zhǎng)期燃油調(diào)整值(Long Term Fuel Trim)。其有效值為0.80~1.25,當(dāng)超出這一范圍時(shí),故障指示燈就會(huì)點(diǎn)亮,并存儲(chǔ)故障碼:P0171——混合氣過(guò)稀(此時(shí)長(zhǎng)期燃油調(diào)整值大于1.25)或P0172——混合氣過(guò)濃(此時(shí)長(zhǎng)期燃油調(diào)整值小于0.80)。
2 故障碼P0171/P0172產(chǎn)生的可能原因
故障碼P0172——混合氣過(guò)濃的可能原因歸結(jié)為:燃汽油蒸氣過(guò)多/吸入空氣量過(guò)少,具體可能原因參見(jiàn)表1。
故障碼P0171——混合氣過(guò)稀的可能原因歸結(jié)為:燃料過(guò)少/吸入空氣量過(guò)多/點(diǎn)火不良,具體可能原因參見(jiàn)表2。
值得說(shuō)明的是,當(dāng)點(diǎn)火不良時(shí),混合氣未經(jīng)燃燒,直接進(jìn)入排氣系統(tǒng),由于空燃比傳感器及氧傳感器均是檢測(cè)氧氣濃度,而非燃油的濃度,而未燃燒的混合氣中含有大量的氧氣,故此時(shí)空燃比傳感器和氧傳感器均反饋混合氣過(guò)稀,而非過(guò)濃。
3 利用本田故障診斷系統(tǒng)進(jìn)行數(shù)據(jù)分析,解決故障碼P0171/P0172
在本田故障診斷系統(tǒng)中,可以看到空燃比控制相關(guān)的參數(shù)(圖4)。例如:空燃比信號(hào)、后氧傳感器信號(hào)、短期燃油調(diào)整值、長(zhǎng)期燃油調(diào)整值及燃油系統(tǒng)狀態(tài)等參數(shù)。這些參數(shù)能夠反映出空燃比控制的情況。除了這些參數(shù)外,進(jìn)氣系統(tǒng)的相關(guān)參數(shù),如進(jìn)氣歧管壓力、空氣流量、節(jié)氣門開(kāi)度、節(jié)氣門目標(biāo)開(kāi)度及噴油脈寬等,均對(duì)于縮小甚至確定P0171及P0172的故障范圍起著至關(guān)重要的作用。
下面通過(guò)幾個(gè)故障案例,說(shuō)明各參數(shù)之間的關(guān)系以及如何利用這些參數(shù)明確維修方向。
故障1
關(guān)鍵詞:噴油脈寬
故障現(xiàn)象:一輛2008年產(chǎn)飛度(GE6)轎車,配備手動(dòng)變速器,行駛里程11萬(wàn)km。用戶反映高速行駛油耗高。
檢查分析:維修人員接車后首先對(duì)故障進(jìn)行確認(rèn)。將燃油箱加滿油,保持車速100km/h左右行駛,儀表顯示瞬時(shí)油耗在5~6L/100km之間,30km后,故障出現(xiàn),儀表顯示瞬時(shí)油耗達(dá)到10L/100km左右。停車熄火,再次起動(dòng)發(fā)動(dòng)機(jī)并將車速提升至100km/h,瞬時(shí)油耗仍停留在10L/100km左右。再次將燃油箱加滿,測(cè)算該車實(shí)際油耗超過(guò)8L/100km,正常油耗應(yīng)在6L/100km以下,油耗確實(shí)偏高。
連接診斷系統(tǒng)查看該車噴油器參數(shù),該數(shù)值表示發(fā)動(dòng)機(jī)控制單元對(duì)噴油脈寬的控制指令,即噴油時(shí)間長(zhǎng)短。
通過(guò)對(duì)比故障車數(shù)據(jù)(圖5)與正常車數(shù)據(jù)(圖6)發(fā)現(xiàn),在車速、發(fā)動(dòng)機(jī)轉(zhuǎn)速、進(jìn)氣量、發(fā)動(dòng)機(jī)冷卻液溫度及進(jìn)氣溫度幾乎相同的情況下,故障車發(fā)動(dòng)機(jī)控制單元計(jì)算出的噴油脈寬為9.70ms,遠(yuǎn)遠(yuǎn)大于正常值6.54ms,這也與油耗偏高的故障現(xiàn)象相符。
那么是什么原因?qū)е聡娪兔}寬遠(yuǎn)大于正常值呢?眾所周知,發(fā)動(dòng)機(jī)控制單元對(duì)噴油量的控制采取閉環(huán)控制方式。即通過(guò)監(jiān)測(cè)尾氣中的氧氣含量判斷混合氣的濃稀情況,進(jìn)而修正噴油量以達(dá)到理想的空燃比。連接故障診斷系統(tǒng),查看故障車的空燃比控制相關(guān)參數(shù)(圖7)可以發(fā)現(xiàn),在短期燃油調(diào)整值已達(dá)到加濃極限1.47,后氧傳感器也顯示混合氣偏濃,故障表現(xiàn)也是油耗增加的情況下,空燃比傳感器卻讀出了-0.88mA的數(shù)值。
電流型空燃比傳感器的特點(diǎn)是輸出電流與流經(jīng)氧化鋯原件的氧氣的流向及流量呈線性關(guān)系,也就是可以線性反映出發(fā)動(dòng)機(jī)廢氣和大氣中的氧濃度差。當(dāng)混合氣濃度低時(shí),氧氣從排氣側(cè)流向大氣側(cè),電流讀數(shù)為負(fù)值;反之,當(dāng)混合氣濃度高時(shí),氧氣從大氣側(cè)流向排氣側(cè),讀數(shù)為正值(圖8)。但該空燃比傳感器卻在混合氣偏濃時(shí)錯(cuò)誤地讀出了負(fù)值,說(shuō)明其特性曲線發(fā)生了偏移(圖9),并反饋給發(fā)動(dòng)機(jī)控制單元混合氣過(guò)稀的錯(cuò)誤信息。發(fā)動(dòng)機(jī)控制單元進(jìn)行混合氣加濃調(diào)整,直至短期燃油調(diào)整極限值1.47。因此噴油脈寬由正常的6.54ms,調(diào)整為9.70ms(6.54×1.47≈9.70ms)。油耗也因此而升高。至于該車為何沒(méi)有產(chǎn)生“P0171——混合氣過(guò)稀”的故障碼,是因?yàn)樵撥嚬收鲜情g歇性出現(xiàn)的,雖然短期燃油調(diào)整值為1.47,但長(zhǎng)期燃油調(diào)整未達(dá)到1.25的極限值。
故障排除:更換空燃比傳感器,試車,各項(xiàng)數(shù)據(jù)恢復(fù)正常,油耗正常,故障排除。
故障2
關(guān)鍵詞:電子節(jié)氣門開(kāi)關(guān)
故障現(xiàn)象:一輛2011年產(chǎn)鋒范1.5轎車,行駛里程2176km,用戶反映發(fā)動(dòng)機(jī)故障燈點(diǎn)亮。
檢查分析:維修人員接車后連接本田故障診斷儀,讀取故障碼為:P0171——混合氣過(guò)稀。清除故障碼,發(fā)動(dòng)機(jī)運(yùn)行一段時(shí)間后,故障指示燈再次點(diǎn)亮,故障碼依舊為P0171。
用故障診斷儀讀取燃油調(diào)整相關(guān)數(shù)據(jù)(圖10)。短期燃油調(diào)整值為1.45,說(shuō)明混合氣偏稀,因此發(fā)動(dòng)機(jī)控制單元想通過(guò)增大噴油量修正空燃比,以保證排放達(dá)標(biāo)。從修正結(jié)果上看,空燃比傳感器信號(hào)為-0.01mA,氧傳感器信號(hào)為0.74V,均正常,說(shuō)明短期燃油調(diào)整的目的已達(dá)到。但是累計(jì)的長(zhǎng)期燃油調(diào)整值已經(jīng)達(dá)到1.25的極限值,所以產(chǎn)生P0171——混合氣過(guò)稀的故障碼。
由于基本噴油量,是發(fā)動(dòng)機(jī)控制單元根據(jù)發(fā)動(dòng)機(jī)轉(zhuǎn)速及進(jìn)氣量計(jì)算確定的,所以查看發(fā)動(dòng)機(jī)轉(zhuǎn)速及進(jìn)氣系統(tǒng)相關(guān)參數(shù)(圖11)。怠速時(shí),發(fā)動(dòng)機(jī)轉(zhuǎn)速699r/min,正常(標(biāo)準(zhǔn)范圍670±50r/min);進(jìn)氣歧管絕對(duì)壓力值27kPa,正常;進(jìn)氣量1.2g/s,偏小,正常值應(yīng)在2.0g/s左右。
至此,可以判斷是由于空氣流量計(jì)檢測(cè)到進(jìn)氣量低,導(dǎo)致發(fā)動(dòng)機(jī)控制單元計(jì)算出的基本噴油量偏小。但這是否就是空氣流量計(jì)本身故障引起的呢?進(jìn)一步查看怠速目標(biāo)節(jié)氣門指令,該指令顯示發(fā)動(dòng)機(jī)控制單元要求的電子節(jié)氣門開(kāi)度。其數(shù)值為0.8°,偏小,正常值應(yīng)在2.0°左右。可以說(shuō)明,之所以進(jìn)氣量小,是由于發(fā)動(dòng)機(jī)控制單元主動(dòng)減小電子節(jié)氣門開(kāi)度。進(jìn)一步對(duì)比進(jìn)氣歧管絕對(duì)壓力數(shù)據(jù)與進(jìn)氣量數(shù)據(jù),進(jìn)氣歧管內(nèi)的壓力值正常,但流經(jīng)空氣流量計(jì)的氣流偏小,說(shuō)明有額外空氣未通過(guò)空氣流量計(jì)檢測(cè)就直接進(jìn)入進(jìn)氣歧管,即有漏氣現(xiàn)象。而噴油量是根據(jù)流經(jīng)空氣流量計(jì)的氣流計(jì)算出的,這就必然導(dǎo)致混合氣過(guò)稀。發(fā)動(dòng)機(jī)控制單元主動(dòng)減小節(jié)氣門開(kāi)度也是為了修正這一錯(cuò)誤的空燃比。
故障排除:經(jīng)過(guò)仔細(xì)檢查,最終發(fā)現(xiàn)在制動(dòng)助力真空管處存在漏氣情況。排除漏氣點(diǎn)后,試車,確認(rèn)故障排除,各項(xiàng)數(shù)據(jù)正常。
篇8
關(guān)鍵詞:Excel;數(shù)據(jù)匯總;數(shù)據(jù)分析
中圖分類號(hào): TP317.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)04-0802-03
The Analysis of Variety of Data Aggregation Methods in Excel
LI Hua
(Computer and Network Center, Communication University of China, Beijing 100024, China)
Abstract: Excel provides a variety of data aggregation methods to summarize and analyze large amounts of data. The valuable information can be extracted by these methods to help make decision. This paper introduced several general applications of data aggregation method by detail examples and pointed out the characteristics of each method. It can help users analyze data more efficient in working practice.
Key words: Excel; data aggregation; data analysis
Excel軟件已廣泛應(yīng)用于各個(gè)行業(yè),無(wú)論是哪一個(gè)行業(yè),只要和數(shù)據(jù)打交道,Excel幾乎是首選的工具。數(shù)據(jù)分析是Excel提供的主要功能之一,而數(shù)據(jù)匯總又是主要的數(shù)據(jù)分析工具,可以對(duì)數(shù)據(jù)進(jìn)行由粗到細(xì)、由多到少的處理,為管理人員做好決策提供有用的參考信息。Excel提供了多種數(shù)據(jù)匯總方法,常用的匯總方法有“分類匯總”、“數(shù)據(jù)透視表”、“合并分析”、“模擬運(yùn)算表”等。
1 分類匯總
分類匯總是將數(shù)據(jù)按照某個(gè)關(guān)鍵詞段分類,并對(duì)關(guān)鍵詞段值相同的記錄進(jìn)行匯總的方法。以下面圖1“考勤應(yīng)扣款計(jì)算表”為例子,用分類匯總計(jì)算每個(gè)部門的基本工資的總和以及扣款合計(jì)的總和。
操作如下:先按部門排序(和排序次序無(wú)關(guān),可以升序排序也可以降序排序),然后單擊“數(shù)據(jù)”選項(xiàng)卡的“分類匯總”命令,在“分類匯總”對(duì)話框中選擇分類字段為部門,匯總方式為求和,匯總項(xiàng)為基本工資和扣款合計(jì),將得到所需要的匯總結(jié)果。
分類匯總的特點(diǎn):
1)以三級(jí)結(jié)構(gòu)的形式顯示出匯總結(jié)果和明細(xì)數(shù)據(jù),既可只顯示匯總數(shù)據(jù),也可以根據(jù)需要顯示明細(xì)數(shù)據(jù)。
2)不適合進(jìn)行多級(jí)匯總分析。當(dāng)分類字段增加或?qū)δ骋粋€(gè)被匯總字段進(jìn)行多種不同的匯總時(shí),需要完成多級(jí)分類匯總,而分級(jí)結(jié)構(gòu)的層數(shù)增加使得表的結(jié)構(gòu)復(fù)雜。如在“考勤應(yīng)扣款計(jì)算表”中計(jì)算不同部門、不同職位的基本工資的最大值時(shí)或計(jì)算不同部門基本工資的最大值和最小值時(shí),需要做多級(jí)分類匯總。
3)不能直接“剝離”匯總結(jié)果。若要復(fù)制匯總結(jié)果,簡(jiǎn)單的操作方式是單擊分級(jí)顯示符號(hào)數(shù)字2后,選擇匯總結(jié)果,在“定位條件”對(duì)話框中選擇“可見(jiàn)單元格”,進(jìn)行復(fù)制粘貼到目標(biāo)區(qū)域。
4)當(dāng)數(shù)據(jù)源需要更新時(shí),只能在“分類匯總”對(duì)話框中選擇“刪除分類匯總”,重新完成分類匯總。
2 數(shù)據(jù)透視表
數(shù)據(jù)透視表是Excel提供的可用來(lái)快速匯總大量數(shù)據(jù)的工具,可交互式地進(jìn)行數(shù)據(jù)的分析,被公認(rèn)為是Excel最強(qiáng)大的數(shù)據(jù)分析工具。
操作如下:?jiǎn)螕裟繕?biāo)單元格,選擇“插入”選項(xiàng)卡的“數(shù)據(jù)透視表”命令,在“創(chuàng)建數(shù)據(jù)透視表”命令中選擇數(shù)據(jù)源和數(shù)據(jù)透視表的位置,在“數(shù)據(jù)透視表字段列表”窗格中設(shè)置篩選字段、行標(biāo)簽字段、列標(biāo)簽字段、數(shù)字字段以及匯總方式。
數(shù)據(jù)透視表的特點(diǎn):
1)運(yùn)算速度快,與函數(shù)相比,計(jì)算速度提升很快,可以認(rèn)為是Excel計(jì)算速度最快的功能。
2)布局結(jié)構(gòu)非常靈活,修改非常方便。可以用不同的角度對(duì)數(shù)據(jù)進(jìn)行匯總,可以對(duì)多個(gè)匯總字段進(jìn)行匯總,也可以對(duì)同一個(gè)被匯總字段設(shè)置不同的匯總方式,還可以增加計(jì)算字段或計(jì)算項(xiàng)。
3)數(shù)據(jù)透視表的數(shù)據(jù)源可以是數(shù)據(jù)列表,也可以是數(shù)據(jù)庫(kù)等外部數(shù)據(jù)源,也就是說(shuō)可以直接根據(jù)外部數(shù)據(jù)源創(chuàng)建數(shù)據(jù)透視表,這是其他匯總方式所沒(méi)有的特點(diǎn)。
4)數(shù)據(jù)透視表不能自動(dòng)更新,當(dāng)需要更新時(shí),需單擊數(shù)據(jù)透視表工具中的“刷新”按鈕。
數(shù)據(jù)透視表功能非常強(qiáng)大,是用戶首選的匯總工具,但使用時(shí)也有一些缺陷。如:
1)Excel 2007開(kāi)始,數(shù)據(jù)透視表創(chuàng)建時(shí)不能以多重合并計(jì)算數(shù)據(jù)區(qū)域?yàn)閿?shù)據(jù)源。若需要使用此項(xiàng)功能,只能自定義功能區(qū),自行添加“數(shù)據(jù)透視表和數(shù)據(jù)透視圖向?qū)А卑粹o,并單擊此按鈕創(chuàng)建數(shù)據(jù)透視表。
2)數(shù)據(jù)透視表對(duì)數(shù)據(jù)透視圖的格式有一定的限制。如數(shù)據(jù)透視圖的圖表類型不能是XY散點(diǎn)圖、股價(jià)圖及氣泡圖等,當(dāng)對(duì)數(shù)據(jù)透視表進(jìn)行篩選或刷新時(shí),數(shù)據(jù)透視圖的有些自定義格式會(huì)受到影響。
3 合并計(jì)算
合并計(jì)算是大家不太熟悉的一個(gè)匯總工具。以圖1為數(shù)據(jù)源,利用合并計(jì)算工具計(jì)算每個(gè)部門的基本工資的總和以及扣款合計(jì)項(xiàng)目的總和。
操作如下:先用鼠標(biāo)單擊目標(biāo)單元格,再單擊“數(shù)據(jù)”選項(xiàng)卡的“合并計(jì)算”按鈕,在“合并計(jì)算”對(duì)話框中設(shè)置參數(shù),如圖2所示,得到的合并計(jì)算的結(jié)果如圖3所示。
合并計(jì)算的特點(diǎn):
1)選中“創(chuàng)建指向源數(shù)據(jù)的鏈接”復(fù)選框,結(jié)果以二級(jí)分級(jí)結(jié)構(gòu)的形式顯示出匯總結(jié)果和明細(xì)結(jié)果,且計(jì)算結(jié)果隨著數(shù)據(jù)源的改變自動(dòng)更新。若沒(méi)有選中此復(fù)選框,結(jié)果將以二維表格的形式顯示,不能顯示明細(xì)數(shù)據(jù),結(jié)果也不能隨著數(shù)據(jù)源的改變自動(dòng)更新。
2)合并計(jì)算效果有一點(diǎn)類似于一級(jí)分類匯總,但合并計(jì)算比分類匯總方便,不需要排序,且匯總結(jié)果和數(shù)據(jù)源是分開(kāi)的。
3)適合于匯總多個(gè)獨(dú)立的數(shù)據(jù)列表,可計(jì)算同一工作簿不同工作表或不同工作簿不同工作表中的數(shù)據(jù),前提條件是這些數(shù)據(jù)所在數(shù)據(jù)列表具有相同標(biāo)簽,而且合并計(jì)算前工作簿文件需要打開(kāi)。如匯總12個(gè)月每個(gè)部門基本工資的總和以及扣款合計(jì)的總和,而每個(gè)月的明細(xì)數(shù)據(jù)在不同的工作表內(nèi)。操作時(shí),選擇目標(biāo)單元格,在“合并計(jì)算”對(duì)話框中將每一張工作表的數(shù)據(jù)區(qū)域添加到引用區(qū)域中,標(biāo)簽位置選擇“首行”和“最左列”。
操作時(shí)注意,當(dāng)創(chuàng)建鏈接時(shí),存放合并計(jì)算結(jié)果的區(qū)域不能位于數(shù)據(jù)源所在的工作表中。
4 模擬運(yùn)算表(也稱數(shù)據(jù)表)
模擬運(yùn)算表是Excel提供的假設(shè)分析的數(shù)據(jù)分析工具,可以分析模型中參數(shù)值的改變對(duì)結(jié)果的影響。如果要考察一個(gè)參數(shù)值的改變對(duì)結(jié)果的影響,則可以使用單變量模擬運(yùn)算表。如果考察兩個(gè)參數(shù)值的改變對(duì)結(jié)果的影響,則可以使用雙變量模擬運(yùn)算表。在實(shí)踐中,也可以用模擬運(yùn)算表進(jìn)行數(shù)據(jù)匯總。
下面以圖1為數(shù)據(jù)源,用雙變量模擬運(yùn)算表匯總不同部門、不同職位的人數(shù)。這時(shí)部門可能的值和職位可能的值就是兩個(gè)可變的參數(shù)值,公式中用數(shù)據(jù)庫(kù)函數(shù)計(jì)算某一個(gè)部門某一個(gè)職位的人數(shù)。
操作如下:在數(shù)據(jù)列表區(qū)域外,創(chuàng)建數(shù)據(jù)庫(kù)函數(shù)的條件區(qū)域。設(shè)條件區(qū)域?yàn)锳18:B19,其中作為條件值的A19單元格和B19單元格的值各自輸入某一部門和某一職位的值,這兩個(gè)單元格在模擬運(yùn)算表中是兩個(gè)變量參數(shù)。選擇某一目標(biāo)單元格A22,輸入數(shù)據(jù)庫(kù)函數(shù)=DCOUNT(A2:F16, “基本工資”,A18:B19),并以A22為交叉點(diǎn),在連續(xù)的行區(qū)域和列區(qū)域中輸入部門和職位可能的值,在“模擬運(yùn)算表”對(duì)話框的“輸入引用行的單元格”中輸入$B$19,“輸入引用列的單元格”中輸入$A$19,如圖4所示。
若只需匯總每個(gè)部門的基本工資的總和以及扣款合計(jì)的總和,則可以利用單變量模擬運(yùn)算表計(jì)算,公式中可以使用SUMIF函數(shù)或DSUM函數(shù)。
模擬運(yùn)算表的特點(diǎn):1)模擬運(yùn)算表需自行設(shè)計(jì),公式和參數(shù)的位置以及公式的內(nèi)容等。結(jié)果區(qū)域?yàn)閿?shù)組,不可以單獨(dú)修改某一個(gè)匯總數(shù)據(jù)。2)布局上不如數(shù)據(jù)透視表靈活,但可以用來(lái)描述和分析被匯總字段的值隨著匯總參考字段也就是分類字段的值變化的函數(shù)關(guān)系。當(dāng)使用數(shù)據(jù)庫(kù)函數(shù)進(jìn)行分類統(tǒng)計(jì)時(shí),不需要建立多個(gè)不同的條件區(qū)域,只需要一個(gè)條件區(qū)域即可。3)數(shù)據(jù)源改變時(shí),結(jié)果也會(huì)自動(dòng)更新。
5 結(jié)論
本文介紹的Excel數(shù)據(jù)匯總方法,各自有不同的特點(diǎn),適合于不同的情況。即使是數(shù)據(jù)透視表工具也不是萬(wàn)能的,也有局限性。因此,在實(shí)踐中用戶應(yīng)從實(shí)際需求出發(fā),綜合考慮運(yùn)算速度、布局、數(shù)據(jù)更新、數(shù)據(jù)的圖形表示等方面的因素,合理選擇最適合的工具,才能達(dá)到最好的效果。
參考文獻(xiàn):
[1] 陳景惠. 對(duì)Excel數(shù)據(jù)匯總教學(xué)方法的探討[J]. 硅谷,2009(4):166:167.
篇9
常用處理方法是刪除含資料缺失的記錄,后將剩余視為完全數(shù)據(jù)。這樣可能產(chǎn)生偏倚,甚至誤導(dǎo)性的結(jié)論。另有兩大類方法,借補(bǔ)法在先用一個(gè)借補(bǔ)值替代缺失值,得到“完全數(shù)據(jù)”后運(yùn)用標(biāo)準(zhǔn)完全數(shù)據(jù)分析方法,其經(jīng)歷兩個(gè)發(fā)展階段:?jiǎn)我唤柩a(bǔ)、多重借補(bǔ)。前者包括極大似然估計(jì)的方法,后者由前者發(fā)展而來(lái)。第二類是不處理,直接分析數(shù)據(jù)。
一、數(shù)據(jù)缺失的程度與機(jī)制
數(shù)據(jù)缺失的程度、機(jī)制均影響處理方法的選擇。方法不適當(dāng)也會(huì)帶來(lái)有偏的參數(shù)估計(jì)M1、方差估計(jì)與統(tǒng)計(jì)檢驗(yàn),甚至影響數(shù)據(jù)分析效用。
(一)數(shù)據(jù)缺失的程度
借助某一變量上數(shù)據(jù)缺失的比率X描述數(shù)據(jù)缺失的程度。缺失比率X如何應(yīng)用方面,當(dāng)X<10%時(shí)應(yīng)當(dāng)保留這些賊并對(duì)其哳搬的艦曾建議,當(dāng)X>15%時(shí)可以考慮刪除采用刪除法;MRaymond與Roberts則認(rèn)為X>40%時(shí)才考慮刪除這些數(shù)據(jù)。
(二)缺失機(jī)制
缺失數(shù)據(jù)與諸多變量等相關(guān),處理方法的性質(zhì)依賴這些相依關(guān)系的特征。為論述方便,記全部變量Y觀測(cè)值中那些完整的變量為Yobs、不完整的為Ymis。如果缺失值與Y相互獨(dú)立無(wú)關(guān),則缺失數(shù)據(jù)為完全隨機(jī)缺失(MACR,missingcompletelyatrandom)的,是特殊情形。此時(shí)缺失值是總體的一個(gè)簡(jiǎn)單隨機(jī)抽樣。如果缺失值僅與Yobs相關(guān)聯(lián)、與Ymis相互獨(dú)立,則是隨機(jī)缺失(MAR,missingatrandom)。如果Yobs與Ymis之間存在著依賴關(guān)系,則稱非隨機(jī)缺失(NMAR,notmissingatrandom),是不可忽略的。
二、單一借補(bǔ)
單一借補(bǔ)用一個(gè)借補(bǔ)值替代全部缺失值,后用完全數(shù)據(jù)方法分析數(shù)據(jù)。單一借補(bǔ)是缺失數(shù)據(jù)處理中最通用方法之一,有多種方法。
(一)推理借補(bǔ)與最近鄰借補(bǔ)
根據(jù)已有信息推斷缺失數(shù)值,該方法簡(jiǎn)單易行,可提供準(zhǔn)確借補(bǔ)值,或者近似準(zhǔn)確借補(bǔ)值,同等情況下可優(yōu)先進(jìn)行推理借補(bǔ)。例,信息收集時(shí)已提供有姐弟信息的某被試“獨(dú)生子女”一項(xiàng)空著,可推斷為“否”。最近鄰借補(bǔ)選用與缺失數(shù)據(jù)提供者相類似的被試數(shù)據(jù)替代該缺失值。按照匹配變量找到一個(gè)以缺失數(shù)據(jù)提供者類似的被試時(shí),可還用例如歐式距離等來(lái)度量類似程度。
(二)均值借法
均值借補(bǔ)用已得數(shù)據(jù)的均值替代全部缺失值。借補(bǔ)值易均值形成尖峰,嚴(yán)重扭曲數(shù)據(jù)分布。當(dāng)數(shù) 據(jù)缺失非MACR時(shí),將低估統(tǒng)計(jì)量方差,導(dǎo)致參數(shù)估計(jì)偏差,且不適用需方差的復(fù)雜分析。
(三)回歸借補(bǔ)
回歸借補(bǔ)可分為線性回歸借補(bǔ),非參數(shù)回歸借補(bǔ)等。本文主要關(guān)注線性回歸借補(bǔ),用Yk關(guān)于數(shù)據(jù)完全的變量回歸模型,回歸值替代缺失值。建立回歸方程時(shí)有一次或多次迭代之分。多次迭代中,預(yù)測(cè)變量以逐步進(jìn)人模型,獲得預(yù)測(cè)力最佳、最精簡(jiǎn)的變量組合;回歸值替代缺失值,后建立新模型;如此,至回歸系數(shù)變化不顯著。是類別變量時(shí),則考慮進(jìn)行變換,進(jìn)行線性回歸。同時(shí),我們還應(yīng)注意到利用嚴(yán)格的回歸方程進(jìn)行預(yù)測(cè),易人為增大變量之間的關(guān)系。多數(shù)情況下,教育學(xué)、心理學(xué)討論的變量大多都不是相互獨(dú)立的。選擇該方法時(shí),須考慮當(dāng)預(yù)測(cè)變量與變量Y是否存在高度的相關(guān)關(guān)系。其構(gòu)造借補(bǔ)值的邏輯清晰,相對(duì)客觀。該方法能得到合乎邏輯的結(jié)果,尤其滿足正態(tài)分布時(shí)。數(shù)據(jù)模擬實(shí)驗(yàn)表明,方法加精確。
三、多重借補(bǔ)
多重借補(bǔ)(multipleimputation,MI)基于缺失值的預(yù)測(cè)分布或統(tǒng)計(jì)模型的方法:提供多個(gè)借補(bǔ)值依次替代各個(gè)缺失值、構(gòu)造個(gè)“完全數(shù)據(jù)”,121,191211后運(yùn)用完全數(shù)據(jù)統(tǒng)計(jì)方法分別分析多個(gè)數(shù)據(jù)集;分別得到數(shù)個(gè)分析結(jié)果,擬合這多個(gè)結(jié)果,獲得對(duì)缺失值的估計(jì)等,甚至是置信區(qū)間、P值。MI具備例如連續(xù)性的優(yōu)良統(tǒng)計(jì)性質(zhì)。
(一)回歸預(yù)測(cè)法與傾向得分法
回歸借補(bǔ)基于已有數(shù)據(jù)建立回歸模型、嵌入借補(bǔ)值。先確定觀察協(xié)變量,傾向得分法賦予一個(gè)條件概率。即對(duì)各Y產(chǎn)生一個(gè)觀測(cè)值缺失概率,并以傾向得分表示。依據(jù)傾向得分對(duì)數(shù)據(jù)分組,組內(nèi)進(jìn)行近似貝葉斯Bootstrap(ABB)借補(bǔ)。
(二)似然的方法
1.極大似然估計(jì)
從理論上來(lái)看,極大似然法(MaximumLikelihood,ML)至今仍是參數(shù)點(diǎn)估計(jì)中的重要方法。既定模型下缺失值的諸多估計(jì)均可基于似然函數(shù)進(jìn)行。ML利用總體數(shù)量特征的分布函數(shù)等,建立未知參數(shù)的估計(jì)量。將Y作為未知變量0,構(gòu)造關(guān)于e的似然函數(shù),后求的參數(shù)的極大似然估計(jì)量,甚至在參數(shù)空間內(nèi)的置信區(qū)間,或者置信區(qū)域。
參數(shù)極大似然估計(jì)量(MLE)具有不變性,推廣至多元變量時(shí)該優(yōu)良性質(zhì)亦成立。這恰能滿足實(shí)際研究需要。基于其漸進(jìn)最優(yōu)性質(zhì)等,ML成為參數(shù)估計(jì)的常用方法,諸如SPSS10.0、LISREL8.7等軟件包均收人該方法。
2.期望極大化算法
期望極大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用來(lái)計(jì)算基于不完全數(shù)據(jù)的MLE15。當(dāng)由于觀測(cè)過(guò)程局限帶來(lái)數(shù)據(jù)部分缺失時(shí),或似然估計(jì)因似然函數(shù)不是解析函數(shù)而無(wú)效時(shí)可選用該方法。EM是一種迭代算法,每次迭代似然函數(shù)值都將有所增加,進(jìn)而保證參數(shù)估計(jì)值收斂到一個(gè)局部極大值。此外,EM可自動(dòng)實(shí)現(xiàn)參數(shù)約束。基于軟件數(shù)據(jù)模擬表明X<30%時(shí)EM算法可得到比較好的結(jié)果。
3.MCMC方法
當(dāng)缺失值分散在多個(gè)變量時(shí),回歸法基于對(duì)回歸系數(shù)的估計(jì)獲得借補(bǔ)值。復(fù)雜缺失模型中,回歸系數(shù)的估算又依賴于借補(bǔ)值。這里似乎存在某種循環(huán)論證痕跡。此時(shí),可考慮迭代法中馬爾科夫蒙特卡洛方法(MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用馬爾可夫鏈進(jìn)行蒙特卡洛積分,可基于無(wú)后效性隨機(jī)過(guò)程探討數(shù)量關(guān)系、預(yù)測(cè)變量,還可有包括0出1?抽樣等多種具體算法。基于多元抽樣MCMC有諸多優(yōu)點(diǎn),足夠長(zhǎng)的時(shí)間使得雅過(guò)程驗(yàn)時(shí),MCMC可得卿常麵的結(jié)果。171MCMC是與具體的模型結(jié)合的,自身有不少擴(kuò)展方法,且不同MCMC方法對(duì)缺失數(shù)據(jù)的參數(shù)估計(jì)之間存在差異。不過(guò),X<30%時(shí)MCMC方法得到結(jié)果與完全數(shù)據(jù)時(shí)擬和較好。這些研究支持MCMC是處理缺失數(shù)據(jù)的有效方法,軟件包SPSS17.0等均收人該方法。
四、不處理
借補(bǔ)值是缺失數(shù)據(jù)的主觀估計(jì)值。引人的主觀值可能改變?cè)畔⑾到y(tǒng),甚至帶進(jìn)新噪音、導(dǎo)致分析錯(cuò)誤。不處理確保了原有信息不變,并進(jìn)行分析,其主要包含貝葉斯網(wǎng)與人工神經(jīng)網(wǎng)絡(luò)。不過(guò),后者的具體應(yīng)用仍有限、待進(jìn)一步探索與實(shí)證。研究開(kāi)始關(guān)注神經(jīng)網(wǎng)絡(luò)在心理學(xué)中的具體應(yīng)用。
(一)貝葉斯網(wǎng)
貝葉斯網(wǎng)絡(luò)(BayesianNetworks)是一個(gè)有向無(wú)圈圖,W能描述不確定性因果關(guān)聯(lián)的模型。該有向無(wú)圈圖帶有概率注解,能夠表示隨機(jī)變量的因果關(guān)系與概率關(guān)系,網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能夠表明如何從局部的概率分布獲得完全的聯(lián)合概率分布。分析缺失數(shù)據(jù)時(shí),貝葉斯網(wǎng)將結(jié)合先驗(yàn)知識(shí)與樣本數(shù)據(jù)對(duì)數(shù)值計(jì)算進(jìn)行推理,得到最佳值。其最大程度利用數(shù)據(jù)蘊(yùn)含的信息,是具有魯棒性的方法。
缺失數(shù)據(jù)下學(xué)習(xí)貝葉斯網(wǎng)有各類算法,不少算法是通過(guò)對(duì)含缺失數(shù)據(jù)的信息系統(tǒng)完備化得到所需統(tǒng)計(jì)因子,最終將問(wèn)題轉(zhuǎn)化為完全數(shù)據(jù)下學(xué)習(xí)貝葉斯的網(wǎng)的問(wèn)題。例如,結(jié)構(gòu)EM(StructureEMAlgorithm)通過(guò)EM算法獲得期望統(tǒng)計(jì)因子。數(shù)據(jù)非隨機(jī)缺失可以通過(guò)引人隱藏變量轉(zhuǎn)化為隨機(jī)缺失問(wèn)題,m似乎可以僅討論隨機(jī)缺失情況下算法。隨著研究的推進(jìn),新的、優(yōu)良的算法相繼涌現(xiàn),并得到模擬實(shí)驗(yàn)的支持。例如,數(shù)據(jù)缺失下貝葉斯網(wǎng)絡(luò)增量學(xué)習(xí)算法IBN-M。甚至穩(wěn)健的貝葉斯方法能夠適用于含缺失數(shù)據(jù)的結(jié)構(gòu)方程分析中,此時(shí)的結(jié)構(gòu)方程模型選擇固定方差。
建構(gòu)貝葉斯網(wǎng)可由專家人工建構(gòu)。其中,因果關(guān)系、網(wǎng)絡(luò)結(jié)構(gòu)是不可或缺的。這需對(duì)分析領(lǐng)域有相應(yīng)了解,至少對(duì)變量間關(guān)系較清楚。在心理學(xué)等領(lǐng)域中應(yīng)用尚待深入研究,該方法運(yùn)用前景令人期待。
(二)貝葉斯網(wǎng)適用軟件能夠?qū)崿F(xiàn)貝葉斯網(wǎng)的軟件包不少。Netica是最重要軟件之一,可免費(fèi)下載功能有限的版本。專門進(jìn)行數(shù)值計(jì)算的語(yǔ)言Matlab,其編程量較少、調(diào)試程序方便、呈現(xiàn)學(xué)習(xí)所得結(jié)構(gòu)也不繁瑣,國(guó)內(nèi)文獻(xiàn)也更多地涉及Matlab。BNTtolkit是基于Matlab開(kāi)發(fā)的,提供不少基礎(chǔ)函數(shù)庫(kù),能夠進(jìn)行參數(shù)學(xué)習(xí)與結(jié)構(gòu)學(xué)習(xí),且完全免費(fèi)。缺乏圖形用戶界面、無(wú)法將基本函數(shù)集成相應(yīng)系統(tǒng)是其“硬傷”。
五、結(jié)論與討論
實(shí)際應(yīng)用中,刪法“浪費(fèi)”不少數(shù)據(jù),統(tǒng)計(jì)力低下,盡量選用其它方法。當(dāng)滿足MAR缺失機(jī)制且人在10%時(shí),對(duì)刪法可運(yùn)用對(duì)有多個(gè)項(xiàng)目的量表的數(shù)據(jù)處理。當(dāng)滿足MAR、變量相關(guān)聯(lián),可考慮均值借補(bǔ)。當(dāng)變量之間高相關(guān)且X>20%Ht,可考慮回歸借補(bǔ)。
當(dāng)變量多維正態(tài)分布時(shí),可考慮穩(wěn)健性較好的ML或EM。X在一定范圍內(nèi)時(shí),基于似然的方法可獲得良好的估計(jì)值。114121]變量間關(guān)系復(fù)雜時(shí)可考慮MCMC,入<30%時(shí)該方法所得結(jié)果與完全數(shù)據(jù)時(shí)的一樣好,其可有效處理缺失數(shù)據(jù)。貝葉斯網(wǎng)是不確定性表達(dá)與推理最有效模型之一,缺失數(shù)據(jù)下的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)得到理論與實(shí)證支持。M71具備編程等條件時(shí),可選用貝葉斯方法。
篇10
關(guān)鍵詞: 數(shù)據(jù)挖掘;數(shù)據(jù)倉(cāng)庫(kù);相關(guān)分析
中圖分類號(hào):TP 311.3 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1672-8513(2011)03-0182-03
The Application of Correlation Analysis Algorithms in the Data Invites Chien
ZHANG Hanyun,DUAN Peng
(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)
Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.
Key words: data mining;data warehouse; correlation analysis
相關(guān)分析法是在分析某個(gè)問(wèn)題或指標(biāo)時(shí),將與該問(wèn)題或指標(biāo)相關(guān)的其他問(wèn)題或指標(biāo)進(jìn)行對(duì)比,分析其相互關(guān)系或相關(guān)程度的一種分析方法,用少數(shù)幾對(duì)綜合變量來(lái)反映2組變量間的線性相關(guān)性質(zhì).目前它已經(jīng)在眾多領(lǐng)域的相關(guān)分析和預(yù)測(cè)分析中得到廣泛應(yīng)用.本文主要研究如何利用相關(guān)分析技術(shù)產(chǎn)生計(jì)算機(jī)專業(yè)課之間的相關(guān)系數(shù),發(fā)現(xiàn)專業(yè)課程之間的相關(guān)度,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行約簡(jiǎn)[1].
1 相關(guān)分析
1.1 相關(guān)分析概述[2]
相關(guān)分析(Correlation Analysis)是研究隨機(jī)變量之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法.相關(guān)關(guān)系是一種非確定性的關(guān)系,例如,以X和Y分別記一個(gè)人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,則X與Y顯然有關(guān)系,而又沒(méi)有確切到可由其中的一個(gè)去精確地決定另一個(gè)的程度,這就是相關(guān)關(guān)系.例如,教育投資與教育發(fā)展速度的關(guān)系、教師教學(xué)水平和學(xué)生的學(xué)習(xí)效果之間的關(guān)系等[3].
相關(guān)系數(shù)值為-1(完全負(fù)相關(guān)關(guān)系)~+1(完全正相關(guān)關(guān)系)之間,相關(guān)系數(shù)為0時(shí),表示不存在相關(guān)關(guān)系.例:
正相關(guān):學(xué)生的學(xué)習(xí)能力與學(xué)習(xí)成績(jī)的關(guān)系;
負(fù)相關(guān):教師的身體狀況與缺勤率的關(guān)系;
零相關(guān):教師的身高與教學(xué)能力的關(guān)系.
Pearson相關(guān)用于雙變量正態(tài)分布的資料,其相關(guān)系數(shù)稱為積矩相關(guān)系數(shù)(Coefficient of Product-Moment Correlation).進(jìn)行相關(guān)分析時(shí),我們一般會(huì)同時(shí)對(duì)2變量繪制散點(diǎn)圖,以更直觀地考察2變量之間的相互變化關(guān)系[4].
用Flag Significant Correlations 進(jìn)行顯著性檢驗(yàn),標(biāo)出有顯著性意義的相關(guān)系數(shù),用一個(gè)星號(hào)“*”標(biāo)記在α=0.05水平上有顯著性意義的相關(guān)系數(shù);用2個(gè)星號(hào)“**”標(biāo)記在α=0.01水平上有顯著性意義的相關(guān)系數(shù)[5].
1.2 相關(guān)分析的表示方法
進(jìn)行相關(guān)分析的主要方法有圖示法和計(jì)算法.圖示法是通過(guò)繪制相關(guān)散點(diǎn)圖來(lái)進(jìn)行相關(guān)分析,計(jì)算法則是根據(jù)不同類型的數(shù)據(jù),選擇不同的計(jì)算方法求出相關(guān)系數(shù)來(lái)進(jìn)行相關(guān)分析.
1.2.1 圖示法
圖示法的具體做法就是繪制相關(guān)散點(diǎn)圖.相關(guān)散點(diǎn)圖是觀察2個(gè)變量之間關(guān)系的一種非常直觀的方法.具體繪制的方法是:以橫軸表示2個(gè)變量中的1個(gè)變量(作為自變量),以縱軸表示另一個(gè)變量(作為因變量).將2個(gè)變量之間相對(duì)應(yīng)的變量值以坐標(biāo)點(diǎn)的形式逐一標(biāo)在直角坐標(biāo)系中,通過(guò)點(diǎn)的分布形狀和疏密程度來(lái)形象描述2個(gè)變量之間的相關(guān)關(guān)系.
相關(guān)散點(diǎn)圖可以通過(guò)手工繪制而得到.但如果面對(duì)的變量值比較多,手工繪制的過(guò)程既費(fèi)時(shí),又不夠精確.
1.2.2 計(jì)算法
相關(guān)系數(shù)也稱為相關(guān)量,是用來(lái)描述變量之間變化方向和密切程度的數(shù)字特征量,一般用r表示.它的數(shù)值范圍在-1到+1之間,它的正負(fù)號(hào)反映變量之間變化的方向;它的絕對(duì)值的大小反映變量之間關(guān)系的密切程度.
根據(jù)2個(gè)變量變化的密切程度,我們把相關(guān)關(guān)系分為完全相關(guān)、高度相關(guān)、中度相關(guān)、低度相關(guān)、零相關(guān)[6].
完全相關(guān):│r│=1的相關(guān);
高度相關(guān)或強(qiáng)相關(guān):0.7≤│r│<1的相關(guān);
中度相關(guān):0.4≤│r│<0.7的相關(guān);
低度相關(guān)或弱相關(guān):│r│<0.4的相關(guān).
1.3 Pearson相關(guān)
Pearson相關(guān)也稱積差相關(guān),積差相關(guān)也稱積矩相關(guān),是英國(guó)統(tǒng)計(jì)學(xué)家Rearson提出的一種計(jì)算直線相關(guān)的方法,因而又稱為Rearson相關(guān)[6-7].
積差相關(guān)系數(shù)是2列成對(duì)觀測(cè)值中各對(duì)觀測(cè)值的標(biāo)準(zhǔn)分?jǐn)?shù)乘積之和除以觀測(cè)值對(duì)數(shù)所得之商[8].
1.3.1 Pearson相關(guān)的使用條件
1) 2個(gè)變量之間是線性關(guān)系,都是連續(xù)數(shù)據(jù);
2) 2個(gè)變量的總體是正態(tài)分布,或接近正態(tài)的單峰分布;
3) 2個(gè)變量的觀測(cè)值是成對(duì)的,每對(duì)觀測(cè)值之間相互獨(dú)立.
1.3.2 Pearson相關(guān)的計(jì)算公式
r=∑ZXZYn=∑X-Y-nσXσY.
式中,[ZK(]n表示數(shù)據(jù)的對(duì)數(shù);σX,σY分別表示X和Y變量的樣本標(biāo)準(zhǔn)差;[JP],分別表示X和Y變量的樣本平均數(shù).[ZK)]
對(duì)于學(xué)生成績(jī),其課程總體分布接近正態(tài)分布,滿足Pearson相關(guān)的使用條件.在統(tǒng)計(jì)軟件SPSS中,可以很方便地得出2變量之間的Pearson相關(guān)系數(shù).[JP]
2 用相關(guān)分析法進(jìn)行數(shù)據(jù)約簡(jiǎn)
2.1 學(xué)生成績(jī)數(shù)據(jù)倉(cāng)庫(kù)的建立
數(shù)據(jù)選擇上,主要選擇了作者所在學(xué)校計(jì)算機(jī)專業(yè)3年來(lái)產(chǎn)生的專業(yè)基礎(chǔ)課成績(jī),收集并整理了包含高等數(shù)學(xué)、C語(yǔ)言、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)系統(tǒng)原理的504條學(xué)生成績(jī)數(shù)據(jù).并將具體的成績(jī)數(shù)據(jù)離散化為4個(gè)等級(jí)[9],即:
成績(jī)>=80“A”; 70=
2.2 用相關(guān)分析法進(jìn)行數(shù)據(jù)約簡(jiǎn)
對(duì)大規(guī)模數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析通常需要耗費(fèi)大量的時(shí)間,這就常常使得這樣分析變得不現(xiàn)實(shí)和不可行,尤其是需要交互式數(shù)據(jù)挖掘時(shí).數(shù)據(jù)約簡(jiǎn)技術(shù)正是用于幫助從原有龐大數(shù)據(jù)集中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集合,并使這一精簡(jiǎn)數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡(jiǎn)數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘,顯然效率更高,并且挖掘出來(lái)的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同[10].
數(shù)據(jù)約簡(jiǎn)并不是一個(gè)新的領(lǐng)域,現(xiàn)在已經(jīng)提出了很多理論和方法,如:層次分析法,主成分分析法,隨機(jī)抽樣、免疫算法等.本研究根據(jù)實(shí)際需要,提出將相關(guān)分析方法應(yīng)用于學(xué)生成績(jī)的屬性約簡(jiǎn),即方便快捷又不失理論性.
在SPSS軟件中,畫(huà)出計(jì)算機(jī)專業(yè)課高等數(shù)學(xué)成績(jī)的直方圖,如圖1.
用同樣的方法,可以畫(huà)出其他計(jì)算機(jī)專業(yè)課如C語(yǔ)言、數(shù)據(jù)結(jié)構(gòu)等的直方圖,可以看出,我們所建立的數(shù)據(jù)倉(cāng)庫(kù)中,學(xué)生計(jì)算機(jī)專業(yè)課程成績(jī)基本上符合正態(tài)分布,滿足Pearson相關(guān)的使用條件.
我們用雙變量相關(guān)分析技術(shù)來(lái)分析相關(guān)課程之間的關(guān)聯(lián)程度,并做出統(tǒng)計(jì)學(xué)推斷,以最少的數(shù)據(jù)量反映最大的信息量,進(jìn)而對(duì)數(shù)據(jù)庫(kù)的屬性進(jìn)行約簡(jiǎn).通過(guò)相關(guān)分析約簡(jiǎn)相關(guān)性較弱的屬性,選擇相關(guān)性強(qiáng)的屬性而不直接利用數(shù)據(jù)庫(kù)中的所有屬性,從而減少大量冗余屬性,以提高算法的效率.
在SPSS中進(jìn)行課程間Pearson相關(guān)系數(shù)分析,得到計(jì)算機(jī)專業(yè)課程相關(guān)系數(shù)分析表如表1.
1:表中數(shù)值為4門課程進(jìn)行相關(guān)分析得到的皮爾遜相關(guān)系數(shù)(Pearson Correlation)、相伴概率(Sig.(2-tailed))、樣本個(gè)數(shù)(N).“*”標(biāo)記在α=0.05水平上有顯著性意義的相關(guān)系數(shù);用兩個(gè)星號(hào)“**”標(biāo)記在α=0.01水平上有顯著性意義的相關(guān)系數(shù);
2:相伴概率用來(lái)判斷求解線性關(guān)系的兩變量之間是否有明顯的線性關(guān)系.一般將這個(gè)Sig值與0.05相比較,如果它大于0.05,說(shuō)明平均值在大于5%的幾率上是相等的,而在小于95%的幾率上不相等;如果它小于0.05,說(shuō)明平均值在小于5%的幾率上是相等的,而在大于95%的幾率上不相等;如C語(yǔ)言與數(shù)據(jù)結(jié)構(gòu)的Sig是0,此數(shù)值說(shuō)明C語(yǔ)言與數(shù)據(jù)結(jié)構(gòu)有顯著的線性關(guān)系(因?yàn)镾ig0.05,則說(shuō)明兩變量之間沒(méi)有明顯的線性關(guān)系).
由表1可以看出,同一門課程之間的Pearson相關(guān)系數(shù)為1,是完全相關(guān)關(guān)系.高等數(shù)學(xué)與C語(yǔ)言之間的Pearson相關(guān)系數(shù)為0.283,C語(yǔ)言與數(shù)據(jù)結(jié)構(gòu)之間的Pearson相關(guān)系數(shù)為0.281,數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)庫(kù)系統(tǒng)原理之間的Pearson相關(guān)系數(shù)為0.565,并且都有“*”標(biāo)記,由此可以推斷這4組課程之間有顯著性意義的相關(guān)性.
3 結(jié)語(yǔ)
用相關(guān)分析技術(shù)對(duì)數(shù)據(jù)庫(kù)進(jìn)行約簡(jiǎn),結(jié)果表明:線性代數(shù)、計(jì)算機(jī)導(dǎo)論及Pascal語(yǔ)言等多個(gè)因素相關(guān)性較弱;而C語(yǔ)言、數(shù)據(jù)結(jié)構(gòu)、高等數(shù)學(xué)及數(shù)據(jù)庫(kù)系統(tǒng)原理之間相關(guān)性較強(qiáng),根據(jù)數(shù)據(jù)庫(kù)約簡(jiǎn)原則,可將線性代數(shù)、計(jì)算機(jī)導(dǎo)論及Pascal語(yǔ)言等多個(gè)屬性項(xiàng)從數(shù)據(jù)庫(kù)中刪除,以便提高數(shù)據(jù)挖掘效率.
參考文獻(xiàn):
[1]段西凌,甘開(kāi)鵬.數(shù)據(jù)挖掘在人口普查信息系統(tǒng)中的應(yīng)用[J].云南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2006,15(2):170-172.
[2]茆詩(shī)松.統(tǒng)計(jì)手冊(cè)[M].北京:科學(xué)出版社,2003.
[3]TANG Zhaohui,MACLENNAN J.數(shù)據(jù)挖掘原理與應(yīng)用[M]. 鄺祝芳,焦賢龍,高升,譯.北京:清華大學(xué)出版社,2007.
[4]王艷.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的探討[J].成都信息工程學(xué)院學(xué)報(bào),2004,19(2):173.
[5]張儒良,王翰虎.論數(shù)據(jù)挖掘優(yōu)化教學(xué)管理[J].貴州民族學(xué)院學(xué)報(bào),2004:133.
[6]趙輝.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)中分析中的應(yīng)用[D].大連:大連海事大學(xué),2007.
[7]王月敏.基于遺傳算法的智能組卷系統(tǒng)研究[J].云南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2009,18(2):173-176.
[8]劉利鋒,吳孟達(dá). 關(guān)聯(lián)規(guī)則的快速提取算法 [J].計(jì)算機(jī)工程.2008,34(5):63-65.
[9]李萍,段富.數(shù)據(jù)挖掘中數(shù)據(jù)約簡(jiǎn)的研究與應(yīng)用[J].微計(jì)算機(jī)應(yīng)用.2009,25(2):58-60.[ZK)]
[10][ZK(#]蔡勇,韓永國(guó),劉自偉.數(shù)據(jù)挖掘技術(shù)在生源分析中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究.2004,32(6):48-51.
收稿日期:2010-09-06.
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)管理論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫(kù)論文 數(shù)據(jù)分析 數(shù)據(jù)誤差 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)統(tǒng)計(jì) 品牌營(yíng)銷論文 品牌營(yíng)銷策略 品牌戰(zhàn)略 品牌整合
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量探討