保險新投保數據研究分析

時間:2022-06-23 09:39:52

導語:保險新投保數據研究分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

保險新投保數據研究分析

[摘要]以四川某保險公司的新投保數據研究對象,使用SPSS作為工具,對該公司年度新投保數據進行分析研究,通過相關性分析、探索分析、線性回歸分析找出總保費和各個變量間的關系,幫助公司找尋最優方案,調整或改善策略以增加盈利。

[關鍵詞]數據分析;保險;新投保數據

疫情的爆發,自然災害的頻繁出現,使得不確定風險因素增加,對人們的生活產生較大的影響。投保可以在災難發生時,對人們的生活有一定的保障[1]。如今保險業積累的大量數據在大數據技術的沖擊下又是一個新的風口。保險行業希望通過利用新技術的運用在逆境中尋求更大的發展就成為了一種必然[2]。保險的本質是要求保險產品確定尚未發生的風險。在風險預測過程中,往往需要將數據信息與相應的分析技術結合起來,這就需要大數據分析來提高風險預測的準確性[3]。研究新投保客戶,建立客戶畫像,是抓住老客戶、增加新客戶的有效方法,因此,要分析客戶選擇投保的因素,以及能增加盈利的因素。了解后公司就能針對性地調整策略,推出更符合消費者需求的產品。推出更多符合不同情況的大眾保險,提高保險對大眾的受用程度和保障度,從而提高有效保險的量,使得雙方受益程度實現最大化。

1.研究思路

分析工具采用SPSS軟件。SPSS(StatisticalPackagefortheSocialScience)軟件是世界上著名的統計分析軟件之一,2000年SPSS公司由于產品升級及業務拓展的需要,將其產品正式更名為SPSS(statisticalproductandservicesolutions),即統計產品與服務解決方案[4]。分析思路如下:以四川省某保險公司的新投保數據為研究對象,采用SPSS作為分析工具,對數據中年齡,性別,婚姻狀況,險種類型,保費等數據進行分析比對,對新投保的客戶進行畫像,分析保險的選擇是否和客戶的某種特征有關,從而可以對不同的客戶選用不同的策略幫助公司收獲新客戶,也幫助新客戶選擇出好產品,實現雙方共贏。

2.數據說明

數據來源于四川某保險公司年度新投保數據。其中包含了機構、險種、投保時間、繳費方式、繳費期限、投保份數、總保費、保額、客戶號、性別、年齡、婚姻狀況、過去三年平均年收入、教育程度、職業、家庭人口。共16列900648行。進行數據清洗,因為在信息時代,數據即是資源。數據可靠無誤才能準確地反映現實狀況,有效地支持組織決策[5]。因此首先應該做的就是篩選有用的數據,剔除無用數據;還包括空值的清理,無效值、異常值的刪除。

3.數據分析

3.1總保費與職業、年齡等變量的相關關系

由于本數據集所持有的數據含有一定量的臟數據以及無效數據,為提高分析的準確度和有效度,所以在進行數據分析之前,需要做出一定的數據清洗與處理,即刪除數據中不正確填寫的教育程度、家庭人口列。用SPSS中的自動重新編碼功能將字符串類型的值轉換為數字類型,便于后續的分析操作。然后進行數據分析,首先將變量測量類型更改為標度,然后通過相關分析得出與總保費相關性較高的變量(見表1)。結果顯示,其中與總保費相關性系數較高的變量有險種、繳費方式、性別、婚姻狀況、職業、保額、年齡、過去三年平均年收入、機構、繳費期限,其中年齡和保額的相關性最強,為正相關;相關性系數較低的有投保時間、投保份數、客戶號。由此可得出年齡與總保費相關性強,呈正相關。說明年齡大的人群在保險方面的支出大,而較年輕群體在保險方面的支出則較少。因此保險公司可以通過將年齡較大人群喜愛的產品進行改進或是保持其特色來穩固在這一方面的收入;通過推出更適合較年輕人群的例如理財方面的產品來增加較年輕群體這部分的收入。保額與總保費相關性強,呈正相關。說明人們對保險的投入與他們期望的保額有很大的關系,因此可以通過人們對保額的期望來增加產品的競爭力或是以此來推薦與客戶期望值相匹配的產品。

3.2具體分析總保費與年齡的關系

上文我們得出了總保費和年齡有很強的相關性,因此我們將年齡分化,進一步分析。首先通過SPSS軟件中的頻率分析的功能計算出年齡的四分位數從而進行分組(見表2)。由此我們可以將年齡分為四個區間:34歲及以下設置為第一個年齡組---青年組并把該組數據全部重新編碼為1;35歲到40歲設置為第二個年齡組---壯年組,并把該組數據全部重新編碼為2;41歲到48歲設置為第三個組---中年組,并把該組全部數據全部重新編碼為3;49歲及以上設置為第四個組---老年組,并把該組數據全部重新編碼為4。將總保費設為因變量、經過重新編碼后的年齡段設置為因子進行探索分析。分析結果得出:在4組年齡組中,5%剪除后平均值最高的組為第四組(49歲及以上),然后是第三組、第二組、第一組依次下降。這一結果也印證了上文所分析的年齡與總保費的強相關性,年齡越大的人在保險上的投入越多。其次中年組(41歲到48歲)的標準差最大,數據的離散程度最大,說明中年組對于不同價位的保險選擇更為分散。4組數據的偏度均大于0,為右偏分布(均值>中位數>眾數),說明同組里高保費的人較少,大部分人所交總保費是低于平均值的。且4組數據峰度均大于0,為尖峰分布,說明樣本之間差異較大,右邊(高保費區域)極端值較多,保費更多地集中在眾數周圍。青年組的四分位距和標準差最小,保費繳納情況最為集中。3.3總保費與年齡、保額等變量的線性關系通過上文的相關性分析,我們已經得出了與總保費相關性較高的一些變量,下面我們找出是否這些變量具有某些線性關系。數據處理方面,線性回歸分析需要所有的參數都是屬于數字型的,然而險種、繳費方式、性別等變量都為字符型的變量,不能用于線性回歸分析,因此我們將險種、繳費方式、性別等變量自動重新編碼。線性分析,首先我們得出以下模型摘要表(表3)。發現第7、8、9種模型R方最大,且第9種模型標準估算的錯誤最小,所以最后選擇第九種模型進行建模。接著是方差分析,發現顯著性都小于0.01,說明這些變量能夠建立有效模型。可以得出線性回歸方程的常量是:-147262.49,保額的系數為0.601,繳費期限的系數為-760.667,繳費方式(編碼為數字型)的系數為-5550.119,職業(編碼為數字型)的系數為8.701,年齡的系數為56.481,婚姻狀況(編碼為數字型)的系數為404.014,險種(編碼為數字型)的系數為26.904,性別(編碼為數字型)的系數為105.779。得出如下線性回歸方程:總保費=保額*0.601+繳費期限*(-760.667)+繳費方式*(-5550.119)+職業*8.701+年齡*56.481+機構*0.442+險種*26.904+性別*105.779-147262.49。從此線性回歸方程也能看出年齡與保額是和總保費呈正相關關系的。分析結果表明,總保費和年齡、保額等變量的關系,未重新編碼的變量中保額、年齡、繳費期限對于總保費的影響很大,客戶選擇產品時重點關注所選產品的保額和繳費期限。限公司和客戶都能運用這樣的方程針對自身的各項指標來大致得出合適的保費,也能通過總保費、年齡、職業等等指標來計算大致能獲得的保費。幫助公司和客戶實現共贏。

4.結論及建議

總保費主要受年齡和保額的影響,且多數購買保險的都是年齡較大的人群,較年輕群體購買保險的情況最為集中,選擇的都是近似價格的產品,而較大年齡的群體購買情況就比較分散,形成此結果的原因大概是因為較年輕群體身體狀況較良好,且較為均衡,發病率較低,所以對于保險的需求也較為均衡。而較大年齡群體的身體狀況較差、發病率較高且患病的情況更為復雜、離散,所以對于保險的需求也有較大的不同,但較大年齡群體的平均保費高于較年輕群體,說明目前保險的需求量在較大年齡群體中高一些。保額對總保費有較大影響,說明人們在購買保險時,對于該款保險的保額在客戶心里的比重是很大的,能夠付出多大的保費和人們心中想得到的保障有很大關系。公司在設計產品時,建議針對不同年齡的人群來推出不同類型的產品。較大年齡人群依然占保險市場的很大份額,想出更多辦法,結合保額對人們購買產品時的影響,推出更好的產品更能保持這一人群的支持。對于較年輕群體,市場的空間較大,推出針對年輕群體的產品,抓住較年輕群體的市場,能進一步提升公司盈利。

【參考文獻】

[1]陳英.大數據時代下保險業發展趨勢及風險應對策略[J].今日財富,2020(24):51-52.

[2]廖偉革.大數據支撐保險業發展狀況研究[J].現代經濟信息,2019(04):361-363.

[3]李弘熙.淺析大數據背景下保險業發展[J].中國集體經濟,2020(21):98-99.

[4]吳占福,馬旭平,李亞奎.統計分析軟件SPSS介紹[J].河北北方學院學報(自然科學版),2006(06):67-69+73.

[5]郝爽,李國良,馮建華,等.結構化數據清洗技術綜述[J].清華大學學報(自然科學版),2018,58(12):1037-1050.

作者:王智毅 楊杉 單位:四川大學錦城學院計算機與軟件學院