導(dǎo)讀:大數(shù)據(jù)這個(gè)話題目前非常熱門,一方面是因?yàn)橛凶銐蛲⒌男枨?,各個(gè)領(lǐng)域都覺得能夠從大數(shù)據(jù)上獲利,比如擴(kuò)展出新的業(yè)務(wù)形態(tài),改進(jìn)現(xiàn)有的業(yè)務(wù)流程等等。
負(fù)責(zé)數(shù)據(jù)智能部數(shù)據(jù)產(chǎn)品的規(guī)劃設(shè)計(jì)和系統(tǒng)架構(gòu)。 在保險(xiǎn)行業(yè)業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,研究如何將數(shù)據(jù)轉(zhuǎn)化為服務(wù),讓數(shù)據(jù)為企業(yè)的業(yè)務(wù)服務(wù),為企業(yè)的客戶服務(wù),同時(shí)為整個(gè)行業(yè)以及為社會(huì)服務(wù)。
曾在Sun Microsystems和Oracle公司任高級研發(fā)工程師、高級技術(shù)顧問工作。對計(jì)算機(jī)基礎(chǔ)架構(gòu)、系統(tǒng)軟件以及云計(jì)算有豐富的經(jīng)驗(yàn)。
大數(shù)據(jù)這個(gè)話題目前非常熱門,一方面是因?yàn)橛凶銐蛲⒌男枨?,各個(gè)領(lǐng)域都覺得能夠從大數(shù)據(jù)上獲利,比如擴(kuò)展出新的業(yè)務(wù)形態(tài),改進(jìn)現(xiàn)有的業(yè)務(wù)流程等等。
首先,因?yàn)樾畔⒒呀?jīng)做了很多年了,人人手里都有很多的數(shù)據(jù)。
原來這些數(shù)據(jù)是用來為應(yīng)用系統(tǒng)服務(wù)的,主要用于實(shí)現(xiàn)業(yè)務(wù)流程,新的技術(shù)手段讓這些數(shù)據(jù)有了很高的價(jià)值,所以大量的需求產(chǎn)生了,而且數(shù)據(jù)越多需求越旺盛。
其次,大數(shù)據(jù)技術(shù)在很多領(lǐng)域已經(jīng)有了足夠多的應(yīng)用,這些應(yīng)用也收到了正向的效果。所以大家不僅僅是從理論上了解大數(shù)據(jù)的好處,而且看到需多實(shí)例。
老話說,不見兔子不撒鷹,現(xiàn)在兔子滿地跑,而且看見別人家的老鷹已經(jīng)捉到不少兔子了,所以整個(gè)圈子里老鷹捉兔子就火了。
再者,大數(shù)據(jù)能變得熱門起來,也是因?yàn)榧夹g(shù)手段比較成熟了,技術(shù)的應(yīng)用模式也摸索出不少來。
打個(gè)比方,就像樂高玩具一樣,零件開發(fā)得很成熟了,各種尺寸大小形狀的零件都很規(guī)范,也能方便的買到,同時(shí)各種圖紙也成熟起來,男孩兒的飛機(jī)汽車,女孩兒的過家家場景,不同的小朋友根據(jù)自己的喜好,總能找到滿意的題材很輕松地搭建喜歡的模型。
所以總體來說,大數(shù)據(jù)這個(gè)事情,理論上看來有用;有人做過,管用;做的方法有指導(dǎo)有線路圖,能做。
今天我們就來說說大數(shù)據(jù)在保險(xiǎn)行業(yè)的應(yīng)用。
保險(xiǎn)這個(gè)行業(yè)
保險(xiǎn)行業(yè)存在已經(jīng)很長時(shí)間了,一直以來并不依賴大數(shù)據(jù)分析技術(shù),業(yè)務(wù)一直運(yùn)轉(zhuǎn)的很好。之前就有數(shù)據(jù)分析,而且業(yè)務(wù)一直也使用數(shù)據(jù)分析,各種報(bào)表都很完善,BI系統(tǒng)、數(shù)據(jù)庫、數(shù)據(jù)集市、數(shù)據(jù)倉庫管理了大量的數(shù)據(jù),這些數(shù)據(jù)都是業(yè)務(wù)數(shù)據(jù)。
保險(xiǎn)行業(yè)的關(guān)鍵數(shù)據(jù)有: 承保、保險(xiǎn)、理賠 數(shù)據(jù)。
承保是新建保單,投保的時(shí)候填寫的,投保人和保險(xiǎn)公司簽訂的合同。里面有投保人信息被保人信息,保障內(nèi)容,賠付條款,免責(zé)條款,等等。保全和理賠是修改保單,變更保單的內(nèi)容,或者拿著保單去理賠。
這些數(shù)據(jù)看起來就是記錄保單整個(gè)生命周期內(nèi)的信息的,保證了保險(xiǎn)銷售和保險(xiǎn)服務(wù)能夠依據(jù)保單運(yùn)轉(zhuǎn)起來。
數(shù)據(jù)還是這些數(shù)據(jù),但是咱們換個(gè)角度看,數(shù)據(jù)會(huì)不一樣。這些保單相關(guān)的數(shù)據(jù),也可以說全是用戶數(shù)據(jù),用來記錄用戶的個(gè)人信息和個(gè)人行為信息的數(shù)據(jù)。
一張保單涉及到好幾個(gè)人,投保人,被保人,涉及到他們之間的關(guān)系,直系親屬,公司同事。保全和理賠更是涉及到用戶的數(shù)據(jù),用戶信息通過保全進(jìn)行更新,理賠過程中有用戶出險(xiǎn)原因等信息。
光是聽到有這么多的數(shù)據(jù),數(shù)據(jù)分析科學(xué)家們一定就很開心了。
還有更好的事兒,就是這些數(shù)據(jù)都非常真實(shí),承保時(shí)有保險(xiǎn)代理人來搜集驗(yàn)證數(shù)據(jù),保全有業(yè)務(wù)人員來搜集驗(yàn)證數(shù)據(jù),賠付時(shí)有核保人員來搜集驗(yàn)證數(shù)據(jù)。
光說全國保險(xiǎn)代理人,有800萬左右。由他們產(chǎn)生出來的較高質(zhì)量真實(shí)數(shù)據(jù),不拿來做大數(shù)據(jù)分析是不是很可惜?
不過針對這些大量優(yōu)質(zhì)數(shù)據(jù),保險(xiǎn)行業(yè)里也一直都有數(shù)據(jù)分析,不但有,而且非常完善,但是分析的方式并不是以大數(shù)據(jù)的方式。那么現(xiàn)在的大數(shù)據(jù)分析技術(shù)能給傳統(tǒng)的業(yè)務(wù)帶來哪些改變呢?
這就要從保險(xiǎn)業(yè)務(wù)入手了。
保險(xiǎn)行業(yè)數(shù)據(jù)的特征
大家都知道,所謂大數(shù)據(jù),就是具備4V(Volume,Varity,Velocity,和Value)特征的數(shù)據(jù)。下面我們就對照這4V來看看保險(xiǎn)數(shù)據(jù)。
規(guī)模性(Volume)
保險(xiǎn)行業(yè)數(shù)據(jù)的規(guī)模很大,首先是交易數(shù)據(jù)本身的規(guī)模就很大。
2017年全年,壽險(xiǎn)新增保單1.1億件,每天30萬件,每小時(shí)1.3萬件,每秒3.5件。這只是壽險(xiǎn),健康險(xiǎn),意外險(xiǎn),財(cái)產(chǎn)險(xiǎn)這些保單數(shù)量還要比壽險(xiǎn)大很多。
壽險(xiǎn)的保單大,意外險(xiǎn)財(cái)產(chǎn)險(xiǎn)的保單金額小,比如周末旅游買個(gè)短期意外險(xiǎn),幾十塊錢。乘坐交通工具的附加險(xiǎn),幾塊錢。所以保單數(shù)據(jù)時(shí)刻都在大量產(chǎn)生。
保單中的數(shù)據(jù)不僅僅限于交易數(shù)據(jù)本身,不僅僅是辦理業(yè)務(wù)填寫的各種單據(jù)里的數(shù)據(jù)。還有所有用戶行為產(chǎn)生的數(shù)據(jù),比如去一趟門店,什么時(shí)候去的,和保險(xiǎn)代理人進(jìn)行一次訪談,談話中聊到的個(gè)人社會(huì)關(guān)系信息,等等等等。
所以這第一個(gè)V毫無疑問,數(shù)據(jù)規(guī)模足夠大。不過話說回來,我們知道,大數(shù)據(jù)的定義是要大到原有系統(tǒng)不能處理,那保險(xiǎn)的業(yè)務(wù)數(shù)據(jù)已經(jīng)被很好處理了,是不是不算大數(shù)據(jù),不怎么需要大數(shù)據(jù)技術(shù)呢?
不是的,原有的業(yè)務(wù)系統(tǒng)只是產(chǎn)生了數(shù)據(jù),實(shí)現(xiàn)了業(yè)務(wù)流程的信息化,對業(yè)務(wù)本身進(jìn)行了簡單的統(tǒng)計(jì)分析,并沒有分析數(shù)據(jù)本身。
分析的是業(yè)務(wù),不是數(shù)據(jù),這里的重要區(qū)別是,數(shù)據(jù)的可分析維度要比業(yè)務(wù)的可分析維度大得多,非常可以利用大數(shù)據(jù)技術(shù)進(jìn)行分析。
多樣性(Varity)
業(yè)務(wù)數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),都是要錄入到業(yè)務(wù)系統(tǒng)里的,使用關(guān)系數(shù)據(jù)庫保存的結(jié)構(gòu)化數(shù)據(jù)。
對于這些數(shù)據(jù)來說,不存在原有系統(tǒng)處理不了,必須要依賴大數(shù)據(jù)系統(tǒng)的問題,因?yàn)楸緛砭褪窃械臉I(yè)務(wù)系統(tǒng)里產(chǎn)生的,在數(shù)據(jù)倉庫里整理好的,在BI系統(tǒng)里用來分析的數(shù)據(jù)。
但是,在業(yè)務(wù)數(shù)據(jù)之外,有很多在業(yè)務(wù)過程中產(chǎn)生的附加數(shù)據(jù),比如電話銷售保險(xiǎn)時(shí)的語音記錄,比如定損時(shí)的定損員拍攝的現(xiàn)場照片或視頻,這些數(shù)據(jù)在業(yè)務(wù)中產(chǎn)生后,也就是產(chǎn)生了而已,沒有后續(xù)被利用起來進(jìn)行分析。
比如語音記錄,保存下來的作用就只是存檔而已,遇到投訴的時(shí)候,調(diào)出來查一查,沒有別的用處了。不對這些數(shù)據(jù)進(jìn)行分析,非常可惜。
傳統(tǒng)的,線下的業(yè)務(wù),更能產(chǎn)生多樣性的數(shù)據(jù),對于大數(shù)據(jù)科學(xué)家來說是個(gè)大寶藏。
所以這第二個(gè)V,多樣性的數(shù)據(jù),在傳統(tǒng)的保險(xiǎn)行業(yè)中也是一直存在的,很豐富,圖像音頻視頻都有,還都不少。
高速性(Velocity)
前面咱們已經(jīng)討論過產(chǎn)生保單的頻率,但說壽險(xiǎn)是每秒3.5個(gè)保單,這個(gè)數(shù)字看起來還不算產(chǎn)生數(shù)據(jù)的速度快。
咱們看電話銷售,粗略估計(jì)一下,一個(gè)公司壽險(xiǎn)電銷行業(yè)的銷售如果有3萬,每天要打8小時(shí)電話,按照3-5分鐘產(chǎn)生1M音頻文件算,每秒鐘大約300M的音頻。這些音頻數(shù)據(jù)如果不能在產(chǎn)生的時(shí)候就實(shí)時(shí)處理掉,而是積累起來,一天就是24T,后期再想從這些數(shù)據(jù)里去挖掘價(jià)值,就特別困難了。
從某種角度來說,Velocity和Volume有相同的地方,互相補(bǔ)償,高速的數(shù)據(jù)處理不了就會(huì)積攢成大量的數(shù)據(jù)。
不過這只是 Velocity( 高速性)的一個(gè)方面而已,這個(gè)V的另一個(gè)方面是數(shù)據(jù)的實(shí)時(shí)性,就是說如果數(shù)據(jù)當(dāng)時(shí)不處理,放時(shí)間長了就漸漸沒有價(jià)值了。
舉個(gè)例子,保險(xiǎn)是洗錢的渠道之一,往往會(huì)有人通過購買保單來洗錢,如果在保單生成的時(shí)刻就能判斷出投保人的洗錢風(fēng)險(xiǎn),是價(jià)值最高的。
價(jià)值性(Value)
大量的客戶信息,不但有價(jià)值,而且都有價(jià)值到了涉及道德問題的程度了。
最近騰訊的馬總在說數(shù)據(jù)中臺(tái)的事情,說騰訊不是不能做,而是做數(shù)據(jù)整合是很敏感很危險(xiǎn)的事情。
所以我們在挖掘數(shù)據(jù)價(jià)值的時(shí)候,主要擔(dān)心的不是挖掘不出價(jià)值來,而是怎么能安全地挖掘價(jià)值,在保護(hù)用戶隱私的前提下來挖掘價(jià)值。
一般電商會(huì)記錄用戶的購物習(xí)慣,上網(wǎng)行為習(xí)慣,而保險(xiǎn)公司記錄的是,例如用戶生病的記錄,這個(gè)就敏感得多了。
電商上的客戶大部分都是個(gè)人信息,而保險(xiǎn)公司記錄了很多用戶生活中的社交關(guān)系信息,家庭人員關(guān)系,投保被保人關(guān)系,這就更加敏感了。
大數(shù)據(jù)技術(shù)的應(yīng)用
面對這么多數(shù)據(jù),用哪些技術(shù)手段去處理呢?這其實(shí)是三個(gè)問題:
已經(jīng)用了哪些?講這個(gè)話題的時(shí)候也不怕大家笑話,其實(shí)保險(xiǎn)行業(yè)里已經(jīng)用了的大數(shù)據(jù)分析技術(shù)和傳統(tǒng)BI比起來還是很少的。
哪些可以用?其實(shí)是都可以用,看具體在哪些場景里用了,具體的場景咱們后面來聊。
在可以用的技術(shù)中,打算用哪些?實(shí)施策略是什么,先做哪些再做哪些?哪些是最容易落地又最容易得到收益的?我們要權(quán)衡清楚。
數(shù)據(jù)的 采集技術(shù)
數(shù)據(jù)采集技術(shù)最大的作用是豐富了數(shù)據(jù)來來源,和大數(shù)據(jù)分析技術(shù)關(guān)系不大,但是往往是和大數(shù)據(jù)分析平臺(tái)集成在一塊兒,形成特定場景的整體解決方案。
一類采集是 抓取新的數(shù)據(jù) ,比如說抓取日志數(shù)據(jù),使用爬蟲抓取網(wǎng)頁數(shù)據(jù),使用插碼技術(shù)抓取用戶行為數(shù)據(jù)。
在保險(xiǎn)行業(yè)里,爬蟲和插碼都有不少運(yùn)用。爬蟲的一個(gè)實(shí)例是用來做輿情分析,抓取各種新聞?lì)惥W(wǎng)站的文章,添加和自己相關(guān)的各種標(biāo)簽,然后放到一個(gè)存儲(chǔ)里,提供檢索服務(wù)。
這是個(gè)典型的架構(gòu),多個(gè)爬蟲進(jìn)程抓取數(shù)據(jù),扔到消息隊(duì)列,使用流處理技術(shù),storm從消息隊(duì)列中實(shí)時(shí)取數(shù),分析數(shù)據(jù),打標(biāo)簽,然后放到ES庫里。這里面用到了kafka,storm,elastic search。
嚴(yán)格來說,在這個(gè)例子里只有爬蟲抓取網(wǎng)頁是采集,后面的都是分析和存儲(chǔ)了,不過在ES保存的數(shù)據(jù)對于它的消費(fèi)者來說,也只算是爬蟲采集到的數(shù)據(jù)而已。
這些采集的業(yè)務(wù)和技術(shù),和大數(shù)據(jù)的哪幾個(gè)V有關(guān)呢?我覺得主要是對大量數(shù)據(jù)的快速處理,在采集的同時(shí)就做處理,避免積累大量的非結(jié)構(gòu)化或少結(jié)構(gòu)化的數(shù)據(jù)。
* 插碼:我們在瀏覽網(wǎng)頁,例如京東或者淘寶時(shí),一些操作行為、習(xí)慣會(huì)被記錄下來,這些記錄的工具一般是網(wǎng)頁中的一段代碼,這些預(yù)先寫好的代碼被植入已有的系統(tǒng)后,就會(huì)具有相應(yīng)的功能,這個(gè)被稱為“插碼系統(tǒng)”。
另一類的數(shù)據(jù)采集可以算作是 數(shù)據(jù)準(zhǔn)備 ,從不同的來源,包括從業(yè)務(wù)數(shù)據(jù)庫里,數(shù)據(jù)倉庫里,或者直接從業(yè)務(wù)系統(tǒng)里獲取數(shù)據(jù),把這些數(shù)據(jù)集成起來提供給下游的數(shù)據(jù)消費(fèi)者使用——對于數(shù)據(jù)工程師來說,更通俗的說法是“提數(shù)服務(wù)”。
這類采集簡單的做法是直接寫sql,復(fù)雜一些的是開發(fā)很多ETL的,采集、分析、存儲(chǔ)作為一個(gè)整體過程。
準(zhǔn)備好的數(shù)據(jù),放在目標(biāo)數(shù)據(jù)庫里,或者保存為離線文件,下發(fā)給需要使用這些數(shù)據(jù)的人或系統(tǒng)。
數(shù)據(jù)分析中的數(shù)據(jù)準(zhǔn)備和應(yīng)用系統(tǒng)開發(fā)中的數(shù)據(jù)集成不是一個(gè)概念,常用的數(shù)據(jù)集成軟件,例如golden gate,并不適用。因?yàn)檫@里的數(shù)據(jù)集成是數(shù)據(jù)工程師做,給下游數(shù)據(jù)工程師使用,而不是部署一個(gè)數(shù)據(jù)集成的系統(tǒng)。
*數(shù)據(jù)倉庫:和普通數(shù)據(jù)一樣的結(jié)構(gòu)化數(shù)據(jù),把業(yè)務(wù)線重新組織后重新放在另一個(gè)結(jié)構(gòu)化數(shù)據(jù)庫里面,規(guī)整好的新數(shù)據(jù)庫即為數(shù)據(jù)倉庫。
還有一類采集技術(shù)是 把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù) 。
例如文字識別,圖像識別,語音和自然語言識別。這些技術(shù)相對來說比較獨(dú)立,一般是在一個(gè)項(xiàng)目中如果需要的話作為一個(gè)單獨(dú)的模塊引入或者開發(fā)。
舉個(gè)例子,投保單的電子化,大家覺得一張紙質(zhì)的投保單是怎么錄入系統(tǒng)的?
我們在銀行里也有很多類似的經(jīng)歷,手動(dòng)填寫很多表格,怎么電子化的呢?手動(dòng)寫的字那么不清楚,怎么識別出來的呢?智能識別手寫內(nèi)容?——大家想多了,保存影印件,然后人工復(fù)核,甚至是人工錄單,有專門的外包公司會(huì)來做這些工作。
從這里可能看出來,像保險(xiǎn)公司這類的傳統(tǒng)企業(yè),很難對核心系統(tǒng)做大的改動(dòng),新技術(shù)往往都是在外圍進(jìn)行應(yīng)用。
數(shù)據(jù)的存儲(chǔ)技術(shù)
傳統(tǒng)的持久化存儲(chǔ)技術(shù),有傳統(tǒng)的數(shù)據(jù)庫,數(shù)據(jù)倉庫,nosql數(shù)據(jù)庫,在數(shù)據(jù)分析中都要用到。這一系列的技術(shù)比較成熟,應(yīng)用場景也很穩(wěn)定。
還有一種之前不太常用,現(xiàn)在比較常用的是 緩存技術(shù) 。
傳統(tǒng)的報(bào)表系統(tǒng)的實(shí)現(xiàn)方式是什么樣的呢?最底層是基礎(chǔ)數(shù)據(jù),在基礎(chǔ)數(shù)據(jù)的基礎(chǔ)上加工為很多指標(biāo),將不同的指標(biāo)拉到一個(gè)表里,生成報(bào)表。
當(dāng)指標(biāo)不止一層的時(shí)候,一些指標(biāo)是另一些指標(biāo)加工而來的,從最終的報(bào)表到基礎(chǔ)數(shù)據(jù)之間隔著好幾層指標(biāo),每次算報(bào)表的時(shí)候都層層往下去算指標(biāo),開銷太大了,所以中間很多相對穩(wěn)定的指標(biāo)就放在緩存里,以提供給上游的指標(biāo)使用。
數(shù)據(jù)的分析技術(shù)
分析技術(shù)是大頭,也是現(xiàn)在公司里耗費(fèi)人力最多的地方,業(yè)務(wù)需求最集中的地方。先說說傳統(tǒng)的,現(xiàn)在已有的分析方式是什么樣呢?
大家第一反應(yīng)肯定是機(jī)器學(xué)習(xí),但目前企業(yè)里,主要的還是寫SQL,寫一個(gè)不夠就拼好幾個(gè)SQL,不行就寫ETL。
這種模式對BI需求來說,足夠好了了已經(jīng),如果能有什么改進(jìn)的話,引入流失計(jì)算,用規(guī)則引擎替換掉SQL等,到不了需要使用機(jī)器學(xué)習(xí)的程度。
傳統(tǒng)的數(shù)據(jù)分析目的就一個(gè),報(bào)表,清單報(bào)表,統(tǒng)計(jì)報(bào)表。
使用規(guī)則引擎來做分析,也就是說來定義報(bào)表,解決的是數(shù)據(jù)分析邏輯便于開發(fā),便于理解,便于復(fù)用。
看起來比SQL更加友好,完全不懂技術(shù)的業(yè)務(wù)人員也可以操作。但是他解決的只是易用性的問題,功能和傳統(tǒng)SQL比起來不會(huì)更好,甚至不如SQL。
另外一方面對現(xiàn)有分析技術(shù)的改進(jìn),是引入 流式處理的模式 ,處理的不是靜態(tài)保存起來的結(jié)構(gòu)化數(shù)據(jù),而是處理的在一個(gè)數(shù)據(jù)流中的數(shù)據(jù)。
比如使用Storm,通過編寫不同的處理程序來實(shí)時(shí)進(jìn)行數(shù)據(jù)分析。例如前面說的爬蟲系統(tǒng),從互聯(lián)網(wǎng)上抓取的文章,就是實(shí)時(shí)地通過Storm打的標(biāo)簽,然后再放到ES庫里的。
最后,還是要涉及到機(jī)器學(xué)習(xí)。 雖然前面說現(xiàn)在的業(yè)務(wù)模式中并不依賴機(jī)器學(xué)習(xí),但是在對新的領(lǐng)域進(jìn)行分析的時(shí)候,傳統(tǒng)的方式是無法勝任的,還是得求助于新的分析模型,這個(gè)時(shí)候需要使用機(jī)器學(xué)習(xí)技術(shù)。
舉個(gè)例子,公司內(nèi)在做人員畫像分析的時(shí)候,人員的數(shù)據(jù)和崗位的數(shù)據(jù)使用什么樣的方式可以結(jié)合起來?人員的數(shù)據(jù)會(huì)以什么樣的方式影響到他所在崗位的績效?這能不能寫個(gè)sql,編一段規(guī)則,或者寫個(gè)python程序算出來呢?不行,只能借助機(jī)器學(xué)習(xí)了。
公司里在做人員分析的時(shí)候,其實(shí)大量用到機(jī)器學(xué)習(xí)的方法。只是這些分析都是獨(dú)立的,針對特定場景進(jìn)行的一次性分析,沒有能夠集成到現(xiàn)有的應(yīng)用或平臺(tái)中去。
數(shù)據(jù)的展現(xiàn)技術(shù)
主要是數(shù)據(jù)展現(xiàn)相關(guān)的技術(shù),數(shù)據(jù)可視化,多維度展現(xiàn),數(shù)據(jù)展現(xiàn)和數(shù)據(jù)探索結(jié)合。
展示出來的數(shù)據(jù)是數(shù)據(jù)服務(wù)的最終交付物,無論前面怎么采集存儲(chǔ)分析,最終起作用的是呈現(xiàn)出來的部分。所以會(huì)做ppt才是王道。
作為數(shù)據(jù)分析工程師,使用數(shù)據(jù)的部分往往意味著前端展示技術(shù)。傳統(tǒng)的BI系統(tǒng)里的數(shù)據(jù)展示在大數(shù)據(jù)的時(shí)代過時(shí)了嗎?有哪些不同呢?我個(gè)人感覺,就外觀來說,沒什么不同,各種大屏展示,現(xiàn)在流行的說法是駕駛艙。
但是在這樣外觀下,大數(shù)據(jù)的數(shù)據(jù)展示至少有兩點(diǎn)不同:
一是傳統(tǒng)數(shù)據(jù)很多普遍為T+5,好一點(diǎn)的可以實(shí)現(xiàn)T+1,但大數(shù)據(jù)都是展示實(shí)時(shí)數(shù)據(jù);
二是數(shù)據(jù)展示和數(shù)據(jù)探索往往會(huì)結(jié)合在一起。
這兩點(diǎn)要求,傳統(tǒng)的BI系統(tǒng)就不容易實(shí)現(xiàn)了,需要利用到大數(shù)據(jù)平臺(tái)作為支撐,才能提供實(shí)時(shí)的數(shù)據(jù)查詢展示,展示的數(shù)據(jù)可以實(shí)時(shí)下鉆,發(fā)現(xiàn)一個(gè)指標(biāo)的關(guān)聯(lián)指標(biāo)。
保險(xiǎn)大數(shù)據(jù)分析的應(yīng)用場景
就目前保險(xiǎn)行業(yè)而言,就算完全不使用大數(shù)據(jù)技術(shù),對保險(xiǎn)行業(yè)的日常運(yùn)營來說,沒有任何影響,但是如果不使用大數(shù)據(jù)技術(shù),那么對未來的運(yùn)營,一定會(huì)有很大的影響。我們在這一部分,聊一聊保險(xiǎn)行業(yè)里大數(shù)據(jù)分析的應(yīng)用場景。
數(shù)據(jù)的安全合規(guī)
首先第一個(gè)場景,也是最重要的,就是 數(shù)據(jù)的安全合規(guī) 。
這里說的監(jiān)管指的是數(shù)據(jù)上的監(jiān)管,不是經(jīng)營上的監(jiān)管。金融行業(yè)受到嚴(yán)格監(jiān)管,而且這種監(jiān)管的力度是越來越強(qiáng)的。
監(jiān)管的手段隨著技術(shù)的進(jìn)步在不斷推進(jìn),所以金融機(jī)構(gòu)本身也就必須要跟得上才行,一旦落后,就意味著違規(guī)。
最常見的兩類監(jiān)管:
一個(gè)是保監(jiān)會(huì)和行業(yè)協(xié)會(huì)對保單數(shù)據(jù)的監(jiān)管,
二是央行的反洗錢數(shù)據(jù)監(jiān)管。
監(jiān)管的方式是要求保險(xiǎn)公司上報(bào)數(shù)據(jù),按照指定的規(guī)格上報(bào)數(shù)據(jù)。有的是每天上報(bào),有的是不定期的現(xiàn)場檢查。
監(jiān)管機(jī)構(gòu)對數(shù)據(jù)的要求是不會(huì)考慮各個(gè)公司自己數(shù)據(jù)的組織形式的,他們會(huì)定義自己想要的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)內(nèi)容,被監(jiān)管的機(jī)構(gòu)有義務(wù)將自己的數(shù)據(jù)整理成監(jiān)管機(jī)構(gòu)想要的樣子。
一兩年前這其實(shí)也不是太大的問題,開發(fā)一些ETL就足夠滿足需求了。但是,數(shù)據(jù)監(jiān)管的要求更新很快,每年都會(huì)更新,對數(shù)據(jù)需求的范圍和復(fù)雜程度兩方面的增加,對于開發(fā)ETL來說,復(fù)雜度不是線性增長的,而是要增長得更快。
ETL要做的工作,元數(shù)據(jù)管理,數(shù)據(jù)質(zhì)量管理,最好都挪到大數(shù)據(jù)技術(shù)棧上來,不要再依賴傳統(tǒng)的數(shù)據(jù)庫,不依賴開發(fā)SQL和ETL。
應(yīng)對監(jiān)管是被動(dòng)的,從主動(dòng)的方面來說,需要用大數(shù)據(jù)技術(shù)來促進(jìn)業(yè)績提升。最明顯的例子就是客戶分析。
保險(xiǎn)行業(yè)最初是不太經(jīng)營客戶的概念,和銀行業(yè)不太一樣,銀行業(yè)的所有業(yè)務(wù)和核心系統(tǒng)都是圍繞客戶、賬戶來的,而保險(xiǎn)行業(yè)的核心系統(tǒng)都是圍繞保單來的。但是事實(shí)上保險(xiǎn)行業(yè)現(xiàn)在非常需要圍繞客戶來進(jìn)行經(jīng)營。
在沒有大數(shù)據(jù)分析之前,經(jīng)營客戶主要靠代理人通過線下的方式去維護(hù)和調(diào)查,而現(xiàn)在可以對客戶數(shù)據(jù)進(jìn)行整理和分析,例如用戶畫像,客戶360分析,等等。這些都是大數(shù)據(jù)流行用語。
話說回來,我想說的是客戶分析是一個(gè)可以提升業(yè)績的典型場景。目前的保險(xiǎn)代理人和電話銷售,背后都有大數(shù)據(jù)的支持。
開拓新業(yè)務(wù)
另一個(gè)應(yīng)用場景,是 拓展新業(yè)態(tài),規(guī)劃新格局 —— 不是對現(xiàn)有的業(yè)務(wù)進(jìn)行提升,而是大數(shù)據(jù)技術(shù)可以為企業(yè)拓展出新的業(yè)務(wù)。
很多企業(yè)都有這樣的打算,就是把數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)服務(wù),把這種服務(wù)提供出來。
那這是不是賣數(shù)據(jù)呢?大家不要緊張,不是賣數(shù)據(jù)。用戶隱私數(shù)據(jù)是很敏感的,金融行業(yè)對這些數(shù)據(jù)的控制非常嚴(yán)格,也絕對不會(huì)去出售數(shù)據(jù)。 但是出售數(shù)據(jù)服務(wù)是可以的,而且也是大數(shù)據(jù)分析要干的事兒。
舉個(gè)例子,但這不是保險(xiǎn)公司,是銀保監(jiān)會(huì)的保單登記平臺(tái),這個(gè)平臺(tái)的作用是讓所有保險(xiǎn)公司將自己的保單登記進(jìn)來。
各個(gè)保險(xiǎn)公司的保單數(shù)據(jù)在這個(gè)平臺(tái)上就打通了。但是各家的數(shù)據(jù)肯定是不能給其他家看的了,但是保單登記平臺(tái)有了所有的數(shù)據(jù)后,可以基于這些數(shù)據(jù)提供風(fēng)險(xiǎn)提示服務(wù)給各家保險(xiǎn)公司。
比如有人在A保險(xiǎn)公司投保的時(shí)候,A保險(xiǎn)公司就可以查詢一下這個(gè)人是不是在不同的保險(xiǎn)公司重復(fù)投了保,如果是的話,那么承保的風(fēng)險(xiǎn)就比較高。
在準(zhǔn)備這次分享的時(shí)候,我想要能找到一個(gè)保險(xiǎn)公司對外提供數(shù)據(jù)服務(wù)的例子,但是直到
現(xiàn)在都沒有想出來,看來數(shù)據(jù)服務(wù)本身還是比較敏感,服務(wù)模式也不太成熟,大部分停留在對內(nèi)服務(wù)階段,還遠(yuǎn)沒有達(dá)到拓展出公司新業(yè)態(tài)的程度。
技術(shù)與業(yè)務(wù)的有機(jī)結(jié)合
技術(shù)要落地,在業(yè)務(wù)場景里落地,要成為可以交付的產(chǎn)品,要實(shí)際用起來才行。所以最后一部分,和大家聊聊技術(shù)怎么落地,落在什么位置。
無論是不是大數(shù)據(jù)分析系統(tǒng),對于所有的系統(tǒng)來說,我們都希望有一個(gè)敏捷的前臺(tái)、強(qiáng)大的中臺(tái)和穩(wěn)定的后臺(tái)。
前臺(tái) 能夠快速響應(yīng)需求,快速交付價(jià)值,充分利用中臺(tái)的服務(wù),快速托拉拽就生成一個(gè)展示系統(tǒng)。
比如說,中臺(tái)有一套強(qiáng)大的指標(biāo)管理系統(tǒng),提供實(shí)時(shí)查詢服務(wù),那么生成報(bào)表這樣的前臺(tái)應(yīng)用就能迅速創(chuàng)建出來了。
而對 中臺(tái) 的期望呢,是夠強(qiáng)大,對外要能提供出足夠多的服務(wù)來,自己內(nèi)部又要把對后臺(tái)的訪問充分地封裝。
而 后臺(tái) 呢,要穩(wěn)定可靠,不存在任何性能上的瓶頸,能滿足中臺(tái)所有的計(jì)算或者存儲(chǔ)請求。
這是對于單個(gè)系統(tǒng)而言的三個(gè)層級,對于多個(gè)系統(tǒng)來說,我們希望有統(tǒng)一的后臺(tái),統(tǒng)一的中臺(tái),加上多個(gè)靈活的前臺(tái)。
現(xiàn)實(shí)中對系統(tǒng)的建設(shè)是業(yè)務(wù)驅(qū)動(dòng)的,而不是科技驅(qū)動(dòng)的,至少目前還是這樣的狀態(tài)。業(yè)務(wù)驅(qū)動(dòng)的最大問題就在于,對于每一個(gè)業(yè)務(wù)的需求,都是期望通過建設(shè)新的專用的系統(tǒng)來解決問題,這個(gè)系統(tǒng)是專用的,不存在可以和別的業(yè)務(wù)或系統(tǒng)共享的部分。
如果一直維持這樣的狀態(tài),就很難積累出一套可以共享的后臺(tái)和中臺(tái)。 所以對于現(xiàn)狀,我們現(xiàn)在的思路是要能把業(yè)務(wù)驅(qū)動(dòng)變成技術(shù)驅(qū)動(dòng),在每一個(gè)項(xiàng)目的過程中,盡量抽時(shí)間來完善中臺(tái),提供統(tǒng)一的基礎(chǔ)服務(wù)。
中臺(tái)的基礎(chǔ)服務(wù)是和業(yè)務(wù)相關(guān)的,例如數(shù)據(jù)質(zhì)量檢查服務(wù),元數(shù)據(jù)管理服務(wù),工作流服務(wù),規(guī)則引擎服務(wù),等等。 等中臺(tái)漸漸穩(wěn)定后,再考慮后臺(tái)穩(wěn)定的問題。
另一個(gè)有機(jī)結(jié)合的話題是, 技術(shù)和業(yè)務(wù)結(jié)合在一塊兒后,提供出來是系統(tǒng),還是平臺(tái)和服務(wù)?
這其實(shí)在前面的前臺(tái)中臺(tái)后臺(tái)策略是一致的。目前我們都是提供系統(tǒng),不同系統(tǒng)間相互隔離。等打通一部分系統(tǒng)的中臺(tái)后,才能形成平臺(tái)和服務(wù)來。因此一個(gè)重要的衡量標(biāo)準(zhǔn),就是看目前公司的系統(tǒng)更多還是平臺(tái)和服務(wù)更多。
Q1 :什么是數(shù)據(jù)倉庫?當(dāng)前保險(xiǎn)公司使用什么樣的數(shù)據(jù)倉庫?
A1 :在銀行或者保險(xiǎn)公司,一般使用的數(shù)據(jù)倉庫都不是Oracle而是DB2。
按照某種規(guī)則或者某種主題整理好數(shù)據(jù)的數(shù)據(jù)庫,例如用保單的數(shù)據(jù)用用戶的維度來整理并放在數(shù)據(jù)庫內(nèi),即為數(shù)據(jù)倉庫。
Q2 :當(dāng)前保險(xiǎn)行業(yè)用到哪些大數(shù)據(jù)技術(shù)?
A2 :傳統(tǒng)企業(yè)對于數(shù)據(jù)沒有太多自己的觀念,但對此非常重視,所有最前沿的技術(shù)我們都會(huì)使用。
Q3 :面試大數(shù)據(jù)崗位,應(yīng)該如何準(zhǔn)備?
A3 :根據(jù)面試崗位進(jìn)行相對的準(zhǔn)備
大數(shù)據(jù)分析:在hadoop平臺(tái)上實(shí)現(xiàn)各式算法
大數(shù)據(jù)應(yīng)用開發(fā):分布式存儲(chǔ)、kafka等等