|
以下是我對大數據的了解。分析大數據的方法被稱做資料挖掘(我們叫它"資料探勘"(以台灣而言)),主要是從大型資料庫中挖掘有用的資訊,目的計有:關聯、分類、聚類、規則及預測等五大目的,不同目的又可有不同的解決方法,如在分類上較有名的CART決策樹、在預測上有名的類神經網絡等。舉一些不同目的的例子。
關聯分析:如針對超商對顧客購買商品的紀錄,可讓超商了解商品間的關係,如買薯片的客人也常買汽水,故超商可考慮將薯片擺放的位置接近汽水區。
分類:保險公司對投保人的分類。保險公司透過投保戶的資料及投保戶的理賠,以了解不同投保戶的價值。如可能透過決策樹了解到,年齡在20到23歲的男性,擁有年收入10萬美金及開紅色跑車的投保戶,常發生理賠的情形。保險公司可就此要求此類投保戶高一點的保費,甚至拒絕該類型的人投保。
聚類分析:常用於公司對目標市場的區隔,多變量分析內的集群分析也是此類分析的一種方法。透過企業建立的顧客資料,可了解到自家公司的商品常銷售給那一類人,可就此類顧客加強銷售,或在產品開發時專門生產該類型顧客喜好的商品。如生產法拉利跑車的公司,其顧客屬性為有錢且注重品質的消費者,該公司只要針對此類客戶生產產品就好,不必去迎合其他類型的客戶去生產低階的車子。
規則分析:跟分類有點像,找出對象共同的特質但不同程度的資訊,以推測對象的類型。再以企業收集的顧客資料為例。企業可透過顧客資料及顧客抱怨次數了解到在那些特質發生的情況下顧客抱怨次數會變多。如:假如在A區、顧客為50~60歲的年長婦女、業務員為C君時,則該區的顧客抱怨次數會增加。準確率高達90%(以規則而言,分析時常有例外的情況,故會計算準確率)。
預測分析:其實預測就跟您想的一樣,就是透過一些量化的屬性去推測未來。大家熟悉的迴歸分析也是預測方法的一員,但其實在預測分析方法中最有名的應該屬類神經網絡了。但類神經網絡最令人垢病的就是它的黑箱作業(即產生預測的模型無法觀察,其實它根本無法像迴歸一樣建立模型),類神經網絡的基本思想就是模擬人類的大腦思考模式,當然不會有模型產生。例如:您預測明天會不會下雨,您的大腦會產生一組模型幫您預測嗎?如預測明天某支股票會不會漲及漲多少,我可能利用該公司的財報資訊、經濟景氣及該公司所處產業的情況為因變數,透過預測分析的工具,去預測明日股票股價的漲跌。
以上不同方法間其實可替換,但要注意資料的屬性,如分類、規則常用於名義或次序資料,聚類、關聯及預測常用於比例資料。
|