導航:首頁 > 數據處理 > 機器學習數據分析如何指導建模

機器學習數據分析如何指導建模

發布時間:2022-07-10 02:48:36

1. 如何建立數據分析模型

建立數據分析模型的話,這個是通過大數據,然後可以將所有的數據整合到一塊,然後通過這個數據就能夠在msnp中建立一個模型了。

2. 簡單介紹機器學習建模過程

在機器學習中,我們會遇到很多演算法,而這些演算法都是能夠幫助機器學習解決很多問題, 可以說,機器學習是整個人工智慧的核心。當然,機器學習的演算法特徵之一就是模型,那麼大家是否知道機器學習建模的過程是什麼呢?下面我們就給大家介紹一下這個內容。
建模的過程離不開模型的求解,我們假設輸入特徵變數記為X,輸出變數記為Y,他們對應的具體取值分別記為x和y,輸入變數X可以是標量也可以是向量。本系列課程中除非特殊聲明,否則特徵向量都是列向量,因此輸入實例x的列向量可以表示為:x=(x(1),x(1),...,x(i),...,x(n))T。
那麼這個式子是什麼意思呢?其中x(i)表示x的第i個特徵值,因此x是一個具有n個特徵值的特徵向量。注意,我們將會使用另一種表示方法xi表示第i個輸入實例。那麼第i個輸入實例的第k個特徵值就表示為x(k)i。因此,對於具有N個訓練實例的有監督學習的訓練數據集就可以表示為:T={(x1,y1),(x2,y2),...,(xN,yN)}。當我們有了以上的數據表示,那麼對於一個機器學習演算法來說,基本上的提出過程可以總結為四個步驟。
第一就是根據特徵向量的數據分布提出一個合適的模型函數 y=f(x;θ) 來估計參數分布。第二個步驟就是提出一個合適的損失函數 L(x,y) 計算對於訓練數據集上的所有訓練樣本估計的誤差損失大小:L(x,y)=1NN∑i=1L(yi,f(xi))。第三個步驟就是用合適的優化演算法使得損失函數帶有參數的 L(x,y) 的值最小化,即:minf∈F1NN∑i=1L(yi,f(xi))。第四個步驟就是求解最優化上述函數值得到 L(yi,f(xi)) 的最小值,從而得到原函數 y=f(x;θ) 的參數值θ的解:θ=(θ(1),θ(2),...,θ(K))。
在上述的式子中,參數個數K與模型函數 f(x;θ)相關,與特徵向量維數以及數據集個數無關。這樣新的類標未知的樣本x就可以直接輸入到函數f(x)中就可以得到新的預測類標值y。
我們為什麼要重視建模過程呢?其實機器學習演算法要素有四點,分別是特徵、模型、策略和演算法。所以我們一定要對模型給予足夠重視。在這篇文章中我們給大家介紹了關於機器學習建模過程的相關知識,通過對這些知識的介紹,相信大家已經知道了機器學習建模的過程,希望這篇文章能夠幫助大家更好地理解機器學習。

3. 數據分析建模步驟有哪些

1、分類和聚類


分類演算法是極其常用的數據挖掘方法之一,其核心思想是找出目標數據項的共同特徵,並按照分類規則將數據項劃分為不同的類別。聚類演算法則是把一組數據按照相似性和差異性分為若干類別,使得同一類別數據間的相似性盡可能大,不同類別數據的相似性盡可能小。分類和聚類的目的都是將數據項進行歸類,但二者具有顯著的區別。分類是有監督的學習,即這些類別是已知的,通過對已知分類的數據進行訓練和學習,找到這些不同類的特徵,再對未分類的數據進行分類。而聚類則是無監督的學習,不需要對數據進行訓練和學習。常見的分類演算法有決策樹分類演算法、貝葉斯分類演算法等;聚類演算法則包括系統聚類,K-means均值聚類等。


2、回歸分析


回歸分析是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法,其主要研究的問題包括數據序列的趨勢特徵、數據序列的預測以及數據間的相關關系等。按照模型自變數的多少,回歸演算法可以分為一元回歸分析和多元回歸分析;按照自變數和因變數間的關系,又可分為線性回歸和非線性回歸分析。


3、神經網路


神經網路演算法是在現代神經生物學研究的基礎上發展起來的一種模擬人腦信息處理機制的網路系統,不但具備一般計算能力,還具有處理知識的思維、學習和記憶能力。它是一種基於導師的學習演算法,可以模擬復雜系統的輸入和輸出,同時具有非常強的非線性映射能力。基於神經網路的挖掘過程由數據准備、規則提取、規則應用和預測評估四個階段組成,在數據挖掘中,經常利用神經網路演算法進行預測工作。


4、關聯分析


關聯分析是在交易數據、關系數據或其他信息載體中,查找存在於項目集合或對象集合之間的關聯、相關性或因果結構,即描述資料庫中不同數據項之間所存在關系的規則。例如,一項數據發生變化,另一項也跟隨發生變化,則這兩個數據項之間可能存在某種關聯。關聯分析是一個很有用的數據挖掘模型,能夠幫助企業輸出很多有用的產品組合推薦、優惠促銷組合,能夠找到的潛在客戶,真正的把數據挖掘落到實處。4市場營銷大數據挖掘在精準營銷領域的應用可分為兩大類,包括離線應用和在線應用。其中,離線應用主要是基於客戶畫像進行數據挖掘,進行不同目的針對性營銷活動,包括潛在客戶挖掘、流失客戶挽留、制定精細化營銷媒介等。而在線應用則是基於實時數據挖掘結果,進行精準化的廣告推送和市場營銷,具體包括DMP,DSP和程序化購買等應用。

4. 機器學習如何訓練最終模型

機器學習之所以叫「學習」,其中的奧秘就是要像人一樣擁有學習能力,我們從小的幼兒園、小學、初中,高中,大學,博士,都是在接受「訓練數據」,通過教育我們就擁有了一些行業知識和能力(機器學習叫「模型」),就有了價值了。理論上來說,數據是越多越好的,簡單的理解成小學和博士的差別。

5. 如何做好數據分析

數據分析有:分類分析,矩陣分析,漏斗分析,相關分析,邏輯樹分析,趨勢分析,行為軌跡分析,等等。 我用HR的工作來舉例,說明上面這些分析要怎麼做,才能得出洞見。

01) 分類分析
比如分成不同部門、不同崗位層級、不同年齡段,來分析人才流失率。比如發現某個部門流失率特別高,那麼就可以去分析。

02) 矩陣分析
比如公司有價值觀和能力的考核,那麼可以把考核結果做出矩陣圖,能力強價值匹配的員工、能力強價值不匹配的員工、能力弱價值匹配的員工、能力弱價值不匹配的員工各佔多少比例,從而發現公司的人才健康度。

03) 漏斗分析
比如記錄招聘數據,投遞簡歷、通過初篩、通過一面、通過二面、通過終面、接下Offer、成功入職、通過試用期,這就是一個完整的招聘漏斗,從數據中,可以看到哪個環節還可以優化。

04) 相關分析
比如公司各個分店的人才流失率差異較大,那麼可以把各個分店的員工流失率,跟分店的一些特性(地理位置、薪酬水平、福利水平、員工年齡、管理人員年齡等)要素進行相關性分析,找到最能夠挽留員工的關鍵因素。

05) 邏輯樹分析
比如近期發現員工的滿意度有所降低,那麼就進行拆解,滿意度跟薪酬、福利、職業發展、工作氛圍有關,然後薪酬分為基本薪資和獎金,這樣層層拆解,找出滿意度各個影響因素裡面的變化因素,從而得出洞見。

06) 趨勢分析
比如人才流失率過去12個月的變化趨勢。

07)行為軌跡分析
比如跟蹤一個銷售人員的行為軌跡,從入職、到開始產生業績、到業績快速增長、到疲憊期、到逐漸穩定。

6. 簡述不少於三種大數據分析的建模方法

摘要 一、數據模型

7. 關於機器學習應用不得不思考哪些問題

機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用數據,訓練出模型,然後使用模型預測的一種方法。

讓我們具體看一個例子。

圖4房價的例子

拿國民話題的房子來說。現在我手裡有一棟房子需要售賣,我應該給它標上多大的價格?房子的面積是100平方米,價格是100萬,120萬,還是140萬?

很顯然,我希望獲得房價與面積的某種規律。那麼我該如何獲得這個規律?用報紙上的房價平均數據么?還是參考別人面積相似的?無論哪種,似乎都並不是太靠譜。

我現在希望獲得一個合理的,並且能夠最大程度的反映面積與房價關系的規律。於是我調查了周邊與我房型類似的一些房子,獲得一組數據。這組數據中包含了大大小小房子的面積與價格,如果我能從這組數據中找出面積與價格的規律,那麼我就可以得出房子的價格。

對規律的尋找很簡單,擬合出一條直線,讓它「穿過」所有的點,並且與各個點的距離盡可能的小。

通過這條直線,我獲得了一個能夠最佳反映房價與面積規律的規律。這條直線同時也是一個下式所表明的函數:房價=面積*a+b

上述中的a、b都是直線的參數。獲得這些參數以後,我就可以計算出房子的價格。

假設a=0.75,b=50,則房價=100*0.75+50=125萬。這個結果與我前面所列的100萬,120萬,140萬都不一樣。由於這條直線綜合考慮了大部分的情況,因此從「統計」意義上來說,這是一個最合理的預測。

在求解過程中透露出了兩個信息:

1.房價模型是根據擬合的函數類型決定的。如果是直線,那麼擬合出的就是直線方程。如果是其他類型的線,例如拋物線,那麼擬合出的就是拋物線方程。機器學習有眾多演算法,一些強力演算法可以擬合出復雜的非線性模型,用來反映一些不是直線所能表達的情況。

2.如果我的數據越多,我的模型就越能夠考慮到越多的情況,由此對於新情況的預測效果可能就越好。這是機器學習界「數據為王」思想的一個體現。一般來說(不是絕對),數據越多,最後機器學習生成的模型預測的效果越好。

通過我擬合直線的過程,我們可以對機器學習過程做一個完整的回顧。首先,我們需要在計算機中存儲歷史的數據。接著,我們將這些數據通過機器學習演算法進行處理,這個過程在機器學習中叫做「訓練」,處理的結果可以被我們用來對新的數據進行預測,這個結果一般稱之為「模型」。對新數據的預測過程在機器學習中叫做「預測」。「訓練」與「預測」是機器學習的兩個過程,「模型」則是過程的中間輸出結果,「訓練」產生「模型」,「模型」指導「預測」。

8. 機器學習中,怎樣分析數據結構來選擇演算法

在模型選擇方面,本身來說,個人覺得並沒有一種很確定的指導方式,更多的是從你數據的應用角度去考慮問題,然後才是你對數據的理解。

應用角度的問題就是你對模型的要求,如果你的要求是模型盡量是可解釋的,那麼選擇估計就只有決策樹,邏輯回歸等等這種簡單的模型。
數據的角度:這個角度其實更多的是從獲取某種先驗知識或者基於某種假設等等,然後你去選擇模型;
比如我有一個數據,我知道y-x>0則為1類,y-x<0則為0類別,這個是假設我知道的情況下,你會怎麼取選擇分類器呢,很明顯,直接用線性回歸就應該做的不錯,或許和你之後的會有點小偏差,但是就是應該不錯,那麼此時你會發現SVM的線性核應該可以是可以的,你的思路就會發現,其實基本上所有的線性分類器在這樣的數據集合上都應該不錯的;
然而你考慮一下Decision Tree,你會發現他做的不是很好,但是最差最差也能夠得到75%(假設我就分一次,x>0和x<0),這個時候你怎麼評估這個問題的好與壞呢,如果是賭場,這個效果是很好了,但是如果是指紋的識別,這個就不好了;再深入的考慮下去,你可能會否定Decision Tree,但是,其實這個問題,如果是用 Random Forest去做,他又會做的很好,因為在不斷的選取數據中,他會不斷的得到新的劃分點。
你也可以從wikipedia(Random forest)的介紹中感覺到,RF是可以做好的,因為他相當於是帶權的KNN;
所以我覺得在實際應用中,從簡單模型開始嘗試,或許會有新的對數據的認識,從而使你得到一些沒有的信息,如上述的問題中,你從linear regression就很容易發現這個效果,但是你如果一來就是NN或者SVM,或許你就發現不了這種關系了;
當然,如果你是為了快速的做出一個好的結果,那一來就嘗試復雜模型總會是稍微好點的,理由也是很簡單的,因為復雜模型的VC維比較高,當然就能解決更多的問題。

9. 機器學習模型設計五要素

機器學習模型設計五要素
數據可能沒什麼用,但是數據中包含的信息有用,能夠減少不確定性,數據中信息量決定了演算法能達到的上限。
數據環節是整個模型搭建過程中工作量最大的地方,從埋點,日誌上報,清洗,存儲到特徵工程,用戶畫像,物品畫像,都是些搬磚的工作也被認為最沒有含金量同時也是最重要的地方。這塊跟要解決的問題,所選的模型有很大關系,需要具體問題具體分析,以個性化為例講講特徵工程中的信息損失:
我們搭模型的目的是預測未來 -「以往鑒來,未卜先知 」,進一步要預測每個人的未來,實時預測每個人的未來。要想做好這件事情,對過去、對用戶、對物品越了解越好,首先需要採集用戶的行為(什麼人在什麼時間什麼地點以什麼方式對什麼東西做了什麼事情做到什麼程度 ),然後進行歸因找到影響用戶點擊的因素,構建用戶興趣圖譜,最後在此基礎上去做預測。
這個過程中,每個環節都會有信息損失,有些是因為採集不到,比如用戶當時所處的環境,心情等等;有些是採集得到但是暫時沒有辦法用起來,比如電商領域用戶直接感知到是一張圖片,點或不點很大程度上取決於這張圖片,深度學習火之前這部分信息很難利用起來;還有些是採集得到,也用的起來,但是因為加工手段造成的損失,比如時間窗口取多久,特徵離散成幾段等等。
起步階段,先搞「量」再搞「率」應該是出效果最快的方式。
#2 f(x)
f(x)的設計主要圍繞參數量和結構兩個方向做創新,這兩個參數決定了演算法的學習能力,從數據裡面挖掘信息的能力(信息利用率),類比到人身上就是「天賦」、「潛質」類的東西,衡量這個模型有多「聰明」。相應地,上面的{x,y}就是你經歷了多少事情,經歷越多+越聰明就能悟出越多的道理。
模型復雜度-VC維
參數量表示模型復雜度,一般用VC維衡量。VC維越大,模型就越復雜,學習能力就越強。在數據量比較小的時候,高 VC 維的模型比低 VC 維的模型效果要差,但這只是故事的一部分;有了更多數據以後,就會發現低 VC 維模型效果再也漲不上去了,但高的 VC 維模型還在不斷上升。這時候高VC維模型可以對低VC維模型說:你考90分是因為你的實力在那裡,我考100分是因為卷面只有100分。
當然VC維並不是越高越好,要和問題復雜度匹配:
-- 如果模型設計的比實際簡單,模型表達能力不夠,產生 high bias;
-- 如果模型設計的比實際復雜,模型容易over-fit,產生 high variance;而且模型越復雜,需要的樣本量越大,DL動輒上億樣本
模型結構
模型結構要解決的是把參數以哪種方式結合起來,可以搞成「平面的」,「立體的」,甚至還可以加上「時間軸」。不同的模型結構有自身獨特的性質,能夠捕捉到數據中不同的模式,我們看看三種典型的:
LR:
只能學到線性信息,靠人工特徵工程來提高非線性擬合能力
MLR:
與lr相比表達能力更強,lr不管什麼用戶什麼物品全部共用一套參數,mlr可以做到每個分片擁有自己的參數:
-- 男生跟女生行為模式不一樣,那就訓練兩個模型,男生一個女生一個,不共享參數
-- 服裝行業跟3C行業規律不一樣,那就訓練兩個模型,服裝 一個3C一個,不共享參數
沿著這條路走到盡頭可以給每個人訓練一個模型,這才是真正的「個性化」!
FM:
自動做特徵交叉,挖掘非線性信息
DL:
能夠以任意精度逼近任意連續函數,意思就是「都在裡面了,需要啥你自己找吧」,不想花心思做假設推公式的時候就找它。
#3 objective
目標函數,做事之前先定一個小目標,它決定了接下來我們往哪個方向走。總的來說,既要好又要簡單;已有很多標准方法可以選,可創新的空間不大,不過自己搞一個損失函數聽起來也不錯,坐等大牛。
損失函數:rmse/logloss/hinge/...懲罰項:L1/L2/L21/dropout/weight decay/...
P(model|data) = P(data|model) * P(model)/P(data) —> log(d|m) + log(m)

#4 optimization
目標有了,模型設計的足夠聰明了,不學習或者學習方法不對,又是一個「傷仲永」式的悲劇。 這里要解決的問題是如何更快更好的學習。拋開貝葉斯派的方法,大致分為兩類:
達爾文式
啟發式演算法,仿達爾文進化論,通過適應度函數進行「物競天擇,適者生存」式優化,比較有代表性的:遺傳演算法GA,粒子群演算法PSO,蟻群演算法AA;適合解決復雜,指數規模,高維度,大空間等特徵問題,如物流路經問題;問題是比較收斂慢,工業界很少用。
拉馬克式
拉馬克進化論,獲得性遺傳,直接修改基因(w);比較有代表性的分兩類:
-- sgd variants(sgd/Nesterov/Adagrad/RMSprop/Adam/...)
-- newton variants(newton/lbfgs/...)
#5 evaluation
怎麼才算一個好的模型並沒有統一標准,一個模型部署上線或多或少的都會牽扯到多方利益。以個性化場景為例,就牽扯到用戶,供應商/內容生產方以及產品運營三者的博弈。總的來說,一個「三好模型」要滿足以下三個層面:
演算法層面:准確率,覆蓋率,auc,logloss...公司層面:revenue,ctr,cvr...用戶層面:用戶體驗,滿意度,驚喜度...
#0 模型調優思路
拆解之後,模型調優的思路也很清晰了:

想長胖,首先要有東西吃;其次要能吃,啥都能吃不挑食;最後消化要好
用一條公式來概括:模型效果 ∝ 數據信息量 x 演算法信息利用率
一方面,擴充「信息量」,用戶畫像和物品畫像要做好,把圖片/文本這類不好量化處理的數據利用起來;另一方面,改進f(x)提高「信息利用率」,挖到之前挖不到的規律;
不過在大數據的初級階段,效果主要來自於第一方面吧。

10. 全面教你如何建立數據分析的思維框架

全面教你如何建立數據分析的思維框架
目前,還有一些人不會建立數據分析的思維框架,那麼今天課課家,就一步一步的教大家怎麼建立,大神路過還請繞道,當然還可以交流一下。有需要的小夥伴,可以參考一下。
曾經有人問過我,什麼是數據分析思維?如果分析思維是一種結構化的體現,那麼數據分析思維在它的基礎上再加一個准則:
不是我覺得,而是數據證明。
這是一道分水嶺,「我覺得」是一種直覺化經驗化的思維,工作不可能處處依賴自己的直覺,公司發展更不可能依賴於此。數據證明則是數據分析的最直接體現,它依託於數據導向型的思維,而不是技巧,前者是指導,後者只是應用。
作為個人,應該如何建立數據分析思維呢?
一、建立你的指標體系
在我們談論指標之前,先將時間倒推幾十年,現代管理學之父彼得·德魯克說過一句很經典的話:
如果你不能衡量它,那麼你就不能有效增長它。
所謂衡量,就是需要統一標准來定義和評價業務。這個標准就是指標。假設隔壁老王開了一家水果鋪子,你問他每天生意怎麼樣,他可以回答賣的不錯,很好,最近不景氣。這些都是很虛的詞,因為他認為賣的不錯也許是賣了50個,而你認為的賣的不錯,是賣了100。
這就是「我覺得」造成的認知陷阱。將案例放到公司時,會遇到更多的問題:若有一位運營和你說,產品表現不錯,因為每天都有很多人評價和稱贊,還給你看了幾個截圖。而另外一位運營說,產品有些問題,推的活動商品賣的不好,你應該相信誰呢?
其實誰都很難相信,這些眾口異詞的判斷都是因為缺乏數據分析思維造成的。
老王想要描述生意,他應該使用銷量,這就是他的指標,互聯網想要描述產品,也應該使用活躍率、使用率、轉化率等指標。
如果你不能用指標描述業務,那麼你就不能有效增長它。
了解和使用指標是數據分析思維的第一步,接下來你需要建立指標體系,孤立的指標發揮不出數據的價值。和分析思維一樣,指標也能結構化,也應該用結構化。
我們看一下互聯網的產品,一個用戶從開始使用到離開,都會經歷這些環節步驟。電商app還是內容平台,都是雷同的。想一想,你會需要用到哪些指標?
而下面這張圖,解釋了什麼是指標化,這就是有無數據分析思維的差異,也是典型的數據化運營,有空可以再深入講這塊。
標體系沒有放之四海而皆準的模板,不同業務形態有不同的指標體系。移動APP和網站不一樣,SaaS和電子商務不一樣,低頻消費和高頻消費不一樣。好比一款婚慶相關的APP,不需要考慮復購率指標;互聯網金融,必須要風控指標;電子商務,賣家和買家的指標各不一樣。
這些需要不同行業經驗和業務知識去學習掌握,那有沒有通用的技巧和注意事項呢?
二、明確好指標與壞指標
不是所有的指標都是好的。這是初出茅廬者常犯的錯誤。我們繼續回到老王的水果鋪子,來思考一下,銷量這個指標究竟是不是好的?
最近物價上漲,老王順應調高了水果價格,又不敢漲的提高,雖然水果銷量沒有大變化,但老王發現一個月下來沒賺多少,私房錢都不夠存。
老王這個月的各類水果銷量有2000,但最後還是虧本了,仔細研究後發現,雖然銷量高,但是水果庫存也高,每個月都有幾百單位的水果滯銷最後過期虧本。
這兩個例子都能說明只看銷量是一件多不靠譜的事情。銷量是一個衡量指標,但不是好指標。老王這種個體經營戶,應該以水果鋪子的利潤為核心要素。
好指標應該是核心驅動指標。雖然指標很重要,但是有些指標需要更重要。就像銷量和利潤,用戶數和活躍用戶數,後者都比前者重要。
核心指標不只是寫在周報的數字,而是整個運營團隊、產品團隊乃至研發團隊都統一努力的目標。
核心驅動指標和公司發展關聯,是公司在一個階段內的重點方向。記住是一個階段,不同時期的核心驅動指標不一樣。不同業務的核心驅動指標也不一樣。
互聯網公司常見的核心指標是用戶數和活躍率,用戶數代表市場的體量和佔有,活躍率代表產品的健康度,但這是發展階段的核心指標。在產品1.0期間,我們應把注意力放到打磨產品上,在大推廣前提高產品質量,這時留存率是一個核心指標。而在有一定用戶基數的產品後期,商業化比活躍重要,我們會關注錢相關的指標,比如廣告點擊率、利潤率等。
核心驅動指標一般是公司整體的目標,若從個人的崗位職責看,也可以找到自己的核心指標。比如內容運營可以關注閱讀數和閱讀時長。
核心驅動指標一定能給公司和個人帶來最大優勢和利益,記得二八法則么?20%的指標一定能帶來80%的效果,這20%的指標就是核心。
另外一方面,好的指標還有一個特性,它應該是比率或者比例。
拿活躍用戶數說明就懂了,我們活躍用戶有10萬,這能說明什麼呢?這說明不了什麼。如果產品本身有千萬級別的注冊用戶,那麼10萬用戶說明非常不健康,產品在衰退期。如果產品只擁有四五十萬用戶,那麼說明產品的粘性很高。
正因為單純的活躍用戶數沒有多大意義,所以運營和產品會更關注活躍率。這個指標就是一個比率,將活躍用戶數除以總用戶數所得。所以在設立指標時,我們都盡量想它能不能是比率。
認識和看待事物
這類常見的提問方式包括了一個知名人物或歷史事件如何評價?如何看待一個產品?你對某個事物是如何理解的?如何看待或分析一種行為或熱點等?
對於看待或分析事物類的思維,則是我們前面一篇思維的邏輯裡面講到的很多內容,即事物本身應該結合外部環境+時間線+事物核心維度進行全面的分析,事物的外在交互關系,事物的內部結構和銜接,事物本身動態展現的行為特徵等。這些首先分析清楚,即對事物本身有一個全面和客觀的認識。
這類思維的一個核心即辯證思維,在這里我不太喜歡用批評性思維這個詞,辯證思i維更加體現了這類思維的重點是全面,客觀,以數據說話同時減少主觀偏頗看法。對於這類問題你不一定要去表面自己的主觀感受,而更加重要的是把事實和道理講清楚,有理有據。
在真正分析清楚後,後續才過渡到這類問題的演進,即如何評估或評價一個事物,其前提仍然是分析清楚客觀數據,但是數據本身不是評價或評估指標,因此一談到評估自然會想到需要建立或參考一個評估體系。一個歷史帝王有政治,經濟,外交,軍事和民生各種評價體系。對一輛車可能有動力,舒適性,油耗,操控等各種評價體系。一個產品本身有功能滿足度,易用性,性能,價格等各種評價體系等。對於任何評估,則首先是找到現成可用的科學評價體系,然後將對事物分析後的數據映射到具體的評價體繫上,即任何評估指標值的得出一定有事物本身內在數據和運作機制進行支撐的。
這些都想清楚後,即這類思維的重點是事物的分解和集成分析,事物的行為或活動分析,事物相關的內外環境因素分析,事物本身的關鍵屬性維度分析和評估體系確定,事物各關鍵指標特性間的相互制約和促進力分析(類似系統思維中的正負循環)等。
壞指標有哪些呢?
其一是虛榮指標,它沒有任何的實際意義。
產品在應用商店有幾十萬的曝光量,有意義嗎?沒有,我需要的是實際下載。下載了意義大嗎?也不大,我希望用戶注冊成功。曝光量和下載量都是虛榮指標,只是虛榮程度不一樣。
新媒體都追求微信公眾號閱讀數,如果靠閱讀數做廣告,那麼閱讀數有意義,如果靠圖文賣商品,那麼更應該關注轉化率和商品銷量,畢竟一個誇張的標題就能帶來很高的閱讀量,此時的閱讀量是虛榮指標。可惜很多老闆還是孜孜不倦的追求10W+,哪怕刷量。
虛榮指標是沒有意義的指標,往往它會很好看,能夠粉飾運營和產品的工作績效,但我們要避免使用。
第二個壞指標是後驗性指標,它往往只能反應已經發生的事情。
比如我有一個流失用戶的定義:三個月沒有打開APP就算做流失。那麼運營每天統計的流失用戶數,都是很久沒有打開過的,以時效性看,已經發生很久了,也很難通過措施挽回。我知道曾經因為某個不好的運營手段傷害了用戶,可是還有用嗎?
活動運營的ROI(投資回報率)也是後驗性指標,一個活動付出成本後才能知道其收益。可是成本已經支出,活動的好與壞也註定了。活動周期長,還能有調整餘地。活動短期的話,這指標只能用作復盤,但不能驅動業務。
第三個壞指標是復雜性指標,它將數據分析陷於一堆指標造成的陷阱中。
指標能細分和拆解,比如活躍率可以細分成日活躍率、周活躍率、月活躍率、老用戶活躍率等。數據分析應該根據具體的情況選擇指標,如果是天氣類工具,可以選擇日活躍率,如果是社交APP,可以選擇周活躍率,更低頻的產品則是月活躍率。
每個產品都有適合它的幾個指標,不要一股腦的裝一堆指標上去,當你准備了二三十個指標用於分析,會發現無從下手。
三、建立正確的指標結構
既然指標太多太復雜不好,那麼應該如何正確的選擇指標呢?
和分析思維的金字塔結構一樣,指標也有固有結構,呈現樹狀。指標結構的構建核心是以業務流程為思路,以結構為導向。
假設你是內容運營,需要對現有的業務做一個分析,提高內容相關數據,你會怎麼做呢?
我們把金字塔思維轉換一下,就成了數據分析方法了。
從內容運營的流程開始,它是:內容收集—內容編輯發布—用戶瀏覽—用戶點擊—用戶閱讀—用戶評論或轉發—繼續下一篇瀏覽。
這是一個標準的流程,每個流程都有指標可以建立。內容收集可以建立熱點指數,看哪一篇內容比較火。用戶瀏覽用戶點擊則是標準的PV和UV統計,用戶閱讀是閱讀時長。
從流程的角度搭建指標框架,可以全面的囊括用戶相關數據,無有遺漏。
這套框架列舉的指標,依舊要遵循指標原則:需要有核心驅動指標。移除虛榮指標,適當的進行刪減,不要為添加指標而添加指標。
四、了解維度分析法
當你有了指標,可以著手進行分析,數據分析大體可以分三類:
利用維度分析數據
使用統計學知識如數據分布假設檢驗
使用機器學習
我們先了解一下維度分析法。
維度是描述對象的參數,在具體分析中,我們可以把它認為是分析事物的角度。銷量是一種角度、活躍率是一種角度,時間也是一種角度,所以它們都能算維度。
當我們有了維度後,就能夠通過不同的維度組合,形成數據模型。數據模型不是一個高深的概念,它就是一個數據立方體。
上圖就是三個維度組成的數據模型/數據立方體。分別是產品類型、時間、地區。我們既能獲得電子產品在上海地區的2010二季度的銷量,也能知道書籍在江蘇地區的2010一季度銷量。
數據模型將復雜的數據以結構化的形式有序的組織起來。我們之前談到的指標,都可以作為維度使用。下面是範例:
將用戶類型、活躍度、時間三個維度組合,觀察不同用戶群體在產品上的使用情況,是否A群體使用的時長更明顯?
將商品類型、訂單金額、地區三個維度組合,觀察不同地區的不同商品是否存在銷量差異?
數據模型可以從不同的角度和層面來觀察數據,這樣提高了分析的靈活性,滿足不同的分析需求、這個過程叫做OLAP(聯機分析處理)。當然它涉及到更復雜的數據建模和數據倉庫等,我們不用詳細知道。
數據模型還有幾種常見的技巧、叫做鑽取、上卷、切片。
選取就是將維度繼續細分。比如浙江省細分成杭州市、溫州市、寧波市等,2010年一季度變成1月、2月、3月。上卷則是鑽取的相反概念,將維度聚合,比如浙江、上海、江蘇聚合成浙江滬維度。切片是選中特定的維度,比如只選上海維度、或者只選2010年一季度維度。因為數據立方體是多維的,但我們觀察和比較數據只能在二維、即表格中進行。
上圖的樹狀結構代表鑽取(source和time的細分),然後通過對Route的air切片獲得具體數據。
聰明的你可能已經想到,我們常用的數據透視表就是一種維度分析,將需要分析的維度放到行列組合進行求和、計數、平均值等計算。放一張曾經用到的案例圖片:用城市維度和工作年限維度,計算平均工資。
除了Excel、BI、R、Python都能用維度分析法。BI是相對最簡便的。
談到維度法,想要強調的是分析的核心思維之一:對比,不同維度的對比,這大概是對新人快速提高的最佳捷徑之一。比如過去和現在的時間趨勢對比,比如不同地區維度的對比,比如產品類型的區別對比,比如不同用戶的群體對比。單一的數據沒有分析意義,只有多個數據組合才能發揮出數據的最大價值。
我想要分析公司的利潤,利潤 = 銷售額 – 成本。那麼找出銷售額涉及的指標/維度,比如產品類型、地區、用戶群體等,通過不斷的組合和拆解,找出有問題或者表現良好的原因。成本也是同理。
這就是正確的數據分析思維。總結一下吧:我們通過業務建立和篩選出指標,將指標作為維度,利用維度進行分析。
很多人會問,指標和維度有什麼區別?
維度是說明和觀察事物的角度,指標是衡量數據的標准。維度是一個更大的范圍,不只是數據,比如時間維度和城市維度,我們就無法用指標表示,而指標(留存率、跳出率、瀏覽時間等)卻可以成為維度。通俗理解:維度>指標。
到這里,大家已經有一個數據分析的思維框架了。之所以是框架,因為還缺少具體的技巧,比如如何驗證某一個維度是影響數據的關鍵,比如如何用機器學習提高業務,這些涉及到數據和統計學知識,以後再講解。
這里我想強調,數據分析並不是一個結果,只是過程。還記得「如果你不能衡量它,那麼你就不能有效增長它」這句話嗎?數據分析的最終目的就是增長業務。如果數據分析需要績效指標,一定不會是分析的對錯,而是最終數據提升的結果。
數據分析是需要反饋的,當我分析出某項要素左右業務結果,那麼就去驗證它。告訴運營和產品人員,看看改進後的數據怎麼樣,一切以結果為准。如果結果並沒有改善,那麼就應該反思分析過程了。
這也是數據分析的要素,結果作導向。分析若只是當一份報告呈現上去,後續沒有任何跟進、改進的措施,那麼數據分析等與零。
業務指導數據,數據驅動業務。這才是不二法門。

閱讀全文

與機器學習數據分析如何指導建模相關的資料

熱點內容
成都紋綉用品市場在哪裡 瀏覽:662
南京貢眉怎麼代理 瀏覽:877
學校論文數據資料庫在哪裡下載 瀏覽:373
代理什麼生意賺錢快見效 瀏覽:102
如何更改qq信息所在地 瀏覽:238
雲保險代理怎麼做 瀏覽:740
鎮平代理記賬哪裡有 瀏覽:527
交易中心進不去怎麼辦 瀏覽:569
乙二醇代理費多少 瀏覽:103
ipfs交易所推薦碼有哪些 瀏覽:280
極光新聞在哪裡填寫人員信息 瀏覽:227
代理手機卡是什麼意思 瀏覽:159
生日宴程序怎麼安排親戚朋友 瀏覽:33
市場上說的真鑽是什麼鑽 瀏覽:80
plc不亮了如何復製程序 瀏覽:355
德州文玩市場在哪裡 瀏覽:260
什麼數據適合關聯規則分類 瀏覽:226
ems郵寄信息平台保存多久 瀏覽:5
股票市場行情哪個好 瀏覽:397
重慶皇田花卉市場在什麼地方 瀏覽:51