一、描述性統計
描述性統計是一類統計方法的匯總,揭示了數據分布特性。它主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布以及一些基本的統計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態(tài)性檢驗:很多統計方法都要求數值服從或近似服從正態(tài)分布,所以在做數據分析之前需要進行正態(tài)性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、回歸分析
回歸分析是應用極其廣泛的數據分析方法之一。它基于觀測數據建立變量間適當的依賴關系,以分析數據內在規(guī)律。
1. 一元線性分析
只有一個自變量X與因變量Y有關,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個自變量X與因變量Y的關系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權回歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關系。
2. 多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變量的關系,同時考慮多個影響因素之間的關系
3. 多因素無交互方差分析:分析多個影響因素與響應變量的關系,但是影響因素之間沒有影響關系或忽略影響關系
4. 協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協方差分析主要是在排除了協變量的影響后再對修正后的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法。
四、假設檢驗
1. 參數檢驗
參數檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗 。
2. 非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態(tài))進行檢驗。
適用情況:順序類型的數據資料,這類數據的分布形態(tài)一般是未知的。
1)雖然是連續(xù)數據,但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數據也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
借助工具,未至科技魔方是一款大數據模型平臺,是一款基于服務總線與分布式云計算兩大技術架構的一款數據分析、挖掘的工具平臺,其采用分布式文件系統對數據進行存儲,支持海量數據的處理。
采用多種的數據采集技術,支持結構化數據及非結構化數據的采集。通過圖形化的模型搭建工具,支持流程化的模型配置。
通過第三方插件技術,很容易將其他工具及服務集成到平臺中去。數據分析研判平臺就是海量信息的采集,數據模型的搭建,數據的挖掘、分析最后形成知識服務于實戰(zhàn)、服務于決策的過程,平臺主要包括數據采集部分,模型配置部分,模型執(zhí)行部分及成果展示部分等。
數據分析落實到實處,一般就是圍繞用戶漏斗展開的。也就是人們常說的訪問-激活-留存-交易-推薦。
這核心的5步會有不同維度的細分。
獲客:來源、渠道、關鍵字、著陸頁、地域、設備、訪問時間、跳出率、訪問深度、停留時間、新客量等等;
激活:DAU(日活躍用戶)、MAU(月活躍用戶)
留存:日留存率、周留存率、月留存率
交易:訂單量、訂單金額、LTV
推薦:是否傳播(k>1)
需要獲取以上數據,可以通過ptengine通過漏斗細分得到可視化圖表。一般來講,同比(本周和上周)、環(huán)比(本月第一周和上月第一周)、定基比(所有數據和當年第一周)即可獲得數據的變化情況。
以上,其實不用很專業(yè)也能做好數據分析,獲取數據并不難,難的是你能洞察數據背后的意義。
數據分析的三個常用方法:
1. 數據趨勢分析
趨勢分析一般而言,適用于產品核心指標的長期跟蹤,比如,點擊率,GMV,活躍用戶數等。做出簡單的數據趨勢圖,并不算是趨勢分析,趨勢分析更多的是需要明確數據的變化,以及對變化原因進行分析。
趨勢分析,最好的產出是比值。在趨勢分析的時候需要明確幾個概念:環(huán)比,同比,定基比。環(huán)比是指,是本期統計數據與上期比較,例如2019年2月份與2019年1月份相比較,環(huán)比可以知道最近的變化趨勢,但是會有些季節(jié)性差異。為了消除季節(jié)差異,于是有了同比的概念,例如2019年2月份和2018年2月份進行比較。定基比更好理解,就是和某個基點進行比較,比如2018年1月作為基點,定基比則為2019年2月和2018年1月進行比較。
比如:2019年2月份某APP月活躍用戶數我2000萬,相比1月份,環(huán)比增加2%,相比去年2月份,同比增長20%。趨勢分析另一個核心目的則是對趨勢做出解釋,對于趨勢線中明顯的拐點,發(fā)生了什么事情要給出合理的解釋,無論是外部原因還是內部原因。
2. 數據對比分析
數據的趨勢變化獨立的看,其實很多情況下并不能說明問題,比如如果一個企業(yè)盈利增長10%,我們并無法判斷這個企業(yè)的好壞,如果這個企業(yè)所處行業(yè)的其他企業(yè)普遍為負增長,則5%很多,如果行業(yè)其他企業(yè)增長平均為50%,則這是一個很差的數據。
對比分析,就是給孤立的數據一個合理的參考系,否則孤立的數據毫無意義。在此我向大家推薦一個大數據技術交流圈: 658558542 突破技術瓶頸,提升思維能力 。
一般而言,對比的數據是數據的基本面,比如行業(yè)的情況,全站的情況等。有的時候,在產品迭代測試的時候,為了增加說服力,會人為的設置對比的基準。也就是A/B test。
比較試驗最關鍵的是A/B兩組只保持單一變量,其他條件保持一致。比如測試首頁改版的效果,就需要保持A/B兩組用戶質量保持相同,上線時間保持相同,來源渠道相同等。只有這樣才能得到比較有說服力的數據。
3. 數據細分分析
在得到一些初步結論的時候,需要進一步地細拆,因為在一些綜合指標的使用過程中,會抹殺一些關鍵的數據細節(jié),而指標本身的變化,也需要分析變化產生的原因。這里的細分一定要進行多維度的細拆。常見的拆分方法包括:
分時 :不同時間短數據是否有變化。
分渠道 :不同來源的流量或者產品是否有變化。
分用戶 :新注冊用戶和老用戶相比是否有差異,高等級用戶和低等級用戶相比是否有差異。
分地區(qū) :不同地區(qū)的數據是否有變化。
組成拆分 :比如搜索由搜索詞組成,可以拆分不同搜索詞;店鋪流量由不用店鋪產生,可以分拆不同的店鋪。
細分分析是一個非常重要的手段,多問一些為什么,才是得到結論的關鍵,而一步一步拆分,就是在不斷問為什么的過程。
分析大數據,R語言和Linux系統比較有幫助,運用到的方法原理可以翻翻大學的統計學,不需要完全理解,重在應用。
分析簡單數據,Excel就可以了。Excel本意就是智能,功能很強,容易上手。我沒有見過有人說自己精通Excel的,最多是熟悉Excel。Excel的函數可以幫助你處理大部分數據。
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便采取適當行動。
數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,并使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。
“啤酒與尿布”的故事產生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發(fā)現了一個令人難于理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過后續(xù)調查發(fā)現,這種現象出現在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
當然“啤酒與尿布”的故事必須具有技術方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關系的關聯算法,并根據商品之間的關系,找出客戶的購買行為。艾格拉沃從數學及計算機算法角度提 出了商品關聯關系的計算方法——Aprior算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機數據分析中,并獲得了成功,于是產生了“啤酒與尿布”的故事。
常用方法:利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規(guī)則、特征、變化和偏差分析、Web頁挖掘等, 它們分別從不同的角度對數據進行挖掘。
一、分類:1.分類是找出數據庫中一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到某個給定的類別。2.它可以應用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機會。
②回歸分析:1.回歸分析方法反映的是事務數據庫中屬性值在時間上的特征,產生一個將數據項映射到一個實值預測變量的函數,發(fā)現變量或屬性間的依賴關系,其主要研究問題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關關系等。2.它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。
③聚類:聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。
④關聯規(guī)則:1.關聯規(guī)則是描述數據庫中數據項之間所存在的關系的規(guī)則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯或相互關系。2.在客戶關系管理中,通過對企業(yè)的客戶數據庫里的大量數據進行挖掘,可以從大量的記錄中發(fā)現有趣的關聯關系,找出影響市場營銷效果的關鍵因素,為產品定位、定價與定制客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據。
去百度文庫,查看完整內容>
內容來自用戶:蔣上樹
常用數據分析方法有那些
文章來源:ECP數據分析時間:2013/6/28 13:35:06發(fā)布者:常用數據分析(關注:554)
標簽:本文包括:
常用數據分析方法:聚類分析、因子分析、相關分析、對應分析、回歸分析、方差分析;
問卷調查常用數據分析方法:描述性統計分析、探索性因素分析、Cronbach'a信度系數分析、結構方程模型分析(structural equations modeling)。
數據分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點圖(scatter diagram)、魚骨圖(Ishikawa)、FMEA、點圖、柱狀圖、雷達圖、趨勢圖。
數據分析統計工具:SPSS、minitab、JMP。
常用數據分析方法:
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變量群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯系,減少決策的困難。相關分析(直方圖JMP
總的分兩種:
1 列表法
將實驗數據按一定規(guī)律用列表方式表達出來是記錄和處理實驗數據最常用的方法。表格的設計要求對應關系清楚、簡單明了、有利于發(fā)現相關量之間的物理關系;此外還要求在標題欄中注明物理量名稱、符號、數量級和單位等;根據需要還可以列出除原始數據以外的計算欄目和統計欄目等。最后還要求寫明表格名稱、主要測量儀器的型號、量程和準確度等級、有關環(huán)境條件參數如溫度、濕度等。
2 作圖法
作圖法可以最醒目地表達物理量間的變化關系。從圖線上還可以簡便求出實驗需要的某些結果(如直線的斜率和截距值等),讀出沒有進行觀測的對應點(內插法),或在一定條件下從圖線的延伸部分讀到測量范圍以外的對應點(外推法)。此外,還可以把某些復雜的函數關系,通過一定的變換用直線圖表示出來。例如半導體熱敏電阻的電阻與溫度關系為,取對數后得到,若用半對數坐標紙,以lgR為縱軸,以1/T為橫軸畫圖,則為一條直線。
聲明:本網站尊重并保護知識產權,根據《信息網絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:2.658秒