一、描述性統(tǒng)計(jì)
描述性統(tǒng)計(jì)是一類統(tǒng)計(jì)方法的匯總,揭示了數(shù)據(jù)分布特性。它主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢(shì)分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計(jì)圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態(tài)性檢驗(yàn):很多統(tǒng)計(jì)方法都要求數(shù)值服從或近似服從正態(tài)分布,所以在做數(shù)據(jù)分析之前需要進(jìn)行正態(tài)性檢驗(yàn)。常用方法:非參數(shù)檢驗(yàn)的K-量檢驗(yàn)、P-P圖、Q-Q圖、W檢驗(yàn)、動(dòng)差法。
二、回歸分析
回歸分析是應(yīng)用極其廣泛的數(shù)據(jù)分析方法之一。它基于觀測(cè)數(shù)據(jù)建立變量間適當(dāng)?shù)囊蕾囮P(guān)系,以分析數(shù)據(jù)內(nèi)在規(guī)律。
1. 一元線性分析
只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個(gè)自變量X與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關(guān)系,而Logistic回歸模型對(duì)因變量的分布沒(méi)有要求,一般用于因變量是離散時(shí)的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權(quán)回歸等。
三、方差分析
使用條件:各樣本須是相互獨(dú)立的隨機(jī)樣本;各樣本來(lái)自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項(xiàng)試驗(yàn)只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應(yīng)變量的關(guān)系。
2. 多因素有交互方差分析:一頊實(shí)驗(yàn)有多個(gè)影響因素,分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系
3. 多因素?zé)o交互方差分析:分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒(méi)有影響關(guān)系或忽略影響關(guān)系
4. 協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無(wú)法控制分析中存在的某些隨機(jī)因素,降低了分析結(jié)果的準(zhǔn)確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對(duì)修正后的主效應(yīng)進(jìn)行方差分析,是將線性回歸與方差分析結(jié)合起來(lái)的一種分析方法。
四、假設(shè)檢驗(yàn)
1. 參數(shù)檢驗(yàn)
參數(shù)檢驗(yàn)是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對(duì)一些主要的參數(shù)(如均值、百分?jǐn)?shù)、方差、相關(guān)系數(shù)等)進(jìn)行的檢驗(yàn) 。
2. 非參數(shù)檢驗(yàn)
非參數(shù)檢驗(yàn)則不考慮總體分布是否已知,常常也不是針對(duì)總體參數(shù),而是針對(duì)總體的某些一般性假設(shè)(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗(yàn)。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
1)雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗(yàn)、秩和檢驗(yàn)、二項(xiàng)檢驗(yàn)、游程檢驗(yàn)、K-量檢驗(yàn)等。
常見(jiàn)的預(yù)測(cè)方法有單點(diǎn)預(yù)測(cè),即確定性預(yù)測(cè);區(qū)間預(yù)測(cè);和概率預(yù)測(cè)三種方法。
單點(diǎn)預(yù)測(cè),顧名思義,只能給出一個(gè)預(yù)測(cè)值,不能表達(dá)該預(yù)測(cè)值的可信度;
區(qū)間預(yù)測(cè)在單點(diǎn)預(yù)測(cè)的基礎(chǔ)上,給出某次預(yù)測(cè)值在某一區(qū)間上的可信度,即能夠給出一個(gè)預(yù)測(cè)范圍,以及以多大的可能性落在這個(gè)范圍;
概率預(yù)測(cè)是咋區(qū)間預(yù)測(cè)的基礎(chǔ)上,給出一個(gè)概率分布,預(yù)測(cè)出所有可能出現(xiàn)的結(jié)果,以及對(duì)應(yīng)的概率。這種方法比較全面,能夠給出全局信息,適于風(fēng)險(xiǎn)相關(guān)的分析。目前在氣象、地震、水文和農(nóng)業(yè)相關(guān)方面用的比較多。
數(shù)據(jù)分析的三個(gè)常用方法:
1. 數(shù)據(jù)趨勢(shì)分析
趨勢(shì)分析一般而言,適用于產(chǎn)品核心指標(biāo)的長(zhǎng)期跟蹤,比如,點(diǎn)擊率,GMV,活躍用戶數(shù)等。做出簡(jiǎn)單的數(shù)據(jù)趨勢(shì)圖,并不算是趨勢(shì)分析,趨勢(shì)分析更多的是需要明確數(shù)據(jù)的變化,以及對(duì)變化原因進(jìn)行分析。
趨勢(shì)分析,最好的產(chǎn)出是比值。在趨勢(shì)分析的時(shí)候需要明確幾個(gè)概念:環(huán)比,同比,定基比。環(huán)比是指,是本期統(tǒng)計(jì)數(shù)據(jù)與上期比較,例如2019年2月份與2019年1月份相比較,環(huán)比可以知道最近的變化趨勢(shì),但是會(huì)有些季節(jié)性差異。為了消除季節(jié)差異,于是有了同比的概念,例如2019年2月份和2018年2月份進(jìn)行比較。定基比更好理解,就是和某個(gè)基點(diǎn)進(jìn)行比較,比如2018年1月作為基點(diǎn),定基比則為2019年2月和2018年1月進(jìn)行比較。
比如:2019年2月份某APP月活躍用戶數(shù)我2000萬(wàn),相比1月份,環(huán)比增加2%,相比去年2月份,同比增長(zhǎng)20%。趨勢(shì)分析另一個(gè)核心目的則是對(duì)趨勢(shì)做出解釋,對(duì)于趨勢(shì)線中明顯的拐點(diǎn),發(fā)生了什么事情要給出合理的解釋,無(wú)論是外部原因還是內(nèi)部原因。
2. 數(shù)據(jù)對(duì)比分析
數(shù)據(jù)的趨勢(shì)變化獨(dú)立的看,其實(shí)很多情況下并不能說(shuō)明問(wèn)題,比如如果一個(gè)企業(yè)盈利增長(zhǎng)10%,我們并無(wú)法判斷這個(gè)企業(yè)的好壞,如果這個(gè)企業(yè)所處行業(yè)的其他企業(yè)普遍為負(fù)增長(zhǎng),則5%很多,如果行業(yè)其他企業(yè)增長(zhǎng)平均為50%,則這是一個(gè)很差的數(shù)據(jù)。
對(duì)比分析,就是給孤立的數(shù)據(jù)一個(gè)合理的參考系,否則孤立的數(shù)據(jù)毫無(wú)意義。在此我向大家推薦一個(gè)大數(shù)據(jù)技術(shù)交流圈: 658558542 突破技術(shù)瓶頸,提升思維能力 。
一般而言,對(duì)比的數(shù)據(jù)是數(shù)據(jù)的基本面,比如行業(yè)的情況,全站的情況等。有的時(shí)候,在產(chǎn)品迭代測(cè)試的時(shí)候,為了增加說(shuō)服力,會(huì)人為的設(shè)置對(duì)比的基準(zhǔn)。也就是A/B test。
比較試驗(yàn)最關(guān)鍵的是A/B兩組只保持單一變量,其他條件保持一致。比如測(cè)試首頁(yè)改版的效果,就需要保持A/B兩組用戶質(zhì)量保持相同,上線時(shí)間保持相同,來(lái)源渠道相同等。只有這樣才能得到比較有說(shuō)服力的數(shù)據(jù)。
3. 數(shù)據(jù)細(xì)分分析
在得到一些初步結(jié)論的時(shí)候,需要進(jìn)一步地細(xì)拆,因?yàn)樵谝恍┚C合指標(biāo)的使用過(guò)程中,會(huì)抹殺一些關(guān)鍵的數(shù)據(jù)細(xì)節(jié),而指標(biāo)本身的變化,也需要分析變化產(chǎn)生的原因。這里的細(xì)分一定要進(jìn)行多維度的細(xì)拆。常見(jiàn)的拆分方法包括:
分時(shí) :不同時(shí)間短數(shù)據(jù)是否有變化。
分渠道 :不同來(lái)源的流量或者產(chǎn)品是否有變化。
分用戶 :新注冊(cè)用戶和老用戶相比是否有差異,高等級(jí)用戶和低等級(jí)用戶相比是否有差異。
分地區(qū) :不同地區(qū)的數(shù)據(jù)是否有變化。
組成拆分 :比如搜索由搜索詞組成,可以拆分不同搜索詞;店鋪流量由不用店鋪產(chǎn)生,可以分拆不同的店鋪。
細(xì)分分析是一個(gè)非常重要的手段,多問(wèn)一些為什么,才是得到結(jié)論的關(guān)鍵,而一步一步拆分,就是在不斷問(wèn)為什么的過(guò)程。
數(shù)據(jù)分析落實(shí)到實(shí)處,一般就是圍繞用戶漏斗展開(kāi)的。也就是人們常說(shuō)的訪問(wèn)-激活-留存-交易-推薦。
這核心的5步會(huì)有不同維度的細(xì)分。
獲客:來(lái)源、渠道、關(guān)鍵字、著陸頁(yè)、地域、設(shè)備、訪問(wèn)時(shí)間、跳出率、訪問(wèn)深度、停留時(shí)間、新客量等等;
激活:DAU(日活躍用戶)、MAU(月活躍用戶)
留存:日留存率、周留存率、月留存率
交易:訂單量、訂單金額、LTV
推薦:是否傳播(k>1)
需要獲取以上數(shù)據(jù),可以通過(guò)ptengine通過(guò)漏斗細(xì)分得到可視化圖表。一般來(lái)講,同比(本周和上周)、環(huán)比(本月第一周和上月第一周)、定基比(所有數(shù)據(jù)和當(dāng)年第一周)即可獲得數(shù)據(jù)的變化情況。
以上,其實(shí)不用很專業(yè)也能做好數(shù)據(jù)分析,獲取數(shù)據(jù)并不難,難的是你能洞察數(shù)據(jù)背后的意義。
借助工具,未至科技魔方是一款大數(shù)據(jù)模型平臺(tái),是一款基于服務(wù)總線與分布式云計(jì)算兩大技術(shù)架構(gòu)的一款數(shù)據(jù)分析、挖掘的工具平臺(tái),其采用分布式文件系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),支持海量數(shù)據(jù)的處理。
采用多種的數(shù)據(jù)采集技術(shù),支持結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的采集。通過(guò)圖形化的模型搭建工具,支持流程化的模型配置。
通過(guò)第三方插件技術(shù),很容易將其他工具及服務(wù)集成到平臺(tái)中去。數(shù)據(jù)分析研判平臺(tái)就是海量信息的采集,數(shù)據(jù)模型的搭建,數(shù)據(jù)的挖掘、分析最后形成知識(shí)服務(wù)于實(shí)戰(zhàn)、服務(wù)于決策的過(guò)程,平臺(tái)主要包括數(shù)據(jù)采集部分,模型配置部分,模型執(zhí)行部分及成果展示部分等。
Time Series Analysis Methods
Simple Moving Average Formula
Weighted Moving Average Formula
Exponential Smoothing Model
Logistic Regre等方法都可以解決。
根據(jù)你的實(shí)際,最簡(jiǎn)單的就是選前幾個(gè)月的銷售額進(jìn)行平均。
也可以將越靠近的月份銷售額給較大的權(quán)重,加權(quán)平均。
還可以將前面的數(shù)據(jù)進(jìn)行回歸分析,得出下個(gè)月的銷售額。
都是理論方法,可能會(huì)受到季節(jié)因素、環(huán)境因素、營(yíng)銷因素等的影響,還有待實(shí)際驗(yàn)證。
定量預(yù)測(cè)方法有:
加權(quán)算術(shù)平均法
用各種權(quán)數(shù)算得的平均數(shù)稱為加權(quán)算術(shù)平均數(shù),它可以自然數(shù)作權(quán)數(shù),也可以項(xiàng)目出現(xiàn)的次數(shù)作權(quán)數(shù),所求平均數(shù)值即為測(cè)定值。
趨勢(shì)平均預(yù)測(cè)法
趨勢(shì)平均預(yù)測(cè)法是以過(guò)去發(fā)生的實(shí)際數(shù)為依據(jù),在算術(shù)平均數(shù)的基礎(chǔ)上,假定未來(lái)時(shí)期的數(shù)值是它近期數(shù)值直接繼續(xù),而同較遠(yuǎn)時(shí)期的數(shù)值關(guān)系較小的一種預(yù)測(cè)方法。
指數(shù)平滑法
指數(shù)平滑法是以一個(gè)指標(biāo)本身過(guò)去變化的趨勢(shì)作為預(yù)測(cè)未來(lái)的依據(jù)的一種方法。對(duì)未來(lái)預(yù)測(cè)時(shí),考慮則近期資料的影響應(yīng)比遠(yuǎn)期為大,因而對(duì)不同時(shí)期的資料不同的權(quán)數(shù),越是近期資料權(quán)數(shù)越大,反之權(quán)數(shù)越小。
(4)平均發(fā)展速度法
(5)一元線性回歸預(yù)測(cè)法
根據(jù)x、y現(xiàn)有數(shù)據(jù),尋求合理的a、b回歸系數(shù),得出一條變動(dòng)直線,并使線上各點(diǎn)至實(shí)際資料上的對(duì)應(yīng)點(diǎn)之間的距離最小。
設(shè)變動(dòng)直線方程為:y=a+bx
(6)高低點(diǎn)法
高低點(diǎn)法是利用代數(shù)式y(tǒng)=a+bx,選用一定歷史資料中的最高業(yè)務(wù)量與最低業(yè)務(wù)量的總成本(或總費(fèi)用)之差△y,與兩者業(yè)務(wù)量之差△x進(jìn)行對(duì)比,求出b,然后再求出a的方法。
總的分兩種:
1 列表法
將實(shí)驗(yàn)數(shù)據(jù)按一定規(guī)律用列表方式表達(dá)出來(lái)是記錄和處理實(shí)驗(yàn)數(shù)據(jù)最常用的方法。表格的設(shè)計(jì)要求對(duì)應(yīng)關(guān)系清楚、簡(jiǎn)單明了、有利于發(fā)現(xiàn)相關(guān)量之間的物理關(guān)系;此外還要求在標(biāo)題欄中注明物理量名稱、符號(hào)、數(shù)量級(jí)和單位等;根據(jù)需要還可以列出除原始數(shù)據(jù)以外的計(jì)算欄目和統(tǒng)計(jì)欄目等。最后還要求寫明表格名稱、主要測(cè)量?jī)x器的型號(hào)、量程和準(zhǔn)確度等級(jí)、有關(guān)環(huán)境條件參數(shù)如溫度、濕度等。
2 作圖法
作圖法可以最醒目地表達(dá)物理量間的變化關(guān)系。從圖線上還可以簡(jiǎn)便求出實(shí)驗(yàn)需要的某些結(jié)果(如直線的斜率和截距值等),讀出沒(méi)有進(jìn)行觀測(cè)的對(duì)應(yīng)點(diǎn)(內(nèi)插法),或在一定條件下從圖線的延伸部分讀到測(cè)量范圍以外的對(duì)應(yīng)點(diǎn)(外推法)。此外,還可以把某些復(fù)雜的函數(shù)關(guān)系,通過(guò)一定的變換用直線圖表示出來(lái)。例如半導(dǎo)體熱敏電阻的電阻與溫度關(guān)系為,取對(duì)數(shù)后得到,若用半對(duì)數(shù)坐標(biāo)紙,以lgR為縱軸,以1/T為橫軸畫圖,則為一條直線。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁(yè)面生成時(shí)間:2.696秒