一、描述性統(tǒng)計
描述性統(tǒng)計是一類統(tǒng)計方法的匯總,揭示了數(shù)據(jù)分布特性。它主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態(tài)性檢驗:很多統(tǒng)計方法都要求數(shù)值服從或近似服從正態(tài)分布,所以在做數(shù)據(jù)分析之前需要進行正態(tài)性檢驗。常用方法:非參數(shù)檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、回歸分析
回歸分析是應(yīng)用極其廣泛的數(shù)據(jù)分析方法之一。它基于觀測數(shù)據(jù)建立變量間適當?shù)囊蕾囮P(guān)系,以分析數(shù)據(jù)內(nèi)在規(guī)律。
1. 一元線性分析
只有一個自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個自變量X與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關(guān)系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權(quán)回歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應(yīng)變量的關(guān)系。
2. 多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應(yīng)變量的關(guān)系,同時考慮多個影響因素之間的關(guān)系
3. 多因素無交互方差分析:分析多個影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒有影響關(guān)系或忽略影響關(guān)系
4. 協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,降低了分析結(jié)果的準確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應(yīng)進行方差分析,是將線性回歸與方差分析結(jié)合起來的一種分析方法。
四、假設(shè)檢驗
1. 參數(shù)檢驗
參數(shù)檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(shù)(如均值、百分數(shù)、方差、相關(guān)系數(shù)等)進行的檢驗 。
2. 非參數(shù)檢驗
非參數(shù)檢驗則不考慮總體分布是否已知,常常也不是針對總體參數(shù),而是針對總體的某些一般性假設(shè)(如總體分布的位罝是否相同,總體分布是否正態(tài))進行檢驗。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
1)雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
統(tǒng)計數(shù)據(jù)的具體搜集方法有很多,具體針對不同的情況,采用不同的方法:
1. 訪問調(diào)查。它是調(diào)查者與被調(diào)查者通過面對面地交談從而得到所需資料的調(diào)查方法。(詢問調(diào)查、抽樣調(diào)查)
2. 郵寄調(diào)查。它是通過郵寄或宣傳媒體等方式將調(diào)查表或調(diào)查問卷送至被調(diào)查者手中,由被調(diào)查者填寫,然后將調(diào)查表寄回或投放到指定收集點的一種調(diào)查方法。(詢問調(diào)查、抽樣調(diào)查)
3. 電話調(diào)查。電話調(diào)查是調(diào)查人員利用電話同受訪者進行語言交流,從而獲得信息的一種調(diào)查方式。電話調(diào)查具有時效快、費用低等特點。(詢問調(diào)查、抽樣調(diào)查)
4. 網(wǎng)上調(diào)查。網(wǎng)絡(luò)大數(shù)據(jù)使調(diào)查的質(zhì)量大大提高了。(詢問調(diào)查、抽樣調(diào)查)
5. 座談會。它也稱為集體訪談法,它是將一組被調(diào)查者集中在調(diào)查現(xiàn)場,讓他們對調(diào)查的主題(如一種產(chǎn)品、一項服務(wù)或其他話題)發(fā)表意見,從而獲取調(diào)查資料的方法。(詢問調(diào)查、抽樣調(diào)查)
6. 個別深度訪問。它是一種一次只有一名受訪者參加的特殊的定性研究。“深訪”是一種無結(jié)構(gòu)的個人訪問,調(diào)查人員運用大量的追問技巧,盡可能讓受訪者自由發(fā)揮,表達他的想法和感受。
7. 觀察法。它是指就調(diào)查對象的行動和意識,調(diào)查人員邊觀察邊記錄以收集信息的方法。
8. 實驗法。它是一種特殊的觀察調(diào)查方法,它是在所設(shè)定的特殊實驗場所、特殊狀態(tài)下,對調(diào)查對象進行實驗以取得所需資料的一種調(diào)查方法。
拓展資料:
統(tǒng)計數(shù)據(jù)是表示某一地理區(qū)域自然經(jīng)濟要素特征、規(guī)模,結(jié)構(gòu)、水平等指標的數(shù)據(jù)。是定性、定位和定量統(tǒng)計分析的基礎(chǔ)數(shù)據(jù)。比如我們通常所說的統(tǒng)計年鑒。
收集方法
1、調(diào)查法
調(diào)查方法一般分為普查和抽樣調(diào)查兩大類。
2、觀察法
主要包括兩個方面:一是對人的行為的觀察,二是對客觀事物的觀察。觀察法應(yīng)用很廣泛,常和詢問法、搜集實物結(jié)合使用,以提高所收集信息的可靠性。
3、實驗方法
實驗方法能通過實驗過程獲取其他手段難以獲得的信息或結(jié)論。
實驗方法也有多種形式,如實驗室實驗、現(xiàn)場實驗、計算機模擬實驗、計算機網(wǎng)絡(luò)環(huán)境下人機結(jié)合實驗等?,F(xiàn)代管理科學中新興的管理實驗,現(xiàn)代經(jīng)濟學中正在形成的實驗經(jīng)濟學中的經(jīng)濟實驗,實質(zhì)上就是通過實驗獲取與管理或經(jīng)濟相關(guān)的信息。
4、文獻檢索
文獻檢索就是從浩繁的文獻中檢索出所需的信息的過程。文獻檢索分為手工檢索和計算機檢索。
5、網(wǎng)絡(luò)信息收集
網(wǎng)絡(luò)信息是指通過計算機網(wǎng)絡(luò)發(fā)布、傳遞和存儲的各種信息。收集網(wǎng)絡(luò)信息的最終目標是給廣大用戶提供網(wǎng)絡(luò)信息資源服務(wù),整個過程經(jīng)過網(wǎng)絡(luò)信息搜索、整合、保存和服務(wù)四個步驟,
參考資料來源:搜狗百科-信息收集
借助工具,未至科技魔方是一款大數(shù)據(jù)模型平臺,是一款基于服務(wù)總線與分布式云計算兩大技術(shù)架構(gòu)的一款數(shù)據(jù)分析、挖掘的工具平臺,其采用分布式文件系統(tǒng)對數(shù)據(jù)進行存儲,支持海量數(shù)據(jù)的處理。
采用多種的數(shù)據(jù)采集技術(shù),支持結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的采集。通過圖形化的模型搭建工具,支持流程化的模型配置。
通過第三方插件技術(shù),很容易將其他工具及服務(wù)集成到平臺中去。數(shù)據(jù)分析研判平臺就是海量信息的采集,數(shù)據(jù)模型的搭建,數(shù)據(jù)的挖掘、分析最后形成知識服務(wù)于實戰(zhàn)、服務(wù)于決策的過程,平臺主要包括數(shù)據(jù)采集部分,模型配置部分,模型執(zhí)行部分及成果展示部分等。
方法一:規(guī)范化方法
也叫離差標準化,是對原始數(shù)據(jù)的線性變換,使結(jié)果映射到[0,1]區(qū)間。
方法二:正規(guī)化方法
這種方法基于原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化。將A的原始值x使用z-score標準化到x'。
z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。
spss默認的標準化方法就是z-score標準化。
用Excel進行z-score標準化的方法:在Excel中沒有現(xiàn)成的函數(shù),需要自己分步計算,其實標準化的公式很簡單。
步驟如下:
1.求出各變量(指標)的算術(shù)平均值(數(shù)學期望)xi和標準差si ;
2.進行標準化處理:
zij=(xij-xi)/si
其中:zij為標準化后的變量值;xij為實際變量值。
3.將逆指標前的正負號對調(diào)。
標準化后的變量值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平。
常用數(shù)據(jù)分析方法:聚類分析、因子分析、相關(guān)分析、對應(yīng)分析、回歸分析、方差分析; 問卷調(diào)查常用數(shù)據(jù)分析方法:描述性統(tǒng)計分析、探索性因素分析、Cronbach'a信度系數(shù)分析、結(jié)構(gòu)方程模型分析(structural equations modeling) 。
數(shù)據(jù)分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點圖(scatter diagram)、魚骨圖(Ishikawa)、FMEA、點圖、柱狀圖、雷達圖、趨勢圖。 數(shù)據(jù)分析統(tǒng)計工具:SPSS、minitab、JMP。
分析大數(shù)據(jù),R語言和Linux系統(tǒng)比較有幫助,運用到的方法原理可以翻翻大學的統(tǒng)計學,不需要完全理解,重在應(yīng)用。
分析簡單數(shù)據(jù),Excel就可以了。Excel本意就是智能,功能很強,容易上手。我沒有見過有人說自己精通Excel的,最多是熟悉Excel。Excel的函數(shù)可以幫助你處理大部分數(shù)據(jù)。
數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。
數(shù)據(jù)分析的數(shù)學基礎(chǔ)在20世紀早期就已確立,但直到計算機的出現(xiàn)才使得實際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學與計算機科學相結(jié)合的產(chǎn)物。
“啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
當然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購買行為。艾格拉沃從數(shù)學及計算機算法角度提 出了商品關(guān)聯(lián)關(guān)系的計算方法——Aprior算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術(shù)。因子分析就是從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系,減少決策的困難。
因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發(fā)抽因法、拉奧典型抽因法等等。這些方法本質(zhì)上大都屬近似方法,是以相關(guān)系數(shù)矩陣為基礎(chǔ)的,所不同的是相關(guān)系數(shù)矩陣對角線上的值,采用不同的共同性□2估值。在社會學研究中,因子分析常采用以主成分分析為基礎(chǔ)的反覆法。
3、相關(guān)分析(Correlation Analysis)
相關(guān)分析(correlation analysis),相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系,并對具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度。相關(guān)關(guān)系是一種非確定性的關(guān)系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,則X與Y顯然有關(guān)系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關(guān)關(guān)系。
4、對應(yīng)分析(Correspondence Analysis)
對應(yīng)分析(Correspondence analysis)也稱關(guān)聯(lián)分析、R-Q型因子分析,通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系??梢越沂就蛔兞康母鱾€類別之間的差異,以及不同變量各個類別之間的對應(yīng)關(guān)系。對應(yīng)分析的基本思想是將一個聯(lián)列表的行和列中各元素的比例結(jié)構(gòu)以點的形式在較低維的空間中表示出來。
5、回歸分析
研究一個隨機變量Y對另一個(X)或一組(X1,X2,…,Xk)變量的相依關(guān)系的統(tǒng)計分析方法?;貧w分析(regression analysis)是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。
6、方差分析(ANOVA/Analysis of Variance)
又稱“變異數(shù)分析”或“F檢驗”,是R.A.Fisher發(fā)明的,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結(jié)果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。這個 還需要具體問題具體分析
數(shù)據(jù)分析的三個常用方法:
1. 數(shù)據(jù)趨勢分析
趨勢分析一般而言,適用于產(chǎn)品核心指標的長期跟蹤,比如,點擊率,GMV,活躍用戶數(shù)等。做出簡單的數(shù)據(jù)趨勢圖,并不算是趨勢分析,趨勢分析更多的是需要明確數(shù)據(jù)的變化,以及對變化原因進行分析。
趨勢分析,最好的產(chǎn)出是比值。在趨勢分析的時候需要明確幾個概念:環(huán)比,同比,定基比。環(huán)比是指,是本期統(tǒng)計數(shù)據(jù)與上期比較,例如2019年2月份與2019年1月份相比較,環(huán)比可以知道最近的變化趨勢,但是會有些季節(jié)性差異。為了消除季節(jié)差異,于是有了同比的概念,例如2019年2月份和2018年2月份進行比較。定基比更好理解,就是和某個基點進行比較,比如2018年1月作為基點,定基比則為2019年2月和2018年1月進行比較。
比如:2019年2月份某APP月活躍用戶數(shù)我2000萬,相比1月份,環(huán)比增加2%,相比去年2月份,同比增長20%。趨勢分析另一個核心目的則是對趨勢做出解釋,對于趨勢線中明顯的拐點,發(fā)生了什么事情要給出合理的解釋,無論是外部原因還是內(nèi)部原因。
2. 數(shù)據(jù)對比分析
數(shù)據(jù)的趨勢變化獨立的看,其實很多情況下并不能說明問題,比如如果一個企業(yè)盈利增長10%,我們并無法判斷這個企業(yè)的好壞,如果這個企業(yè)所處行業(yè)的其他企業(yè)普遍為負增長,則5%很多,如果行業(yè)其他企業(yè)增長平均為50%,則這是一個很差的數(shù)據(jù)。
對比分析,就是給孤立的數(shù)據(jù)一個合理的參考系,否則孤立的數(shù)據(jù)毫無意義。在此我向大家推薦一個大數(shù)據(jù)技術(shù)交流圈: 658558542 突破技術(shù)瓶頸,提升思維能力 。
一般而言,對比的數(shù)據(jù)是數(shù)據(jù)的基本面,比如行業(yè)的情況,全站的情況等。有的時候,在產(chǎn)品迭代測試的時候,為了增加說服力,會人為的設(shè)置對比的基準。也就是A/B test。
比較試驗最關(guān)鍵的是A/B兩組只保持單一變量,其他條件保持一致。比如測試首頁改版的效果,就需要保持A/B兩組用戶質(zhì)量保持相同,上線時間保持相同,來源渠道相同等。只有這樣才能得到比較有說服力的數(shù)據(jù)。
3. 數(shù)據(jù)細分分析
在得到一些初步結(jié)論的時候,需要進一步地細拆,因為在一些綜合指標的使用過程中,會抹殺一些關(guān)鍵的數(shù)據(jù)細節(jié),而指標本身的變化,也需要分析變化產(chǎn)生的原因。這里的細分一定要進行多維度的細拆。常見的拆分方法包括:
分時 :不同時間短數(shù)據(jù)是否有變化。
分渠道 :不同來源的流量或者產(chǎn)品是否有變化。
分用戶 :新注冊用戶和老用戶相比是否有差異,高等級用戶和低等級用戶相比是否有差異。
分地區(qū) :不同地區(qū)的數(shù)據(jù)是否有變化。
組成拆分 :比如搜索由搜索詞組成,可以拆分不同搜索詞;店鋪流量由不用店鋪產(chǎn)生,可以分拆不同的店鋪。
細分分析是一個非常重要的手段,多問一些為什么,才是得到結(jié)論的關(guān)鍵,而一步一步拆分,就是在不斷問為什么的過程。
常見的數(shù)據(jù)統(tǒng)計方法有:表格、折線統(tǒng)計圖、條形統(tǒng)計圖、扇形統(tǒng)計圖。舉一個例子來具體分說明一下,比如說:我在淘寶開了個童裝店,為了方便統(tǒng)計每半個月的銷售額,現(xiàn)在用以上這四種統(tǒng)計方法來演示一下。
1.表格就是通過畫格子的方式來統(tǒng)計數(shù)據(jù),在這里可以畫三行橫線,得到兩條細長的格子,再把這兩行均勻的分為15個上下格子。橫一為日期,橫二為銷售額,半個月下來都填進去就一目了然。
2.折線是通過畫點,把15天的銷售額都連成一條折線,通過上下起伏來看波動的數(shù)據(jù)。先畫一“L”形,橫線作日期,豎線作銷售額,銷售額可以自己寫一個數(shù),一直往上數(shù)與數(shù)之間相差一樣。均勻的把橫豎線分為15份,每個日期對應(yīng)多少銷售額,就在“L”的半框里,以對應(yīng)的日期和銷售畫橫線和豎線,交叉的位置取一點。然后每天如此,再用直線連接這15個點,就能清楚的看到這半個月哪一天銷售最好,哪一天銷售墊底。
3.條形統(tǒng)計圖作出的是條狀的數(shù)據(jù)統(tǒng)計圖,和折線統(tǒng)計圖一樣,畫“L”,橫為日期豎為銷售額。只不過這里不畫點點,畫倒立的長方形,然后通過高高低低的條形圖來分析半個月的銷售額。
4.扇形統(tǒng)計圖就是把一個圓形,平均分為15份,一個月下來把所有的日銷售額加起來,用當天的數(shù)據(jù)除以總數(shù),乘以百分數(shù)。每一分里寫上日期和當天銷售額占總數(shù)的百分比,用這個百分數(shù)來統(tǒng)計半個月的數(shù)據(jù)。每個圖的做法都不一樣,但表達的意思都是同樣的,這就是日常生活中最常見的幾種數(shù)據(jù)統(tǒng)計。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:3.425秒