數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。
這一過程也是質量管理體系的支持過程。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。
數(shù)據(jù)分析的數(shù)學基礎在20世紀早期就已確立,但直到計算機的出現(xiàn)才使得實際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學與計算機科學相結合的產(chǎn)物。
在統(tǒng)計學領域,有些人將數(shù)據(jù)分析劃分為描述性統(tǒng)計分析、探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析;其中,探索性數(shù)據(jù)分析側重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗證性數(shù)據(jù)分析則側重于已有假設的證實或證偽。 探索性數(shù)據(jù)分析是指為了形成值得假設的檢驗而對數(shù)據(jù)進行分析的一種方法,是對傳統(tǒng)統(tǒng)計學假設檢驗手段的補充。
該方法由美國著名統(tǒng)計學家約翰·圖基(John Tukey)命名。 定性數(shù)據(jù)分析又稱為“定性資料分析”、“定性研究”或者“質性研究資料分析”,是指對諸如詞語、照片、觀察結果之類的非數(shù)值型數(shù)據(jù)(或者說資料)的分析。
具體方法 數(shù)據(jù)分析有極廣泛的應用范圍。典型的數(shù)據(jù)分析可能包含以下三個步: 1、探索性數(shù)據(jù)分析:當數(shù)據(jù)剛取得時,可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。
2、模型選定分析,在探索性分析的基礎上提出一類或幾類可能的模型,然后通過進一步的分析從中挑選一定的模型。 3、推斷分析:通常使用數(shù)理統(tǒng)計方法對所定模型或估計的可靠程度和精確程度作出推斷。
分析方法 1、列表法 將實驗數(shù)據(jù)按一定規(guī)律用列表方式表達出來是記錄和處理實驗數(shù)據(jù)最常用的方法。表格的設計要求對應關系清楚、簡單明了、有利于發(fā)現(xiàn)相關量之間的物理關系;此外還要求在標題欄中注明物理量名稱、符號、數(shù)量級和單位等;根據(jù)需要還可以列出除原始數(shù)據(jù)以外的計算欄目和統(tǒng)計欄目等。
最后還要求寫明表格名稱、主要測量儀器的型號、量程和準確度等級、有關環(huán)境條件參數(shù)如溫度、濕度等。 2、作圖法 作圖法可以最醒目地表達物理量間的變化關系。
從圖線上還可以簡便求出實驗需要的某些結果(如直線的斜率和截距值等),讀出沒有進行觀測的對應點(內插法)或在一定條件下從圖線的延伸部分讀到測量范圍以外的對應點(外推法)。此外,還可以把某些復雜的函數(shù)關系,通過一定的變換用直線圖表示出來。
例如半導體熱敏電阻的電阻與溫度關系為,取對數(shù)后得到,若用半對數(shù)坐標紙,以lgR為縱軸,以1/T為橫軸畫圖,則為一條直線。 3、數(shù)據(jù)分析主要包含: 1. 簡單數(shù)學運算(Simple Math) 2. 統(tǒng)計(Statistics) 3. 快速傅里葉變換(FFT) 4. 平滑和濾波(Smoothing and Filtering) 5.基線和峰值分析(Baseline and Peak Analysis) 數(shù)據(jù)來源 1、搜索引擎蜘蛛抓取數(shù)據(jù); 2、網(wǎng)站IP、PV等基本數(shù)據(jù); 3、網(wǎng)站的HTTP響應時間數(shù)據(jù); 4、網(wǎng)站流量來源數(shù)據(jù)。
數(shù)據(jù)分析過程的主要活動由識別信息需求、收集數(shù)據(jù)、分析數(shù)據(jù)、評價并改進數(shù)據(jù)分析的有效性組成。 識別需求 識別信息需求是確保數(shù)據(jù)分析過程有效性的首要條件,可以為收集數(shù)據(jù)、分析數(shù)據(jù)提供清晰的目標。
識別信息需求是管理者的職責管理者應根據(jù)決策和過程控制的需求,提出對信息的需求。就過程控制而言,管理者應識別需求要利用那些信息支持評審過程輸入、過程輸出、資源配置的合理性、過程活動的優(yōu)化方案和過程異常變異的發(fā)現(xiàn)。
收集數(shù)據(jù) 有目的的收集數(shù)據(jù),是確保數(shù)據(jù)分析過程有效的基礎。組織需要對收集數(shù)據(jù)的內容、渠道、方法進行策劃。
策劃時應考慮: ①將識別的需求轉化為具體的要求,如評價供方時,需要收集的數(shù)據(jù)可能包括其過程能力、測量系統(tǒng)不確定度等相關數(shù)據(jù); ②明確由誰在何時何處,通過何種渠道和方法收集數(shù)據(jù); ③記錄表應便于使用; ④采取有效措施,防止數(shù)據(jù)丟失和虛假數(shù)據(jù)對系統(tǒng)的干擾。 分析數(shù)據(jù) 分析數(shù)據(jù)是將收集的數(shù)據(jù)通過加工、整理和分析、使其轉化為信息,通常用方法有: 老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖; 新七種工具,即關聯(lián)圖、系統(tǒng)圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數(shù)據(jù)圖; 過程改進 數(shù)據(jù)分析是質量管理體系的基礎。
組織的管理者應在適當時,通過對以下問題的分析,評估其有效性: ①提供決策的信息是否充分、可信,是否存在因信息不足、失準、滯后而導致決策失誤的問題; ②信息對持續(xù)改進質量管理體系、過程、產(chǎn)品所發(fā)揮的作用是否與期望值一致,是否在產(chǎn)品實現(xiàn)過程中有效運用數(shù)據(jù)分析; ③收集數(shù)據(jù)的目的是否明確,收集的數(shù)據(jù)是否真實和充分,信息渠道是否暢通; ④數(shù)據(jù)分析方法是否合理,是否將風險控制在可接受的范圍; ⑤數(shù)據(jù)分析所需資源是否得到保障。
一、描述性統(tǒng)計
描述性統(tǒng)計是一類統(tǒng)計方法的匯總,揭示了數(shù)據(jù)分布特性。它主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態(tài)性檢驗:很多統(tǒng)計方法都要求數(shù)值服從或近似服從正態(tài)分布,所以在做數(shù)據(jù)分析之前需要進行正態(tài)性檢驗。常用方法:非參數(shù)檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、回歸分析
回歸分析是應用極其廣泛的數(shù)據(jù)分析方法之一。它基于觀測數(shù)據(jù)建立變量間適當?shù)囊蕾囮P系,以分析數(shù)據(jù)內在規(guī)律。
1. 一元線性分析
只有一個自變量X與因變量Y有關,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個自變量X與因變量Y的關系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權回歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關系。
2. 多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變量的關系,同時考慮多個影響因素之間的關系
3. 多因素無交互方差分析:分析多個影響因素與響應變量的關系,但是影響因素之間沒有影響關系或忽略影響關系
4. 協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法。
四、假設檢驗
1. 參數(shù)檢驗
參數(shù)檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(shù)(如均值、百分數(shù)、方差、相關系數(shù)等)進行的檢驗 。
2. 非參數(shù)檢驗
非參數(shù)檢驗則不考慮總體分布是否已知,常常也不是針對總體參數(shù),而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態(tài))進行檢驗。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
1)雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
一、掌握基礎、更新知識。
基本技術怎么強調都不過分。這里的術更多是(計算機、統(tǒng)計知識), 多年做數(shù)據(jù)分析、數(shù)據(jù)挖掘的經(jīng)歷來看、以及業(yè)界朋友的交流來看,這點大家深有感觸的。
數(shù)據(jù)庫查詢—SQL 數(shù)據(jù)分析師在計算機的層面的技能要求較低,主要是會SQL,因為這里解決一個數(shù)據(jù)提取的問題。有機會可以去逛逛一些專業(yè)的數(shù)據(jù)論壇,學習一些SQL技巧、新的函數(shù),對你工作效率的提高是很有幫助的。
統(tǒng)計知識與數(shù)據(jù)挖掘 你要掌握基礎的、成熟的數(shù)據(jù)建模方法、數(shù)據(jù)挖掘方法。例如:多元統(tǒng)計:回歸分析、因子分析、離散等,數(shù)據(jù)挖掘中的:決策樹、聚類、關聯(lián)規(guī)則、神經(jīng)網(wǎng)絡等。
但是還是應該關注一些博客、論壇中大家對于最新方法的介紹,或者是對老方法的新運用,不斷更新自己知識,才能跟上時代,也許你工作中根本不會用到,但是未來呢?行業(yè)知識 如果數(shù)據(jù)不結合具體的行業(yè)、業(yè)務知識,數(shù)據(jù)就是一堆數(shù)字,不代表任何東西。是冷冰冰,是不會產(chǎn)生任何價值的,數(shù)據(jù)驅動營銷、提高科學決策一切都是空的。
一名數(shù)據(jù)分析師,一定要對所在行業(yè)知識、業(yè)務知識有深入的了解。例如:看到某個數(shù)據(jù),你首先必須要知道,這個數(shù)據(jù)的統(tǒng)計口徑是什么?是如何取出來的?這個數(shù)據(jù)在這個行業(yè), 在相應的業(yè)務是在哪個環(huán)節(jié)是產(chǎn)生的?數(shù)值的代表業(yè)務發(fā)生了什么(背景是什么)?對于A部門來說,本月新會員有10萬,10萬好還是不好呢?先問問上面的這個問題:對于A部門,1、新會員的統(tǒng)計口徑是什么。
第一次在使用A部門的產(chǎn)品的會員?還是在站在公司角度上說,第一次在公司發(fā)展業(yè)務接觸的會員?2、是如何統(tǒng)計出來的。A:時間;是通過創(chuàng)建時間,還是業(yè)務完成時間。
B:業(yè)務場景。是只要與業(yè)務發(fā)接觸,例如下了單,還是要業(yè)務完成后,到成功支付。
3、這個數(shù)據(jù)是在哪個環(huán)節(jié)統(tǒng)計出來。在注冊環(huán)節(jié),在下單環(huán)節(jié),在成功支付環(huán)節(jié)。
4、這個數(shù)據(jù)代表著什么。10萬高嗎?與歷史相同比較?是否做了營銷活動?這個行業(yè)處理行業(yè)生命同期哪個階段?在前面二點,更多要求你能按業(yè)務邏輯,來進行數(shù)據(jù)的提?。ǜ嗍菍慡QL代碼從數(shù)據(jù)庫取出數(shù)據(jù))。
后面二點,更重要是對業(yè)務了解,更行業(yè)知識了解,你才能進行相應的數(shù)據(jù)解讀,才能讓數(shù)據(jù)產(chǎn)生真正的價值,不是嗎?對于新進入數(shù)據(jù)行業(yè)或者剛進入數(shù)據(jù)行業(yè)的朋友來說:行業(yè)知識都重要,也許你看到很多的數(shù)據(jù)行業(yè)的同仁,在微博或者寫文章說,數(shù)據(jù)分析思想、行業(yè)知識、業(yè)務知識很重要。我非常同意。
因為作為數(shù)據(jù)分析師,在發(fā)表任何觀點的時候,都不要忘記你居于的背景是什么?但大家一定不要忘記了一些基本的技術,不要把基礎去忘記了,如果一名數(shù)據(jù)分析師不會寫SQL,那麻煩就大了。哈哈。
你只有把數(shù)據(jù)先取對了,才能正確的分析,否則一切都是錯誤了,甚至會導致致命的結論。
新同學,還是好好花時間把基礎技能學好。因為基礎技能你可以在短期內快速提高,但是在行業(yè)、業(yè)務知識的是一點一滴的積累起來的,有時候是急不來的,這更需要花時間慢慢去沉淀下來。
不要過于追求很高級、高深的統(tǒng)計方法,我提倡有空還是要多去學習基本的統(tǒng)計學知識,從而提高工作效率,達到事半功倍。以我經(jīng)驗來說,我負責任告訴新進的同學,永遠不要忘記基本知識、基本技能的學習。
二、要有三心。1、細心。
2、耐心。3、靜心。
數(shù)據(jù)分析師其實是一個細活,特別是在前文提到的例子中的前面二點。而且在數(shù)據(jù)分析過程中,是一個不斷循環(huán)迭代的過程,所以一定在耐心,不怕麻煩,能靜下心來不斷去修改自己的分析思路。
三、形成自己結構化的思維。數(shù)據(jù)分析師一定要嚴謹。
而嚴謹一定要很強的結構化思維,如何提高結構化思維,也許只需要工作隊中不斷的實踐。但是我推薦你用mindmanagement,首先把你的整個思路整理出來,然后根據(jù)分析不斷深入、得到的信息不斷增加的情況下去完善你的結構,慢慢你會形成一套自己的思想。
當然有空的時候去看看《麥肯錫思維》、結構化邏輯思維訓練的書也不錯。在我以為多看看你身邊更資深同事的報告,多問問他們是怎么去考慮這個問題的,別人的思想是怎么樣的?他是怎么構建整個分析體系的。
四、業(yè)務、行業(yè)、商業(yè)知識。當你掌握好前面的基本知識和一些技巧性東西的時候,你應該在業(yè)務、行業(yè)、商業(yè)知識的學習與積累上了。
這個放在最后,不是不重要,而且非常重要,如果前面三點是決定你能否進入這個行業(yè),那么這則是你進入這個行業(yè)后,能否成功的最根本的因素。 數(shù)據(jù)與具體行業(yè)知識的關系,比作池塘中魚與水的關系一點都不過分,數(shù)據(jù)(魚)離開了行業(yè)、業(yè)務背景(水)是死的,是不可能是“活”。
而沒有“魚”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。如何提高業(yè)務知識,特別是沒有相關背景的同學。
很簡單,我總結了幾點:1、多向業(yè)務部門的同事請教,多溝通。多向他們請教,數(shù)據(jù)分析師與業(yè)務部門沒有利益沖突,而更向是共生體,所以如果你態(tài)度好,相信業(yè)務部門的同事也很愿意把他們知道的告訴你。
2、永遠不要忘記了google大神,定制一些行業(yè)的關鍵字,每天都先看看定制的郵件。3、每天有空去瀏。
分析大數(shù)據(jù),R語言和Linux系統(tǒng)比較有幫助,運用到的方法原理可以翻翻大學的統(tǒng)計學,不需要完全理解,重在應用。
分析簡單數(shù)據(jù),Excel就可以了。Excel本意就是智能,功能很強,容易上手。我沒有見過有人說自己精通Excel的,最多是熟悉Excel。Excel的函數(shù)可以幫助你處理大部分數(shù)據(jù)。
數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。
數(shù)據(jù)分析的數(shù)學基礎在20世紀早期就已確立,但直到計算機的出現(xiàn)才使得實際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學與計算機科學相結合的產(chǎn)物。
“啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
當然“啤酒與尿布”的故事必須具有技術方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯(lián)關系的關聯(lián)算法,并根據(jù)商品之間的關系,找出客戶的購買行為。艾格拉沃從數(shù)學及計算機算法角度提 出了商品關聯(lián)關系的計算方法——Aprior算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。
數(shù)據(jù)分析的三個常用方法:
1. 數(shù)據(jù)趨勢分析
趨勢分析一般而言,適用于產(chǎn)品核心指標的長期跟蹤,比如,點擊率,GMV,活躍用戶數(shù)等。做出簡單的數(shù)據(jù)趨勢圖,并不算是趨勢分析,趨勢分析更多的是需要明確數(shù)據(jù)的變化,以及對變化原因進行分析。
趨勢分析,最好的產(chǎn)出是比值。在趨勢分析的時候需要明確幾個概念:環(huán)比,同比,定基比。環(huán)比是指,是本期統(tǒng)計數(shù)據(jù)與上期比較,例如2019年2月份與2019年1月份相比較,環(huán)比可以知道最近的變化趨勢,但是會有些季節(jié)性差異。為了消除季節(jié)差異,于是有了同比的概念,例如2019年2月份和2018年2月份進行比較。定基比更好理解,就是和某個基點進行比較,比如2018年1月作為基點,定基比則為2019年2月和2018年1月進行比較。
比如:2019年2月份某APP月活躍用戶數(shù)我2000萬,相比1月份,環(huán)比增加2%,相比去年2月份,同比增長20%。趨勢分析另一個核心目的則是對趨勢做出解釋,對于趨勢線中明顯的拐點,發(fā)生了什么事情要給出合理的解釋,無論是外部原因還是內部原因。
2. 數(shù)據(jù)對比分析
數(shù)據(jù)的趨勢變化獨立的看,其實很多情況下并不能說明問題,比如如果一個企業(yè)盈利增長10%,我們并無法判斷這個企業(yè)的好壞,如果這個企業(yè)所處行業(yè)的其他企業(yè)普遍為負增長,則5%很多,如果行業(yè)其他企業(yè)增長平均為50%,則這是一個很差的數(shù)據(jù)。
對比分析,就是給孤立的數(shù)據(jù)一個合理的參考系,否則孤立的數(shù)據(jù)毫無意義。在此我向大家推薦一個大數(shù)據(jù)技術交流圈: 658558542 突破技術瓶頸,提升思維能力 。
一般而言,對比的數(shù)據(jù)是數(shù)據(jù)的基本面,比如行業(yè)的情況,全站的情況等。有的時候,在產(chǎn)品迭代測試的時候,為了增加說服力,會人為的設置對比的基準。也就是A/B test。
比較試驗最關鍵的是A/B兩組只保持單一變量,其他條件保持一致。比如測試首頁改版的效果,就需要保持A/B兩組用戶質量保持相同,上線時間保持相同,來源渠道相同等。只有這樣才能得到比較有說服力的數(shù)據(jù)。
3. 數(shù)據(jù)細分分析
在得到一些初步結論的時候,需要進一步地細拆,因為在一些綜合指標的使用過程中,會抹殺一些關鍵的數(shù)據(jù)細節(jié),而指標本身的變化,也需要分析變化產(chǎn)生的原因。這里的細分一定要進行多維度的細拆。常見的拆分方法包括:
分時 :不同時間短數(shù)據(jù)是否有變化。
分渠道 :不同來源的流量或者產(chǎn)品是否有變化。
分用戶 :新注冊用戶和老用戶相比是否有差異,高等級用戶和低等級用戶相比是否有差異。
分地區(qū) :不同地區(qū)的數(shù)據(jù)是否有變化。
組成拆分 :比如搜索由搜索詞組成,可以拆分不同搜索詞;店鋪流量由不用店鋪產(chǎn)生,可以分拆不同的店鋪。
細分分析是一個非常重要的手段,多問一些為什么,才是得到結論的關鍵,而一步一步拆分,就是在不斷問為什么的過程。
數(shù)據(jù)分析師的工作一定要好好把握。關于數(shù)據(jù)分析師的思路和方法,小編覺得是這樣的:
首先,你要明白什么是數(shù)據(jù)分析;
第二你要知道數(shù)據(jù)分析的目的;
第三、清楚數(shù)據(jù)分析的分類以及作用:現(xiàn)狀分析、原因分析、預測分析第四,如何進行數(shù)據(jù)分析:
1.明確目的和思路
2.數(shù)據(jù)收集
3.數(shù)據(jù)處理
4.數(shù)據(jù)分析
數(shù)據(jù)處理好之后,就要進行數(shù)據(jù)分析,數(shù)據(jù)分析是用適當?shù)姆治龇椒肮ぞ撸瑢μ幚磉^的數(shù)據(jù)進行分析,提取有價值的信息,形成有效結論的過程。
常用的數(shù)據(jù)分析工具,掌握Excel的數(shù)據(jù)透視表,就能解決大多數(shù)的問題。需要的話,可以再有針對性的學習SPSS、SAS等。
數(shù)據(jù)挖掘是一種高級的數(shù)據(jù)分析方法,你需要掌握數(shù)據(jù)挖掘基礎理論,數(shù)據(jù)庫操作Phython,R語言, Java 等編程語言的使用以及高級的數(shù)據(jù)可視化技術。要側重解決四類數(shù)據(jù)分析問題:分類、聚類、關聯(lián)和預測,重點在尋找模式與規(guī)律。
5.數(shù)據(jù)展現(xiàn)
一般情況下,數(shù)據(jù)是通過表格和圖形的方式來呈現(xiàn)的。常用的數(shù)據(jù)圖表包括餅圖、柱形圖、條形圖、折線圖、氣泡圖、散點圖、雷達圖等。進一步加工整理變成我們需要的圖形,如金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。
圖表制作的五個步驟:
確定要表達主題;確定哪種圖表最適合;選擇數(shù)據(jù)制作圖表;檢查是否真實;反映數(shù)據(jù)檢查是否表達觀點
6.報告撰寫
數(shù)據(jù)分析的四大誤區(qū)
1.目的不明確,為了做而作,導致分析效果不明確;
2.對與行業(yè)、公司業(yè)務還有其他考慮因素認知不清楚,分析結果偏離實際。
3.為了方法而方法,為了工具而工具,只要能解決問題的方法和工具就是好的方法和工具;
4.數(shù)據(jù)本身是客觀的,但被解讀出來的數(shù)據(jù)是主觀的。同樣的數(shù)據(jù)由不同的人分析很可能得出完全相反的結論,所以一定不能提前帶著觀點去分析。
每個人都有自己的工作特點和方法傾向,不過對于數(shù)據(jù)分析這種很有邏輯的工作,邏輯思路一定要處理清楚,該遵從的客觀標準還是要嚴格遵守,而且數(shù)據(jù)分析只有產(chǎn)生了價值,你做的這份工作才算真在發(fā)揮了作用。
總的分兩種:
1 列表法
將實驗數(shù)據(jù)按一定規(guī)律用列表方式表達出來是記錄和處理實驗數(shù)據(jù)最常用的方法。表格的設計要求對應關系清楚、簡單明了、有利于發(fā)現(xiàn)相關量之間的物理關系;此外還要求在標題欄中注明物理量名稱、符號、數(shù)量級和單位等;根據(jù)需要還可以列出除原始數(shù)據(jù)以外的計算欄目和統(tǒng)計欄目等。最后還要求寫明表格名稱、主要測量儀器的型號、量程和準確度等級、有關環(huán)境條件參數(shù)如溫度、濕度等。
2 作圖法
作圖法可以最醒目地表達物理量間的變化關系。從圖線上還可以簡便求出實驗需要的某些結果(如直線的斜率和截距值等),讀出沒有進行觀測的對應點(內插法),或在一定條件下從圖線的延伸部分讀到測量范圍以外的對應點(外推法)。此外,還可以把某些復雜的函數(shù)關系,通過一定的變換用直線圖表示出來。例如半導體熱敏電阻的電阻與溫度關系為,取對數(shù)后得到,若用半對數(shù)坐標紙,以lgR為縱軸,以1/T為橫軸畫圖,則為一條直線。
去百度文庫,查看完整內容>
內容來自用戶:蔣上樹
常用數(shù)據(jù)分析方法有那些
文章來源:ECP數(shù)據(jù)分析時間:2013/6/28 13:35:06發(fā)布者:常用數(shù)據(jù)分析(關注:554)
標簽:本文包括:
常用數(shù)據(jù)分析方法:聚類分析、因子分析、相關分析、對應分析、回歸分析、方差分析;
問卷調查常用數(shù)據(jù)分析方法:描述性統(tǒng)計分析、探索性因素分析、Cronbach'a信度系數(shù)分析、結構方程模型分析(structural equations modeling)。
數(shù)據(jù)分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點圖(scatter diagram)、魚骨圖(Ishikawa)、FMEA、點圖、柱狀圖、雷達圖、趨勢圖。
數(shù)據(jù)分析統(tǒng)計工具:SPSS、minitab、JMP。
常用數(shù)據(jù)分析方法:
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術。因子分析就是從大量的數(shù)據(jù)中尋找內在的聯(lián)系,減少決策的困難。相關分析(直方圖JMP
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據(jù)《信息網(wǎng)絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:2.577秒