數(shù)據(jù)處理主要有四種分類方式:
①根據(jù)處理設(shè)備的結(jié)構(gòu)方式區(qū)分,有聯(lián)機(jī)處理方式和脫機(jī)處理方式。
②根據(jù)數(shù)據(jù)處理時(shí)間的分配方式區(qū)分,有批處理方式、分時(shí)處理方式和實(shí)時(shí)處理方式。
③根據(jù)數(shù)據(jù)處理空間的分布方式區(qū)分,有集中式處理方式和分布處理方式。
④根據(jù)計(jì)算機(jī)中央處理器的工作方式區(qū)分,有單道作業(yè)處理方式、多道作業(yè)處理方式和交互式處理方式。
實(shí)驗(yàn)數(shù)據(jù)的處理方法:
1. 平均值法
取算術(shù)平均值是為減小偶然誤差而常用的一種數(shù)據(jù)處理方法。通常在同樣的測(cè)量條件下,對(duì)于某一物理量進(jìn)行多次測(cè)量的結(jié)果不會(huì)完全一樣,用多次測(cè)量的算術(shù)平均值作為測(cè)量結(jié)果,是真實(shí)值的最好近似。
2. 列表法
實(shí)驗(yàn)中將數(shù)據(jù)列成表格,可以簡(jiǎn)明地表示出有關(guān)物理量之間的關(guān)系,便于檢查測(cè)量結(jié)果和運(yùn)算是否合理,有助于發(fā)現(xiàn)和分析問(wèn)題,而且列表法還是圖象法的基礎(chǔ)。
列表時(shí)應(yīng)注意:
①表格要直接地反映有關(guān)物理量之間的關(guān)系,一般把自變量寫(xiě)在前邊,因變量緊接著寫(xiě)在后面,便于分析。
②表格要清楚地反映測(cè)量的次數(shù),測(cè)得的物理量的名稱及單位,計(jì)算的物理量的名稱及單位。物理量的單位可寫(xiě)在標(biāo)題欄內(nèi),一般不在數(shù)值欄內(nèi)重復(fù)出現(xiàn)。
③表中所列數(shù)據(jù)要正確反映測(cè)量值的有效數(shù)字。
3. 作圖法
選取適當(dāng)?shù)淖宰兞?,通過(guò)作圖可以找到或反映物理量之間的變化關(guān)系,并便于找出其中的規(guī)律,確定對(duì)應(yīng)量的函數(shù)關(guān)系。作圖法是最常用的實(shí)驗(yàn)數(shù)據(jù)處理方法之一。
描繪圖象的要求是:
①根據(jù)測(cè)量的要求選定坐標(biāo)軸,一般以橫軸為自變量,縱軸為因變量。坐標(biāo)軸要標(biāo)明所代表的物理量的名稱及單位。
②坐標(biāo)軸標(biāo)度的選擇應(yīng)合適,使測(cè)量數(shù)據(jù)能在坐標(biāo)軸上得到準(zhǔn)確的反映。為避免圖紙上出現(xiàn)大片空白,坐標(biāo)原點(diǎn)可以是零,也可以不是零。坐標(biāo)軸的分度的估讀數(shù),應(yīng)與測(cè)量值的估讀數(shù)(即有效數(shù)字的末位)相對(duì)應(yīng)。
一、掌握基礎(chǔ)、更新知識(shí)。
基本技術(shù)怎么強(qiáng)調(diào)都不過(guò)分。這里的術(shù)更多是(計(jì)算機(jī)、統(tǒng)計(jì)知識(shí)), 多年做數(shù)據(jù)分析、數(shù)據(jù)挖掘的經(jīng)歷來(lái)看、以及業(yè)界朋友的交流來(lái)看,這點(diǎn)大家深有感觸的。
數(shù)據(jù)庫(kù)查詢—SQL 數(shù)據(jù)分析師在計(jì)算機(jī)的層面的技能要求較低,主要是會(huì)SQL,因?yàn)檫@里解決一個(gè)數(shù)據(jù)提取的問(wèn)題。有機(jī)會(huì)可以去逛逛一些專業(yè)的數(shù)據(jù)論壇,學(xué)習(xí)一些SQL技巧、新的函數(shù),對(duì)你工作效率的提高是很有幫助的。
統(tǒng)計(jì)知識(shí)與數(shù)據(jù)挖掘 你要掌握基礎(chǔ)的、成熟的數(shù)據(jù)建模方法、數(shù)據(jù)挖掘方法。例如:多元統(tǒng)計(jì):回歸分析、因子分析、離散等,數(shù)據(jù)挖掘中的:決策樹(shù)、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)等。
但是還是應(yīng)該關(guān)注一些博客、論壇中大家對(duì)于最新方法的介紹,或者是對(duì)老方法的新運(yùn)用,不斷更新自己知識(shí),才能跟上時(shí)代,也許你工作中根本不會(huì)用到,但是未來(lái)呢?行業(yè)知識(shí) 如果數(shù)據(jù)不結(jié)合具體的行業(yè)、業(yè)務(wù)知識(shí),數(shù)據(jù)就是一堆數(shù)字,不代表任何東西。是冷冰冰,是不會(huì)產(chǎn)生任何價(jià)值的,數(shù)據(jù)驅(qū)動(dòng)營(yíng)銷、提高科學(xué)決策一切都是空的。
一名數(shù)據(jù)分析師,一定要對(duì)所在行業(yè)知識(shí)、業(yè)務(wù)知識(shí)有深入的了解。例如:看到某個(gè)數(shù)據(jù),你首先必須要知道,這個(gè)數(shù)據(jù)的統(tǒng)計(jì)口徑是什么?是如何取出來(lái)的?這個(gè)數(shù)據(jù)在這個(gè)行業(yè), 在相應(yīng)的業(yè)務(wù)是在哪個(gè)環(huán)節(jié)是產(chǎn)生的?數(shù)值的代表業(yè)務(wù)發(fā)生了什么(背景是什么)?對(duì)于A部門(mén)來(lái)說(shuō),本月新會(huì)員有10萬(wàn),10萬(wàn)好還是不好呢?先問(wèn)問(wèn)上面的這個(gè)問(wèn)題:對(duì)于A部門(mén),1、新會(huì)員的統(tǒng)計(jì)口徑是什么。
第一次在使用A部門(mén)的產(chǎn)品的會(huì)員?還是在站在公司角度上說(shuō),第一次在公司發(fā)展業(yè)務(wù)接觸的會(huì)員?2、是如何統(tǒng)計(jì)出來(lái)的。A:時(shí)間;是通過(guò)創(chuàng)建時(shí)間,還是業(yè)務(wù)完成時(shí)間。
B:業(yè)務(wù)場(chǎng)景。是只要與業(yè)務(wù)發(fā)接觸,例如下了單,還是要業(yè)務(wù)完成后,到成功支付。
3、這個(gè)數(shù)據(jù)是在哪個(gè)環(huán)節(jié)統(tǒng)計(jì)出來(lái)。在注冊(cè)環(huán)節(jié),在下單環(huán)節(jié),在成功支付環(huán)節(jié)。
4、這個(gè)數(shù)據(jù)代表著什么。10萬(wàn)高嗎?與歷史相同比較?是否做了營(yíng)銷活動(dòng)?這個(gè)行業(yè)處理行業(yè)生命同期哪個(gè)階段?在前面二點(diǎn),更多要求你能按業(yè)務(wù)邏輯,來(lái)進(jìn)行數(shù)據(jù)的提?。ǜ嗍菍?xiě)SQL代碼從數(shù)據(jù)庫(kù)取出數(shù)據(jù))。
后面二點(diǎn),更重要是對(duì)業(yè)務(wù)了解,更行業(yè)知識(shí)了解,你才能進(jìn)行相應(yīng)的數(shù)據(jù)解讀,才能讓數(shù)據(jù)產(chǎn)生真正的價(jià)值,不是嗎?對(duì)于新進(jìn)入數(shù)據(jù)行業(yè)或者剛進(jìn)入數(shù)據(jù)行業(yè)的朋友來(lái)說(shuō):行業(yè)知識(shí)都重要,也許你看到很多的數(shù)據(jù)行業(yè)的同仁,在微博或者寫(xiě)文章說(shuō),數(shù)據(jù)分析思想、行業(yè)知識(shí)、業(yè)務(wù)知識(shí)很重要。我非常同意。
因?yàn)樽鳛閿?shù)據(jù)分析師,在發(fā)表任何觀點(diǎn)的時(shí)候,都不要忘記你居于的背景是什么?但大家一定不要忘記了一些基本的技術(shù),不要把基礎(chǔ)去忘記了,如果一名數(shù)據(jù)分析師不會(huì)寫(xiě)SQL,那麻煩就大了。哈哈。
你只有把數(shù)據(jù)先取對(duì)了,才能正確的分析,否則一切都是錯(cuò)誤了,甚至?xí)?dǎo)致致命的結(jié)論。
新同學(xué),還是好好花時(shí)間把基礎(chǔ)技能學(xué)好。因?yàn)榛A(chǔ)技能你可以在短期內(nèi)快速提高,但是在行業(yè)、業(yè)務(wù)知識(shí)的是一點(diǎn)一滴的積累起來(lái)的,有時(shí)候是急不來(lái)的,這更需要花時(shí)間慢慢去沉淀下來(lái)。
不要過(guò)于追求很高級(jí)、高深的統(tǒng)計(jì)方法,我提倡有空還是要多去學(xué)習(xí)基本的統(tǒng)計(jì)學(xué)知識(shí),從而提高工作效率,達(dá)到事半功倍。以我經(jīng)驗(yàn)來(lái)說(shuō),我負(fù)責(zé)任告訴新進(jìn)的同學(xué),永遠(yuǎn)不要忘記基本知識(shí)、基本技能的學(xué)習(xí)。
二、要有三心。1、細(xì)心。
2、耐心。3、靜心。
數(shù)據(jù)分析師其實(shí)是一個(gè)細(xì)活,特別是在前文提到的例子中的前面二點(diǎn)。而且在數(shù)據(jù)分析過(guò)程中,是一個(gè)不斷循環(huán)迭代的過(guò)程,所以一定在耐心,不怕麻煩,能靜下心來(lái)不斷去修改自己的分析思路。
三、形成自己結(jié)構(gòu)化的思維。數(shù)據(jù)分析師一定要嚴(yán)謹(jǐn)。
而嚴(yán)謹(jǐn)一定要很強(qiáng)的結(jié)構(gòu)化思維,如何提高結(jié)構(gòu)化思維,也許只需要工作隊(duì)中不斷的實(shí)踐。但是我推薦你用mindmanagement,首先把你的整個(gè)思路整理出來(lái),然后根據(jù)分析不斷深入、得到的信息不斷增加的情況下去完善你的結(jié)構(gòu),慢慢你會(huì)形成一套自己的思想。
當(dāng)然有空的時(shí)候去看看《麥肯錫思維》、結(jié)構(gòu)化邏輯思維訓(xùn)練的書(shū)也不錯(cuò)。在我以為多看看你身邊更資深同事的報(bào)告,多問(wèn)問(wèn)他們是怎么去考慮這個(gè)問(wèn)題的,別人的思想是怎么樣的?他是怎么構(gòu)建整個(gè)分析體系的。
四、業(yè)務(wù)、行業(yè)、商業(yè)知識(shí)。當(dāng)你掌握好前面的基本知識(shí)和一些技巧性東西的時(shí)候,你應(yīng)該在業(yè)務(wù)、行業(yè)、商業(yè)知識(shí)的學(xué)習(xí)與積累上了。
這個(gè)放在最后,不是不重要,而且非常重要,如果前面三點(diǎn)是決定你能否進(jìn)入這個(gè)行業(yè),那么這則是你進(jìn)入這個(gè)行業(yè)后,能否成功的最根本的因素。 數(shù)據(jù)與具體行業(yè)知識(shí)的關(guān)系,比作池塘中魚(yú)與水的關(guān)系一點(diǎn)都不過(guò)分,數(shù)據(jù)(魚(yú))離開(kāi)了行業(yè)、業(yè)務(wù)背景(水)是死的,是不可能是“活”。
而沒(méi)有“魚(yú)”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。如何提高業(yè)務(wù)知識(shí),特別是沒(méi)有相關(guān)背景的同學(xué)。
很簡(jiǎn)單,我總結(jié)了幾點(diǎn):1、多向業(yè)務(wù)部門(mén)的同事請(qǐng)教,多溝通。多向他們請(qǐng)教,數(shù)據(jù)分析師與業(yè)務(wù)部門(mén)沒(méi)有利益沖突,而更向是共生體,所以如果你態(tài)度好,相信業(yè)務(wù)部門(mén)的同事也很愿意把他們知道的告訴你。
2、永遠(yuǎn)不要忘記了google大神,定制一些行業(yè)的關(guān)鍵字,每天都先看看定制的郵件。3、每天有空去瀏。
1.墓于粗糙集( Rough Set)理論的約簡(jiǎn)方法
粗糙集理論是一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具。目前受到了KDD的廣泛重視,利用粗糙集理論對(duì)數(shù)據(jù)進(jìn)行處理是一種十分有效的精簡(jiǎn)數(shù)據(jù)維數(shù)的方法。我們所處理的數(shù)據(jù)一般存在信息的含糊性(Vagueness)問(wèn)題。含糊性有三種:術(shù)語(yǔ)的模糊性,如高矮;數(shù)據(jù)的不確定性,如噪聲引起的;知識(shí)自身的不確定性,如規(guī)則的前后件間的依賴關(guān)系并不是完全可靠的。在KDD中,對(duì)不確定數(shù)據(jù)和噪聲干擾的處理是粗糙集方法的
2.基于概念樹(shù)的數(shù)據(jù)濃縮方法
在數(shù)據(jù)庫(kù)中,許多屬性都是可以進(jìn)行數(shù)據(jù)歸類,各屬性值和概念依據(jù)抽象程度不同可以構(gòu)成一個(gè)層次結(jié)構(gòu),概念的這種層次結(jié)構(gòu)通常稱為概念樹(shù)。概念樹(shù)一般由領(lǐng)域?qū)<姨峁鼘⒏鱾€(gè)層次的概念按一般到特殊的順序排列。
3.信息論思想和普化知識(shí)發(fā)現(xiàn)
特征知識(shí)和分類知識(shí)是普化知識(shí)的兩種主要形式,其算法基本上可以分為兩類:數(shù)據(jù)立方方法和面向?qū)傩詺w納方法。
普通的基于面向?qū)傩詺w納方法在歸納屬性的選擇上有一定的盲目性,在歸納過(guò)程中,當(dāng)供選擇的可歸納屬性有多個(gè)時(shí),通常是隨機(jī)選取一個(gè)進(jìn)行歸納。事實(shí)上,不同的屬性歸納次序獲得的結(jié)果知識(shí)可能是不同的,根據(jù)信息論最大墑的概念,應(yīng)該選用一個(gè)信息丟失最小的歸納次序。
4.基于統(tǒng)計(jì)分析的屬性選取方法
我們可以采用統(tǒng)計(jì)分析中的一些算法來(lái)進(jìn)行特征屬性的選取,比如主成分分析、逐步回歸分析、公共因素模型分析等。這些方法的共同特征是,用少量的特征元組去描述高維的原始知識(shí)基。
5.遺傳算法〔GA, Genetic Algo}thrn})
遺傳算法是一種基于生物進(jìn)化論和分子遺傳學(xué)的全局隨機(jī)搜索算法。遺傳算法的基本思想是:將問(wèn)題的可能解按某種形式進(jìn)行編碼,形成染色體。隨機(jī)選取N個(gè)染色體構(gòu)成初始種群。再根據(jù)預(yù)定的評(píng)價(jià)函數(shù)對(duì)每個(gè)染色體計(jì)算適應(yīng)值。選擇適應(yīng)值高的染色體進(jìn)行復(fù)制,通過(guò)遺傳運(yùn)算(選擇、交叉、變異)來(lái)產(chǎn)生一群新的更適應(yīng)環(huán)境的染色體,形成新的種群。這樣一代一代不斷繁殖進(jìn)化,最后收斂到一個(gè)最適合環(huán)境的個(gè)體上,從而求得問(wèn)題的最優(yōu)解。遺傳算法應(yīng)用的關(guān)鍵是適應(yīng)度函數(shù)的建立和染色體的描述。在實(shí)際應(yīng)用中,通常將它和神經(jīng)網(wǎng)絡(luò)方法綜合使用。通過(guò)遺傳算法來(lái)搜尋出更重要的變量組合。
去百度文庫(kù),查看完整內(nèi)容>內(nèi)容來(lái)自用戶:林桂玲第六節(jié)數(shù)據(jù)處理的基本方法前面我們已經(jīng)討論了測(cè)量與誤差的基本概念,測(cè)量結(jié)果的最佳值、誤差和不確定度的計(jì)算。
然而,我們進(jìn)行實(shí)驗(yàn)的最終目的是為了通過(guò)數(shù)據(jù)的獲得和處理,從中揭示出有關(guān)物理量的關(guān)系,或找出事物的內(nèi)在規(guī)律性,或驗(yàn)證某種理論的正確性,或?yàn)橐院蟮膶?shí)驗(yàn)準(zhǔn)備依據(jù)。因而,需要對(duì)所獲得的數(shù)據(jù)進(jìn)行正確的處理,數(shù)據(jù)處理貫穿于從獲得原始數(shù)據(jù)到得出結(jié)論的整個(gè)實(shí)驗(yàn)過(guò)程。
包括數(shù)據(jù)記錄、整理、計(jì)算、作圖、分析等方面涉及數(shù)據(jù)運(yùn)算的處理方法。常用的數(shù)據(jù)處理方法有:列表法、圖示法、圖解法、逐差法和最小二乘線性擬合法等,下面分別予以簡(jiǎn)單討論。
一、列表法?列表法是將實(shí)驗(yàn)所獲得的數(shù)據(jù)用表格的形式進(jìn)行排列的數(shù)據(jù)處理方法。列表法的作用有兩種:一是記錄實(shí)驗(yàn)數(shù)據(jù),二是能顯示出物理量間的對(duì)應(yīng)關(guān)系。
其優(yōu)點(diǎn)是,能對(duì)大量的雜亂無(wú)章的數(shù)據(jù)進(jìn)行歸納整理,使之既有條不紊,又簡(jiǎn)明醒目;既有助于表現(xiàn)物理量之間的關(guān)系,又便于及時(shí)地檢查和發(fā)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)是否合理,減少或避免測(cè)量錯(cuò)誤;同時(shí),也為作圖法等處理數(shù)據(jù)奠定了基礎(chǔ)。用列表的方法記錄和處理數(shù)據(jù)是一種良好的科學(xué)工作習(xí)慣,要設(shè)計(jì)出一個(gè)欄目清楚、行列分明的表格,也需要在實(shí)驗(yàn)中不斷訓(xùn)練,逐步掌握、熟練,并形成習(xí)慣。
4.連線。要繪制一條與標(biāo)出的實(shí)驗(yàn)點(diǎn)基本相符的圖線,圖線盡可能多的通過(guò)實(shí)驗(yàn)點(diǎn),由于測(cè)量誤差,某些實(shí)驗(yàn)點(diǎn)可能不在圖線上,應(yīng)盡量使其均勻地分布在圖線的兩側(cè)。
圖線應(yīng)是直線或光滑的曲線或折。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥(niǎo). 頁(yè)面生成時(shí)間:3.730秒