1.統(tǒng)計(jì)知識(shí)
在做數(shù)據(jù)分析,統(tǒng)計(jì)的知識(shí)肯定是需要的,Excel、SPSS、R等是需要掌握的基本技能。如果我們做數(shù)據(jù)挖掘的話,就要重視數(shù)學(xué)知識(shí),數(shù)據(jù)挖掘要從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,這就需要一定的數(shù)學(xué)知識(shí),最基本的比如線性代數(shù)、高等代數(shù)、凸優(yōu)化、概率論等。
2.概率知識(shí)
而樸素貝葉斯算法需要概率方面的知識(shí),SKM算法需要高等代數(shù)或者區(qū)間論方面的知識(shí)。當(dāng)然,我們可以直接套模型,R、Python這些工具有現(xiàn)成的算法包,可以直接套用。但如果我們想深入學(xué)習(xí)這些算法,最好去學(xué)習(xí)一些數(shù)學(xué)知識(shí),也會(huì)讓我們以后的路走得更順暢。我們經(jīng)常會(huì)用到的語言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時(shí)用MapReduce寫程序,再用Hadoop或者Hyp來處理數(shù)據(jù),如果用Python的話會(huì)和Spark相結(jié)合。
3.數(shù)據(jù)挖掘的數(shù)據(jù)類型
那么可以挖掘的數(shù)據(jù)類型都有什么呢?關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)間序列數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫。關(guān)系數(shù)據(jù)庫就是表的集合,每個(gè)表都賦予一個(gè)唯一的名字。每個(gè)表包含一組屬性列或字段,并通常存放大量元組,比如記錄或行。關(guān)系中的每個(gè)元組代表一個(gè)被唯一關(guān)鍵字標(biāo)識(shí)的對(duì)象,并被一組屬性值描述。
4.數(shù)據(jù)倉庫
什么是數(shù)據(jù)倉庫呢?數(shù)據(jù)倉庫就是通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新構(gòu)造 。數(shù)據(jù)挖掘的工作內(nèi)容是什么呢?數(shù)據(jù)分析更偏向統(tǒng)計(jì)分析,出圖,作報(bào)告比較多,做一些展示。數(shù)據(jù)挖掘更偏向于建模型。比如,我們做一個(gè)電商的數(shù)據(jù)分析。萬達(dá)電商的數(shù)據(jù)非常大,具體要做什么需要項(xiàng)目組自己來定。電商數(shù)據(jù)能給我們的業(yè)務(wù)什么樣的推進(jìn),我們從這一點(diǎn)入手去思考。我們從中挑出一部分進(jìn)行用戶分群。
關(guān)于數(shù)據(jù)挖掘需要學(xué)習(xí)哪些知識(shí),青藤小編就和您分享到這里了。如果您對(duì)大數(shù)據(jù)工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關(guān)于數(shù)據(jù)分析師、大數(shù)據(jù)工程師的技巧及素材等內(nèi)容,可以點(diǎn)擊本站的其他文章進(jìn)行學(xué)習(xí)。
1. 工程能力
( 1 )編程基礎(chǔ):需要掌握一大一小兩門語言,大的指 C++ 或者 Java ,小的指Python 或者 shell 腳本;需要掌握基本的數(shù)據(jù)庫語言;
建議:MySQL + python + C++ ;語言只是一種工具,看看語法就好;
推薦書籍:《C++ primer plus 》
( 2 )開發(fā)平臺(tái): Linux ;
建議:掌握常見的命令,掌握 Linux 下的源碼編譯原理;
推薦書籍:《Linux 私房菜》
( 3 )數(shù)據(jù)結(jié)構(gòu)與算法分析基礎(chǔ):掌握常見的數(shù)據(jù)結(jié)構(gòu)以及操作(線性表,隊(duì),列,字符串,樹,圖等),掌握常見的計(jì)算機(jī)算法(排序算法,查找算法,動(dòng)態(tài)規(guī)劃,遞歸等);
建議:多敲代碼,多刷題;
推薦書籍:《大話數(shù)據(jù)結(jié)構(gòu)》《劍指 offer 》
( 4 )海量數(shù)據(jù)處理平臺(tái): Hadoop ( mr 計(jì)算模型,java 開發(fā))或者 Spark ( rdd 計(jì)算模型, scala開發(fā)),重點(diǎn)推薦后者;
建議:主要是會(huì)使用,有精力的話可以看看源碼了解集群調(diào)度機(jī)制之類的;
推薦書籍:《大數(shù)據(jù) spark 企業(yè)級(jí)實(shí)戰(zhàn)》
2. 算法能力
( 1 )數(shù)學(xué)基礎(chǔ):概率論,數(shù)理統(tǒng)計(jì),線性代數(shù),隨機(jī)過程,最優(yōu)化理論
建議:這些是必須要了解的,即使沒法做到基礎(chǔ)扎實(shí),起碼也要掌握每門學(xué)科的理論體系,涉及到相應(yīng)知識(shí)點(diǎn)時(shí)通過查閱資料可以做到無障礙理解;
( 2 )機(jī)器學(xué)習(xí) / 深度學(xué)習(xí):掌握 常見的機(jī)器學(xué)習(xí)模型(線性回歸,邏輯回歸, SVM ,感知機(jī);決策樹,隨機(jī)森林, GBDT , XGBoost ;貝葉斯, KNN , K-means , EM 等);掌握常見的機(jī)器學(xué)習(xí)理論(過擬合問題,交叉驗(yàn)證問題,模型選擇問題,模型融合問題等);掌握常見的深度學(xué)習(xí)模型( CNN ,RNN 等);
建議:這里的掌握指的是能夠熟悉推導(dǎo)公式并能知道模型的適用場(chǎng)景;
推薦書籍:《統(tǒng)計(jì)學(xué)習(xí)方法》《機(jī)器學(xué)習(xí)》《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》《 UFLDL 》
( 3 )自然語言處理:掌握常見的方法( tf-idf , word2vec ,LDA );
3. 業(yè)務(wù)經(jīng)驗(yàn)
( 1 )了解推薦以及計(jì)算廣告相關(guān)知識(shí);
推薦書籍:《推薦系統(tǒng)實(shí)踐》《計(jì)算廣告》
( 2 )通過參加數(shù)據(jù)挖掘競(jìng)賽熟悉相關(guān)業(yè)務(wù)場(chǎng)景,常見的比賽有 Kaggle ,阿里天池, datacastle 等。
個(gè)人感覺數(shù)據(jù)挖掘是一個(gè)比較大的概念,可以理解為:
數(shù)據(jù)挖掘=業(yè)務(wù)知識(shí)+自然語言處理技術(shù)(NLP)+計(jì)算機(jī)視覺技術(shù)(CV)+機(jī)器學(xué)習(xí)/深度學(xué)習(xí)(ML/DL)
(1)其中業(yè)務(wù)知識(shí)具體指的是個(gè)性化推薦,計(jì)算廣告,搜索,互聯(lián)網(wǎng)金融等;NLP,CV分別是處理文本,圖像視頻數(shù)據(jù)的領(lǐng)域技術(shù),可以理解為是將非結(jié)構(gòu)化數(shù)據(jù)提取轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù);最后的ml/dl技術(shù)則是屬于模型學(xué)習(xí)理論;
(2)在選擇崗位時(shí),各個(gè)公司都沒有一套標(biāo)準(zhǔn)的稱呼,但是所做的事情無非2個(gè)大方向,一種是主要鉆研某個(gè)領(lǐng)域的技術(shù),比如自然語言處理工程師,計(jì)算機(jī)視覺工程師,機(jī)器學(xué)習(xí)工程師等;一種是將各種領(lǐng)域技術(shù)應(yīng)用到業(yè)務(wù)場(chǎng)景中去解決業(yè)務(wù)需求,比如數(shù)據(jù)挖掘工程師,推薦系統(tǒng)工程師等;具體的稱呼不重要,重要的是平時(shí)的工作內(nèi)容;
PS:在互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)挖掘相關(guān)技術(shù)應(yīng)用比較成功的主要是推薦以及計(jì)算廣告領(lǐng)域,而其中涉及到的數(shù)據(jù)主要也是文本,所以NLP技術(shù)相對(duì)來講比較重要,至于CV技術(shù)主要還是在人工智能領(lǐng)域(無人車,人臉識(shí)別等)應(yīng)用較多,本人了解有限,相關(guān)的描述會(huì)較少;
3.根據(jù)之前的分析,也可以看到該崗位所需要的3種基本能力分別是業(yè)務(wù)經(jīng)驗(yàn),算法能力與工程能力;
入門
1.工程能力
(1)編程基礎(chǔ):需要掌握一大一小兩門語言,大的指C++或者JAVA,小的指python或者shell腳本;需要掌握基本的數(shù)據(jù)庫語言;
建議:MySQL + python + C++;語言只是一種工具,看看語法就好;
(2)開發(fā)平臺(tái):Linux;
建議:掌握常見的命令,掌握Linux下的源碼編譯原理;
(3)數(shù)據(jù)結(jié)構(gòu)與算法分析基礎(chǔ):掌握常見的數(shù)據(jù)結(jié)構(gòu)以及操作(線性表,隊(duì),列,字符串,樹,圖等),掌握常見的計(jì)算機(jī)算法(排序算法,查找算法,動(dòng)態(tài)規(guī)劃,遞歸等);
建議:多敲代碼,多上OJ平臺(tái)刷題;
(4)海量數(shù)據(jù)處理平臺(tái):hadoop(mr計(jì)算模型,java開發(fā))或者spark(rdd計(jì)算模型,scala開發(fā)),重點(diǎn)推薦后者;
建議:主要是會(huì)使用,有精力的話可以看看源碼了解集群調(diào)度機(jī)制之類的;
2.算法能力
(1)數(shù)學(xué)基礎(chǔ):概率論,數(shù)理統(tǒng)計(jì),線性代數(shù),隨機(jī)過程,最優(yōu)化理論
建議:這些是必須要了解的,即使沒法做到基礎(chǔ)扎實(shí),起碼也要掌握每門學(xué)科的理論體系,涉及到相應(yīng)知識(shí)點(diǎn)時(shí)通過查閱資料可以做到無障礙理解;
(2)機(jī)器學(xué)習(xí)/深度學(xué)習(xí):掌握常見的機(jī)器學(xué)習(xí)模型(線性回歸,邏輯回歸,SVM,感知機(jī);決策樹,隨機(jī)森林,GBDT,XGBoost;貝葉斯,KNN,K-means,EM等);掌握常見的機(jī)器學(xué)習(xí)理論(過擬合問題,交叉驗(yàn)證問題,模型選擇問題,模型融合問題等);掌握常見的深度學(xué)習(xí)模型(CNN,RNN等);
建議:這里的掌握指的是能夠熟悉推導(dǎo)公式并能知道模型的適用場(chǎng)景;
(3)自然語言處理:掌握常見的方法(tf-idf,word2vec,LDA);
3.業(yè)務(wù)經(jīng)驗(yàn)
(1)了解推薦以及計(jì)算廣告相關(guān)知識(shí);
(2)通過參加數(shù)據(jù)挖掘競(jìng)賽熟悉相關(guān)業(yè)務(wù)場(chǎng)景,常見的比賽有Kaggle,阿里天池,datacastle等;
PS:以上都是一些入門級(jí)別的介紹,在長(zhǎng)期的學(xué)習(xí)中,應(yīng)該多看頂會(huì)paper,多讀開源代碼,多學(xué)習(xí)優(yōu)秀解決方案;
數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD), 也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。
知識(shí)發(fā)現(xiàn)過程以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫交互。
并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個(gè)別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。
雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。
數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD), 也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。
知識(shí)發(fā)現(xiàn)過程以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫交互。
并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個(gè)別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。
雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。
把數(shù)學(xué)看懂才是王道,你是做軟件開發(fā)的,干嘛用R語言,R語言是統(tǒng)計(jì)語言,還不如用python。
真正的數(shù)據(jù)挖掘不是畫幾張圖那么簡(jiǎn)單??础稊?shù)據(jù)挖掘?qū)д摗罚缓笥肅/C++/Java/Python等這些語言編程實(shí)現(xiàn)。
理解了算法然后去實(shí)現(xiàn)。經(jīng)過一段時(shí)間你理解了算法之后再去想有什么地方可以運(yùn)用的,就是你有什么需求,數(shù)據(jù)是用來發(fā)現(xiàn)知識(shí)的,而知識(shí)可以幫助企業(yè)獲得經(jīng)濟(jì)效益。
因此,如果你數(shù)學(xué)不好,在看《數(shù)據(jù)挖掘?qū)д摗返臅r(shí)候可以看看統(tǒng)計(jì)學(xué)的東西,結(jié)合起來。經(jīng)過一年半載的學(xué)習(xí)之后,你可以看更高階的比如統(tǒng)計(jì)學(xué)習(xí)理論之類的,學(xué)著學(xué)著你就上路了。
1. 統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)雖然是一門“古老的”學(xué)科,但它依然是最基本的數(shù)據(jù)挖掘技術(shù),特別是多元統(tǒng)計(jì)分析,如判別分析、主成分分析、因子分析、相關(guān)分析、多元回歸分析等。
2. 聚類分析和模式識(shí)別聚類分析主要是根據(jù)事物的特征對(duì)其進(jìn)行聚類或分類,即所謂物以類聚,以期從中發(fā)現(xiàn)規(guī)律和典型模式。這類技術(shù)是數(shù)據(jù)挖掘的最重要的技術(shù)之一。
除傳統(tǒng)的基于多元統(tǒng)計(jì)分析的聚類方法外,近些年來模糊聚類和神經(jīng)網(wǎng)絡(luò)聚類方法也有了長(zhǎng)足的發(fā)展。3. 決策樹分類技術(shù)決策樹分類是根據(jù)不同的重要特征,以樹型結(jié)構(gòu)表示分類或決策集合,從而產(chǎn)生規(guī)則和發(fā)現(xiàn)規(guī)律。
4. 人工神經(jīng)網(wǎng)絡(luò)和遺傳基因算法人工神經(jīng)網(wǎng)絡(luò)是一個(gè)迅速發(fā)展的前沿研究領(lǐng)域,對(duì)計(jì)算機(jī)科學(xué) 人工智能、認(rèn)知科學(xué)以及信息技術(shù)等產(chǎn)生了重要而深遠(yuǎn)的影響,而它在數(shù)據(jù)挖掘中也扮演著非常重要的角色。人工神經(jīng)網(wǎng)絡(luò)可通過示例學(xué)習(xí),形成描述復(fù)雜非線性系統(tǒng)的非線性函數(shù),這實(shí)際上是得到了客觀規(guī)律的定量描述,有了這個(gè)基礎(chǔ),預(yù)測(cè)的難題就會(huì)迎刃而解。
目前在數(shù)據(jù)挖掘中,最常使用的兩種神經(jīng)網(wǎng)絡(luò)是BP網(wǎng)絡(luò)和RBF網(wǎng)絡(luò) 不過,由于人工神經(jīng)網(wǎng)絡(luò)還是一個(gè)新興學(xué)科,一些重要的理論問題尚未解決。5. 規(guī)則歸納規(guī)則歸納相對(duì)來講是數(shù)據(jù)挖掘特有的技術(shù)。
它指的是在大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中搜索和挖掘以往不知道的規(guī)則和規(guī)律,這大致包括以下幾種形式:IF … THEN …6. 可視化技術(shù)可視化技術(shù)是數(shù)據(jù)挖掘不可忽視的輔助技術(shù)。數(shù)據(jù)挖掘通常會(huì)涉及較復(fù)雜的數(shù)學(xué)方法和信息技術(shù),為了方便用戶理解和使用這類技術(shù),必須借助圖形、圖象、動(dòng)畫等手段形象地指導(dǎo)操作、引導(dǎo)挖掘和表達(dá)結(jié)果等,否則很難推廣普及數(shù)據(jù)挖掘技術(shù)。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時(shí)間:3.009秒