說到大數(shù)據(jù),肯定少不了分析軟件,這應(yīng)該是大數(shù)據(jù)工作的根基,但市面上很多各種分析軟件,如果不是過來人,真的很難找到適合自己或符合企業(yè)要求的。
小編通過各大企業(yè)對大數(shù)據(jù)相關(guān)行業(yè)的崗位要求,總結(jié)了以下幾點:(1)SQL數(shù)據(jù)庫的基本操作,會基本的數(shù)據(jù)管理(2)會用Excel/SQL做基本的數(shù)據(jù)分析和展示(3)會用腳本語言進行數(shù)據(jù)分析,Python or R(4)有獲取外部數(shù)據(jù)的能力,如爬蟲(5)會基本的數(shù)據(jù)可視化技能,能撰寫數(shù)據(jù)報告(6)熟悉常用的數(shù)據(jù)挖掘算法:回歸分析、決策樹、隨機森林、支持向量機等對于學(xué)習(xí)大數(shù)據(jù),總體來說,先學(xué)基礎(chǔ),再學(xué)理論,最后是工具?;旧?,每一門語言的學(xué)習(xí)都是要按照這個順序來的。
1、學(xué)習(xí)數(shù)據(jù)分析基礎(chǔ)知識,包括概率論、數(shù)理統(tǒng)計?;A(chǔ)這種東西還是要掌握好的啊,基礎(chǔ)都還沒扎實,知識大廈是很容易倒的哈。
2、你的目標(biāo)行業(yè)的相關(guān)理論知識。比如金融類的,要學(xué)習(xí)證券、銀行、財務(wù)等各種知識,不然到了公司就一臉懵逼啦。
3、學(xué)習(xí)數(shù)據(jù)分析工具,軟件結(jié)合案列的實際應(yīng)用,關(guān)于數(shù)據(jù)分析主流軟件有(從上手度從易到難):Excel,SPSS,stata,R,Python,SAS等。4、學(xué)會怎樣操作這些軟件,然后是利用軟件從數(shù)據(jù)的清洗開始一步步進行處理,分析,最后輸出結(jié)果,檢驗及解讀數(shù)據(jù)。
當(dāng)然,學(xué)習(xí)數(shù)學(xué)與應(yīng)用數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)與技術(shù)等理工科專業(yè)的人確實比文科生有著客觀的優(yōu)勢,但能力大于專業(yè),興趣才會決定你走得有多遠。畢竟數(shù)據(jù)分析不像編程那樣,需要你天天敲代碼,要學(xué)習(xí)好多的編程語言,數(shù)據(jù)分析更注重的是你的實操和業(yè)務(wù)能力。
如今的軟件學(xué)習(xí)都是非常簡單便捷的,我們真正需要提升的是自己的邏輯思維能力,以及敏銳的洞察能力,還得有良好的溝通表述能力。這些都是和自身的努力有關(guān),而不是單純憑借理工科背景就可以啃得下來的。
相反這些能力更加傾向于文科生,畢竟好奇心、創(chuàng)造力也是一個人不可或缺的。
前言,學(xué)大數(shù)據(jù)要先換電腦:
保證電腦4核8G內(nèi)存64位操作系統(tǒng),盡量有ssd做系統(tǒng)盤,否則卡到你喪失信心。硬盤越大越好。
1,語言要求
java剛?cè)腴T的時候要求javase。
scala是學(xué)習(xí)spark要用的基本使用即可。
后期深入要求:
java NIO,netty,多線程,ClassLoader,jvm底層及調(diào)優(yōu)等,rpc。
2,操作系統(tǒng)要求
linux 基本的shell腳本的使用。
crontab的使用,最多。
cpu,內(nèi)存,網(wǎng)絡(luò),磁盤等瓶頸分析及狀態(tài)查看的工具。
scp,ssh,hosts的配置使用。
telnet,ping等網(wǎng)絡(luò)排查命令的使用
3,sql基本使用
sql是基礎(chǔ),hive,sparksql等都需要用到,況且大部分企業(yè)也還是以數(shù)據(jù)倉庫為中心,少不了sql。
sql統(tǒng)計,排序,join,group等,然后就是sql語句調(diào)優(yōu),表設(shè)計等。
4,大數(shù)據(jù)基本了解
Zookeeper,hadoop,hbase,hive,sqoop,flume,kafka,spark,storm等這些框架的作用及基本環(huán)境的搭建,要熟練,要會運維,瓶頸分析。
5,mapreduce及相關(guān)框架hive,sqoop
深入了解mapreduce的核心思想。尤其是shuffle,join,文件輸入格式,map數(shù)目,reduce數(shù)目,調(diào)優(yōu)等。
6,hive和hbase等倉庫
hive和hbase基本是大數(shù)據(jù)倉庫的標(biāo)配。要回用,懂調(diào)優(yōu),故障排查。
hbase看浪尖hbase系列文章。hive后期更新。
7,消息隊列的使用
kafka基本概念,使用,瓶頸分析??蠢思鈑afka系列文章。
8,實時處理系統(tǒng)
storm和spark Streaming
9,spark core和sparksql
spark用于離線分析的兩個重要功能。
10,最終方向決策
a),運維。(精通整套系統(tǒng)及故障排查,會寫運維腳本啥的。)
b),數(shù)據(jù)分析。(算法精通)
c),平臺開發(fā)。(源碼精通)
自學(xué)還是培訓(xùn)?
無基礎(chǔ)的同學(xué),培訓(xùn)之前先搞到視頻通學(xué)一遍,防止盲目培訓(xùn)跟不上講師節(jié)奏,浪費時間,精力,金錢。
有基礎(chǔ)的盡量搞點視頻學(xué)基礎(chǔ),然后跟群里大牛交流,前提是人家愿意,
想辦法跟大牛做朋友才是王道。
學(xué)習(xí)大數(shù)據(jù)要有一定的編程基礎(chǔ),這是大數(shù)據(jù)大部分崗位都需要的。
目前從事大數(shù)據(jù)方向的程序員比較普遍使用的語言有四種,分別是Python、Java、Scala和R,這四種語言都有一定的應(yīng)用場景,不同崗位的程序員使用的語言也稍有不同。Python目前主要是應(yīng)用在數(shù)據(jù)分析、數(shù)據(jù)挖掘和算法實現(xiàn)上,可以說大數(shù)據(jù)領(lǐng)域Python的應(yīng)用是比較普遍的。
Java目前在大數(shù)據(jù)領(lǐng)域的應(yīng)用還是跟平臺有直接關(guān)系,通常在需要高性能的數(shù)據(jù)處理部分采用Java開發(fā)。Scala和R主要是基于場景的應(yīng)用多一些,Scala構(gòu)建在Java基礎(chǔ)之上,代碼結(jié)構(gòu)要比Java簡潔一些,同時Scala是Spark的實現(xiàn)語言,在與Spark相關(guān)的開發(fā)中使用Scala是比較方面的選擇。
R語言本身的特點就是統(tǒng)計分析,語法簡單且功能強大,是做大數(shù)據(jù)統(tǒng)計分析的一把利器。
大數(shù)據(jù)已經(jīng)成為時代發(fā)展的趨勢,很多人紛紛選擇學(xué)習(xí)大數(shù)據(jù),想要進入大數(shù)據(jù)行業(yè)。大數(shù)據(jù)技術(shù)體系龐大,包括的知識較多,系統(tǒng)的學(xué)習(xí)大數(shù)據(jù)可以讓你全面掌握大數(shù)據(jù)技能。學(xué)習(xí)大數(shù)據(jù)需要掌握哪些知識?
1、學(xué)習(xí)大數(shù)據(jù)首先要學(xué)習(xí)Java基礎(chǔ)
怎樣進行大數(shù)據(jù)學(xué)習(xí)的快速入門?學(xué)大數(shù)據(jù)課程之前要先學(xué)習(xí)一種計算機編程語言。Java是大數(shù)據(jù)學(xué)習(xí)需要的編程語言基礎(chǔ),因為大數(shù)據(jù)的開發(fā)基于常用的高級語言。而且不論是學(xué)習(xí)hadoop,還是數(shù)據(jù)挖掘,都需要有編程語言作為基礎(chǔ)。因此,如果想學(xué)習(xí)大數(shù)據(jù)開發(fā),掌握J(rèn)ava基礎(chǔ)是必不可少的。
2、學(xué)習(xí)大數(shù)據(jù)必須學(xué)習(xí)大數(shù)據(jù)核心知識
Hadoop生態(tài)系統(tǒng);HDFS技術(shù);HBASE技術(shù);Sqoop使用流程;數(shù)據(jù)倉庫工具HIVE;大數(shù)據(jù)離線分析Spark、Python語言;數(shù)據(jù)實時分析Storm;消息訂閱分發(fā)系統(tǒng)Kafka等。
如果把大數(shù)據(jù)比作容器,那么這個容器的容量無限大,什么都能往里裝,大數(shù)據(jù)離不開物聯(lián)網(wǎng),移動互聯(lián)網(wǎng),大數(shù)據(jù)還和人工智能、云計算和機器學(xué)習(xí)有著千絲萬縷的關(guān)系,大數(shù)據(jù)海量數(shù)據(jù)存儲要高擴展就離不開云計算,大數(shù)據(jù)計算分析采用傳統(tǒng)的機器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)會比較慢,需要做并行計算和分布式計算擴展。
3、學(xué)習(xí)大數(shù)據(jù)需要具備的能力
數(shù)學(xué)知識,數(shù)學(xué)知識是數(shù)據(jù)分析師的基礎(chǔ)知識。對于數(shù)據(jù)分析師,了解一些描述統(tǒng)計相關(guān)的內(nèi)容,需要有一定公式計算能力,了解常用統(tǒng)計模型算法。而對于數(shù)據(jù)挖掘工程師來說,各類算法也需要熟練使用,對數(shù)學(xué)的要求是最高的。
編程語言,對于想學(xué)大數(shù)據(jù)的同學(xué),至少需要具備一門編程語言,比如SQL、hadoop、hive查詢、Python等均可。
4、學(xué)習(xí)大數(shù)據(jù)可以應(yīng)用的領(lǐng)域
大數(shù)據(jù)技術(shù)可以應(yīng)用在各個領(lǐng)域,比如公安大數(shù)據(jù)、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、就業(yè)大數(shù)據(jù)、環(huán)境大數(shù)據(jù)、圖像大數(shù)據(jù)、視頻大數(shù)據(jù)等等,應(yīng)用范圍非常廣泛,大數(shù)據(jù)技術(shù)已經(jīng)像空氣一樣滲透在生活的方方面面。大數(shù)據(jù)技術(shù)的出現(xiàn)將社會帶入了一個高速發(fā)展的時代,這不僅是信息技術(shù)的終極目標(biāo),也是人類社會發(fā)展管理智能化的核心技術(shù)驅(qū)動力。
首先是基礎(chǔ)階段。
這一階段包括:關(guān)系型數(shù)據(jù)庫原理、LINUX操作系統(tǒng)原理及應(yīng)用。在掌握了這些基礎(chǔ)知識后,會安排這些基礎(chǔ)課程的進階課程,即:數(shù)據(jù)結(jié)構(gòu)與算法、MYSQL數(shù)據(jù)庫應(yīng)用及開發(fā)、SHELL腳本編程。
在掌握了這些內(nèi)容之后,大數(shù)據(jù)基礎(chǔ)學(xué)習(xí)階段才算是完成了。接下來是大數(shù)據(jù)專業(yè)學(xué)習(xí)的第二階段:大數(shù)據(jù)理論及核心技術(shù)。
第二階段也被分為了基礎(chǔ)和進階兩部分,先理解基礎(chǔ)知識,再進一步對知識內(nèi)容做深入的了解和實踐。基礎(chǔ)部分包括:布式存儲技術(shù)原理與應(yīng)用、分布式計算技術(shù)、HADOOP集群搭建、運維;進階內(nèi)容包括:HDFS高可靠、ZOOKEEPER、CDH、Shuffle、HADOOP源碼分析、HIVE、HBASE、Mongodb、HADOOP項目實戰(zhàn)。
完成了這部分內(nèi)容的學(xué)習(xí),學(xué)員們就已經(jīng)掌握了大數(shù)據(jù)專業(yè)大部分的知識,并具有了一定的項目經(jīng)驗。但為了學(xué)員們在大數(shù)據(jù)專業(yè)有更好的發(fā)展,所學(xué)知識能更廣泛地應(yīng)用到大數(shù)據(jù)相關(guān)的各個崗位,有個更長遠的發(fā)展前景。
第三階段叫做數(shù)據(jù)分析挖掘及海量數(shù)據(jù)高級處理技術(shù)?;A(chǔ)部分有:PYTHON語言、機器學(xué)習(xí)算法、FLUME+KAFKA;進階部分有:機器學(xué)習(xí)算法庫應(yīng)用、實時分析計算框架、SPARK技術(shù)、PYTHON高級語言應(yīng)用、分布式爬蟲與反爬蟲技術(shù)、實時分析項目實戰(zhàn)、機器學(xué)習(xí)算法項目實戰(zhàn)。
學(xué)習(xí)大數(shù)據(jù)開發(fā)的第一個階段:了解大數(shù)據(jù)的理論知識學(xué)習(xí)一門課程,首先你對這門課程要有簡單的了解,比如說要先學(xué)習(xí)這門課程的一些專業(yè)術(shù)語,學(xué)習(xí)一些入門的概念,知道這門課程是做什么的,主要學(xué)習(xí)的有那些知識。
學(xué)習(xí)大數(shù)據(jù)開發(fā)也是一樣,你要知道什么是大數(shù)據(jù),一般大數(shù)據(jù)主要運用在那些領(lǐng)域。避免自己在對大數(shù)據(jù)一無所知的情況下就開始盲目學(xué)習(xí)。
學(xué)習(xí)大數(shù)據(jù)開發(fā)的第二個階段:計算機編程語言的學(xué)習(xí)對于零基礎(chǔ)的學(xué)員來說,開始入門可能不是那么容易,需要學(xué)習(xí)大量的理論知識,閱讀枯燥的教材。因為要掌握一門計算機編程語言,大家都知道計算機編程語言有很多,比如:R,C++,JAVA等等。
學(xué)習(xí)大數(shù)據(jù)開發(fā)的第三階段:大數(shù)據(jù)相關(guān)課程的學(xué)習(xí)經(jīng)過一段時間的基礎(chǔ)學(xué)習(xí)之后,我們對編程語言也已經(jīng)基本掌握了,接下來就可以進行大數(shù)據(jù)部分的課程學(xué)習(xí)了。在這里大數(shù)據(jù)開發(fā)學(xué)習(xí)要特別提醒大家:行業(yè)真正大數(shù)據(jù),82%主講都是hadoop、spark生態(tài)體系、storm實時開發(fā)等課程。
而所謂“大數(shù)據(jù)”機構(gòu)85%基本講的都是JAVA/PHP數(shù)據(jù)或數(shù)據(jù)庫學(xué)習(xí)(大數(shù)據(jù)課程含量不超過15%),初學(xué)者請務(wù)必認(rèn)清你要學(xué)的是不是真正大數(shù)據(jù)!學(xué)習(xí)大數(shù)據(jù)開發(fā)的第四個階段:項目實戰(zhàn)階段實戰(zhàn)訓(xùn)練可以幫助我們更好的理解所學(xué)的內(nèi)容,同時對相關(guān)知識加強記憶。在以后的實際運用中,可以更快的上手,對于相關(guān)知識該怎么用也有了經(jīng)驗。
學(xué)會這四個階段在也不用擔(dān)心零基礎(chǔ)學(xué)不好大數(shù)據(jù)了。再說了學(xué)習(xí)嘛,只要你用心肯定能學(xué)會的,只要你付出就一定會有回報的。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時間:3.001秒