數(shù)據(jù)預(yù)處理(datapreprocessing)是指在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理。如對(duì)大部分地球物理面積性觀測(cè)數(shù)據(jù)在進(jìn)行轉(zhuǎn)換或增強(qiáng)處理之前,首先將不規(guī)則分布的測(cè)網(wǎng)經(jīng)過插值轉(zhuǎn)換為規(guī)則網(wǎng)的處理,以利于計(jì)算機(jī)的運(yùn)算。另外,對(duì)于一些剖面測(cè)量數(shù)據(jù),如地震資料預(yù)處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數(shù)據(jù)預(yù)處理的方法:
1、數(shù)據(jù)清理
數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)并解決不一致性來“清理”數(shù)據(jù)。主要是達(dá)到如下目標(biāo):格式標(biāo)準(zhǔn)化,異常數(shù)據(jù)清除,錯(cuò)誤糾正,重復(fù)數(shù)據(jù)的清除。
2、數(shù)據(jù)集成
數(shù)據(jù)集成例程將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并 統(tǒng)一存儲(chǔ),建立數(shù)據(jù)倉(cāng)庫(kù)的過程實(shí)際上就是數(shù)據(jù)集成。
3、數(shù)據(jù)變換
通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。
4、數(shù)據(jù)歸約
數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大,在少量數(shù)據(jù)上進(jìn)行挖掘分析需要很長(zhǎng)的時(shí)間,數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并結(jié)果與歸約前結(jié)果相同或幾乎相同。
1.墓于粗糙集( Rough Set)理論的約簡(jiǎn)方法 粗糙集理論是一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具。
目前受到了KDD的廣泛重視,利用粗糙集理論對(duì)數(shù)據(jù)進(jìn)行處理是一種十分有效的精簡(jiǎn)數(shù)據(jù)維數(shù)的方法。我們所處理的數(shù)據(jù)一般存在信息的含糊性(Vagueness)問題。
含糊性有三種:術(shù)語的模糊性,如高矮;數(shù)據(jù)的不確定性,如噪聲引起的;知識(shí)自身的不確定性,如規(guī)則的前后件間的依賴關(guān)系并不是完全可靠的。在KDD中,對(duì)不確定數(shù)據(jù)和噪聲干擾的處理是粗糙集方法的 2.基于概念樹的數(shù)據(jù)濃縮方法 在數(shù)據(jù)庫(kù)中,許多屬性都是可以進(jìn)行數(shù)據(jù)歸類,各屬性值和概念依據(jù)抽象程度不同可以構(gòu)成一個(gè)層次結(jié)構(gòu),概念的這種層次結(jié)構(gòu)通常稱為概念樹。
概念樹一般由領(lǐng)域?qū)<姨峁?,它將各個(gè)層次的概念按一般到特殊的順序排列。 3.信息論思想和普化知識(shí)發(fā)現(xiàn) 特征知識(shí)和分類知識(shí)是普化知識(shí)的兩種主要形式,其算法基本上可以分為兩類:數(shù)據(jù)立方方法和面向?qū)傩詺w納方法。
普通的基于面向?qū)傩詺w納方法在歸納屬性的選擇上有一定的盲目性,在歸納過程中,當(dāng)供選擇的可歸納屬性有多個(gè)時(shí),通常是隨機(jī)選取一個(gè)進(jìn)行歸納。事實(shí)上,不同的屬性歸納次序獲得的結(jié)果知識(shí)可能是不同的,根據(jù)信息論最大墑的概念,應(yīng)該選用一個(gè)信息丟失最小的歸納次序。
4.基于統(tǒng)計(jì)分析的屬性選取方法 我們可以采用統(tǒng)計(jì)分析中的一些算法來進(jìn)行特征屬性的選取,比如主成分分析、逐步回歸分析、公共因素模型分析等。這些方法的共同特征是,用少量的特征元組去描述高維的原始知識(shí)基。
5.遺傳算法〔GA, Genetic Algo}thrn}) 遺傳算法是一種基于生物進(jìn)化論和分子遺傳學(xué)的全局隨機(jī)搜索算法。遺傳算法的基本思想是:將問題的可能解按某種形式進(jìn)行編碼,形成染色體。
隨機(jī)選取N個(gè)染色體構(gòu)成初始種群。再根據(jù)預(yù)定的評(píng)價(jià)函數(shù)對(duì)每個(gè)染色體計(jì)算適應(yīng)值。
選擇適應(yīng)值高的染色體進(jìn)行復(fù)制,通過遺傳運(yùn)算(選擇、交叉、變異)來產(chǎn)生一群新的更適應(yīng)環(huán)境的染色體,形成新的種群。這樣一代一代不斷繁殖進(jìn)化,最后收斂到一個(gè)最適合環(huán)境的個(gè)體上,從而求得問題的最優(yōu)解。
遺傳算法應(yīng)用的關(guān)鍵是適應(yīng)度函數(shù)的建立和染色體的描述。在實(shí)際應(yīng)用中,通常將它和神經(jīng)網(wǎng)絡(luò)方法綜合使用。
通過遺傳算法來搜尋出更重要的變量組合。
實(shí)驗(yàn)數(shù)據(jù)的處理方法
實(shí)驗(yàn)結(jié)果的表示,首先取決于實(shí)驗(yàn)的物理模式,通過被測(cè)量之間的相互關(guān)系,考慮實(shí)驗(yàn)結(jié)果的表示方法。常見的實(shí)驗(yàn)結(jié)果的表示方法是有圖解法和方程表示法。在處理數(shù)據(jù)時(shí)可根據(jù)需要和方便選擇任何一種方法表示實(shí)驗(yàn)的最后結(jié)果。
(1)實(shí)驗(yàn)結(jié)果的圖形表示法。把實(shí)驗(yàn)結(jié)果用函數(shù)圖形表示出來,在實(shí)驗(yàn)工作中也有普遍的實(shí)用價(jià)值。它有明顯的直觀性,能清楚的反映出實(shí)驗(yàn)過程中變量之間的變化進(jìn)程和連續(xù)變化的趨勢(shì)。精確地描制圖線,在具體數(shù)學(xué)關(guān)系式為未知的情況下還可進(jìn)行圖解,并可借助圖形來選擇經(jīng)驗(yàn)公式的數(shù)學(xué)模型。因此用圖形來表示實(shí)驗(yàn)的結(jié)果是每個(gè)中學(xué)生必須掌握的。
圖解法主要問題是擬合面線,一般可分五步來進(jìn)行。
①整理數(shù)據(jù),即取合理的有效數(shù)字表示測(cè)得值,剔除可疑數(shù)據(jù),給出相應(yīng)的測(cè)量誤差。
②選擇坐標(biāo)紙,坐標(biāo)紙的選擇應(yīng)為便于作圖或更能方使地反映變量之間的相互關(guān)系為原則??筛鶕?jù)需要和方便選擇不同的坐標(biāo)紙,原來為曲線關(guān)系的兩個(gè)變量經(jīng)過坐標(biāo)變換利用對(duì)數(shù)坐標(biāo)就要能變成直線關(guān)系。常用的有直角坐標(biāo)紙、單對(duì)數(shù)坐標(biāo)紙和雙對(duì)數(shù)坐標(biāo)紙。
③坐標(biāo)分度,在坐標(biāo)紙選定以后,就要合理的確定圖紙上每一小格的距離所代表的數(shù)值,但起碼應(yīng)注意下面兩個(gè)原則:
a.格值的大小應(yīng)當(dāng)與測(cè)量得值所表達(dá)的精確度相適應(yīng)。
b.為便于制圖和利用圖形查找數(shù)據(jù)每個(gè)格值代表的有效數(shù)字盡量采用1、2、4、5避免使用3、6、7、9等數(shù)字。
④作散點(diǎn)圖,根據(jù)確定的坐標(biāo)分度值將數(shù)據(jù)作為點(diǎn)的坐標(biāo)在坐標(biāo)紙中標(biāo)出,考慮到數(shù)據(jù)的分類及測(cè)量的數(shù)據(jù)組先后順序等,應(yīng)采用不同符號(hào)標(biāo)出點(diǎn)的坐標(biāo)。常用的符號(hào)有:*○●△■等,規(guī)定標(biāo)記的中心為數(shù)據(jù)的坐標(biāo)。
⑤擬合曲線,擬合曲線是用圖形表示實(shí)驗(yàn)結(jié)果的主要目的,也是培養(yǎng)學(xué)生作圖方法和技巧的關(guān)鍵一環(huán),擬合曲線時(shí)應(yīng)注意以下幾點(diǎn):
a.轉(zhuǎn)折點(diǎn)盡量要少,更不能出現(xiàn)人為折曲。
b.曲線走向應(yīng)盡量靠近各坐標(biāo)點(diǎn),而不是通過所有點(diǎn)。
c.除曲線通過的點(diǎn)以外,處于曲線兩側(cè)的點(diǎn)數(shù)應(yīng)當(dāng)相近。
⑥注解說明,規(guī)范的作圖法表示實(shí)驗(yàn)結(jié)果要對(duì)得到的圖形作必要的說明,其內(nèi)容包括圖形所代表的物理定義、查閱和使用圖形的方法,制圖時(shí)間、地點(diǎn)、條件,制圖數(shù)據(jù)的來源等。
(2)實(shí)驗(yàn)結(jié)果的方程表示法。方程式是中學(xué)生應(yīng)用較多的一種數(shù)學(xué)形式,利用方程式表示實(shí)驗(yàn)結(jié)果。不僅在形式上緊湊,并且也便于作數(shù)學(xué)上的進(jìn)一步處理。實(shí)驗(yàn)結(jié)果的方程表示法一般可分以下四步進(jìn)行。
①確立數(shù)學(xué)模型,對(duì)于只研究?jī)蓚€(gè)變量相互關(guān)系的實(shí)驗(yàn),其數(shù)學(xué)模型可借助于圖解法來確定,首先根據(jù)實(shí)驗(yàn)數(shù)據(jù)在直角坐標(biāo)系中作出相應(yīng)圖線,看其圖線是否是直線,反比關(guān)系曲線,冪函數(shù)曲線,指數(shù)曲線等,就可確定出經(jīng)驗(yàn)方程的數(shù)學(xué)模型分別為:
Y=a+bx,Y=a+b/x,Y=a\b,Y=aexp(bx)
②改直,為方便的求出曲線關(guān)系方程的未定系數(shù),在精度要求不太高的情況下,在確定的數(shù)學(xué)模型的基礎(chǔ)上,通過對(duì)數(shù)學(xué)模型求對(duì)數(shù)方法,變換成為直線方程,并根據(jù)實(shí)驗(yàn)數(shù)據(jù)用單對(duì)數(shù)(或雙對(duì)數(shù))坐標(biāo)系作出對(duì)應(yīng)的直線圖形。
③求出直線方程未定系數(shù),根據(jù)改直后直線圖形,通過學(xué)生已經(jīng)掌握的解析幾何的原理,就可根據(jù)坐標(biāo)系內(nèi)的直線找出其斜率和截距,確定出直線方程的兩個(gè)未定系數(shù)。
④求出經(jīng)驗(yàn)方程,將確定的兩個(gè)未定系數(shù)代入數(shù)學(xué)模型,即得到中學(xué)生比較習(xí)慣的直角坐標(biāo)系的經(jīng)驗(yàn)方程。
中學(xué)物理實(shí)驗(yàn)有它一套實(shí)驗(yàn)知識(shí)、方法、習(xí)慣和技能,要學(xué)好這套系統(tǒng)的實(shí)驗(yàn)知識(shí)、方法、習(xí)慣和技能,需要教師在教學(xué)過程中作科學(xué)的安排,由淺入深,由簡(jiǎn)到繁加以培養(yǎng)和鍛煉。逐步掌握探索未知物理規(guī)律的基本方法。
由識(shí)別信息需求、收集數(shù)據(jù)、分析數(shù)據(jù)、評(píng)價(jià)并改進(jìn)數(shù)據(jù)分析的有效性組成。
1、識(shí)別需求
確保數(shù)據(jù)分析過程有效性的首要條件,可以為收集數(shù)據(jù)、分析數(shù)據(jù)提供清晰的目標(biāo)。識(shí)別信息需求是管理者的職責(zé)管理者應(yīng)根據(jù)決策和過程控制的需求,提出對(duì)信息的需求。就過程控制而言,管理者應(yīng)識(shí)別需求要利用那些信息支持評(píng)審過程輸入、過程輸出、資源配置的合理性、過程活動(dòng)的優(yōu)化方案和過程異常變異的發(fā)現(xiàn)。
2、收集數(shù)據(jù)
有目的的收集數(shù)據(jù),是確保數(shù)據(jù)分析過程有效的基礎(chǔ)。組織需要對(duì)收集數(shù)據(jù)的內(nèi)容、渠道、方法進(jìn)行策劃。
策劃時(shí)應(yīng)考慮:將識(shí)別的需求轉(zhuǎn)化為具體的要求,如評(píng)價(jià)供方時(shí),需要收集的數(shù)據(jù)可能包括其過程能力、測(cè)量系統(tǒng)不確定度等相關(guān)數(shù)據(jù);明確由誰在何時(shí)何處,通過何種渠道和方法收集數(shù)據(jù);記錄表應(yīng)便于使用;采取有效措施,防止數(shù)據(jù)丟失和虛假數(shù)據(jù)對(duì)系統(tǒng)的干擾。
3、分析數(shù)據(jù)
分析數(shù)據(jù)是將收集的數(shù)據(jù)通過加工、整理和分析、使其轉(zhuǎn)化為信息,通常用方法有:老七種工具,即排列圖、因果圖、分層法、調(diào)查表、散步圖、直方圖、控制圖;新七種工具,即關(guān)聯(lián)圖、系統(tǒng)圖、矩陣圖、KJ法、計(jì)劃評(píng)審技術(shù)、PDPC法、矩陣數(shù)據(jù)圖。
4、過程改進(jìn)
組織的管理者應(yīng)在適當(dāng)時(shí),通過對(duì)以下問題的分析,評(píng)估其有效性:
提供決策的信息是否充分、可信,是否存在因信息不足、失準(zhǔn)、滯后而導(dǎo)致決策失誤的問題;信息對(duì)持續(xù)改進(jìn)質(zhì)量管理體系、過程、產(chǎn)品所發(fā)揮的作用是否與期望值一致,是否在產(chǎn)品實(shí)現(xiàn)過程中有效運(yùn)用數(shù)據(jù)分析。
收集數(shù)據(jù)的目的是否明確,收集的數(shù)據(jù)是否真實(shí)和充分,信息渠道是否暢通;數(shù)據(jù)分析方法是否合理,是否將風(fēng)險(xiǎn)控制在可接受的范圍;數(shù)據(jù)分析所需資源是否得到保障。
擴(kuò)展資料
數(shù)據(jù)處理中,通常計(jì)算比較簡(jiǎn)單,且數(shù)據(jù)處理業(yè)務(wù)中的加工計(jì)算因業(yè)務(wù)的不同而不同,需要根據(jù)業(yè)務(wù)的需要來編寫應(yīng)用程序加以解決。
而數(shù)據(jù)管理則比較復(fù)雜,由于可利用的數(shù)據(jù)呈爆炸性增長(zhǎng),且數(shù)據(jù)的種類繁雜,從數(shù)據(jù)管理角度而言,不僅要使用數(shù)據(jù),而且要有效地管理數(shù)據(jù)。因此需要一個(gè)通用的、使用方便且高效的管理軟件,把數(shù)據(jù)有效地管理起來。
數(shù)據(jù)處理與數(shù)據(jù)管理是相聯(lián)系的,數(shù)據(jù)管理技術(shù)的優(yōu)劣將對(duì)數(shù)據(jù)處理的效率產(chǎn)生直接影響。而數(shù)據(jù)庫(kù)技術(shù)就是針對(duì)該需求目標(biāo)進(jìn)行研究并發(fā)展和完善起來的計(jì)算機(jī)應(yīng)用的一個(gè)分支。
參考資料來源:百度百科-數(shù)據(jù)處理
參考資料來源:百度百科-數(shù)據(jù)分析
一、描述性統(tǒng)計(jì)
描述性統(tǒng)計(jì)是一類統(tǒng)計(jì)方法的匯總,揭示了數(shù)據(jù)分布特性。它主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢(shì)分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計(jì)圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態(tài)性檢驗(yàn):很多統(tǒng)計(jì)方法都要求數(shù)值服從或近似服從正態(tài)分布,所以在做數(shù)據(jù)分析之前需要進(jìn)行正態(tài)性檢驗(yàn)。常用方法:非參數(shù)檢驗(yàn)的K-量檢驗(yàn)、P-P圖、Q-Q圖、W檢驗(yàn)、動(dòng)差法。
二、回歸分析
回歸分析是應(yīng)用極其廣泛的數(shù)據(jù)分析方法之一。它基于觀測(cè)數(shù)據(jù)建立變量間適當(dāng)?shù)囊蕾囮P(guān)系,以分析數(shù)據(jù)內(nèi)在規(guī)律。
1. 一元線性分析
只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個(gè)自變量X與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關(guān)系,而Logistic回歸模型對(duì)因變量的分布沒有要求,一般用于因變量是離散時(shí)的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權(quán)回歸等。
三、方差分析
使用條件:各樣本須是相互獨(dú)立的隨機(jī)樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項(xiàng)試驗(yàn)只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應(yīng)變量的關(guān)系。
2. 多因素有交互方差分析:一頊實(shí)驗(yàn)有多個(gè)影響因素,分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系
3. 多因素?zé)o交互方差分析:分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒有影響關(guān)系或忽略影響關(guān)系
4. 協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機(jī)因素,降低了分析結(jié)果的準(zhǔn)確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對(duì)修正后的主效應(yīng)進(jìn)行方差分析,是將線性回歸與方差分析結(jié)合起來的一種分析方法。
四、假設(shè)檢驗(yàn)
1. 參數(shù)檢驗(yàn)
參數(shù)檢驗(yàn)是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對(duì)一些主要的參數(shù)(如均值、百分?jǐn)?shù)、方差、相關(guān)系數(shù)等)進(jìn)行的檢驗(yàn) 。
2. 非參數(shù)檢驗(yàn)
非參數(shù)檢驗(yàn)則不考慮總體分布是否已知,常常也不是針對(duì)總體參數(shù),而是針對(duì)總體的某些一般性假設(shè)(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗(yàn)。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
1)雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗(yàn)、秩和檢驗(yàn)、二項(xiàng)檢驗(yàn)、游程檢驗(yàn)、K-量檢驗(yàn)等。
主要取決于原始數(shù)據(jù)的特點(diǎn)和用戶的具體需求。通常有數(shù)據(jù)變換、數(shù)據(jù)重構(gòu)、數(shù)據(jù)提取等內(nèi)容。
空間數(shù)據(jù)是用于描述所定義空間中對(duì)象的位置、形狀和方向的數(shù)據(jù),空間數(shù)據(jù)有十分復(fù)雜的結(jié)構(gòu),一個(gè)空間數(shù)據(jù)實(shí)體可能由一個(gè)點(diǎn)或幾個(gè)多邊形組成,是任意分布在空間中的,通常不可能在一個(gè)單獨(dú)的有固定元組大小的表格中存取這些實(shí)體。
對(duì)空間數(shù)據(jù)執(zhí)行的兩個(gè)常見操作是計(jì)算幾何之間的距離和確定多個(gè)對(duì)象之間的聯(lián)合或相交。
擴(kuò)展資料:
注意事項(xiàng):
1、空間數(shù)據(jù)通常是活動(dòng)的。插入,刪除與更新是交替進(jìn)行的。
2、空問數(shù)據(jù)庫(kù)通常很大,例如典型的地圖會(huì)占用巨大的存儲(chǔ)空間,因此,一、二、三級(jí)內(nèi)存對(duì)于高效率的過程是必須的。
3、沒有一個(gè)標(biāo)準(zhǔn)的代數(shù)定義來描述空間數(shù)據(jù)。運(yùn)算符號(hào)的應(yīng)用很大程度上取決于給定的應(yīng)用領(lǐng)域。盡管一些符號(hào)比其他的應(yīng)用普遍一些。
4、許多空間符一號(hào)并不是封閉的。例如兩個(gè)多邊形的交運(yùn)算可能會(huì)返回一些點(diǎn)、交叉的邊或沒有交集的多邊形。
5、盡管計(jì)算代價(jià)因空間數(shù)據(jù)庫(kù)運(yùn)算符的不同而不同,通常都比傳統(tǒng)的運(yùn)算符的耗費(fèi)大。
參考資料來源:百度百科-空間數(shù)據(jù)
數(shù)據(jù)預(yù)處理(datapreprocessing)是指在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理。
如對(duì)大部分地球物理面積性觀測(cè)數(shù)據(jù)在進(jìn)行轉(zhuǎn)換或增強(qiáng)處理之前,首先將不規(guī)則分布的測(cè)網(wǎng)經(jīng)過插值轉(zhuǎn)換為規(guī)則網(wǎng)的處理,以利于計(jì)算機(jī)的運(yùn)算。另外,對(duì)于一些剖面測(cè)量數(shù)據(jù),如地震資料預(yù)處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數(shù)據(jù)預(yù)處理的方法:1、數(shù)據(jù)清理數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)并解決不一致性來“清理”數(shù)據(jù)。主要是達(dá)到如下目標(biāo):格式標(biāo)準(zhǔn)化,異常數(shù)據(jù)清除,錯(cuò)誤糾正,重復(fù)數(shù)據(jù)的清除。
2、數(shù)據(jù)集成數(shù)據(jù)集成例程將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并 統(tǒng)一存儲(chǔ),建立數(shù)據(jù)倉(cāng)庫(kù)的過程實(shí)際上就是數(shù)據(jù)集成。3、數(shù)據(jù)變換通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。
4、數(shù)據(jù)歸約數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大,在少量數(shù)據(jù)上進(jìn)行挖掘分析需要很長(zhǎng)的時(shí)間,數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并結(jié)果與歸約前結(jié)果相同或幾乎相同。
對(duì)數(shù)據(jù)進(jìn)行收集、記載、分類、排序、存儲(chǔ)、計(jì)算、檢索、制表等操作,將數(shù)據(jù)綜合成信息的過程。
是計(jì) 算機(jī)應(yīng)用的一個(gè)重要手段。最初指在計(jì)算機(jī)上加工 商業(yè)、企業(yè)的信息與數(shù)據(jù),現(xiàn)在常用來泛指加工科 技、工程領(lǐng)域以外的所有計(jì)算、管理和操縱任何形式 的數(shù)據(jù)資料。
例如企業(yè)管理、庫(kù)存管理、報(bào)表統(tǒng)計(jì)、賬目計(jì)算、信息情報(bào)檢索等方面的應(yīng)用都認(rèn)為是數(shù) 據(jù)處理。其特點(diǎn)是存儲(chǔ)數(shù)據(jù)所需要的存儲(chǔ)空間遠(yuǎn)遠(yuǎn) 大于操縱數(shù)據(jù)的程序所需要的空間。
從而提出研究 的課題有:數(shù)據(jù)的存儲(chǔ)方式、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)的檢索、數(shù)據(jù)的維護(hù)與管理等。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁(yè)面生成時(shí)間:2.798秒