處理不完備數(shù)據(jù)集的方法主要有以下三大類: (一)刪除元組 也就是將存在遺漏信息屬性值的對(duì)象(元組,記錄)刪除,從而得到一個(gè)完備的信息表。
這種方法簡單易行,在對(duì)象有多個(gè) 屬性缺失值、被刪除的含缺失值的對(duì)象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常有效的,類標(biāo)號(hào)(假設(shè)是分類任務(wù))缺少時(shí) 通常使用。然而,這種方法卻有很大的局限性。
它是以減少歷史數(shù)據(jù)來換取信息的完備,會(huì)造成資源的大量浪費(fèi),丟棄了大量隱藏 在這些對(duì)象中的信息。在信息表中本來包含的對(duì)象很少的情況下,刪除少量對(duì)象就足以嚴(yán)重影響到信息表信息的客觀性和結(jié)果的正 確性;當(dāng)每個(gè)屬性空值的百分比變化很大時(shí),它的性能非常差。
因此,當(dāng)遺漏數(shù)據(jù)所占比例較大,特別當(dāng)遺漏數(shù)據(jù)非隨機(jī)分布時(shí), 這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏離,從而引出錯(cuò)誤的結(jié)論。 (二)數(shù)據(jù)補(bǔ)齊 這類方法是用一定的值去填充空值,從而使信息表完備化。
通常基于統(tǒng)計(jì)學(xué)原理,根據(jù)決策表中其余對(duì)象取值的分布情況來 對(duì)一個(gè)空值進(jìn)行填充,譬如用其余屬性的平均值來進(jìn)行補(bǔ)充等。數(shù)據(jù)挖掘中常用的有以下幾種補(bǔ)齊方法: (1)人工填寫(filling manually) 由于最了解數(shù)據(jù)的還是用戶自己,因此這個(gè)方法產(chǎn)生數(shù)據(jù)偏離最小,可能是填充效果最好的一種。
然而一般來說,該方法很費(fèi)時(shí), 當(dāng)數(shù)據(jù)規(guī)模很大、空值很多的時(shí)候,該方法是不可行的。 (2)特殊值填充(Treating Missing Attribute values as Special values) 將空值作為一種特殊的屬性值來處理,它不同于其他的任何屬性值。
如所有的空值都用“unknown”填充。這樣將形成另一個(gè)有趣的 概念,可能導(dǎo)致嚴(yán)重的數(shù)據(jù)偏離,一般不推薦使用。
(3)平均值填充(Mean/Mode Completer) 將信息表中的屬性分為數(shù)值屬性和非數(shù)值屬性來分別進(jìn)行處理。如果空值是數(shù)值型的,就根據(jù)該屬性在其他所有對(duì)象的取值 的平均值來填充該缺失的屬性值;如果空值是非數(shù)值型的,就根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,用該屬性在其他所有對(duì)象的取值次數(shù)最多 的值(即出現(xiàn)頻率最高的值)來補(bǔ)齊該缺失的屬性值。
另外有一種與其相似的方法叫條件平均值填充法(Conditional Mean Completer)。在該方法中,缺失屬性值的補(bǔ)齊同樣是靠該屬性在其他對(duì)象中的取值求平均得到,但不同的是用于求平均的值并不是 從信息表所有對(duì)象中取,而是從與該對(duì)象具有相同決策屬性值的對(duì)象中取得。
這兩種數(shù)據(jù)的補(bǔ)齊方法,其基本的出發(fā)點(diǎn)都是一樣的 ,以最大概率可能的取值來補(bǔ)充缺失的屬性值,只是在具體方法上有一點(diǎn)不同。與其他方法相比,它是用現(xiàn)存數(shù)據(jù)的多數(shù)信息來推 測缺失值。
(4)熱卡填充(Hot deck imputation,或就近補(bǔ)齊) 對(duì)于一個(gè)包含空值的對(duì)象,熱卡填充法在完整數(shù)據(jù)中找到一個(gè)與它最相似的對(duì)象,然后用這個(gè)相似對(duì)象的值來進(jìn)行填充。不 同的問題可能會(huì)選用不同的標(biāo)準(zhǔn)來對(duì)相似進(jìn)行判定。
該方法概念上很簡單,且利用了數(shù)據(jù)間的關(guān)系來進(jìn)行空值估計(jì)。這個(gè)方法的缺 點(diǎn)在于難以定義相似標(biāo)準(zhǔn),主觀因素較多。
(5)K最近距離鄰法(K-means clustering) 先根據(jù)歐式距離或相關(guān)分析來確定距離具有缺失數(shù)據(jù)樣本最近的K個(gè)樣本,將這K個(gè)值加權(quán)平均來估計(jì)該樣本的缺失數(shù)據(jù)。 (6)使用所有可能的值填充(Assigning All Possible values of the Attribute) 這種方法是用空缺屬性值的所有可能的屬性取值來填充,能夠得到較好的補(bǔ)齊效果。
但是,當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值 較多時(shí),其計(jì)算的代價(jià)很大,可能的測試方案很多。另有一種方法,填補(bǔ)遺漏屬性值的原則是一樣的,不同的只是從決策相同的對(duì) 象中嘗試所有的屬性值的可能情況,而不是根據(jù)信息表中所有對(duì)象進(jìn)行嘗試,這樣能夠在一定程度上減小原方法的代價(jià)。
(7)組合完整化方法(Combinatorial Completer) 這種方法是用空缺屬性值的所有可能的屬性取值來試,并從最終屬性的約簡結(jié)果中選擇最好的一個(gè)作為填補(bǔ)的屬性值。這是 以約簡為目的的數(shù)據(jù)補(bǔ)齊方法,能夠得到好的約簡結(jié)果;但是,當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時(shí),其計(jì)算的代價(jià)很大。
另一 種稱為條件組合完整化方法(Conditional Combinatorial Complete),填補(bǔ)遺漏屬性值的原則是一樣的,不同的只是從決策相同 的對(duì)象中嘗試所有的屬性值的可能情況,而不是根據(jù)信息表中所有對(duì)象進(jìn)行嘗試。條件組合完整化方法能夠在一定程度上減小組合 完整化方法的代價(jià)。
在信息表包含不完整數(shù)據(jù)較多的情況下,可能的測試方案將巨增。 (8)回歸(Regression) 基于完整的數(shù)據(jù)集,建立回歸方程(模型)。
對(duì)于包含空值的對(duì)象,將已知屬性值代入方程來估計(jì)未知屬性值,以此估計(jì)值 來進(jìn)行填充。當(dāng)變量不是線性相關(guān)或預(yù)測變量高度相關(guān)時(shí)會(huì)導(dǎo)致有偏差的估計(jì)。
(9)期望值最大化方法(Expectation maximization,EM) EM算法是一種在不完全數(shù)據(jù)情況下計(jì)算極大似然估計(jì)或者后驗(yàn)分布的迭代算法[43]。在每一迭代循環(huán)過程中交替執(zhí)行兩個(gè)步 驟:E步(Excepctaion step,期望步),在給定完全數(shù)據(jù)和前一次迭代所得到的參數(shù)估計(jì)的情況下計(jì)算完全數(shù)據(jù)對(duì)應(yīng)的對(duì)數(shù)似然函 數(shù)的條件期望;M步(Maximzation step,極大化步),用極大化對(duì)數(shù)似然函數(shù)以確定參數(shù)的值,并用。
去百度文庫,查看完整內(nèi)容>
內(nèi)容來自用戶:rjasd1128hf
4
統(tǒng)計(jì)教育
2006年第12期
缺失數(shù)據(jù)的多重插補(bǔ)方法
文/喬麗華傅德印
摘要:插補(bǔ)法是對(duì)缺失數(shù)據(jù)的調(diào)整方法,多重插補(bǔ)彌補(bǔ)了單一插補(bǔ)的缺陷,采用一系列可能的數(shù)據(jù)集來填充每一個(gè)缺失數(shù)據(jù)值,反映了缺失數(shù)據(jù)的不確定性。本文介紹了多重插補(bǔ)程序的三種數(shù)據(jù)插補(bǔ)方法:回歸預(yù)測法、傾向得分法和蒙特卡羅的馬氏鏈方法,并且對(duì)多重插補(bǔ)的插補(bǔ)效果進(jìn)行推斷,指出多重插補(bǔ)存在的問題。
關(guān)鍵詞:多重插補(bǔ);缺失數(shù)據(jù)
一、引言
在數(shù)據(jù)處理和數(shù)據(jù)分析中經(jīng)常會(huì)出現(xiàn)缺失數(shù)據(jù)(missingdata)或不完全數(shù)據(jù)(incompletedata),從抽樣調(diào)查的角度,把這些數(shù)據(jù)歸結(jié)為無回答數(shù)據(jù)集。一般把無回答分為“單位無回答”和“項(xiàng)目無回答”?!绊?xiàng)目無回答”是指被調(diào)查單位雖然接受了調(diào)查,但只回答了其中的一部分而非全部的問題,或者對(duì)某些項(xiàng)目提供的資料是無用的。對(duì)于“項(xiàng)目無回答”,如果重新調(diào)查來獲得準(zhǔn)確數(shù)據(jù),會(huì)浪費(fèi)大量的時(shí)間、人力和財(cái)力,是不現(xiàn)實(shí)的。因此對(duì)“項(xiàng)目無回答”的彌補(bǔ)處理多采用插補(bǔ)法(imputationmethod)。
插補(bǔ)法是指采取一定的方式為調(diào)查中的每一個(gè)缺失數(shù)據(jù)尋找一個(gè)合理的替補(bǔ)值插補(bǔ)到原缺失數(shù)據(jù)的位置上,對(duì)得到的“完全數(shù)據(jù)集”使用完全數(shù)據(jù)統(tǒng)計(jì)分析方法分析并進(jìn)行統(tǒng)
收集方法
1、調(diào)查法
調(diào)查方法一般分為普查和抽樣調(diào)查兩大類。
2、觀察法
主要包括兩個(gè)方面:一是對(duì)人的行為的觀察,二是對(duì)客觀事物的觀察。觀察法應(yīng)用很廣泛,常和詢問法、搜集實(shí)物結(jié)合使用,以提高所收集信息的可靠性。
3、實(shí)驗(yàn)方法
實(shí)驗(yàn)方法能通過實(shí)驗(yàn)過程獲取其他手段難以獲得的信息或結(jié)論。
實(shí)驗(yàn)方法也有多種形式,如實(shí)驗(yàn)室實(shí)驗(yàn)、現(xiàn)場實(shí)驗(yàn)、計(jì)算機(jī)模擬實(shí)驗(yàn)、計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境下人機(jī)結(jié)合實(shí)驗(yàn)等?,F(xiàn)代管理科學(xué)中新興的管理實(shí)驗(yàn),現(xiàn)代經(jīng)濟(jì)學(xué)中正在形成的實(shí)驗(yàn)經(jīng)濟(jì)學(xué)中的經(jīng)濟(jì)實(shí)驗(yàn),實(shí)質(zhì)上就是通過實(shí)驗(yàn)獲取與管理或經(jīng)濟(jì)相關(guān)的信息。
4、文獻(xiàn)檢索
文獻(xiàn)檢索就是從浩繁的文獻(xiàn)中檢索出所需的信息的過程。文獻(xiàn)檢索分為手工檢索和計(jì)算機(jī)檢索。
5、網(wǎng)絡(luò)信息收集
網(wǎng)絡(luò)信息是指通過計(jì)算機(jī)網(wǎng)絡(luò)發(fā)布、傳遞和存儲(chǔ)的各種信息。收集網(wǎng)絡(luò)信息的最終目標(biāo)是給廣大用戶提供網(wǎng)絡(luò)信息資源服務(wù),整個(gè)過程經(jīng)過網(wǎng)絡(luò)信息搜索、整合、保存和服務(wù)四個(gè)步驟,
參考資料來源:搜狗百科-信息收集
數(shù)據(jù)清洗目的主要有:
①解決數(shù)據(jù)質(zhì)量問題;
②讓數(shù)據(jù)更適合做挖掘;
數(shù)據(jù)清洗是對(duì)數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯(cuò)誤值、缺失值、異常值、可疑數(shù)據(jù),選用一定方法進(jìn)行“清洗”,為后續(xù)的數(shù)據(jù)分析做準(zhǔn)備。
數(shù)據(jù)清洗的方法有:
①數(shù)據(jù)數(shù)值化
對(duì)存在各種不同格式的數(shù)據(jù)形式的原始數(shù)據(jù),對(duì)其進(jìn)行標(biāo)準(zhǔn)化操作。對(duì)字符串取值,按照ANSI碼值求和得到字符串的值,如果值太大,取一個(gè)適當(dāng)?shù)馁|(zhì)數(shù)對(duì)其求模。
②標(biāo)準(zhǔn)化 normalization
對(duì)整體數(shù)據(jù)進(jìn)行歸一化工作,利用min-max標(biāo)準(zhǔn)化方法將數(shù)據(jù)都映射到一個(gè)指定的數(shù)值區(qū)間。
③數(shù)據(jù)降維
原始數(shù)據(jù)存在很多維度,使用主成分分析法對(duì)數(shù)據(jù)的相關(guān)性分析來降低數(shù)據(jù)維度。
④數(shù)據(jù)完整性
數(shù)據(jù)完整性包括數(shù)據(jù)缺失補(bǔ)數(shù)據(jù)和數(shù)據(jù)去重;
補(bǔ)全數(shù)據(jù)的方法有:
1. 通過身份證件號(hào)碼推算性別、籍貫、出生日期、年齡(包括但不局限)等信息補(bǔ)全;
2. 通過前后數(shù)據(jù)補(bǔ)全;
3. 實(shí)在補(bǔ)不全的,對(duì)數(shù)據(jù)進(jìn)行剔除。
數(shù)據(jù)去重的方法有:
1. 用sql或者excel“去除重復(fù)記錄”去重;
2. 按規(guī)則去重,編寫一系列的規(guī)則,對(duì)重復(fù)情況復(fù)雜的數(shù)據(jù)進(jìn)行去重。
1、均值插補(bǔ)。數(shù)據(jù)的屬性分為定距型和非定距型。如果缺失值是定距型的,就以該屬性存在值的平均值來插補(bǔ)缺失的值;如果缺失值是非定距型的,就根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,用該屬性的眾數(shù)(即出現(xiàn)頻率最高的值)來補(bǔ)齊缺失的值。
2、利用同類均值插補(bǔ)。同均值插補(bǔ)的方法都屬于單值插補(bǔ),不同的是,它用層次聚類模型預(yù)測缺失變量的類型,再以該類型的均值插補(bǔ)。假設(shè)X=(X1,X2。Xp)為信息完全的變量,Y為存在缺失值的變量。
那么首先對(duì)X或其子集行聚類,然后按缺失個(gè)案所屬類來插補(bǔ)不同類的均值。如果在以后統(tǒng)計(jì)分析中還需以引入的解釋變量和Y做分析,那么這種插補(bǔ)方法將在模型中引入自相關(guān),給分析造成障礙。
3、極大似然估計(jì)(Max Likelihood ,ML)。在缺失類型為隨機(jī)缺失的條件下,假設(shè)模型對(duì)于完整的樣本是正確的,那么通過觀測數(shù)據(jù)的邊際分布可以對(duì)未知參數(shù)進(jìn)行極大似然估計(jì)(Little and Rubin)。
這種方法也被稱為忽略缺失值的極大似然估計(jì),對(duì)于極大似然的參數(shù)估計(jì)實(shí)際中常采用的計(jì)算方法是期望值最大化(Expectation Maximization,EM)。
4、多重插補(bǔ)(Multiple Imputation,MI)。多值插補(bǔ)的思想來源于貝葉斯估計(jì),認(rèn)為待插補(bǔ)的值是隨機(jī)的,它的值來自于已觀測到的值。具體實(shí)踐上通常是估計(jì)出待插補(bǔ)的值,然后再加上不同的噪聲,形成多組可選插補(bǔ)值。根據(jù)某種選擇依據(jù),選取最合適的插補(bǔ)值。
擴(kuò)展資料
缺失值產(chǎn)生的原因很多,裝備故障、無法獲取信息、與其他字段不一致、歷史原因等都可能產(chǎn)生缺失值。一種典型的處理方法是插值,插值之后的數(shù)據(jù)可看作服從特定概率分布。另外,也可以刪除所有含缺失值的記錄,但這個(gè)操作也從側(cè)面變動(dòng)了原始數(shù)據(jù)的分布特征。
對(duì)于缺失值的處理,從總體上來說分為刪除存在缺失值的個(gè)案和缺失值插補(bǔ)。對(duì)于主觀數(shù)據(jù),人將影響數(shù)據(jù)的真實(shí)性,存在缺失值的樣本的其他屬性的真實(shí)值不能保證,那么依賴于這些屬性值的插補(bǔ)也是不可靠的,所以對(duì)于主觀數(shù)據(jù)一般不推薦插補(bǔ)的方法。插補(bǔ)主要是針對(duì)客觀數(shù)據(jù),它的可靠性有保證。
參考資料來源:百度百科-不確定性數(shù)據(jù)
參考資料來源:百度百科-缺失值
分析大數(shù)據(jù),R語言和Linux系統(tǒng)比較有幫助,運(yùn)用到的方法原理可以翻翻大學(xué)的統(tǒng)計(jì)學(xué),不需要完全理解,重在應(yīng)用。
分析簡單數(shù)據(jù),Excel就可以了。Excel本意就是智能,功能很強(qiáng),容易上手。我沒有見過有人說自己精通Excel的,最多是熟悉Excel。Excel的函數(shù)可以幫助你處理大部分?jǐn)?shù)據(jù)。
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。
數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立,但直到計(jì)算機(jī)的出現(xiàn)才使得實(shí)際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物。
“啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會(huì)經(jīng)常出現(xiàn)在同一個(gè)購物籃中,這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時(shí),往往會(huì)順便為自己購買啤酒,這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購物籃的現(xiàn)象。如果這個(gè)年輕的父親在賣場只能買到兩件商品之一,則他很有可能會(huì)放棄購物而到另一家商店, 直到可以一次同時(shí)買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
當(dāng)然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年美國學(xué)者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購買行為。艾格拉沃從數(shù)學(xué)及計(jì)算機(jī)算法角度提 出了商品關(guān)聯(lián)關(guān)系的計(jì)算方法——Aprior算法。沃爾瑪從上個(gè)世紀(jì) 90 年代嘗試將 Aprior 算 法引入到 POS機(jī)數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。
一、數(shù)據(jù)挖掘工具分類數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類:專用挖掘工具和通用挖掘工具。
專用數(shù)據(jù)挖掘工具是針對(duì)某個(gè)特定領(lǐng)域的問題提供解決方案,在涉及算法的時(shí)候充分考慮了數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對(duì)任何領(lǐng)域,都可以開發(fā)特定的數(shù)據(jù)挖掘工具。
例如,IBM公司的AdvancedScout系統(tǒng)針對(duì)NBA的數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術(shù)組合。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,發(fā)現(xiàn)的知識(shí)可靠度也比較高。
通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。
例如,IBM公司Almaden研究中心開發(fā)的QUEST系統(tǒng),SGI公司開發(fā)的MineSet系統(tǒng),加拿大SimonFraser大學(xué)開發(fā)的DBMiner系統(tǒng)。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據(jù)自己的應(yīng)用來選擇。
二、數(shù)據(jù)挖掘工具選擇需要考慮的問題數(shù)據(jù)挖掘是一個(gè)過程,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實(shí)施經(jīng)驗(yàn)與企業(yè)的業(yè)務(wù)邏輯和需求緊密結(jié)合,并在實(shí)施的過程中不斷的磨合,才能取得成功,因此我們?cè)谶x擇數(shù)據(jù)挖掘工具的時(shí)候,要全面考慮多方面的因素,主要包括以下幾點(diǎn):(1)可產(chǎn)生的模式種類的數(shù)量:分類,聚類,關(guān)聯(lián)等(2)解決復(fù)雜問題的能力(3)操作性能(4)數(shù)據(jù)存取能力(5)和其他產(chǎn)品的接口三、數(shù)據(jù)挖掘工具介紹:1.QUESTQUEST是IBM公司Almaden研究中心開發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應(yīng)用開發(fā)提供高效的數(shù)據(jù)開采基本構(gòu)件。系統(tǒng)具有如下特點(diǎn):提供了專門在大型數(shù)據(jù)庫上進(jìn)行各種開采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時(shí)間序列聚類、決策樹分類、遞增式主動(dòng)開采等。
各種開采算法具有近似線性計(jì)算復(fù)雜度,可適用于任意大小的數(shù)據(jù)庫。算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。
為各種發(fā)現(xiàn)功能設(shè)計(jì)了相應(yīng)的并行算法。2.MineSetMineSet是由SGI公司和美國Standford大學(xué)聯(lián)合開發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。
MineSet集成多種數(shù)據(jù)挖掘算法和可視化工具,幫助用戶直觀地、實(shí)時(shí)地發(fā)掘、理解大量數(shù)據(jù)背后的知識(shí)。MineSet有如下特點(diǎn):MineSet以先進(jìn)的可視化顯示方法聞名于世。
支持多種關(guān)系數(shù)據(jù)庫??梢灾苯訌腛racle、Informix、Sybase的表讀取數(shù)據(jù),也可以通過SQL命令執(zhí)行查詢。
多種數(shù)據(jù)轉(zhuǎn)換功能。在進(jìn)行挖掘前,MineSet可以去除不必要的數(shù)據(jù)項(xiàng),統(tǒng)計(jì)、集合、分組數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)類型,構(gòu)造表達(dá)式由已有數(shù)據(jù)項(xiàng)生成新的數(shù)據(jù)項(xiàng),對(duì)數(shù)據(jù)采樣等。
操作簡單、支持國際字符、可以直接發(fā)布到Web。3.DBMinerDBMiner是加拿大SimonFraser大學(xué)開發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),它的前身是DBLearn。
該系統(tǒng)設(shè)計(jì)的目的是把關(guān)系數(shù)據(jù)庫和數(shù)據(jù)開采集成在一起,以面向?qū)傩缘亩嗉?jí)概念為基礎(chǔ)發(fā)現(xiàn)各種知識(shí)。DBMiner系統(tǒng)具有如下特色:能完成多種知識(shí)的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關(guān)聯(lián)規(guī)則、分類規(guī)則、演化知識(shí)、偏離知識(shí)等。
綜合了多種數(shù)據(jù)開采技術(shù):面向?qū)傩缘臍w納、統(tǒng)計(jì)分析、逐級(jí)深化發(fā)現(xiàn)多級(jí)規(guī)則、元規(guī)則引導(dǎo)發(fā)現(xiàn)等方法。提出了一種交互式的類SQL語言——數(shù)據(jù)開采查詢語言DMQL。
能與關(guān)系數(shù)據(jù)庫平滑集成。實(shí)現(xiàn)了基于客戶/服務(wù)器體系結(jié)構(gòu)的Unix和PC(Windows/NT)版本的系統(tǒng)。
4.IntelligentMiner由美國IBM公司開發(fā)的數(shù)據(jù)挖掘軟件IntelligentMiner是一種分別面向數(shù)據(jù)庫和文本信息進(jìn)行數(shù)據(jù)挖掘的軟件系列,它包括和??梢酝诰虬跀?shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。
它已經(jīng)成功應(yīng)用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等;允許企業(yè)從文本信息進(jìn)行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁面、電子郵件、LotusNotes數(shù)據(jù)庫等等。5.SASEnterpriseMiner這是一種在我國的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應(yīng)用和鐵路部門在春運(yùn)客運(yùn)研究中的應(yīng)用。
SASEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具,按照"抽樣--探索--轉(zhuǎn)換--建模--評(píng)估"的方法進(jìn)行數(shù)據(jù)挖掘。可以與SAS數(shù)據(jù)倉庫和OLAP集成,實(shí)現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的"端到端"知識(shí)發(fā)現(xiàn)。
6.是一個(gè)開放式數(shù)據(jù)挖掘工具,曾兩次獲得英國政府SMART創(chuàng)新獎(jiǎng),它不但支持整個(gè)數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評(píng)估到最終部署的全部過程,還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)--CRISP-DM。Clementine的可視化數(shù)據(jù)挖掘使得"思路"分析成為可能,即將集中精力在要解決的問題本身,而不是局限于完成一些技術(shù)性工作(比如編寫代碼)。
提供了多種圖形化技術(shù),有助理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)用戶以最便捷的途徑找到問題的最終解決法。7.數(shù)據(jù)庫廠商集成的挖掘工具SQLServer2000包含由Microsoft研究院開發(fā)的兩種數(shù)據(jù)挖掘算法:。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時(shí)間:3.335秒