統(tǒng)計(jì)方法有:
1、計(jì)量資料的統(tǒng)計(jì)方法
分析計(jì)量資料的統(tǒng)計(jì)分析方法可分為參數(shù)檢驗(yàn)法和非參數(shù)檢驗(yàn)法。
參數(shù)檢驗(yàn)法主要為t檢驗(yàn)和 方差分析(ANOVN,即F檢驗(yàn))等,兩組間均數(shù)比較時(shí)常用t檢驗(yàn)和u檢驗(yàn),兩組以上均數(shù)比較時(shí)常用方差分析;非參數(shù)檢驗(yàn)法主要包括秩和檢驗(yàn)等。t檢驗(yàn)可分為單組設(shè)計(jì)資料的t檢驗(yàn)、配對(duì)設(shè)計(jì)資料的t檢驗(yàn)和成組設(shè)計(jì)資料的t檢驗(yàn);當(dāng)兩個(gè)小 樣本比較時(shí)要求兩 總體分布為 正態(tài)分布且方差齊性,若不能滿(mǎn)足以上要求,宜用t 檢驗(yàn)或非參數(shù)方法( 秩和檢驗(yàn))。 方差分析可用于兩個(gè)以上 樣本均數(shù)的比較,應(yīng)用該方法時(shí),要求各個(gè)樣本是相互獨(dú)立的隨機(jī)樣本,各樣本來(lái)自正態(tài)總體且各處理組總體方差齊性。根據(jù)設(shè)計(jì)類(lèi)型不同,方差分析中又包含了多種不同的方法。對(duì)于 定量資料,應(yīng)根據(jù)所采用的設(shè)計(jì)類(lèi)型、資料所具備的條件和分析目的,選用合適的統(tǒng)計(jì)分析方法,不應(yīng)盲目套用t檢驗(yàn)和 單因素方差分析。
2、計(jì)數(shù)資料的統(tǒng)計(jì)方法
計(jì)數(shù)資料的統(tǒng)計(jì)方法主要針對(duì)四格表和R*C表利用檢驗(yàn)進(jìn)行分析。
檢驗(yàn)或u檢驗(yàn),若不能滿(mǎn)足 檢驗(yàn):當(dāng)計(jì)數(shù)資料呈配對(duì)設(shè)計(jì)時(shí),獲得的四格表為配對(duì)四格表,其用到的檢驗(yàn)公式和校正公式可參考書(shū)籍。 R*C表可以分為雙向無(wú)序,單向有序、雙向有序?qū)傩韵嗤碗p向有序?qū)傩圆煌念?lèi),不同類(lèi)的行列表根據(jù)其研究目的,其選擇的方法也不一樣。
3、等級(jí)資料的統(tǒng)計(jì)方法
等級(jí)資料(有序變量)是對(duì)性質(zhì)和類(lèi)別的等級(jí)進(jìn)行分組,再清點(diǎn)每組觀察單位個(gè)數(shù)所得到的資料。在臨床醫(yī)學(xué)資料中,常遇到一些定性指標(biāo),如臨床療效的評(píng)價(jià)、疾病的臨床分期、病癥嚴(yán)重程度的臨床分級(jí)等,對(duì)這些指標(biāo)常采用分成若干個(gè)等級(jí)然后分類(lèi)計(jì)數(shù)的辦法來(lái)解決它的量化問(wèn)題,這樣的資料統(tǒng)計(jì)上稱(chēng)為等級(jí)資料。
統(tǒng)計(jì)方法的選擇:
統(tǒng)計(jì)資料豐富且錯(cuò)綜復(fù)雜,要想做到合理選用統(tǒng)計(jì)分析方法并非易事。對(duì)于同一 個(gè)資料,若選擇不同的統(tǒng)計(jì)分析方法處理,有時(shí)其結(jié)論是截然不同的。
正確選擇統(tǒng)計(jì)方法的依據(jù)是:
①根據(jù)研究的目的,明確研究試驗(yàn)設(shè)計(jì)類(lèi)型、研究因素與水平數(shù);
②確定數(shù)據(jù)特征(是否正態(tài)分布等)和樣本量大?。?/p>
③ 正確判斷統(tǒng)計(jì)資料所對(duì)應(yīng)的類(lèi)型(計(jì)量、計(jì)數(shù)和等級(jí)資料),同時(shí)應(yīng)根據(jù)統(tǒng)計(jì)方法的適宜條件進(jìn)行正確的統(tǒng)計(jì)量值計(jì)算;
最后,還要根據(jù)專(zhuān)業(yè)知識(shí)與資料的實(shí)際情況,結(jié)合統(tǒng)計(jì)學(xué)原則,靈活地選擇統(tǒng)計(jì)分析方法。
利用直接記錄或分析系統(tǒng)的輸入和輸出信號(hào)的方法估計(jì)系統(tǒng)的非參數(shù)模型。所謂非參數(shù)模型是指系統(tǒng)的數(shù)學(xué)模型中非顯式地包含可估參數(shù)。例如,系統(tǒng)的頻率響應(yīng)、脈沖響應(yīng)、階躍響應(yīng)等都是非參數(shù)模型。非參數(shù)模型通常以響應(yīng)曲線(xiàn)或離散值形式表示。非參數(shù)模型的辨識(shí)可通過(guò)直接記錄系統(tǒng)輸出對(duì)輸入的響應(yīng)過(guò)程來(lái)進(jìn)行;也可通過(guò)分析輸入與輸出的自相關(guān)和互相關(guān)函數(shù)(見(jiàn)相關(guān)分析法建模),或它們的自功率譜和互功率譜函數(shù)(見(jiàn)頻譜分析方法建模)來(lái)間接地估計(jì)。非參數(shù)模型是經(jīng)典控制理論中常用的描述線(xiàn)性系統(tǒng)的數(shù)學(xué)模型。傳遞函數(shù)反映輸入與輸出的拉普拉斯變換在復(fù)數(shù)域上的響應(yīng)關(guān)系,頻率響應(yīng)反映它們的傅里葉變換在頻率域上的響應(yīng)關(guān)系,而脈沖響應(yīng)和階躍響應(yīng)則是在時(shí)域上的響應(yīng)關(guān)系。它們從不同的方面反映系統(tǒng)的動(dòng)態(tài)特性。非參數(shù)模型比參數(shù)化模型直觀,辨識(shí)非參數(shù)模型的方法和計(jì)算也比辨識(shí)參數(shù)化模型的簡(jiǎn)單。脈沖響應(yīng)可以用直接記錄輸入脈沖函數(shù)的輸出響應(yīng)的方法來(lái)辨識(shí);頻率響應(yīng)也可以直接利用單頻正弦輸入信號(hào)的響應(yīng)來(lái)辨識(shí)。但是這種直接辨識(shí)方法只能應(yīng)用于無(wú)隨機(jī)噪聲的確定性系統(tǒng)。對(duì)于有隨機(jī)噪聲的系統(tǒng)或隨機(jī)輸入信號(hào),必須使用相關(guān)分析法或功率譜分析方法。隨著快速傅里葉變換儀、偽隨機(jī)信號(hào)發(fā)生器和相關(guān)儀的問(wèn)世,辨識(shí)系統(tǒng)的非參數(shù)模型已變得比較容易。但非參數(shù)模型應(yīng)用于實(shí)時(shí)控制和適應(yīng)性控制仍不如參數(shù)化模型方便。非參數(shù)模型在某些情形下,可以轉(zhuǎn)化為參數(shù)模型。例如,如果一個(gè)系統(tǒng)的傳遞函數(shù)可以表示為有理分式H(s)=K/(a+s),則系統(tǒng)的模型可以用常微分方程y'+ay=ku表示,a與k為 p=m/(n+1)*100%
待估計(jì)的模型參數(shù),這是參數(shù)化模型。又如,對(duì)于離散系統(tǒng)的權(quán)函數(shù)序列(離散脈沖響應(yīng)序列){hi,i=0,1,…},如果在i充分大(如i>N0),而│hi│充分小時(shí),則模型可以表示為并可用最小二乘法給出有窮權(quán)函數(shù)序列{hi,i=0,1,…N0}的估計(jì)。一般說(shuō)來(lái),由參數(shù)模型容易獲得非參數(shù)的脈沖響應(yīng)或頻率響應(yīng),但由非參數(shù)模型化為參數(shù)模型則要困難得多。
1、穩(wěn)健回歸其主要思路是將對(duì)異常值十分敏感的經(jīng)典最小二乘回歸中的目標(biāo)函數(shù)進(jìn)行修改。
經(jīng)典最小二乘回歸以使誤差平方和達(dá)到最小為其目標(biāo)函數(shù)。因?yàn)榉讲顬橐徊环€(wěn)健統(tǒng)計(jì)量,故最小二乘回歸是一種不穩(wěn)健的方法。
為減少異常點(diǎn)的作用,對(duì)不同的點(diǎn)施加不同的權(quán)重,殘差小的點(diǎn)權(quán)重大,殘差大的店權(quán)重小。2、變系數(shù)回歸 地理位置加權(quán)3、偏最小二乘回歸長(zhǎng)期以來(lái),模型式的方法和認(rèn)識(shí)性的方法之間的界限分得十分清楚。
而偏最小二乘法則把它們有機(jī)的結(jié)合起來(lái)了,在一個(gè)算法下,可以同時(shí)實(shí)現(xiàn)回歸建模(多元線(xiàn)性回歸)、數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)化(主成分分析)以及兩組變量之間的相關(guān)性分析(典型相關(guān)分析)。偏最小二乘法在統(tǒng)計(jì)應(yīng)用中的重要性體現(xiàn)在以下幾個(gè)方面:偏最小二乘法是一種多因變量對(duì)多自變量的回歸建模方法。
偏最小二乘法可以較好的解決許多以往用普通多元回歸無(wú)法解決的問(wèn)題。偏最小二乘法之所以被稱(chēng)為第二代回歸方法,還由于它可以實(shí)現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。
能夠消除自變量選取時(shí)可能存在的多重共線(xiàn)性問(wèn)題。普通最小二乘回歸方法在自變量間存在嚴(yán)重的多重共線(xiàn)性時(shí)會(huì)失效。
自變量的樣本數(shù)與自變量個(gè)數(shù)相比過(guò)少時(shí)仍可進(jìn)行預(yù)測(cè)。4、支持向量回歸 能較好地解決小樣本、非線(xiàn)性、高維數(shù)和局部極小點(diǎn)等實(shí)際問(wèn)題。
傳統(tǒng)的化學(xué)計(jì)量學(xué)算法處理回歸建模問(wèn)題在擬合訓(xùn)練樣本時(shí),要求“殘差平方和”最小,這樣將有限樣本數(shù)據(jù)中的誤差也擬合進(jìn)了數(shù)學(xué)模型,易產(chǎn)生“過(guò)擬合”問(wèn)題,針對(duì)傳統(tǒng)方法這一不足之處,SVR采用“ε不敏感函數(shù)”來(lái)解決“過(guò)擬合”問(wèn)題,即f(x)用擬合目標(biāo)值yk時(shí),取:f(x) =∑SVs(αi-α*i)K(xi,x) 上式中αi和α*i為支持向量對(duì)應(yīng)的拉格朗日待定系數(shù),K(xi,x)是采用的核函數(shù)[18],x為未知樣本的特征矢量,xi為支持向量(擬合函數(shù)周?chē)摩拧肮鼙凇鄙系奶卣魇噶浚琒Vs為支持向量的數(shù)目.目標(biāo)值yk擬合在yk-∑SVs(αi-α*i)K(xi,xk)≤ε時(shí),即認(rèn)為進(jìn)一步擬合是無(wú)意義的。5、核回歸 核函數(shù)回歸的最初始想法是用非參數(shù)方法來(lái)估計(jì)離散觀測(cè)情況下的概率密度函數(shù)(pdf)。
為了避免高維空間中的內(nèi)積運(yùn)算 由Mercer條件,存在映射函數(shù)a和核函數(shù)K(?,?),使得:=K(xi ,x)采用不同的函數(shù)作為SVM的核函數(shù)K (x i,x),可以實(shí)現(xiàn)多種從輸入空間到特征空間的非線(xiàn)性映射形式6、嶺回歸 嶺回歸分析是一種專(zhuān)用于共線(xiàn)性數(shù)據(jù)分析的有偏估計(jì)回歸方法,實(shí)質(zhì)上是一種改良的最小二乘估計(jì)法,通過(guò)放棄最小二乘法的無(wú)偏性,以損失部分信息、降低精度為代價(jià)獲得回歸系數(shù)更為符合實(shí)際、更可靠的回歸方法,對(duì)病態(tài)數(shù)據(jù)的耐受性遠(yuǎn)遠(yuǎn)強(qiáng)于最小二乘法。7、半?yún)?shù)回歸 模型既含有參數(shù)分量又含有非參數(shù)分量,其參數(shù)部分用來(lái)解釋函數(shù)關(guān)系已知的部分,它是觀測(cè)值中的主要成分,而其非參數(shù)部分則描述函數(shù)關(guān)系未知,無(wú)法表達(dá)為待定參數(shù)的函數(shù)部分。
8、自回歸例1.Yt = α+β0Xt +β1Xt-1 +……+βsXt-s + ut,例2.Yt = f (Yt-1, Yt-2, … , X2t, X3t, … ) ,滯后的因變量(內(nèi)生變量)作為解釋變量出現(xiàn)在方程的右端。這種包含了內(nèi)生變量滯后項(xiàng)的模型稱(chēng)為自回歸模型。
9、正交回歸 因素水平值在區(qū)間[Zj1, Zj2]內(nèi)變化,經(jīng)編碼之后,編碼值xi在區(qū)間[-1,+1]間變化,將響應(yīng)值y原來(lái)對(duì)Z1, Z2……Zm的回歸問(wèn)題,轉(zhuǎn)化為y對(duì)x1,x2……xm的回歸問(wèn)題。它的主要優(yōu)點(diǎn)是可以把實(shí)驗(yàn)或計(jì)算的安排、數(shù)據(jù)的處理和回歸方程的精度統(tǒng)一起來(lái)加以考慮,根據(jù)實(shí)驗(yàn)?zāi)康暮蛿?shù)據(jù)分析來(lái)選擇實(shí)驗(yàn)或計(jì)算點(diǎn),不僅使得在每個(gè)實(shí)驗(yàn)或計(jì)算點(diǎn)上獲得的數(shù)據(jù)含有最大的信息,從而減少實(shí)驗(yàn)或計(jì)算次數(shù),而且使數(shù)據(jù)的統(tǒng)計(jì)分析具有一些較好的性質(zhì),以較少的實(shí)驗(yàn)或計(jì)算建立精度較高的回歸方程。
10、逐步回歸 實(shí)際問(wèn)題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著的自變量來(lái)建立回歸模型,這就涉及到變量選擇的問(wèn)題,逐步回歸是一種從眾多變量中有效地選擇重要變量的方法?;舅悸窞?,先確定一初始子集,然后每次從子集外影響顯著的變量中引入一個(gè)對(duì)y 影響最大的,再對(duì)原來(lái)子集中的變量進(jìn)行檢驗(yàn),從變得不顯著的變量中剔除一個(gè)影響最小的,直到不能引入和剔除為止。
11、主成分回歸 在統(tǒng)計(jì)學(xué)中,主成分分析是一種簡(jiǎn)化數(shù)據(jù)集的技術(shù)。它是一個(gè)線(xiàn)性變換。
這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱(chēng)為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類(lèi)推。 首先對(duì)X陣進(jìn)行主成份分析,T陣的維數(shù)可以與X陣相同,如果使用整個(gè)T陣參加回歸,這樣得到的結(jié)果與多元線(xiàn)性回歸沒(méi)有多大的差別。
因?yàn)橹鞒煞郑ㄐ伦兞浚┦窃兞康木€(xiàn)性組合。前面的k個(gè)主成份包含了X矩陣的絕大部分有用信息,而后面的主成份則往往與噪聲和干擾因素有關(guān)。
因此參與回歸的是少數(shù)主成分組成的矩陣。在維數(shù)上遠(yuǎn)小于X。
主成分回歸通過(guò)對(duì)參與回歸的主成份的合理選擇,可以去掉噪音。主成份間相互正交,解決了多元線(xiàn)性回歸中的共線(xiàn)性問(wèn)題。
主成分回歸能夠充分利用數(shù)據(jù)信息,有效地提高模型的抗干擾能力。
1/6分步閱讀1.線(xiàn)性回歸方法:通常因變量和一個(gè)(或者多個(gè))自變量之間擬合出來(lái)是一條直線(xiàn)(回歸線(xiàn)),通??梢杂靡粋€(gè)普遍的公式來(lái)表示:Y(因變量)=a*X(自變量)+b+c,其中b表示截距,a表示直線(xiàn)的斜率,c是誤差項(xiàng)。
如下圖所示。?2/62.邏輯回歸方法:通常是用來(lái)計(jì)算“一個(gè)事件成功或者失敗”的概率,此時(shí)的因變量一般是屬于二元型的(1 或0,真或假,有或無(wú)等)變量。
以樣本極大似然估計(jì)值來(lái)選取參數(shù),而不采用最小化平方和誤差來(lái)選擇參數(shù),所以通常要用log等對(duì)數(shù)函數(shù)去擬合。如下圖。
?3/63.多項(xiàng)式回歸方法:通常指自變量的指數(shù)存在超過(guò)1的項(xiàng),這時(shí)候最佳擬合的結(jié)果不再是一條直線(xiàn)而是一條曲線(xiàn)。比如:拋物線(xiàn)擬合函數(shù)Y=a+b*X^2,如下圖所示。
?4/64.嶺回歸方法:通常用于自變量數(shù)據(jù)具有高度相關(guān)性的擬合中,這種回歸方法可以在原來(lái)的偏差基礎(chǔ)上再增加一個(gè)偏差度來(lái)減小總體的標(biāo)準(zhǔn)偏差。如下圖是其收縮參數(shù)的最小誤差公式。
?5/65.套索回歸方法:通常也是用來(lái)二次修正回歸系數(shù)的大小,能夠減小參量變化程度以提高線(xiàn)性回歸模型的精度。如下圖是其懲罰函數(shù),注意這里的懲罰函數(shù)用的是絕對(duì)值,而不是絕對(duì)值的平方。
?6/66.ElasticNet回歸方法:是Lasso和Ridge回歸方法的融合體,使用L1來(lái)訓(xùn)練,使用L2優(yōu)先作為正則化矩陣。當(dāng)相關(guān)的特征有很多個(gè)時(shí),ElasticNet不同于Lasso,會(huì)選擇兩個(gè)。
如下圖是其常用的理論公式。?。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥(niǎo). 頁(yè)面生成時(shí)間:2.604秒