winsor var1, gen(var11) p(.05) 先安裝這個(gè)命令后可以直接用
大家在寫論文時(shí)可能經(jīng)常會(huì)遇到大數(shù)據(jù)樣本中異常數(shù)據(jù)批量剔除的問題,本文在于向大家推薦在Stata中運(yùn)用winsorize方法,來對數(shù)據(jù)進(jìn)行處理(縮尾使數(shù)據(jù)平滑,或直接刪除),經(jīng)試驗(yàn)有效,希望有所幫助。
材料/工具
Stata(網(wǎng)上有面安裝款,解壓能直接運(yùn)行),實(shí)驗(yàn)數(shù)據(jù)
比如對變量size在1%的水平下進(jìn)行winsorize處理,并生成新變量size_w,命令為winsor size,gen(size_w) p(0.01),像這些比較基礎(chǔ)的問題一把都可以直接搜到答案的
方法
打開stata,在命令行輸入ssc install winsor2, replace,自動(dòng)安裝 winsor2
一個(gè)分類進(jìn)行描述統(tǒng)計(jì)的命令(sum的進(jìn)階版): tabstat price weight length, by(foreign) stat (me sd N) nototal longstub 按照foreign分類,對 price weight length進(jìn)行描述統(tǒng)計(jì),統(tǒng)計(jì)量分別包括me(均值) sd(標(biāo)準(zhǔn)差) N(樣本數(shù)) 星號不
準(zhǔn)備數(shù)據(jù)(注意輸入格式)
如果要對多個(gè)變量縮尾,例如下。對一個(gè)變量縮尾也是一樣。 local vlist "roe size lev" foreach v of local vlist{ winsor `v', gen(`v'_w) p(0.01) }
導(dǎo)入數(shù)據(jù)File-Inport
winsor var1, gen(var11) p(.05) 先安裝這個(gè)命令后可以直接用
輸入命令winsor2 變量名 變量名, replace cuts(1 99),此條命令是先找到各個(gè)變量的1%,99%所對應(yīng)的分位數(shù),比如對于變量ac1,其分位數(shù)分別為a、b,那么將數(shù)據(jù)中小于a的數(shù)替換成a,將大于b的數(shù)替換成b,原始數(shù)據(jù)直接變?yōu)樾聰?shù)據(jù),這樣就是縮尾,使數(shù)據(jù)平滑(口徑為1%)。若輸入命令winsor2 變量名 變量名, replace cuts(1 99) trim,則不替換,將小于a和大于b的直接刪除
stata數(shù)據(jù)分析。 在規(guī)定條件下,傳感器校準(zhǔn)曲線與擬合直線間的最大偏差(ΔYmax)與滿量程輸出(Y)的百分比,稱為線性度(線性度又稱為“非線性誤差”),該值越小,表明線性特性越好。表示為公式如下: δ=ΔYmax/ Y*100%? ±1%表示最大偏差ΔYmax為
最后一張圖顯示的是命令winsor2 ac1 ac2, replace cuts(1 99) trim命令的執(zhí)行結(jié)果,大家看到數(shù)據(jù)表中的“.”,即是刪除完異常值后的結(jié)果,批量處理后可以File-Export將數(shù)據(jù)導(dǎo)出,在Excel上排序后即可將其刪除(或在STATA上用其他命令也可)
比如對變量size在1%的水平下進(jìn)行winsorize處理,并生成新變量size_w,命令為winsor size,gen(size_w) p(0.01),像這些比較基礎(chǔ)的問題一把都可以直接搜到答案的
擴(kuò)展閱讀,以下內(nèi)容您可能還感興趣。
怎么在stata中將數(shù)據(jù)縮尾10%處理?最好寫出程序代碼,O(∩_∩)O謝謝!
winsor var1, gen(var11) p(.05)
先安裝這個(gè)命令后可以直接用本回答被提問者和網(wǎng)友采納
所有連續(xù)變量進(jìn)行1%縮尾處理是什么意思?
stata數(shù)據(jù)分析。
在規(guī)定條件下,傳感器校準(zhǔn)曲線與擬合直線間的最大偏差(ΔYmax)與滿量程輸出(Y)的百分比,稱為線性度(線性度又稱為“非線性誤差”),該值越小,表明線性特性越好。表示為公式如下:
δ=ΔYmax/ Y*100%?
±1%表示最大偏差ΔYmax為滿量程輸出Y的±1%
拓展:其他相關(guān)精度誤差定義如下:
1.絕對誤差:實(shí)測值與理想值之差;
2.相對誤差:被測點(diǎn)的絕對誤差與被測點(diǎn)的理想值之比;
3.引用誤差:被測點(diǎn)的絕對誤差與基準(zhǔn)值(量程)之比;
4.基本誤差:在標(biāo)準(zhǔn)條件下,基準(zhǔn)值(量程)范圍內(nèi)的引用誤差;
5.線性誤差:實(shí)測曲線與理想直線之間的偏差;
6.精度:由傳感器的基本誤差極限和影響量(如溫度變化、濕度變化、電源波動(dòng)、頻率改變等)引起的改變量極限確定。
7.線性范圍:傳感器在線性工作時(shí)的可測量范圍。
stata中的數(shù)據(jù)縮尾調(diào)整怎么弄?具體的程序是什么?
help winsor
怎樣用STATA對數(shù)據(jù)進(jìn)行Winsorize
比如對變量size在1%的水平下進(jìn)行winsorize處理,并生成新變量size_w,命令為winsor size,gen(size_w) p(0.01),像這些比較基礎(chǔ)的問題一把都可以直接搜到答案的
STATA中如何將foreach循環(huán)和縮尾處理結(jié)合起來一次性對多個(gè)變量進(jìn)行縮尾
一個(gè)分類進(jìn)行描述統(tǒng)計(jì)的命令(sum的進(jìn)階版):
tabstat price weight length, by(foreign) stat (me sd N) nototal longstub
按照foreign分類,對 price weight length進(jìn)行描述統(tǒng)計(jì),統(tǒng)計(jì)量分別包括me(均值) sd(標(biāo)準(zhǔn)差) N(樣本數(shù))
星號不知怎么一并加進(jìn)去,你檢測完手工加吧……追問我不是要做描述統(tǒng)計(jì)啊。。。
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com