一千萬個為什麽

搜索

與GoF測試相矛盾的結果

我是一個統計背景很少的計算機科學家,我正在努力為一些數據集找到最合適的分布(使用MATLAB)。為了評估擬合的好壞,我使用了Kolmogorov Smirnov(KS)和Anderson Darling(AD)測試,這裏是同一數據集的p值: Distribution AD Test KS Test Exp 0.439 1.49e-7 Weibull 0.498 1.40e-6 Pareto 0.244 6.24e-14 Logn 0.684 2.69e-4 Gamma 0.595 2.16e-4

I use a significance level of 0.05, and as far as I know with a p-value < 0.05 the null hypothesis is rejected which is the case for the KS test results. Then what should I conclude based on this result? The KS test says that none of the distributions is a good fit while the AD test can't reject the null hypothesis. 編輯: 以下是我們在代碼中執行操作的概述: fitfunctions = { @wblfit, @expfit, @lognfit, @gpfit, @gamfit}; for i=1:length(fitfunctions) [varargout{1:x}] = fit (param, fitfunctions {i}); [adresult ksresult] = rungoftests(param, cdffunctions{i}, ... varargout{:});

and in rungoftests function we average 1,000 p-values to calculate the final p-values. Each p-value is computed by drawing fifty samples randomly from the data set. We have used this method due to reasons described in this tech report on pg 12: Modeling Machine Availability in Enterprise and Wide-area Distributed Computing Environments by Nurmi et al., UCSB Computer Science Technical Report Number CS2003-28. 謝謝!

最佳答案

請記住,兩個測試都是排除測試,它們以不同的方式測量空分布和數據之間的差異。另外,您是如何選擇測試的分布參數的?有時可以影響測試的行為方式,特別是如果參數是從數據估計的,但是沒有考慮到,或者如果使用的默認值與數據不匹配(並且可能是2個測試的不同默認值) )。

考慮2個分布,第一個是0和1之間的標準均勻,第二個也是均勻的,值在0和0.99之間,並且在9,999.99和10,000.00之間也等於1,在其他地方是0。這些分布是否彼此非常不同?對於大多數小樣本,它們看起來幾乎相同,但第二個會產生偶爾的異常值,與第一個相比。 KS測試著眼於累積分布之間的最大差異,因此對於這兩個分布,它們在0.99之前是相同的,然後具有0.01的差異,因此這是KS測試不太可能看到差異的差異。 AD測試也會考慮這種差異,但使用不同的權重。基於均值和方差的測試會發現這兩個分布之間存在巨大差異,因為均值和方差之間存在巨大差異。通常,當不同的測試不同意時,這是因為他們測量的不同。

轉載註明原文: 與GoF測試相矛盾的結果