一千萬個為什麽

搜索

不平衡的課程 - 如何最大限度地減少假陰性?

我有一個具有二進制類屬性的數據集。有623個實例的+1級(癌癥陽性)和101,671個實例的-1級(癌癥陰性)。

我嘗試了各種算法(樸素貝葉斯,隨機森林,AODE,C4.5),所有算法都有不可接受的假陰性比率。隨機森林具有最高的總體預測準確度(99.5%)和最低的假陰性率,但仍然缺少79%的陽性類別(即未能檢測到79%的惡性腫瘤)。

我有什麽想法可以改善這種情況?

謝謝!

最佳答案

Class imbalance is a very common problem. You can either oversample the positive class (or undersample the negative) or add class weights.

在這種情況下要記住的另一件事是精度在這裏不是一個非常有用的指標。您可以考慮 AUCF1得分

改變您的決策閾值似乎很有吸引力,但顯然會導致(在這種情況下可能會大幅增加)誤報(盡管在醫學診斷的情況下FP可能不如FN那麽糟糕,如果測試不是非常昂貴的話)。

對類不平衡情況下的選項進行了更深入的分析這裏

轉載註明原文: 不平衡的課程 - 如何最大限度地減少假陰性?