一千萬個為什麽

搜索

未標記文檔對SVM標簽預測的影響

我有一組文本文檔,其中一些由標簽為L的分析師標記。我正在使用這些數據來訓練SVM以預測新文檔是否應該有標簽L.

到目前為止它是直截了當的,但是有一個問題:分析師沒有評估訓練集中的所有文檔,所以實際上有三類文檔:

  1. 標有L
  2. 的文件
  3. 分析師查看的文件,並選擇不標記L(所以你可以說它們的標簽不是-L)
  4. 分析師沒看過的文件。

不幸的是,在培訓時間,我無法將文件分成2和3,或者不是L和未標記的文件。我認為這是一個問題,因為非L標簽向SVM提供信息,但未標記的文檔更“中立”。

如何估計此問題對預測新文檔是否應具有標簽L的影響?

最佳答案

我不相信經典的SVM在這種情況下是正確的工具,因為你沒有負面因素。我嘗試使用以下之一:

  1. 半監督方法:如果您的數據可以很好地聚類,那麽您可以使用您的數據確定哪些聚類對應於正例,並將其用作分類器
  2. 使用1級SVM

轉載註明原文: 未標記文檔對SVM標簽預測的影響