一千萬個為什麽

搜索

掃描庫存數據庫中的錯誤/缺陷


我正在研究一些matlab代碼,它應該檢查庫存數據庫中的任何錯誤(缺失值,錯誤值等)。這樣做的原因是,在閱讀這篇文章後,我得出的結論是,我可能要寫一些數據清理代碼,以便在使用此數據庫進行回測時獲得準確可靠的結果。

該數據庫已從雅虎財經下載,並包含以下每個股票的列:日期,開放,高,低,關閉,音量,調整。

到目前為止,該程序掃描以下瑣碎的錯誤:

  • Close > High
  • Close < Low
  • Open > High
  • Open < Low
  • High < Low

該程序還檢查是否有任何數據列包含小於零或NaN的值。

我可以在數據庫中查找哪些其他錯誤/缺陷?

最佳答案

我的經驗幾點:

1您應該考慮的另一個過濾器是某些數據提供者中出現的價格= 999或999.99。

2另一組檢查是查看例如範圍=(高 - 低)/關閉所有名稱。檢查最小範圍和最大範圍,以查看值是否有意義。您還可以檢查從一天到另一天的每日%變化。檢查數據中所有錯誤的最大移動。美國的Flash崩潰造成了巨大的範圍,但如果您在不同的日子看到異常範圍,請查看數據的質量。同樣在2008年9月,即使在非常流動的產品中也存在許多荒謬的價值。

3對於改變名稱或進出破產的公司,你必須小心使用雅虎(和其他來源)。

轉載註明原文: 掃描庫存數據庫中的錯誤/缺陷

猜你喜歡