一千萬個為什麽

搜索

通過java程序讀取大型輸入文件(10gb)

I am working with a 2 large input files of the order of 5gb each.. It is the output of Hadoop map reduce, but as i am not able to do dependency calculations in Map reduce, i am switching to an optimized for loop for final calculations( see my previous question on map reduce design Recursive calculations using Mapreduce

我想有關於在java中讀取這些大文件並做一些基本操作的建議,最後我將寫出大約5gb的數據。

我感謝您的幫助

最佳答案

聽起來似乎沒有太多簡單的實現。只需打開 InputStream / Reader 的文件:

  1. 讀入您的一段數據
  2. 處理數據
  3. 將結果存儲在內存中,如果您有足夠的空間存放整個數據集,則在某種數據庫中如果不是

如果您的結果集太大而無法保留在內存中,一種簡單的方法就是使用 H2數據庫,帶有本地文件存儲。

轉載註明原文: 通過java程序讀取大型輸入文件(10gb)