一千萬個為什麽

搜索

如何將目錄OCR輸出到合適的輸出?



通常當OCR內容表中的列被大空格分隔時,輸出的順序就不正確。例如,對於這樣的表:

輸出將是:

The Rank Function
Permutations of Atoms
Pure Set Theory and Axiom System ZF
3.5
3.6
3.7

我希望它是:

3.5 The Rank Function\112
3.6 Permutations of Atoms\116
3.7 Pure Set Theory and Axiom System ZF\118

但是不同的TOC具有不同的輸出模式,因此無法構建正則表達式腳本來自動修復每本書。最好的方法是首先修復它。但是怎麽樣?

轉載註明原文: 如何將目錄OCR輸出到合適的輸出?

一共有 1 個回答:

不是真的回答這個問題,但谷歌圖書有TOC: