一千萬個為什麽

搜索

將包含圖像的EPub轉換為正確的文本



我最近在網上購買了一本電子書(無DRM)。它應該是epub格式,這在技術上是這樣的,但事實證明,它們只是打包了每個單獨頁面的圖像而不是實際文本。結果整個事情大概是100MB,並且不適用於我的任何讀者。目前唯一讀取它的方法是提取它並使用圖像查看器。

我如何將其轉換為實際文字以使其可用?

轉載註明原文: 將包含圖像的EPub轉換為正確的文本

一共有 1 個回答:

你需要做的是在本書的圖像上運行OCR(光學字符識別)。

如果您無法找到直接在ePub文件上執行OCR的程序,則可以嘗試先將其轉換為PDF,或者提取圖像。確保如果進行了轉換,圖像不會失去質量,因為這會對轉換結果產生負面影響。 Calibre等程序允許您進行此類轉換。

有一些在線OCR服務,主要用於PDF轉換,請確保您了解使用此類服務​​的含義,因為不能保證轉換後您的圖書信息已被刪除(並且您的圖像已加水印或包含元數據指向你,這可能會讓你陷入困境)。