一千萬個為什麽

搜索

如何將掃描的PDF轉換為文本?



我最近下載了一本編程書。所有頁面都是圖片格式。如果我想運行代碼,我無法從該電子書中復制它。如何將這些類型的PDF轉換為普通PDF。我谷歌,但我不明白他們在說什麽。他們正在講述一些OCR和我無法理解的事情。有沒有任何工具或軟件(我使用的是Windows和Linux(ubuntu)操作系統)

轉載註明原文: 如何將掃描的PDF轉換為文本?

一共有 2 個回答:

這聽起來像你看過的網頁告訴你正確的事情。如果你有一個基於圖像的PDF,那麽它裏面沒有文字,只是文字的圖片。為了將文字圖片轉換為實際文字,您有兩種選擇:讓人類進行轉換,或讓電腦進行轉換。有人做這件事意味著有人坐下來為你打字。讓電腦為你做這件事涉及到光學字符識別(OCR)軟件。如果你有Adobe Acrobat(不是Adobe Reader),它有內置的OCR軟件。除此之外,我知道 ABBYY Fine Reader 具有良好的聲譽。也可能有其他選項。

Bear in mind that whatever OCR software you use, the conversion will not be perfect, particularly if you're dealing with a bad scan. Even in a best-case scenario where you've got 99.9% accuracy on the conversion, you'll still have about one error every thousand characters—two or three typos per page. That will mean that you'll have to be careful cutting and pasting code; the whole process may not save you any effort over just typing stuff in.

在Google Chrome中打開您的PDF文件,並使用項目Naptha 擴展名選擇並復制文本。