一千萬個為什麽

搜索

確定PDF文檔是否為數字原生



是否可以知道給定的PDF是數字原生的還是已經過某種OCR或數字化過程。

如果是,是否可以通過編程方式執行此操作?

轉載註明原文: 確定PDF文檔是否為數字原生

一共有 1 個回答:

PDF文檔將其所有字體嵌入文檔中。您可以使用大多數PDF庫以編程方式獲取這些嵌入字體信息。

如果沒有嵌入字體,則手頭的PDF是掃描的。
如果只有一個或兩個字體,則文檔被OCR化。
如果有三種或更多字體,則該文檔是數字原生的。

潛在地,可能只有一個或兩個字體的數字原生PDF,但幸運的是,這是一個可接受的錯誤率。