一千萬個為什麽

搜索

在acrobat中搜索時如何跳過這些連字符



我有兩個pdf文件:

這些是我做的過程

  1. 我有一張圖片pdf,然後我使用abby執行OCR功能

  2. 然後我將我的PDF轉換為abby變換器3.0中的scanble pdf

  3. 然後我使用acrobat比較源文件和ocr文件,但是所有連字符在搜索時如何跳過這些連字符都是錯誤的?

轉載註明原文: 在acrobat中搜索時如何跳過這些連字符

一共有 2 個回答:

如果我正確理解你的問題,你需要一種方法來自動檢查從圖像到文本的OCR轉換。恐怕這是不可能的:檢查將需要通過OCR從圖像轉換為文本,我相信你可以看到它是循環的。如果你想證明一個OCR轉換,你必須以老式的方式來做。至少比輸入全部內容要快(然後再打樣)!

我無法肯定地回答你,因為我沒有工具喲 使用。因此我不確定他們創建了什麽樣的文件(PDF可以來 以不同的口味)。此外,除了基本的特征 識別,OCR可能涉及或可能不涉及通常基於的各種步驟 語言分析,旨在改善結果。去除連字符 一個這樣的步驟,因為在保持連字符通常沒有意義 在生成的OCR文本中。

請參閱此問題的示例:如何刪除硬連字符?或此 關於脫位的主題論文

比較圖像有時可能,但不太可能給你 易於使用的結果用於文本目的。

因此,您必須假定您使用了一個工具(ABBYY FineReader 11) 獲得第一份OCR文件,並且您的比較在第二次OCR上進行 將圖像與第一個結果進行比較。

這可能是有道理的,並幫助確定一些可能的錯誤 OCR文本中的位置(雖然我不知道它是用於,如 可能有其他方法)。這也可能是兩個OCR程序 有時會同意犯同樣的錯誤,然後仍然存在 未被發現。

現在有可能一個OCR系統在去除連字符的同時 另一個沒有。然後比較結果文件將顯示 不同之處在於原始圖像中有連字符的地方。順便說一句,雜技演員發現(主要)額外的連字符或缺少連字符?

要解決這個問題,需要兩個OCR步驟來完成 與連字符相同,請保留或刪除它。我會 期望一些OCR算法可以被配置為執行哪一個 可能會解決你的問題。

但請註意,刪除連字符有時可能不明確,需要 有些武斷的選擇。因此,如果兩個OCR系統用於雙 檢查連字符是否被刪除,他們有時可能不同意哪一個 連字符應該被刪除,並且沒有多少人能夠避免 這個。

避免使用連字符的另一種方法是編寫一段軟件 過濾出報告的連字符差異。如何做到這一點取決於 你工作的環境。