一千萬個為什麽

搜索

我正在尋找一種軟件或一種方法來列出,提取,統計,總之,分析一本epub或pdf格式的書籍



作為一個對學習語言感興趣的人,我想找到一種方法來了解我要閱讀的書中每個單詞和它們的重復。

轉載註明原文: 我正在尋找一種軟件或一種方法來列出,提取,統計,總之,分析一本epub或pdf格式的書籍

一共有 1 個回答:

這裏有一種方法可以找到按照頻率排序的epub文件中的單詞數量,並在列表頂部使用最多的單詞。

這是在Mac筆記本電腦上完成的,也可以在Unix主機上運行。

過程概述:

  1. 安裝Calibre
  2. 在Calibre中使用 ./ ebook-convert 命令將epub文件轉換為文本
  3. 將整個文本文件轉換為小寫(如“Word”和“word”匹配)
  4. 將標點符號轉換為空格(所以“句點”和“句點”匹配)
  5. 將所有空格轉換為新行。這將每個單詞放在自己的路線上。
  6. 從列表中排除空行
  7. 按字母順序排列單詞列表
  8. 通過管道(發送)單詞列表uniq -c 您現在已經計算了每個單詞出現的頻率。
  9. 按數字順序對結果進行排序。如果使用帶有 -r 參數的sort命令,則最常用的單詞位於頂部。

以下是步驟(2)至(9)的示例。 head 命令列出最終輸出中的前十個字。

$ ./ebook-convert ./book.epub ./book.txt
$ cat   ./book.txt | tr '[:upper:]' '[:lower:]' | tr "“" " " | tr "”" " " | tr "," " " | tr "." " " | tr " " "\n" | grep -v ^$ |  sort | uniq -c | sort -gr  | head
 5303 the
 1960 and
 1934 of
 1910 to
 1874 a
 1168 i
 1067 you
  844 in
  812 that
  703 it
 $

結果非常無聊。 'the'這個詞出現了5303次,而'it'這個詞出現了703次。

我懷疑大多數書中最常見的詞是微小的連詞,文章,介詞和代詞。也許在一些不是小說的東西上,這可能會更有趣。

祝你好運!