一千萬個為什麽

搜索

頂級數字化項目中有多少部分無限制電子書?



盡管沒有使用限制的電子書有很多來源,但似乎其中大多數實際上源於少量的數字化項目。其中之一是古騰堡計劃與分布式校對員合作。

是否有任何良好的信息來源顯示最重要的數字化項目是多大程度上無限制電子書的來源?

轉載註明原文: 頂級數字化項目中有多少部分無限制電子書?

一共有 1 個回答:

前言

我假設問題的海報正在調用 “ unrestricted books ”沒有DRM的書籍,即沒有技術的書籍 打算防止某些用途的設備,例如復制,搜索或 適應新的閱讀設備。所有書籍都受法律限制 版權,至少在今天,直到他們進入公有領域。很少有權利人完全刪除版權 通過提供足夠的公共許可來限制。

雖然我已經閱讀了許多有關這個主題的論文,並且寫了一些,但我懷疑是否有這樣的論文 文件按照問題中的要求。原因在於 數量項目的多樣性目標缺少 對廣泛變體的書籍的標準定義 在各種研究中遇到的書籍數量(特別是那些有關的研究 評估不同圖書館中孤兒書的比例)。 書的定義取決於各種參數,包括 內容和目的,商業化,鮮明的相關性 版本,插畫家的選擇,每一個都可能影響一些數字 一個數量級。聖經是否計算為一,或者是否為一 幾十萬?莎士比亞的作品呢,還是愛麗絲呢? 仙境?一首詩是否算作一本書?短篇小說,樂譜,船舶日誌,目錄,出生登記冊怎麽樣?回想一下,可能有哪些數據可用 計算時考慮到了不同的問題或目的,因此具有不同的視角(通常沒有解釋)什麽是書,什麽是兩本不同的書。因此,寧可 比根據要求指出特定文件,我會在下面嘗試直接提供 回答,根據我可能記得或檢索的數字。但短脆 由於可用性非常模糊,答案會有誤導性 信息,以及問題本身就是這樣的事實 不知不覺中很不準確。

全球評估

通過及類似語言制作無限制書籍 項目與原始數字化和 OCR 相比是微不足道的, Google和大型公共和學術項目,例如國家圖書館。這是在...的順序上 10萬冊書籍,總量的1/1000 的幅度順序 這些書的數量似乎在50到130之間 數百萬,取決於書的計算方式。大數字化 像谷歌,國家圖書館和大型公司一樣的項目 雖然機構的生產力提高了兩個數量級,但一些機構生產了數百萬冊數字化書籍 確切的數字有時很難評估。

但是,如果您考慮使用校對文本和數字化的質量數字化 像EPUB標準一樣的結構化格式化,像 古騰堡項目看起來效率更高,規模也更大 數字化項目只產生幾千個,不受限制, 高質量的電子書(從我已經能夠檢查)。

這並不奇怪,因為大數字化項目是有意的 主要是為了保存目的,以及為了可訪問性 研究社區(或者在Google的情況下為索引目的),而古騰堡項目及其類似項旨在用於可用性/可訪問性目的,即便於訪問現有文獻更廣泛的讀者。 原始 大型項目進行的保護數字化相當公平 便宜且快速,而高質量的數字化需要長而昂貴的成本 人為幹預(約高一個數量級),可以 由校對和編輯完成。

另一方面是,雖然書的總數量非常大, 只有很小的一部分對廣泛的受眾有興趣。所以 古騰堡計劃的相關語料可能遠小於 大數字化項目的相關語料庫必須處理 與各種檔案,庫存等。這是 復雜的事實,廣泛的利益的書籍 觀眾在很大程度上仍受版權保護,因此更少 通過任何數字化項目可能合法獲得而不受任何限制。

這實際上強調了 孤兒書的重要性 書籍 ,更一般地說是權利人不關心的書籍 是否可以或不可以合法提供,是否合法 沒有限制。這可能代表了一半的數量級 版權書籍。在美國,這是法律的一個重要方面 圍繞 Google圖書搜索和解協議進行戰鬥,它是 法國的特定法律的目標。

所以,我傾向於相信合作項目就像這樣 如果你的話,古騰堡計劃是無限制電子書的主要來源 考慮為廣大公眾閱讀資源。但是,它很少 意義上來比較兩種類型的項目有不同的產出 目的,至少在中期內。

不過,應該指出的是,保存可能更加緊迫 任務比高質量數字化。這相當穩健 保護項目將避免轉移大部分有限資源 資源昂貴,高質量輸出,而不是公共 關系目的。另外,大量的文件 由大型項目數字化提供了良好的原材料來源 規模較小的項目旨在提高質量 這有可能吸引一些讀者。

我們還應該記住,數字化不是唯一的來源 電子書。有作者,出版商和機構產生了非常大量的 沒有DRM限制的新書雖然可能有合法性 不受DRM強制執行的限制,就像之前的情況一樣 古典紙書。

盡管我花了很多時間分析問題並寫出了答案 回答一些數字來證實它,它最終也是如此 很長,並且由於異質性的來源而變得混亂。所以我決定 在這裏縮短它。如果有興趣,你可以閱讀其余的內容 此版本的歷史版本,其中包含來自各個項目的其他數據和參考資料。

2個相關問題:

電子書中使用哪種DRM?是否有可能購買DRM免費電子書?

一些經典文獻免費提供 - 但是在哪裏?