一千萬個為什麽

搜索

HTML解析器從正文中提取文本(在java中)

我正在研究這個項目,要求我從網頁上獲得的文本中進行一些文本處理。 現在,實現這一目標的第一步是找到一個解析器,它將提取忽略冗余信息所需的正文。我不確定如何做到這一點,因為我對編程非常新。我真的很感激我能得到的任何幫助。 提前致謝

最佳答案

I found this html parser very useful. It also provides a sample example . http://jericho.htmlparser.net/docs/index.html

轉載註明原文: HTML解析器從正文中提取文本(在java中)