一千萬個為什麽

搜索

解析常見鏈接的博客文章

(新手發帖,道歉並在前面表示感謝!)

我的目標是構建一個小應用程序來監視和解析一組博客的出站鏈接帖子,這樣我就可以:

  1. 在一個框架中顯示博客中的頂級鏈接文章;和,
  2. 對於給定的鏈接文章,顯示鏈接到它的帖子(在我的博客圈中)。

到目前為止,我的想法是使用:
- Python(使用Django或某些前端)
- Feedparser 閱讀帖子並從帖子中提取鏈接
- URLparse

The Big Question: am I missing anything obvious that would make this way easier?

更小的問題(我還不知道):
- 由於即使指向同一篇文章(例如,NYT URL和tinyURL),出站鏈接URL也可能不同,如何檢查URL以查看它是否已經在我的鏈接項列表中,而不僅僅是比較絕對URL?

This SO post was helpful at a high level, but parsing 'blogroll'-style link lists seems a lot easier than actively comparing URLs within a post, particularly to news sites that may do all sorts of funny things in their URLs.

最佳答案

我會采用相同的設置。您可能需要lxml來解析和操作帖子內容HTML(提取標簽)。

轉載註明原文: 解析常見鏈接的博客文章