一千萬個為什麽

搜索

使用VB.net HTML AgilityPack解析鏈接和表

我正在嘗試進行一些屏幕抓取,並發現了HTML AgilityPack,但是在弄清楚如何在VB.net中使用它時遇到了一些麻煩。

我想要做的第一件事是找到HREF標記的URL字符串,如果我知道HREF中包含的文本。

第二件事是我要做的是解析一個HTML表,遍歷每一行,然後提取數據,這樣我就可以將它保存到數據庫中(經過一些基本的分析)。

最佳答案

Here is a good starting link here on SO: How to use HTML Agility pack

See also this: HtmlAgilityPack example for changing links doesn't work. How do I accomplish this?

And this: Finding all the A HREF Urls in an HTML document (even in malformed HTML)

要查找特定的HREF,xpath語法將為“// a [@ href ='your url']”,表示:“獲取任何HREF屬性等於'your url'的A標記。

修改</強>

如果您只知道文本,要找到HREF,例如,如果您有html文本' 汽車 '並查找homepage.html,那你就是這樣做的。

        string s = @"Cars";

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(s);

        HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
        Console.WriteLine("href=" + node.GetAttributeValue("href", null));

轉載註明原文: 使用VB.net HTML AgilityPack解析鏈接和表