我想用 C# 从网页中获取文本。
我不想获取 HTML,我想要网页中的真实文本。就像如果我输入“<b>cake</b>
”,我想要蛋糕,而不是标签。
请您参考如下方法:
使用 HTML Agility Pack 库。
这是一个非常好的解析 HTML 的库,根据您的要求,请使用以下代码:
HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack.HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web.Load("Yor Path(local,web)");
var result=doc.DocumentNode.SelectNodes("//body//text()");//return HtmlCollectionNode
foreach(var node in result)
{
string AchivedText=node.InnerText;//Your desire text
}