Skip to main content
 首页 » 编程设计

python-3.x之使用 Python 3 和示例解析 HTML 的最佳库

2025年02月15日22虾米哥

我完全是 Python 新手,并且在 Windows (pywin) 上使用 Python 3.1。我需要解析一些 HTML,在特定 HTML 标签之间本质上是额外的值,并且对我的选项数组感到困惑,我发现的一切都适合 Python 2.x。我读过很多关于 Beautiful Soup、HTML5Lib 和 lxml 的文章,但我不知道如何在 Windows 上安装其中任何一个。

问题:

  • 你推荐什么 HTML 解析器?
  • 我该如何安装? (小心点,我对 Python 完全陌生,请记住我使用的是 Windows)
  • 您是否有一个关于如何使用推荐的库从特定 URL 获取 HTML 并返回值的简单示例:

    foo
    链接

  • (假设我们想返回“/blahblah”)

    请您参考如下方法:

    Python 3 中的 Web 抓取目前支持很差;所有像样的库都只适用于 Python 2。如果您必须使用 Python 进行网络抓取,请使用 Python 2。

    虽然 Beautiful Soup经常被推荐(关于 Stack Overflow 中关于使用 Python 进行网页抓取的每个问题都建议它),它对 Python 3 不如对 Python 2 好;我什至无法安装它,因为安装代码仍然是 Python 2。

    至于 Python 3 足够且易于安装的解决方案,您可以尝试 the library's HTML parser ,虽然相当准系统,但它带有 Python 3。