我完全是 Python 新手,并且在 Windows (pywin) 上使用 Python 3.1。我需要解析一些 HTML,在特定 HTML 标签之间本质上是额外的值,并且对我的选项数组感到困惑,我发现的一切都适合 Python 2.x。我读过很多关于 Beautiful Soup、HTML5Lib 和 lxml 的文章,但我不知道如何在 Windows 上安装其中任何一个。
问题:
foo |
(假设我们想返回“/blahblah”)
请您参考如下方法:
Python 3 中的 Web 抓取目前支持很差;所有像样的库都只适用于 Python 2。如果您必须使用 Python 进行网络抓取,请使用 Python 2。
虽然 Beautiful Soup经常被推荐(关于 Stack Overflow 中关于使用 Python 进行网页抓取的每个问题都建议它),它对 Python 3 不如对 Python 2 好;我什至无法安装它,因为安装代码仍然是 Python 2。
至于 Python 3 足够且易于安装的解决方案,您可以尝试 the library's HTML parser ,虽然相当准系统,但它带有 Python 3。