首页 > 电脑故障

一日一技：Selenium 抓不到的内容

番茄系统家园 · 2022-06-10 00:51:02

一日一技：Selenium 抓不到的内容

有一些同学在写爬虫的时候，过于依赖 Selenium，觉得只要使用模拟浏览器，在不被网站屏蔽的情况下，就可以爬到任何内容。

今天我们不讨论字体反爬虫和 CSS 反爬虫这两种情况。我们来看一段非常简单的网页。这个网页只有一个HTML 文件，不加载特殊字体，不加载 CSS文件。

一日一技：Selenium 抓不到的内容

这个网页的奇怪之处在哪里呢?我们试一试使用 XPath Helper 来提取网页上面的红色文字，发现XPath 竟然无法找到这段文字，如下图所示：

一日一技：Selenium 抓不到的内容

然后我们使用 Selenium 来试一试：

一日一技：Selenium 抓不到的内容

Selenium果然无法获取红字到内容。我们再打印一下网页的源代码：

一日一技：Selenium 抓不到的内容

这一次，Selenium 获取到的源代码，竟然跟 Chrome 开发者工具里面显示的源代码不一样?

这个问题的关键，就在开发者工具里面的这样一段文字：

一日一技：Selenium 抓不到的内容

因为这个节点是一个shadow DOM[1]。shadow DOM 的行为跟 iframe很像，都是把一段HTML 信息嵌入到另一个HTML中。但不同的是，iframe被嵌入的地址需要额外再搭建一个 HTTP服务，而 shadow DOM 可以只嵌入一段 HTML 代码，所以它比iframe更节省资源。

在上面的截图中，通过下面这三行代码，我们把一个新的

标签嵌入到了原来的 HTML 中：

而这个被嵌入的影子标签，就像 iframe 一样，是无法直接使用 Selenium 提取的。如果强行提取，那么，我们需要使用 JavaScript获取shadow DOM，然后再进行提取。我们来看一段可以正常工作的代码：

运行效果如下图所示：

一日一技：Selenium 抓不到的内容

这段代码，首先通过 JavaScript 找到shadow-root的父节点元素，然后返回这个元素的.shadowRoot属性。在Python里面拿到这个属性以后，使用.find_element_by_class_name()方法获取里面的内容。

要特别注意的是，拿到shadow-root节点以后，只能通过 CSS 选择器进一步筛选里面的内容，不能用 XPath，否则会导致报错。

参考资料

[1]

shadow DOM:https://developer.mozilla.org/zh-CN/docs/Web/Web_Components/Using_shadow_DOM

本文转载自微信公众号「未闻Code」，可以通过以下二维码关注。转载本文请联系未闻Code公众号。

一日一技：Selenium 抓不到的内容

免责声明：凡标注转载/编译字样内容并非本站原创，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如果你觉得本文好，欢迎推荐给朋友阅读；本文链接： https://m.nndssk.com/dngz/33196292kSWr.html。

猜你喜欢

最新应用

TapTap V2.84.0 手机版

TapTap V2.84.0 手机版

软天空游戏盒应用

软天空游戏大全App

菜鸡游戏不用排队版

软天空游戏盒子手机版

软天空游戏盒正式版

软天空游戏盒子app

软天空游戏盒子App

软天空游戏

菜鸡游戏App

玩GO

好游快爆软件

菜鸡游戏

葫芦侠App

第五人格盒子软件

热门应用

快手大屏版

嘿咻漫画

快狐短视频

微信

钢琴助手手机版

钢琴助手最新版

2345游戏盒

北京交通app停车缴费

光环助手oppo版最新

精准天气预报几点几分

飞信

华为鸿蒙os2.0系统

messenger free

海棠书屋自由阅读的小说阅读网

QQ