HTML源码中找不到网页新闻,都是JS动态生成加载的。
在这种情况下,我们应该如何爬取网页?有两种方法:
1、从网页响应中找到JS脚本返回的JSON数据;
2、使用Selenium模拟网页访问
从网页响应中找到JS脚本返回的JSON数据
即使网页内容是由JS动态生成和加载的,JS也需要调用接口,然后根据接口返回的JSON数据加载和渲染。
因此,我们可以找到JS调用的数据接口,从数据接口中找到网页中最后呈现的数据。
Python教程推荐学习。
HTML源码中找不到网页新闻,都是JS动态生成加载的。
在这种情况下,我们应该如何爬取网页?有两种方法:
1、从网页响应中找到JS脚本返回的JSON数据;
2、使用Selenium模拟网页访问
从网页响应中找到JS脚本返回的JSON数据
即使网页内容是由JS动态生成和加载的,JS也需要调用接口,然后根据接口返回的JSON数据加载和渲染。
因此,我们可以找到JS调用的数据接口,从数据接口中找到网页中最后呈现的数据。
Python教程推荐学习。