你的位置：思享SEO博客 > Python与SEO > python+selenium采集拉到底部(懒加载)才加载的列表地址

python+selenium采集拉到底部(懒加载)才加载的列表地址

Python与SEO 投稿&转载 4年前 (2022-05-13) 1427浏览

摘要：

我们在采集内容时，有时候会碰到一些列表页，需要浏览到网页底部，才会加载出新的列表。这种类型的网站是无法直接递增页面ID抓取列表的。那么，有没有什么办法获取地址呢，python+selenium就可以解决这个问题，转载文章给大家参考

有些网站使用了懒加载技术：只有在浏览器中纵向滚动条滚动到指定的位置时，页面的元素才会被动态加载。注意，在加载之前，selenium的page_source是不会包含该页面的内容，page_source只包含加载出来的页面内容。那么如何实现加载全部内容，就需要模拟人滚动滚动条的行为，实现页面加载

代码如下:

from selenium import webdriver
import time

driver_path = r"E:\chromedriver.exe"

def get_brower():
    #创建浏览器驱动
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument("--start-maximized")
    browser = webdriver.Chrome(executable_path=driver_path, options=chrome_options)
    time.sleep(3)
    return browser
def drop_down(url,browser):
    #加载界面
    browser.get(url)
    #获取页面高度
    height = browser.execute_script("return action=document.body.scrollHeight")
    #将滚动条调到页面底部
    browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")
    time.sleep(5)
    #定义一个初始时间戳
    t1 = int(time.time())
    num = 0
    while True:
        #获取当前的时间戳
        t2 = int(time.time())
        # 判断时间初始时间戳和当前时间戳相差是否大于30秒，小于30秒则下拉滚动条
        if t2 - t1 < 30:
            new_height = browser.execute_script("return action=document.body.scrollHeight")
            if new_height > height:
                time.sleep(1)
                browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
                # 重置初始页面高度
                height = new_height
                # 重置初始时间戳，重新计时
                t1 = int(time.time())
        elif num < 3:  # 当超过30秒页面高度仍然没有更新时，进入重试逻辑，重试3次，每次等待20秒
            time.sleep(20)
            num = num + 1
        else:  # 超时并超过重试次数，程序结束跳出循环，并认为页面已经加载完毕！
            print("滚动条已经处于页面最下方！")
            # 滚动条调整至页面顶部
            browser.execute_script('window.scrollTo(0, 0)')
            break
if __name__ == '__main__':
    browser = get_brower()
    url = "https://www.iqiyi.com/"
    drop_down(url,browser)

本文来源：【python+selenium采集动态加载(懒加载)的页面内容】
由思享SEO博客编辑转载，仅用于参考学习，如有侵权请联系本站修改删除！

推荐阅读

宝塔面板自动续签ssl证书失败的解决办法

Baota面板已经设置了SSL证书的自动续订，但我记得它从未成功。最近，我发现有些朋友也遇到了这个问题，所以我在论坛中找到了解决方案。设置警报通知我以前一直在使用这种方法，有S...

Python实现聚合问答采集文章

最近在一个社区得到了一个用python聚合问答的工具，但是因为已经打包成程序了，所以无法研究，于是在网上找了一个网友分享的源代码，转载于此，供志愿者学习和后期扩展。这个工具可以通过头条搜索、百度下拉结果、搜狗下拉、百度知道搜索、新浪爱问、搜狗问问，将......

pycharm怎么用国内镜像安装第三方库

1、在pycharm中打开Terminal，如下图。 2、以安装pymysql库为例，输入以下命令回车即可使用镜像安装。 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pymysql ......

与本文相关的文章