内容导读:我们在采集内容时,有时候会碰到一些列表页,需要浏览到网页底部,才会加载出新的列表。这种类型的网站是无法直接递增页面ID抓取列表的。那么,有没有什么办法获取地址呢,python+selenium就可以解决这个问题,转载文章给大家参考
有些网站使用了懒加载技术:只有在浏览器中纵向滚动条滚动到指定的位置时,页面的元素才会被动态加载。注意,在加载之前,selenium的page_source是不会包含该页面的内容,page_source只包含加载出来的页面内容。那么如何实现加载全部内容,就需要模拟人滚动滚动条的行为,实现页面加载
代码如下:
from selenium import webdriver
import time
driver_path = r"E:\chromedriver.exe"
def get_brower():
#创建浏览器驱动
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--start-maximized")
browser = webdriver.Chrome(executable_path=driver_path, options=chrome_options)
time.sleep(3)
return browser
def drop_down(url,browser):
#加载界面
browser.get(url)
#获取页面高度
height = browser.execute_script("return action=document.body.scrollHeight")
#将滚动条调到页面底部
browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")
time.sleep(5)
#定义一个初始时间戳
t1 = int(time.time())
num = 0
while True:
#获取当前的时间戳
t2 = int(time.time())
# 判断时间初始时间戳和当前时间戳相差是否大于30秒,小于30秒则下拉滚动条
if t2 - t1 < 30:
new_height = browser.execute_script("return action=document.body.scrollHeight")
if new_height > height:
time.sleep(1)
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
# 重置初始页面高度
height = new_height
# 重置初始时间戳,重新计时
t1 = int(time.time())
elif num < 3: # 当超过30秒页面高度仍然没有更新时,进入重试逻辑,重试3次,每次等待20秒
time.sleep(20)
num = num + 1
else: # 超时并超过重试次数,程序结束跳出循环,并认为页面已经加载完毕!
print("滚动条已经处于页面最下方!")
# 滚动条调整至页面顶部
browser.execute_script('window.scrollTo(0, 0)')
break
if __name__ == '__main__':
browser = get_brower()
url = "https://www.iqiyi.com/"
drop_down(url,browser)
本文来源:【python+selenium采集动态加载(懒加载)的页面内容】
由思享SEO博客编辑转载,仅用于参考学习,如有侵权请联系本站修改删除!
扩展阅读
win7系统安装playwright输入命令没反应是怎么回事?
之前发了很多关于selenium的内容,但因为自己太菜有挺多问题找不到解决办法,网上看到有说playwright,所以想安装来试试,但是安装过程中也发现了一点问题,最后成功从网上找到解决办法 playwright安装 pip install --up......
python根据文章标题或内容自动生成摘要
文章摘要是对于SEO来说相对灵活的一个部分,可以做到既不影响内容的可读性,既增强页面内容。那么,有没有什么方案,可以自动生成才要呢,这里网上找到了一篇不错的文章,供大家参考...
高权重网站采集我的内容,为什么排名还比我好
不是说原创文章利于排名吗,但是权重高的网站采集我的原创内容,结果排名还比我好,这是怎么回事,一些大网站总是采集我的内容 为什么他们的排名比我的好?...