python爬取图片内容

1,917次阅读
没有评论

共计 893 个字符,预计需要花费 3 分钟才能阅读完成。

import requests
import re
import time

headers = {'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36"
}

for page in range(1, 21):
    time.sleep(2)
    print(f"正在采集第 {page} 页")
    if page == 1:
        link = "http://www.netbian.com/index.htm"
    else:
        link = f"http://www.netbian.com/index_{page}.htm"
    print(link)
    link_html = requests.get(url=link, headers=headers).text

    #print(link_html)

    img_id_list = re.findall(r'<a href="/desk/(\d+).htm".*?title', link_html)
    #print(img_id_list)
    for img_id in img_id_list:

        url = f"http://www.netbian.com/desk/{img_id}.htm"

        resource = requests.get(url=url, headers=headers)

        resource.encoding = 'gbk'

        html = resource.text

        img_url, title = re.findall('<img src="(.*?)"alt="(.*?)" ', html)[0]
        info = re.findall('<img src="(.*?)"alt="(.*?)" ', html)

        img_content = requests.get(url=img_url, headers=headers).content

        with open("img/" + title + '.jpg', mode='wb') as f:
            f.write(img_content)

        #print(info)

微信扫描下方的二维码阅读本文

正文完
 0
yx
版权声明:本站原创文章,由 yx 于2024-10-11发表,共计893字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码

bttech

文章搜索
一言一句话
-「
随机文章
降本增效之-应用部署到k8s

降本增效之-应用部署到k8s

之前应用都采用了传统的服务器部署,很多服务器都会有内存或者 cpu 浪费的情况。把所有的服务准备都迁移到 k8...
降本增效之-自建k8s监控体系

降本增效之-自建k8s监控体系

使用阿里云 ack, 如果使用阿里云的监控体系一个月是需要几百块钱的监控费用,为了节约这笔费用。使用开源的 p...
ubuntu20 TeslaT4 安装stable diffusion-webui

ubuntu20 TeslaT4 安装stable diffusion-webui

升级系统 执行 nvidia-smi 查看是否安装了相关驱动 如果执行 nvidia-smi 没有相关命令就需...
ubuntu20安装部署comfyui脚本

ubuntu20安装部署comfyui脚本

基础环境参考上一篇文章安装基本的驱动 这个使用的曲线较高,有一定的学习成本。脚本如下直接使用即可! 微信扫描下...
elasticsearch7.8.0索引备份到阿里云oss以及恢复

elasticsearch7.8.0索引备份到阿里云oss以及恢复

背景需求,阿里云新建了一套 elk 但是数据需要进行迁移备份, 解决方案使用 logstash 迁移很慢,10...