python爬取图片内容

1,896次阅读
没有评论

共计 893 个字符,预计需要花费 3 分钟才能阅读完成。

import requests
import re
import time

headers = {'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36"
}

for page in range(1, 21):
    time.sleep(2)
    print(f"正在采集第 {page} 页")
    if page == 1:
        link = "http://www.netbian.com/index.htm"
    else:
        link = f"http://www.netbian.com/index_{page}.htm"
    print(link)
    link_html = requests.get(url=link, headers=headers).text

    #print(link_html)

    img_id_list = re.findall(r'<a href="/desk/(\d+).htm".*?title', link_html)
    #print(img_id_list)
    for img_id in img_id_list:

        url = f"http://www.netbian.com/desk/{img_id}.htm"

        resource = requests.get(url=url, headers=headers)

        resource.encoding = 'gbk'

        html = resource.text

        img_url, title = re.findall('<img src="(.*?)"alt="(.*?)" ', html)[0]
        info = re.findall('<img src="(.*?)"alt="(.*?)" ', html)

        img_content = requests.get(url=img_url, headers=headers).content

        with open("img/" + title + '.jpg', mode='wb') as f:
            f.write(img_content)

        #print(info)

微信扫描下方的二维码阅读本文

正文完
 0
yx
版权声明:本站原创文章,由 yx 于2024-10-11发表,共计893字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码

bttech

文章搜索
一言一句话
-「
随机文章
ubuntu20 TeslaT4 安装stable diffusion-webui

ubuntu20 TeslaT4 安装stable diffusion-webui

升级系统 执行 nvidia-smi 查看是否安装了相关驱动 如果执行 nvidia-smi 没有相关命令就需...
降本增效之-自建k8s监控体系

降本增效之-自建k8s监控体系

使用阿里云 ack, 如果使用阿里云的监控体系一个月是需要几百块钱的监控费用,为了节约这笔费用。使用开源的 p...
k8s安装chatwoot后配置邮件报超时问题

k8s安装chatwoot后配置邮件报超时问题

k8s 安装好 chathoot 后配置好了邮件的相关变量 官方配置示例 SMTP_ADDRESS: ""SM...
MacBook Pro M4 关闭swap

MacBook Pro M4 关闭swap

Swap 是将磁盘虚拟为内存来用的,所以速度肯定比不上扎扎实实的内存的。我是 16G 内存,对于我平时使用完全...
降本增效之-实现prometheus对阿里云oss nas监控

降本增效之-实现prometheus对阿里云oss nas监控

阿里云 oss nas 需要时刻巡检注意监控流量以及存储大小,需要监控是担心 oss 滥用,nas 的瓶颈问题...