煎蛋网怎么看原图(在煎蛋网爬取美女图片)

煎蛋网站

 

很多朋友都反应学 python 语言太枯燥,学不进去,其实学语言最好的方法是自己用所学的语言做项目,在项目中学习语言的用法。今天给大家带来的项目是用 python3 爬取煎蛋网妹子的图片。图片质量还不错,我放两张图片大家感受下。

 

 

这个项目用了 requests + selenium + beautifulsoup 库对网站的图片进行抓取。接下来我就,给大家一步步解析一下,怎么用 python 爬虫爬取图片并下载的。

爬取结果

 

以上就是爬取的结果,通过运行 meizi.py 代码,就可以把图片保存在我指定的目录下,如果没有此目录,就用程序自动创建目录,爬取的所有图片都保存在此目录下。

程序构造

 

程序主要是由 6 个函数组成:

  • get_html() :利用 webdriver 来请求对应的网站。
  • get_page():解析面跳转地址。
  • mkdir():判断目录是否存在,不存在就创建一个。
  • get_pic():提取图片链接。
  • download():通过图片链接下载保存。
  • main():程序执行的主函数。

程序思路

  1. 对目标网站链接进行分析,找出目标网站链接的规律。
  2. 从目标网站里面提取图片链接。
  3. 将图片下载并保存在目录中。

源代码分析

我们通过f12调试页面,看到图片的链接,发现此链接并没有在源代码中,我们推测,图片应该是通过 js 加载的,对于需要 js 才能加载出来的网站,我们就可以利用 selenium 的自动化测试请求库来进行加载。利用 selenium 请求可以模拟真实浏览器访问。

1browser = webdriver.Chrome()

2wait = WebDriverWait(browser, 3)

利用 selenium 请求网页需要下载 chrome 驱动放在 python 安装目录下。

分页链接分析

1def get_page():

2 base_url = 'http://jandan.net/ooxx/' #第一次进入的原始地址

3 soup = BeautifulSoup(get_html(base_url), 'lxml') #解析原始地址

4 current_pages=soup.select('.cp-pagenavi .current-comment-page')[0].get_text()[1:-1] #取出当前页面字段

5 urllist = []

6 for page in range(1,int(current_pages)+1):

7 real_url=base_url+'page-'+str(page)+'#comments' #拼出分页地址

8 urllist.append(real_url)

9 return urllist #返回所有分页地址列表

原始链接 base_url = ‘http://jandan.net/ooxx/’,当我们点击下一页时,发现在原始链接的后面加了一段「page-52#comments」。

其中加的数字,就是表示现在所在的页数,通过 BeautifulSoup 库对页面进行解析,用选择器提取表示页数的字段「current-comment-page」,加入到原始链接中进行拼接。

创建目录

1def get_pic():

2 for url in get_page():

3 mkdir()

4 html=get_html(url)

5 soup=BeautifulSoup(html,'lxml')

6 allimgs=soup.select('div .text p img')

7 allimgs=re.findall('src="(.*?)"',str(allimgs))

8 download(allimgs)

9 print("下载完毕!")

用 os.path.exists 方法来个判断,如果不存在此目录就创建一个,如果存在就忽略。

提取图片

1def get_pic():

2 for url in get_page():

3 mkdir()

4 html=get_html(url)

5 soup=BeautifulSoup(html,'lxml')

6 allimgs=soup.select('div .text p img')

7 allimgs=re.findall('src="(.*?)"',str(allimgs))

8 download(allimgs)

9 print("下载完毕!")

用 BeautifulSoup 解析源码,用选择器循环提取图片的链接,并调用 download() 函数下载图片直至下载所有图片。

优化改进

本次的程序还有一些不足的地方,比如利用 selenium 库在爬取的时候非常的慢,每页我还设置了 3 秒等待时间,这部分待优化。还有所有页面的图片都保存在一个目录下,没有分开保存,这部分也可以优化。

这波教程不点个关注,说不过去吧?哈哈。这个网站有很多福利,我只能说大家注意身体啊。

本文来自投稿,不代表展天博客立场,如若转载,请注明出处:https://www.me900.com/4642.html

(0)

相关推荐

  • info域名,info域名有价值吗

    以下是一篇关于“info域名”的文章: 一、info域名的起源与发展 info域名也许是互联网发展历程中的一个重要里程碑。它的出现好像是为了满足人们对特定信息的快速获取需求。在互联网早期,域名系统还在不断完善和发展之中,各种后缀的域名开始涌现。info域名或许就是在那个时候诞生的,它最初的设计目的可能是为了提供一种专门用于信息类网站的域名后缀。 随着互联网的…

    用户投稿 2025-10-07
  • 版本控制,版本控制工具的相关知识有哪些

    由于最近失业了,有时间思考人生的意义。平常除了在学习前端相关的知识,也关注一些哲学,今天看到黑格尔的这样一句话,存在即合理。和我昨天对代码版本控制很是适用。 说起来,软件行业这么多年来,用来管理软件版本的软件也是历尽沧桑。虽然,如今git已经成为了大家的主流工具,不过,我还是觉得想要学好一门技术还是要了解它的历史。毕竟一门工具的诞生一定有它的存在性,如果是一…

    2023-07-04
  • 360手机助手苹果版,windows11安装安卓应用

    微软Windows11面世以来虽然争议颇多,但亮点也多多,例如UI更加友好易用,对硬件性能优化更好,还通过Windows Subsystem for Android(简称WSA)子系统提供了对安卓应用的支持,比模拟器更先进更稳定,感觉摸鱼更方便了有木有? 但并不是升级到Windows11就能立即摸鱼的,按照微软的尿性肯定要费点周章。总结来说需要有以下的操作:…

    2023-07-11
  • 浏览器硬件加速在哪,网页加载不完全怎么处理

    有很多人在打开网页的时候会觉得自己的网速比别人快,但是电脑打开网页的时候总感觉慢腾腾的在加载,这个时候大家就要注意检查一下是不是自己的硬件加速没有开启而导致的。 硬件加速,其实就是在打开网页是时候,使用擅长图形处理的显卡GPU来加速,而不是电脑的CPU。当然,这一切都是要建立在你的显卡驱动安装好正常工作的情况下的。 下面我们就给大家演示一下常见的几个浏览器硬…

    2023-07-12 用户投稿
  • 淘宝 乱码,淘宝乱码链接怎么搜索

    《淘宝乱码:探究其原因与解决办法》 在使用淘宝购物的过程中,我们也许偶尔会遇到页面出现乱码的情况。 这一现象可能会让我们感到困惑和不安,不知道该如何应对。 那么,淘宝乱码究竟是怎么回事呢?它可能由哪些因素引起?又该如何解决呢?下面我们就来一起探究一下。 一、淘宝乱码的常见表现形式 当淘宝页面出现乱码时,我们可能会看到一些奇怪的字符、方块或者无法正常显示的文字…

    用户投稿 2025-03-20
  • vs2008安装,vs2008安装包

    《关于vs2008安装的详细指南》 一、准备工作 在开始安装vs2008之前,我们需要做一些准备工作。也许你需要确保你的电脑满足vs2008的最低系统要求。这就好像你要去参加一场比赛,你需要先了解比赛的规则和自己的身体状况一样。如果你的电脑配置过低,可能会导致vs2008安装失败或者运行缓慢。我觉得你可以先查看一下vs2008的官方文档,了解它的最低系统要求…

    用户投稿 2025-10-01
  • ai转换矢量图,用ai将位图变成矢量图

    在2023年,当AI技术已经发展成熟,能够将位图转化为矢量图视频时,自媒体也已经成为一个越来越流行的领域。这种技术的发展为自媒体带来了新的可能性和挑战。在这篇文章中,我们将考虑如何将AI 技术与自媒体结合,让我们进入AIGC 元年的全新领域。 首先,通过AI技术,我们可以更轻松地生成高质量的视觉内容。这意味着自媒体工作者可以更加专注于内容的创作和分享,而不必…

    2023-07-12
  • 国产电子血压计10大品牌排行(中国血压计十大名牌)

    11月11日,我国公布优化疫情防控二十条,“外防输入、内防反弹”依然是总策略,同时第十三条、第十四条要求加快新冠肺炎治疗相关药物和医疗设备的储备,强化对重点人群的保护。此背景下呼吁购买呼吸机、制氧机和血氧仪的声音日渐高涨。11月14日,A股多家有呼吸机、制氧机产品的公司股价大涨,鱼跃医疗涨停,可孚医疗(002223.SZ)涨幅14%等。板块中主要参与者还有怡…

    用户投稿 2023-06-05
  • 2007年亚洲杯,伊拉克是哪一届亚洲杯冠军

    就是在这样的背水一战下,伊拉克人爆发了惊人的能量。他们在第二场比赛中,3-1战胜当时的夺冠热门球队澳大利亚,赢得了小组出线的主动权。小组赛最后一轮,伊拉克0-0战平阿曼,以小组第一的身份,力压澳大利亚晋级,在八强战中遇到利用东道主优势赢得B组第二的越南人。 在八强战中,球队头号球星尤尼斯上演梅开二度,帮助伊拉克人2-0战胜对手晋级4强。半决赛中,伊拉克面对的…

    2023-06-06 用户投稿
  • android光线传感器,光纤传感器的工作原理及应用

    您的支持是我前进的最大动力,谢谢!急性心肌梗死是一种致死率极高的急性病症,其在全球范围内的病死率逐年上升。患者若在“黄金一小时”内进行治疗可大大降低病死率,因此,对急性心肌梗死的快速诊断具有重要意义。 免疫比浊法因检测时间短、稳定性好、操作简便等优点被广泛应用于急性心梗生物标志物的检测,但目前以免疫比浊法为检测原理的仪器均为特定蛋白分析仪等大型仪器,普遍存在…

    2023-07-12 用户投稿
  • 网站建设心得体会(个人网站建设陈述)

    网站的意义是能否满足目标用户群的某种特定需求,在满足用户需求的前提下实现自己的商业目的,很多企业网站建设者在进行网站建设方案策划时无从下手,有的甚至找不到方向。网站建设是一个公司必不可少的成本输出,所以对于我们来讲是要让我们花的钱物有所值,甚至物超所值。而网站建设更需要我们提供良好的切入点: 一、分析行业数据,知己知彼,“对症下药” 我们需要首先对企业所处的…

    2021-11-04 用户投稿
  • 成吉思汗博尔术,博尔术和成吉思汗的关系

    只识弯弓射大雕,说的便是一代天骄成吉思汗。在很多人看来,成吉思汗只知道开疆拓土,其实不然。 据史书记载,成吉思汗统治期间的蒙古国鼎盛时期疆域可达4400万平方公里,比秦汉唐宋四朝加起来还要大,实在令人叹为观止。 不光如此,他的驭人手段也高明,但也很简单,那就是看重才能与忠心。 那么成吉思汗是个什么样的人呢?为什么说他的驭人手段高明又简单呢?今天我们就来聊聊成…

    2023-07-05 用户投稿