煎蛋网怎么看原图(在煎蛋网爬取美女图片)

煎蛋网站

 

很多朋友都反应学 python 语言太枯燥,学不进去,其实学语言最好的方法是自己用所学的语言做项目,在项目中学习语言的用法。今天给大家带来的项目是用 python3 爬取煎蛋网妹子的图片。图片质量还不错,我放两张图片大家感受下。

 

 

这个项目用了 requests + selenium + beautifulsoup 库对网站的图片进行抓取。接下来我就,给大家一步步解析一下,怎么用 python 爬虫爬取图片并下载的。

爬取结果

 

以上就是爬取的结果,通过运行 meizi.py 代码,就可以把图片保存在我指定的目录下,如果没有此目录,就用程序自动创建目录,爬取的所有图片都保存在此目录下。

程序构造

 

程序主要是由 6 个函数组成:

  • get_html() :利用 webdriver 来请求对应的网站。
  • get_page():解析面跳转地址。
  • mkdir():判断目录是否存在,不存在就创建一个。
  • get_pic():提取图片链接。
  • download():通过图片链接下载保存。
  • main():程序执行的主函数。

程序思路

  1. 对目标网站链接进行分析,找出目标网站链接的规律。
  2. 从目标网站里面提取图片链接。
  3. 将图片下载并保存在目录中。

源代码分析

我们通过f12调试页面,看到图片的链接,发现此链接并没有在源代码中,我们推测,图片应该是通过 js 加载的,对于需要 js 才能加载出来的网站,我们就可以利用 selenium 的自动化测试请求库来进行加载。利用 selenium 请求可以模拟真实浏览器访问。

1browser = webdriver.Chrome()

2wait = WebDriverWait(browser, 3)

利用 selenium 请求网页需要下载 chrome 驱动放在 python 安装目录下。

分页链接分析

1def get_page():

2 base_url = 'http://jandan.net/ooxx/' #第一次进入的原始地址

3 soup = BeautifulSoup(get_html(base_url), 'lxml') #解析原始地址

4 current_pages=soup.select('.cp-pagenavi .current-comment-page')[0].get_text()[1:-1] #取出当前页面字段

5 urllist = []

6 for page in range(1,int(current_pages)+1):

7 real_url=base_url+'page-'+str(page)+'#comments' #拼出分页地址

8 urllist.append(real_url)

9 return urllist #返回所有分页地址列表

原始链接 base_url = ‘http://jandan.net/ooxx/’,当我们点击下一页时,发现在原始链接的后面加了一段「page-52#comments」。

其中加的数字,就是表示现在所在的页数,通过 BeautifulSoup 库对页面进行解析,用选择器提取表示页数的字段「current-comment-page」,加入到原始链接中进行拼接。

创建目录

1def get_pic():

2 for url in get_page():

3 mkdir()

4 html=get_html(url)

5 soup=BeautifulSoup(html,'lxml')

6 allimgs=soup.select('div .text p img')

7 allimgs=re.findall('src="(.*?)"',str(allimgs))

8 download(allimgs)

9 print("下载完毕!")

用 os.path.exists 方法来个判断,如果不存在此目录就创建一个,如果存在就忽略。

提取图片

1def get_pic():

2 for url in get_page():

3 mkdir()

4 html=get_html(url)

5 soup=BeautifulSoup(html,'lxml')

6 allimgs=soup.select('div .text p img')

7 allimgs=re.findall('src="(.*?)"',str(allimgs))

8 download(allimgs)

9 print("下载完毕!")

用 BeautifulSoup 解析源码,用选择器循环提取图片的链接,并调用 download() 函数下载图片直至下载所有图片。

优化改进

本次的程序还有一些不足的地方,比如利用 selenium 库在爬取的时候非常的慢,每页我还设置了 3 秒等待时间,这部分待优化。还有所有页面的图片都保存在一个目录下,没有分开保存,这部分也可以优化。

这波教程不点个关注,说不过去吧?哈哈。这个网站有很多福利,我只能说大家注意身体啊。

本站部分内容由互联网用户自发贡献,该文观点仅代表作者本人,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如发现本站有涉嫌抄袭侵权/违法违规等内容,请联系我们举报!一经查实,本站将立刻删除。

(0)

相关推荐

  • 问题清单落实清单责任清单(步步高i606化蝶)

    河北、内蒙古、黑龙江—— 用心用情用力为群众办实事(奋斗百年路 启航新征程·学党史 悟思想 办实事 开新局) 河北、内蒙古、黑龙江等地深入学习贯彻**总书记在党的十九届六中全会上的重要讲话和全会精神,扎实开展党史学习教育,深入推进“我为群众办实事”实践活动,用心用情用力解决基层困难事、群众烦心事,切实在办实事、开新局上取得新成效。 河北:将问题清单变成履职清…

    用户投稿 2023-05-29
  • 淘宝不包邮地区,淘宝不包邮地区怎么设置

    《淘宝不包邮地区:全面解析与应对策略》 在淘宝购物的过程中,我们常常会遇到“不包邮地区”这个概念。 那么,究竟哪些地区属于淘宝不包邮地区呢?这可能是一个让很多消费者感到困惑的问题。 今天,我们就来深入探讨一下淘宝不包邮地区的相关事宜,帮助大家更好地理解和应对。 一、不包邮地区的定义与范围 所谓淘宝不包邮地区,通常是指那些由于距离较远、运输成本较高等原因,商家…

    用户投稿 2025-02-23
  • 2007年亚洲杯,伊拉克是哪一届亚洲杯冠军

    就是在这样的背水一战下,伊拉克人爆发了惊人的能量。他们在第二场比赛中,3-1战胜当时的夺冠热门球队澳大利亚,赢得了小组出线的主动权。小组赛最后一轮,伊拉克0-0战平阿曼,以小组第一的身份,力压澳大利亚晋级,在八强战中遇到利用东道主优势赢得B组第二的越南人。 在八强战中,球队头号球星尤尼斯上演梅开二度,帮助伊拉克人2-0战胜对手晋级4强。半决赛中,伊拉克面对的…

    2023-06-06 用户投稿
  • 500g硬盘,电脑加装500g硬盘多少钱

    ROG之前推出了幻影STRIX ARION 高速M.2硬盘盒,豪华的用料使其成为同类产品中的佼佼者,高性能且发挥稳定。M.2移动硬盘盒这东西就是买来自己加个M.2固态硬盘组合成移动固态硬盘用的,所以也毫不奇怪ROG会推出它的成品状态——ROG Strix幻影S移动固态硬盘。 之前的幻影STRIX ARION 高速M.2硬盘盒速度最高是10 Gbps,也就是其…

    2023-07-09 用户投稿
  • 移动纯流量卡无app限制(通用流量比较多的套餐)

    智能手机在我们日常生活中已经成为了不可或缺的一部分。我们可以在手机上进行各种事情,例如看新闻、聊天、上网、玩游戏、购物、预定机票和酒店等等。这些都需要网络的支持,也就是流量的支持。但是,流量并不是无限的,很多人都会遇到流量不足的问题。这时,我们需要一种能够提供大量通用流量的移动流量卡。 近年来,中国移动推出了一种特别的流量卡,这就是“中国移动长期通用卡”,是…

    2023-06-13 用户投稿
  • 中国女子射箭队 什么是中国女子射箭队的最新成就

    在我国体坛上也存在着“偏科”的现象,就像乒乓球项目,跳水项目,举重项目,和体操等,是囊括奥运金牌数量偏多的项目。而射箭项目,田径项目可以说一直都是我们体坛比较弱的项目,虽然属于“偏科”严重的这两项,但是我们的运动健儿还是在弱项上创造了奇迹,把中国那一抹红努力飘到了各大赛事上,为国争光。 今天我们要介绍的就是-射箭奥运冠军张娟娟,张娟娟2008年奥运会女子射箭…

    用户投稿 2023-06-04
  • 房产销售渠道策略(房地产销售渠道策略)

    √好消息 制度化建设和土壤培育工作卓有成效,开发商愈发重视自渠的重要性,许多房企已经把渠道工作上升到企业战略层 ×坏消息 渠道人员玩法老套,没有新意,仅仅通过海报、电聊、截客等人海战术进行约客,渠道约客效果平平。   现阶段,即使渠道的重要性不言而喻,但渠道的专业化道路还需要一段时间的探索。 从目前全国房地产自渠的现状分析,信客云认为,2022年自…

    2022-05-05
  • 最好卖的地摊货,地摊货有什么

    在上节里我们提到过,地摊货一定要是便宜的、大众化的。很多都市白领我这里要好好批评下了哈,凡是那些摆地摊卖些稀少的东西,总认为别人没有自己才有感觉很独特,朋友,错了,你要知道你能想到的别人都能想到.你能做到的别人也能做到,记住,没人卖的东西也许就是没人买的东西,卖的人越多的东西肯定是买的人最多的东西。摆地摊要多在方式上独出心裁,尽量不要在产品上独出心裁。所以我…

    2023-07-09
  • 皮尔特沃夫英雄,警察英雄联盟

    你是否知道《英雄联盟》中有四个英雄是警用的?他们分别是凯特琳、蔚、薇恩和薇可丝。他们都是以维护正义和打击犯罪为己任的女性英雄,拥有着不同的职业和技能。他们在游戏中的表现如何呢?我作为一个资深的LOL玩家,最近用了一周的时间,尝试了这四个英雄的各种玩法和搭配,下面就来分享一下我的感受吧。 凯特琳:远程物理输出 凯特琳是一位远程物理输出英雄,也是皮尔特沃夫最杰出…

    用户投稿 2023-07-05
  • 搜房网上海租房,上海租房:最新最全的租房信息尽在搜房网

    刚刚, 上海16区三月房价新鲜出炉! 先看上海总体走势, 之后逐区来看 疫情过后, 你想买的小区跌了吗? 上海房价走势 (数据来源:房天下) 黄浦区 (数据来源:房天下) 徐汇区 徐汇部分小区均价 浦东3月二手房均价 52187 元/m2浦东2月二手房均价 51948 元/m2环比上月上涨 0.46% ↑同比去年同期上涨 7.09% ↑ (数据来源:房天下)…

    用户投稿 2023-05-14
  • 中药材大数据,中药材行业三大热点事件分析

    一、3月行业热点舆情监测1.1 整体监测数据 图1:3月行业整体舆情趋势 2022年3月,有关中药材行业的信息发布总量达到33.62万条,较2022年2月份大幅增长56.66%。原因一是新冠疫情反复,国内民众对中医中药关注度和使用频率阶段性增长;二是2月份只有28天,且跨春节长假,历来都是舆情低平期;三是3月是中药材生产种植和消费关键期。 1.2 八大领域信…

    2023-07-04