服务器连接异常,手机cdn服务器连接异常怎么办

最近,某CDN服务故障,导致海外大批知名新闻网站无法正常访问或加载,一石激起千层浪。确实,随着越来越多的业务上云,一个网站或者某个业务能否保证持续的在线,非常考验背后的高可用、高可靠方案设计。

在第七届全球软件大会上,华为软件工程师杜志刚,就为广大开发者分享了华为云官网的高可用保障方案,深度分析了网站在各类极端重大灾难场景下,如何快速恢复的方案和工程化实践。

网站不靠谱,损失不可估量

从网站所有者角度来看:网站不可用直接导致的是经济收入方面的影响,特别对于电商类网站,每分每秒都在产生交易,一旦访问中断,经济损失的影响显而易见。除此之外,从客户角度来看,面对网站不可访问,最直观的感受是不靠谱,对网站以及网站背后的企业品牌产生不可挽回的口碑及信任度方面的负面影响。

从近十年的互联网重大故障事件来看,DNS、CDN导致的大范围影响历历在目,其他IT基础设施导致的区域型及全局型故障也影响甚大。

服务器连接异常,手机cdn服务器连接异常怎么办

 

业界广泛使用的网站可用性指标包括网站不可用时间及网站年度可用率,不同类型的网站和应用对可用性的要求也不尽相同。

其中网站不可用时间(故障时间)=故障恢复时间点-故障发生时间点。网站年度可用率(Yearly Uptime Percentage)=(1-网站不可用时间/年度总时间)*100%。

华为云官网作为云基础设施提供商的互联网访问入口,对可用性有着极高的要求,面向最终用户的核心页面要做到7*24小时在线,如果出现重大故障,如云服务区级别,或基础设施导致的单云全局故障,5分钟内告警通知到相关责任人,15分钟内完成故障切换。

网站访问出现故障,背后发生了什么?

下面结合图例分析一下网站页面访问的整体流程及关键故障点:

服务器连接异常,手机cdn服务器连接异常怎么办

 

在①处,DNS故障会通常会导致网站整体不可访问,到了②是CDN故障会让部分地理区域用户不可访问,③是单云全局故障会导致网站整体不可访问,④是云服务区级别故障会导致分流到该区域的用户不可访问,⑤是云服务可用区级别故障会导致路由到故障AZ的用户不可访问,⑥是容器集群故障导致路由到对应容器服务的用户不可访问,⑦是服务节点故障会导致路由到故障服务节点的用户不可访问。

综上,云化场景下,页面访问面临诸多的关键技术挑战,包括:

  • 单个DNS服务商整体故障如何应对?
  • 单个CDN厂商整体或多个区域故障如何应对?
  • 基础设施故障导致的单云整体故障如何保证页面还可以正常访问?
  • 单个云服务区级别故障如何对用户访问影响时间降到最小?
  • 页面访问依赖的后端服务众多,如何最大限度较少故障点,降低方案整体复杂度及成本,保证方案通用可行?

四个方案,轻松应对网站各种故障

针对以上关键挑战,通过华为云官网近几年的实践,总结了4个方案分享给大家,我们将一一拆解,为大家展示这些方案的实际效果。

1、单个DNS服务商整体故障:双DNS服务商解析

DNS是相对来说非常重要但却没有得到应有重视的薄弱环节,对于可用性要求极高的商业门户网站,将DNS依托于一家服务商,不出问题风平浪静,一旦发生全局性故障,导致的影响可能是灾难性的。

我们当前的策略是:采用双DNS厂商域名解析方案,在一家服务商发生部分或整体故障时,可以在短时间内自动实现故障切换,将域名解析工作交给其他服务商完成。此外,我们还构建了统一运维平台实现多厂商域名解析的统一配置,以及DNS可用性监控、故障服务的快速剔除能力。

双厂商DNS配置如图所示:

服务器连接异常,手机cdn服务器连接异常怎么办

 

这个配置的前提是域名注册商及域名解析商支持多厂商Name Server配置。具体配置方面,首先将域名注册托管迁移到支持多厂商NS配置的注册商,然后同步DNS厂商配置的解析记录到新厂商,最后域名注册服务及解析服务同时配置NS记录指向双厂商Name Server(0~72小时生效)。

这样配置可以在单个厂商Name Server发生故障时,ISP Local DNS自动将故障Name Server降低选择优先级(BIND SRTT算法,失败惩罚),使用优选的Name Server进行A记录或CNAME域名解析。

演练步骤可以拆解为:

第一步:双厂商NS记录配置。

服务器连接异常,手机cdn服务器连接异常怎么办

 

第二步:通过浏览器检查服务可正常访问。

 

第三步:拨测Name Server可用性,验证不同地域ISP是否使用了不同厂商的Name Server进行域名解析。

 

第四步:关停Bind模拟单个厂商DNS故障。

 

最后,通过HTTP从多个地域拨测服务是否可以正常访问。

 

2、单个CDN厂商区域性故障:多CDN服务商方案

下面介绍一下多CDN厂商的配置与切换,如图所示:

 

使用这个方案的限制条件有三个:DNS协议不支持多厂商CDN的CNAME解析配置;DNS智能解析支持不同地域或网络配置不同的CNAME解析记录;CDN出现整体故障概率较低,更多是区域性故障。

多CDN厂商的配置要先对国内及海外访问分别做主备CDN加速,然后CDN CNAME解析TTL设置为60s,让单CDN厂商服务不可用时,故障切换生效时间更短;最后是构建CDN管理平台,对接多厂商DNS管理API,预先配置切换和回切策略,出现故障一键切换。

最后的配置效果也很明显,CDN告警厂商A大面积故障后,可通过CDN运维管理平台,将对应区域的CNAME解析Failover到厂商B提供服务,生效时间1分钟。

下图是我们运维平台的切换界面示例,可按不同二级域名分国内及海外用户访问场景分别切换。

 

在2020年和2021年我们遇到了实际的现网故障,CDN的故障切换功能得到了有效应用,让页面访问实现了快速故障恢复。

3、区域性地理灾难场景:页面访问异地多活方案

这里介绍了我们中国站和国际站双站异地多活的组网策略,如图所示:

 

如果发生区域性地理灾难场景,我们使用站点多Region多活部署,使用这个解决方案要保证内容管理服务发布的页面内容在多云服务区保持同步。同时,LB及网关路由配置多活云服务区保持一致。

具体配置时,先将国内及海外用户CDN回源流量按比例分流至不同云服务区;随后配置健康检查策略,当出现云服务区级别故障时告警,便于自动或手动切换回源流量至健康的云服务区;如果海外与国内服务存在差异时,通过云厂商内部专线在LB或网关进行跨云服务区路由。

这样,在非容灾场景下,多云服务区同时提供页面访问服务,降低单云服务区回源压力。即便出现云服务区级别故障时,也可通过CDN Admin API实现一键故障切换,CDN回源快速回到可用状态。

如图所示,通过我们的运维平台,在单个云服务区故障场景下,可实现故障云服务区的快速剔除,这个过程主要通过批量切换二级域名Region级别回源DNS A记录实现的。

 

4、单云全局故障场景:网站备份与切换方案

最后介绍一下整个高可用方案的最底层的保底方案:网站备份与故障切换,首先来看一下网站的备份流程,如图所示:

服务器连接异常,手机cdn服务器连接异常怎么办

 

运维人员先配置站点元数据及配置备份策略,站点管理根据备份策略下发备份任务到调度服务,然后调度服务再定时调用备份服务执行备份任务。

采集的话是由备份服务启动Headless Browser加载入口页,再加载静态页面资源,执行页面脚本加载动态页面资源,然后执行预置脚本加载动态页面资源,最后识别页面跳转URL,包括HTML标记及脚本触发的动态跳转点,启动新Headless Browser实例,实现级联爬取。

采集完是存储,页面主文档及相关页面资源加载完成后通过OBS接口转储到对象存储服务,再通过云厂商提供的对象存储跨Region同步能力实现页面内容异地容灾。跨云复制则通过跨云同步工具将备份站点页面内容,同步到其他云厂商对象存储服务,实现跨云容灾。

备份结束后,再看一下故障切换流程。当基础设施问题等原因导致的单云多Region故障使得Web服务整体不可用时,开始故障检测,页面可用性拨测服务监测到云服务区A、B不可用,在5分钟内发出告警。

往下是故障转移,成立重大问题应急处理作战小组,同时打开运维容灾管理平台,查看不可用区域、备份站点拨测是否正常。如果同云备份站点可用,优先切换同云备份站点;如果不可用,第三方云厂商备份站点可用,切换到备份站点。整个切换通过更新回源域名A记录解析地址指向OBS公网访问地址实现。

最后是故障修复阶段,先定位解决问题,拨测Web Server可用,再手动执行故障回切,然后用户回归正常访问。

本文来自投稿,不代表展天博客立场,如若转载,请注明出处:https://www.me900.com/327409.html

(0)

相关推荐

  • 开冰淇淋店选可爱雪,可爱雪冰淇淋加盟费多少

    现在的生活中,人们越来越追求物质精神的双重享受。不管是外在穿着打扮,还是入口的食物,都有讲究。不过对于人们的要求却也是多变起来:有的要求精细、细致,有的要求大方,有的要求自然随意,有的则是要求可爱新意。尤其是在吃上面,人们的要求更是详细。而众多美食项目中,可爱雪冰淇淋很大程度上满足了消费者的众多需求,让人不得不为可爱雪冰淇淋的美好前景而赞叹。 要说起可爱雪冰…

    2022-04-24
  • 石斑鱼的禁忌(石斑鱼的功效与作用禁忌)

    大暑,是今年夏季最后一个节气,虽然在中伏之前,但却是全年中最热的阶段。自古以来,人们都讲究在大暑节气养生,因各个地区风俗、饮食习惯不同,在大暑当天,台州人喜欢吃姜汁调蛋、莆田人会吃羊肉和荔枝、浙江人则会吃石斑鱼。 但在这里提醒大家,大暑吃石斑鱼谨防食物中毒。据2016年5月份的一项报道,因蒋先生早上在河里捕捉了一条石斑鱼,回家四口人吃了后,相继出现腹泻、腹痛…

    2022-05-07 投稿
  • 洛康码怎么申请(洛康码怎么申请转码)

    3月3日,洛阳市新冠肺炎疫情防控指挥部办公室发布消息,即日起在该市范围内推广使用洛阳健康码(简称“洛康码”),“洛康码”实行红、黄、绿三色管理,洛阳市域内人员(含常住、暂住人口)以及返(来)洛人员均应申领。 公告全文如下: 《洛阳市新冠肺炎疫情防控指挥部办公室关于推广使用“洛康码”的通告》 为进一步提升全市疫情防控工作精细化、规范化、便捷化水平,统筹推动疫情…

    2023-05-26
  • 怎么建设网站?建设基本流程包括哪几个步骤

      如今,随着网络时代的全面到来,网站在人们的生活和工作中发挥着极其重要的作用。网站制作的发展使更多的人加入了这个行业。如果你想掌握网站制作的知识,你可以在学校或网上学习。让我们来分析一下网站制作的流程。 1、为网站准备一个域名和一个合适的空间或主机。域名是我们访问网站时在浏览器地址栏上输入的文本。域名也有分类。注册时我们可以咨询域名提供商。网站的…

    2022-04-22
  • 2022告诉你几个赚钱的机会,赚钱的秘密有钱人不会告诉你

    无聊的时候就开始发呆和思考,把来年的规划简单的做了一下,然后打开了电脑,准备写一篇文章。前段时间刚说过,要加速写文章的速度,和朋友圈的发表速度,这样能不断的强迫自己思考和输出,朋友圈现在基本一天发2条思考,没有一开始定很高的目标,能力不够,循序渐进,写文章从原来的一周一篇,上升到五天左右一篇,先找找感觉。     刚创业的头几年,过年的时…

    2022-04-29
  • Xtrabackup备份与恢复,备份系统恢复到新硬盘

    概述 今天主要通过一个实验来简单介绍一下如何用XtraBackup 实现全备&增量备份与恢复的全过程~ 官方手册:https://www.percona.com/doc/percona-xtrabackup/2.4/index.html 一、xtrabackup备份过程解析 第一阶段:检查与连接的准备阶段 执行备份命令之后,备份开始,XtraBack…

    2023-06-29
  • 红薯淀粉和木薯淀粉一样吗(木薯淀粉的潜在健康风险分析)

    2022年3月15日 央视315晚会曝光禹州“玉米淀粉”、“木薯淀粉”混制冒称“红薯粉条”、“山药粉条”等造假乱象。禹州生产80%的红薯粉条其实是用木薯淀粉加15%左右的玉米淀粉做成。木薯和红薯虽然只是一字之差,但木薯淀粉每斤不到2元,而红薯淀粉每斤4元左右。这属于典型的经济利益驱动型掺假。 木薯淀粉的潜在健康风险 木薯中含有一种叫做氰苷的物质,氰苷在胃里可…

    2023-06-13
  • 特殊工种退休最新规定2021年(河北特殊工种退休最新规定2021年)

    市场监管总局关于 2021年全国特种设备安全状况的通告 根据《中华人民共和国特种设备安全法》《特种设备安全监察条例》的规定,现将2021年全国特种设备安全状况通告如下。 一、特种设备基本情况 (一)特种设备登记数量情况。 截至2021年年底,全国特种设备总量达1816.23万台。其中:锅炉34.71万台、压力容器469.49万台、电梯879.98万台、起重机…

    2023-06-01
  • 微信有3000人怎么群发,微信群发3000人一次能发完吗

    现如今,微信早已成为了生活的一部分,微信好友的营销成了商家的必争之地,动辄2000+的微信好友维护起来,确实费劲! 小编为你准备了一份基于Excel 实现的微信群发的脚本,上手即用!因为是模拟人工操作的脚本,所以只要不要发送太频繁就没有被封号的担忧啦! 往下动图,走起…… 01 导入通信录   02 选择需要群发的好友 在这里只要输入姓名/备注名,…

    2022-03-16
  • 乌龟死了有什么预兆(家养的乌龟要死了有什么预兆)

    我们知道龟是一种很安静的动物,有时候安静的出奇,你都不知道它是不是已经死了还是睡着了还是就不动。比如像玛塔、大鳄这类龟,本身就是非常安静的,有时候好长时间了一动不动的,让你好生着急。冬天温度低,龟也是不爱动,分不清是不是已经遭遇不测了。 其实龟的死亡还是很好判断的,咱们一起看看,别误判了,导致多好的一只龟,被扫地出门了。 我们通常从一些警匪片里面是可以看出,…

    2022-05-15 投稿
  • 企业网络营销环境的三个层次包括(网络营销环境由什么组成)

    一、流程化思维和精细化思维 无论是做活动,还是做用户运营、产品优化等工作,都别着急开始执行,先要找到目标再制定计划和实施。这样,无论过程如何,至少可以保证方向是正确的,从而极大限度地帮助运营项目顺利进行。 当你接到一个任务时,第一步要想这个任务的目标是什么。比如,目标是在某个季度增加某个产品的销量,或者提升某个产品的某项数据值。接着要设想达到这个目标,总共分…

    2022-01-02
  • 股票市场真的是快速致富的行业

    股票市场是一个充满机会的市场,哪怕是只有很少的本金,只要有能力,都能实现发家致富。正因如此,尽管有一批又一批的人在股市中倒下,可仍然有一批又一批的人前仆后继地涌入,只因为它承载了太多人发家致富的梦想。那么,如果用1万块钱炒股,一年最多能赚多少钱呢? 1万炒股一年最多能赚多少? 股市中之所以说机会多,是因为几乎每天都有股票涨停。一只股票涨停,最多一天可以赚20…

    2022-04-22