百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

CDN加速技术,开发人员也必须要搞清楚

nanshan 2024-11-08 12:38 55 浏览 0 评论

各位志同道合的朋友们大家好,我是一个一直在一线互联网踩坑十余年的编码爱好者,现在将我们的各种经验以及架构实战分享出来,如果大家喜欢,就关注我,一起将技术学深学透,我会每一篇分享结束都会预告下一专题

前几天,我们讲到了为何引入缓存且应该什么时候引入,并且讲到了我们生产中缓存的读写策略是什么,忘记了的可以自行去文章列表看下,同时又单独深入讲解了redis哨兵机制(Redis 哨兵机制以及底层原理深入解析,这次终于搞清楚了)和缓存穿透问题的解决方案(缓存穿透问题,开发中真实解决方案)。至此,我们现在的系统架构已经是这样子的了

于架构图我们可以看出,我们现在使用了分布式缓存来加速动态请求的各种数据,但是,我们的系统中其实还有很多的静态资源的,并且请求量也是超级大的。例如:

  1. 移动端APP,有很多的图片,小视频以及流媒体等。
  2. 对于网站来说,不仅有上面那些资源之外,还有大量的HTML 文件,css文件以及Javascript文件等。

现在我们的一个商城里面,有很多的商品图片,并且详情页还有产品介绍视频,目前这些静态资源均是放在Nginx服务器上的,请求量很大,并且这些文件对于访问速度要求极高,并且占据很高的带宽。这里就会很有可能出现访问速度变慢,将带宽占满从而影响我们后端动态请求。这个时候我们就需要考虑该怎么去对这些静态资源做加速了。

如何思考加速

首先我们想一下可不可以也用分布式缓存来存储达到加速的目的呢?答案肯定是不行的,因为:

  1. 图片或者视频文件大小都不小,在几兆到几百兆之间。
  2. 我们的用户是遍地全国各地的甚至还有国外用户,需要让用户能很快的得到相应,即就近访问,我们不能全国各地都建机房去部署缓存,不现实。
  3. 图片或视频信息文件很大,访问量又极高,这样,如果自建机房带宽肯定是会面临极大的风险。

因此,我们不能自建机房来加速静态资源,我们需要在我们的应用服务器外层加一层静态资源处理的组件,并且还能遍地全国各地让用户能就近访问,还能让这些缓存命中率很高,以至于尽量减少回源到我们自己的业务服务器,这种技术就是我们下面要说的CDN。

CDN核心技术

CDN 其实就是网络分发的一种技术,它将我们的静态资源分发到各个地理位置不同的机房服务器上,这样就能实现用户就近访问的问题,且加快静态资源的访问速度。

你可能会说,cdn这玩意我们开发又用不到,不用去掌握的吧,其实不然,建议你不要只是将自己一直放在只是开发的位置,你要有掌控全局的决心,很多cdn排查的工作都是需要资深工程师才能干的,所以你要了解这门技术,现在假如让你来配置cdn和排查CDN问题,你可能就会因为自身技术壁垒而感到束手无策。

首先,我们来看看搭建一个CDN系统需要考虑的两个关键点:

  1. 怎样才能让用户请求先映射到CDN服务器上,这应该是最基本的了。
  2. 怎样根据用户所处的地理位置,选出离他最近的CDN节点给用户访问。

接下来,我们就基于上面考虑点来一起来看看CDN技术是怎么实现静态资源的加速。

如何将用户请求落到CDN服务器上

12306网站我们应该都不陌生,它是有很多的cdn节点来让我们就近访问提供静态资源加速的,而我们输入的网址就是12306自己家的网址,并不是cdn的ip。这是为什么呢?因为如果直接提供给用户cdn 节点IP的话,如果IP改变怎么办,那所有的静态资源都得改变地址,这种是很不靠谱的,所以都是直接给我们服务的自己家域名,然后隐藏住CDN 的IP,那这种机制该怎么做呢?其实大家应该能猜得到,就是运用DNS 进行域名映射。

DNS(Domain Name System)就是一个存储域名和 IP 映射的分布式数据库,其中域名解析返回的结果有两种:

  1. 直接返回域名对应的 IP 地址。
  2. 返回另一个域名,即将当前域名解析到另一个域名,会跳转到另一个域名解析上,现在我们就是通过这种方式来解决上面域名映射问题

下面我们就来看看具体的是怎么操作的。

假设我们的一级域名为 a.com ,那么我们就可以将图片服务域名定义为“img.a.com”,然后将这个域名的解析结果配置到CDN提供的域名上。例如,ucoud提供一个这样的域名“78f98.cdn.ucloud.com.cn”,我们的系统图片地址是这个样子"img.a.com/100.jpg"。

用户在请求100.jpg 地址的时候,DNS服务器就会将这个域名解析到78f98.cdn.ucloud.com.cn 域名上,然后再将这个域名解析到CDN的IP地址,这样就得到了CDN上资源数据了。

我们知道其实DNS解析是有个问题的就是,因为域名解析过程是分好几个级别的,每一级有专门的域名服务器承担其解析的职责,所以,域名的解析过程有可能需要跨越公网做多次 DNS 查询,在性能上是比较差的。

经过了向多个 DNS 服务器做查询之后,整个 DNS 的解析的时间有可能会到秒级别,那我们应该解决这个问题呢?

这里,我就将我们在做数据抓取的时候是怎么解决这个性能问题告诉大家,希望给遇到同样问题的朋友一点思路。即如果是APP的项目话,我们就在APP启动的时候,对需要的域名进行预解析,然后将解析结果缓存到一个LRU缓存中,LRU缓存算法可以看前面的文章哈(LRU缓存淘汰算法,这次没人再说你不会开发)。这样,如果我们使用这个域名的时候,就先从缓存中获得对应的 IP ,如果没有的话,就再走整个DNS 的查询过程。这个时候缓存中解析结果可能会变更,这样就会缓存数据失效,我们可以起一个定时任务,去定期的更新缓存中的数据就行了。这种方案在解析性能上还是提升不少的,基本控制在200ms以内。

通过上面我们已经知道了用户的请求是怎么到达CDN服务器的,并且针对DNS的解析进行了相关的讲解同时对于性能问题也给出了自己开发中的建议,现在我们再来看看它的整体架构图,来整体回顾下。

怎么才能找到离用户最近的CDN节点

现在,我相信大家肯定都掌握了如何让用户的请求怎么请求到CDN上了,接下来我们就要看另一个问题了,就是我们应该怎么将最近的CDN节点分给用户。

GSLB(Global Server Load Balance)这个组件就是对于部署在不同地理位置的服务器做负载均衡,其下面也可能管理了很多的本地负载均衡组件,主要有两个作用:

GSLB它可以通过多种策略,来保证返回的CDN 服务器与用户尽量保证在同一个地理区域。例如可以通过将用户的 IP 分为n多不同的地理区域,然后将CDN 服务器对应到各个区域里,这样就可以根据用户所在的区域来返回相应的CDN节点。现在再来看看其现在的架构图:

当然,是否能够从 CDN 节点上获取到资源还取决于 CDN 的同步延时,一般在使用CDN时是这样的流程:

  1. 我们先通过CDN厂商提供的接口将静态资源写到CDN的其中一个节点上。
  2. CDN 自己内部会将静态资源同步到各个节点。

我们知道其实只要有同步,肯定是会有延时的,一旦我们无法从选定的 CDN 节点上获取到数据,我们就不得不从源站获取数据,而用户网络到源站的网络可能会跨越多个主干网,这样不仅性能上有损耗,也会消耗源站的带宽,带来更高的研发成本。所以,我们在使用 CDN 的时候需要关注 CDN 的命中率和我们自身服务器的带宽情况。

总结,今天我们学习了使用CDN技术对我们的静态资源进行加速,主要有两个核心知识,一个是如何将用户请求落到CDN节点上,另一个则是怎么才能选择用户最近的CDN节点给用户。CDN技术并不是运维的专属,我们开发人员应该要掌握其核心知识,这样我们在遇到这方面问题时才不会显得那么不专业,如果今天的内容对你有帮助,恰好你又喜欢就关注我,我会持续更新开发中实战案例方案,谢谢。

下一篇预告:讲讲分布式调度的话题

在wx【架构师修炼】菜单中可获取专属架构视频资料,专注分享 java架构、python系列、人工智能系列、小程序等,你会感谢我的哈

相关推荐

0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)

文档编写目的在前面的文档中,介绍了在有CM和无CM两种情况下使用rpm方式安装CDH5.10.0,本文档将介绍如何在无CM的情况下使用rpm方式安装CDH6.2.0,与之前安装C5进行对比。环境介绍:...

ARM64 平台基于 openEuler + iSula 环境部署 Kubernetes

为什么要在arm64平台上部署Kubernetes,而且还是鲲鹏920的架构。说来话长。。。此处省略5000字。介绍下系统信息;o架构:鲲鹏920(Kunpeng920)oOS:ope...

生产环境starrocks 3.1存算一体集群部署

集群规划FE:节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。>3节点。BE:节点负责数据存储和SQL执行。>3节点。CN:无存储功能能的BE。环境准备CPU检查JDK...

在CentOS上添加swap虚拟内存并设置优先级

现如今很多云服务器都会自己配置好虚拟内存,当然也有很多没有配置虚拟内存的,虚拟内存可以让我们的低配服务器使用更多的内存,可以减少很多硬件成本,比如我们运行很多服务的时候,内存常常会满,当配置了虚拟内存...

国产深度(deepin)操作系统优化指南

1.升级内核随着deepin版本的更新,会自动升级系统内核,但是我们依旧可以通过命令行手动升级内核,以获取更好的性能和更多的硬件支持。具体操作:-添加PPAs使用以下命令添加PPAs:```...

postgresql-15.4 多节点主从(读写分离)

1、下载软件[root@TX-CN-PostgreSQL01-252software]#wgethttps://ftp.postgresql.org/pub/source/v15.4/postg...

Docker 容器 Java 服务内存与 GC 优化实施方案

一、设置Docker容器内存限制(生产环境建议)1.查看宿主机可用内存bashfree-h#示例输出(假设宿主机剩余16GB可用内存)#Mem:64G...

虚拟内存设置、解决linux内存不够问题

虚拟内存设置(解决linux内存不够情况)背景介绍  Memory指机器物理内存,读写速度低于CPU一个量级,但是高于磁盘不止一个量级。所以,程序和数据如果在内存的话,会有非常快的读写速度。但是,内存...

Elasticsearch性能调优(5):服务器配置选择

在选择elasticsearch服务器时,要尽可能地选择与当前业务量相匹配的服务器。如果服务器配置太低,则意味着需要更多的节点来满足需求,一个集群的节点太多时会增加集群管理的成本。如果服务器配置太高,...

Es如何落地

一、配置准备节点类型CPU内存硬盘网络机器数操作系统data节点16C64G2000G本地SSD所有es同一可用区3(ecs)Centos7master节点2C8G200G云SSD所有es同一可用区...

针对Linux内存管理知识学习总结

现在的服务器大部分都是运行在Linux上面的,所以,作为一个程序员有必要简单地了解一下系统是如何运行的。对于内存部分需要知道:地址映射内存管理的方式缺页异常先来看一些基本的知识,在进程看来,内存分为内...

MySQL进阶之性能优化

概述MySQL的性能优化,包括了服务器硬件优化、操作系统的优化、MySQL数据库配置优化、数据库表设计的优化、SQL语句优化等5个方面的优化。在进行优化之前,需要先掌握性能分析的思路和方法,找出问题,...

Linux Cgroups(Control Groups)原理

LinuxCgroups(ControlGroups)是内核提供的资源分配、限制和监控机制,通过层级化进程分组实现资源的精细化控制。以下从核心原理、操作示例和版本演进三方面详细分析:一、核心原理与...

linux 常用性能优化参数及理解

1.优化内核相关参数配置文件/etc/sysctl.conf配置方法直接将参数添加进文件每条一行.sysctl-a可以查看默认配置sysctl-p执行并检测是否有错误例如设置错了参数:[roo...

如何在 Linux 中使用 Sysctl 命令?

sysctl是一个用于配置和查询Linux内核参数的命令行工具。它通过与/proc/sys虚拟文件系统交互,允许用户在运行时动态修改内核参数。这些参数控制着系统的各种行为,包括网络设置、文件...

取消回复欢迎 发表评论: