Nginx
- 一、性能怪兽-Nginx概念深入浅出
- 二、Nginx环境搭建
- 三、Nginx反向代理-负载均衡
- 四、Nginx动静分离
- 五、Nginx资源压缩
- 六、Nginx缓冲区
- 七、Nginx缓存机制
- 八、Nginx实现IP黑白名单
- 九、Nginx跨域配置
- 十、Nginx防盗链设计
- 十一、Nginx大文件传输配置
- 十二、Nginx配置SLL证书
- 十三、Nginx的高可用
- 十四、Nginx性能优化
- 十五、放在最后的结尾
- 十六、扩展:LVS
引言
早期的业务都是基于单体节点部署,由于前期访问流量不大,因此单体结构也可满足需求,但随着业务增长,流量也越来越大,那么最终单台服务器受到的访问压力也会逐步增高。时间一长,单台服务器性能无法跟上业务增长,就会造成线上频繁宕机的现象发生,最终导致系统瘫痪无法继续处理用户的请求。❝从上面的描述中,主要存在两个问题:①单体结构的部署方式无法承载日益增长的业务流量。②当后端节点宕机后,整个系统会陷入瘫痪,导致整个项目不可用。❞因此在这种背景下,引入负载均衡技术可带来的收益:
- 「系统的高可用:」 当某个节点宕机后可以迅速将流量转移至其他节点。
- 「系统的高性能:」 多台服务器共同对外提供服务,为整个系统提供了更高规模的吞吐。
- 「系统的拓展性:」 当业务再次出现增长或萎靡时,可再加入/减少节点,灵活伸缩。
OK~,既然引入负载均衡技术可给我们带来如此巨大的好处,那么又有那些方案可供选择呢?主要有两种负载方案,「「硬件层面与软件层面」」 ,比较常用的硬件负载器有A10、F5
等,但这些机器动辄大几万乃至几十万的成本,因此一般大型企业会采用该方案,如银行、国企、央企等。而成本有限,但依旧想做负载均衡的项目,那么可在软件层面实现,如典型的Nginx
等,软件层的负载也是本文的重点,毕竟Boss
们的准则之一就是:**「「能靠技术实现的就尽量不花钱。」」**❞
一、性能怪兽-Nginx概念深入浅出
Nginx
是目前负载均衡技术中的主流方案,几乎绝大部分项目都会使用它,Nginx
是一个轻量级的高性能HTTP
反向代理服务器,同时它也是一个通用类型的代理服务器,支持绝大部分协议,如TCP、UDP、SMTP、HTTPS
等。
Nginx
与Redis相同,都是基于多路复用模型构建出的产物,因此它与Redis
同样具备 「「资源占用少、并发支持高」」 的特点,在理论上单节点的Nginx
同时支持5W
并发连接,而实际生产环境中,硬件基础到位再结合简单调优后确实能达到该数值。先来看看Nginx
引入前后,客户端请求处理流程的对比:
原本客户端是直接请求目标服务器,由目标服务器直接完成请求处理工作,但加入Nginx
后,所有的请求会先经过Nginx
,再由其进行分发到具体的服务器处理,处理完成后再返回Nginx
,最后由Nginx
将最终的响应结果返回给客户端。了解了Nginx
的基本概念后,再来快速搭建一下环境,以及了解一些Nginx
的高级特性,如动静分离、资源压缩、缓存配置、IP
黑名单、高可用保障等。
二、Nginx环境搭建
❶首先创建Nginx
的目录并进入:
1 | [root@localhost]# mkdir /soft && mkdir /soft/nginx/ |
❷下载Nginx
的安装包,可以通过FTP
工具上传离线环境包,也可通过wget
命令在线获取安装包:
1 | [root@localhost]# wget https://nginx.org/download/nginx-1.21.6.tar.gz |
没有wget
命令的可通过yum
命令安装:
1 | [root@localhost]# yum -y install wget |
❸解压Nginx
的压缩包:
1 | [root@localhost]# tar -xvzf nginx-1.21.6.tar.gz |
❹下载并安装Nginx
所需的依赖库和包:
1 | [root@localhost]# yum install --downloadonly --downloaddir=/soft/nginx/ gcc-c++ |
也可以通过yum
命令一键下载(推荐上面哪种方式):
1 | [root@localhost]# yum -y install gcc zlib zlib-devel pcre-devel openssl openssl-devel |
执行完成后,然后ls
查看目录文件,会看一大堆依赖信息。
紧接着通过rpm
命令依次将依赖包一个个构建,或者通过如下指令一键安装所有依赖包:
1 | [root@localhost]# rpm -ivh --nodeps *.rpm |
❺进入解压后的nginx
目录,然后执行Nginx
的配置脚本,为后续的安装提前配置好环境,默认位于/usr/local/nginx/
目录下(可自定义目录):
1 | [root@localhost]# cd nginx-1.21.6 |
❻编译并安装Nginx
:
1 | [root@localhost]# make && make install |
❼最后回到前面的/soft/nginx/
目录,输入ls
即可看见安装nginx
完成后生成的文件。❽修改安装后生成的conf
目录下的nginx.conf
配置文件:
1 | [root@localhost]# vi conf/nginx.conf |
❾制定配置文件并启动Nginx
:
1 | [root@localhost]# sbin/nginx -c conf/nginx.conf |
Nginx
其他操作命令:
1 | sbin/nginx -t -c conf/nginx.conf # 检测配置文件是否正常 |
❿开放80
端口,并更新防火墙:
1 | [root@localhost]# firewall-cmd --zone=public --add-port=80/tcp --permanent |
⓫在Windows/Mac
的浏览器中,直接输入刚刚配置的IP
地址访问Nginx
:最终看到如上的Nginx
欢迎界面,代表Nginx
安装完成
三、Nginx反向代理-负载均衡
首先通过SpringBoot+Freemarker
快速搭建一个WEB
项目:springboot-web-nginx,然后在该项目中,创建一个IndexNginxController.java
文件,逻辑如下:
1 |
|
在该Controller
类中,存在一个成员变量:port
,它的值即是从application.properties
配置文件中获取server.port
值。当出现访问/
资源的请求时,跳转前端index
页面,并将该值携带返回。前端的index.ftl
文件代码如下:
1 | <html> |
从上可以看出其逻辑并不复杂,仅是从响应中获取了port
输出。OK~,前提工作准备就绪后,再简单修改一下nginx.conf
的配置即可:
1 | upstream nginx_boot{ |
❝至此,所有的前提工作准备就绪,紧接着再启动Nginx
,然后再启动两个web
服务,第一个WEB
服务启动时,在application.properties
配置文件中,将端口号改为8080
,第二个WEB
服务启动时,将其端口号改为8090
。❞最终来看看效果:
因为配置了请求分发的权重,8080、8090
的权重比为2:1
,因此请求会根据权重比均摊到每台机器,也就是8080
一次、8090
两次、8080
一次…
Nginx请求分发原理
客户端发出的请求192.168.12.129
最终会转变为:http://192.168.12.129:80/
,然后再向目标IP
发起请求,流程如下:
- 由于
Nginx
监听了192.168.12.129
的80
端口,所以最终该请求会找到Nginx
进程; Nginx
首先会根据配置的location
规则进行匹配,根据客户端的请求路径/
,会定位到location /{}
规则;- 然后根据该
location
中配置的proxy_pass
会再找到名为nginx_boot
的upstream
; - 最后根据
upstream
中的配置信息,将请求转发到运行WEB
服务的机器处理,由于配置了多个WEB
服务,且配置了权重值,因此Nginx
会依次根据权重比分发请求。
四、Nginx动静分离
Nginx 动静分离是指在网站架构中,将动态请求和静态资源请求分离处理的技术。通过 Nginx 将静态资源(如图片、CSS、JavaScript 文件等)直接由 Nginx 服务器处理和返回,而将动态请求(如 PHP、Python 等生成的内容)转发给后端应用服务器处理。这样可以减轻后端服务器的负载,提高网站的响应速度和整体性能。
动静分离应该是听的次数较多的性能优化方案,那先思考一个问题:「「为什么需要做动静分离呢?它带来的好处是什么?」」 其实这个问题也并不难回答,当你搞懂了网站的本质后,自然就理解了动静分离的重要性。先来以淘宝为例分析看看。
当浏览器输入www.taobao.com
访问淘宝首页时,打开开发者调试工具可以很明显的看到,首页加载会出现100+
的请求数,而正常项目开发时,静态资源一般会放入到【java IDEA开发,这里不放截图了】resources/static/
目录下:
在项目上线部署时,这些静态资源会一起打成包,那此时思考一个问题:「「假设淘宝也是这样干的,那么首页加载时的请求最终会去到哪儿被处理?」」 答案毋庸置疑,首页100+
的所有请求都会来到部署WEB
服务的机器处理,那则代表着一个客户端请求淘宝首页,就会对后端服务器造成100+
的并发请求。毫无疑问,这对于后端服务器的压力是尤为巨大的。❝但此时不妨分析看看,首页100+
的请求中,是不是至少有60+
是属于*.js、*.css、*.html、*.jpg.....
这类静态资源的请求呢?答案是Yes
。❞既然有这么多请求属于静态的,这些资源大概率情况下,长时间也不会出现变动,那为何还要让这些请求到后端再处理呢?能不能在此之前就提前处理掉?当然OK
,因此经过分析之后能够明确一点:「「做了动静分离之后,至少能够让后端服务减少一半以上的并发量。」」 到此时大家应该明白了动静分离能够带来的性能收益究竟有多大。
OK~,搞清楚动静分离的必要性之后,如何实现动静分离呢?其实非常简单,实战看看。①先在部署Nginx
的机器,Nginx
目录下创建一个目录static_resources
:
1 | mkdir static_resources |
②将项目中所有的静态资源全部拷贝到该目录下,而后将项目中的静态资源移除重新打包。③稍微修改一下nginx.conf
的配置,增加一条location
匹配规则:
1 | location ~ .*\.(html|htm|gif|jpg|jpeg|bmp|png|ico|txt|js|css){ |
然后照常启动nginx
和移除了静态资源的WEB
服务,你会发现原本的样式、js
效果、图片等依旧有效。
最后解读一下那条location规则:
1 | location ~ .*\.(html|htm|gif|jpg|jpeg|bmp|png|ico|txt|js|css) |
~
代表匹配时区分大小写.*
代表任意字符都可以出现零次或多次,即资源名不限制\.
代表匹配后缀分隔符.(html|...|css)
代表匹配括号里所有静态资源类型
综上所述,简单一句话概述:该配置表示匹配以.html~.css
为后缀的所有资源请求。「最后提一嘴,也可以将静态资源上传到文件服务器中,然后location
中配置一个新的upstream
指向。」
五、Nginx资源压缩
Nginx 资源压缩是指利用 Nginx 的 gzip
模块对传输的响应内容进行压缩,从而减少数据传输量,提高页面加载速度。通过配置 Nginx,可以对指定的文件类型进行 gzip 压缩,在客户端解压缩后使用,提升带宽利用率和用户访问体验。
建立在动静分离的基础之上,如果一个静态资源的Size
越小,那么自然传输速度会更快,同时也会更节省带宽,因此我们在部署项目时,也可以通过Nginx
对于静态资源实现压缩传输,一方面可以节省带宽资源,第二方面也可以加快响应速度并提升系统整体吞吐。在Nginx
也提供了三个支持资源压缩的模块ngx_http_gzip_module、ngx_http_gzip_static_module、ngx_http_gunzip_module
,其中ngx_http_gzip_module
属于内置模块,代表着可以直接使用该模块下的一些压缩指令,后续的资源压缩操作都基于该模块,先来看看压缩配置的一些参数/指令:
了解了Nginx
中的基本压缩配置后,接下来可以在Nginx
中简单配置一下:
1 | http{ |
在上述的压缩配置中,最后一个gzip_proxied
选项,可以根据系统的实际情况决定,总共存在多种选项:
off
:关闭Nginx
对后台服务器的响应结果进行压缩。expired
:如果响应头中包含Expires
信息,则开启压缩。no-cache
:如果响应头中包含Cache-Control:no-cache
信息,则开启压缩。no-store
:如果响应头中包含Cache-Control:no-store
信息,则开启压缩。private
:如果响应头中包含Cache-Control:private
信息,则开启压缩。no_last_modified
:如果响应头中不包含Last-Modified
信息,则开启压缩。no_etag
:如果响应头中不包含ETag
信息,则开启压缩。auth
:如果响应头中包含Authorization
信息,则开启压缩。any
:无条件对后端的响应结果开启压缩机制。
OK~,简单修改好了Nginx
的压缩配置后,可以在原本的index
页面中引入一个jquery-3.6.0.js
文件:
1 | <script type="text/javascript" src="jquery-3.6.0.js"></script> |
分别来对比下压缩前后的区别:
从图中可以很明显看出,未开启压缩机制前访问时,js
文件的原始大小为230K
,当配置好压缩后再重启Nginx
,会发现文件大小从230KB→69KB
,效果立竿见影!❝注意点:①对于图片、视频类型的数据,会默认开启压缩机制,因此一般无需再次开启压缩。②对于.js
文件而言,需要指定压缩类型为application/javascript
,而并非text/javascript、application/x-javascript
。❞
六、Nginx缓冲区
先来思考一个问题,接入Nginx
的项目一般请求流程为:“客户端→Nginx
→服务端”,在这个过程中存在两个连接:“客户端→Nginx
、Nginx
→服务端”,那么两个不同的连接速度不一致,就会影响用户的体验(比如浏览器的加载速度跟不上服务端的响应速度)。其实也就类似电脑的内存跟不上CPU
速度,所以对于用户造成的体验感极差,因此在CPU
设计时都会加入三级高速缓冲区,用于缓解CPU
和内存速率不一致的矛盾。在Nginx
也同样存在缓冲区的机制,主要目的就在于:「「用来解决两个连接之间速度不匹配造成的问题」」 ,有了缓冲后,**Nginx
代理可暂存后端的响应,然后按需供给数据给客户端。**先来看看一些关于缓冲区的配置项:
-
proxy_buffering
:是否启用缓冲机制,默认为on
关闭状态。 -
client_body_buffer_size
:设置缓冲客户端请求数据的内存大小。 -
proxy_buffers
:为每个请求/连接设置缓冲区的数量和大小,默认4 4k/8k
。 -
proxy_buffer_size
:设置用于存储响应头的缓冲区大小。 -
proxy_busy_buffers_size
:在后端数据没有完全接收完成时,Nginx
可以将busy
状态的缓冲返回给客户端,该参数用来设置busy
状态的buffer
具体有多大,默认为proxy_buffer_size*2
。 -
proxy_temp_path
:当内存缓冲区存满时,可以将数据临时存放到磁盘,该参数是设置存储缓冲数据的目录。 -
path
是临时目录的路径。 -
- 语法:
proxy_temp_path path;
path是临时目录的路径
- 语法:
-
proxy_temp_file_write_size
:设置每次写数据到临时文件的大小限制。 -
proxy_max_temp_file_size
:设置临时的缓冲目录中允许存储的最大容量。 -
非缓冲参数项:
-
proxy_connect_timeout
:设置与后端服务器建立连接时的超时时间。proxy_read_timeout
:设置从后端服务器读取响应数据的超时时间。proxy_send_timeout
:设置向后端服务器传输请求数据的超时时间。
具体的nginx.conf
配置如下:
1 | http{ |
上述的缓冲区参数,是基于每个请求分配的空间,而并不是所有请求的共享空间。当然,具体的参数值还需要根据业务去决定,要综合考虑机器的内存以及每个请求的平均数据大小。
补充:
数据缓冲的基本原理
缓冲区(buffer)是一块内存区域,用于临时存储数据。在 Nginx 中,缓冲区用于暂存从客户端或上游服务器接收到的数据,然后再进行处理或发送。缓冲区可以有效减少频繁的读写操作,从而提升性能。
缓冲区的工作流程
-
接收数据:当 Nginx 接收到来自客户端或上游服务器的数据时,这些数据首先被存储在缓冲区中,而不是立即传输到目的地。
-
处理数据:数据在缓冲区中进行处理,例如压缩、解压缩或修改响应头等。
-
发送数据:处理完成的数据再从缓冲区发送到客户端或上游服务器。
减少带宽消耗的原理
- 批量传输:缓冲区允许 Nginx 将数据批量传输,而不是逐字节传输。批量传输减少了每次数据传输的协议开销(如 TCP/IP 头部信息),从而降低了带宽【在单位时间内能够传输的最大数据量】消耗。
- 延迟传输:通过缓冲,Nginx 可以暂时存储数据,等待更多数据积累到一定量时再一起传输,进一步减少传输次数和开销。
- 压缩数据:Nginx 可以在缓冲区中对数据进行 gzip 压缩,然后再传输到客户端。压缩后的数据体积更小,显著减少了带宽使用。
七、Nginx缓存机制
核心方法包括:
- 静态资源缓存:配置
expires
和cache-control
,将静态资源(如图片、CSS、JS)缓存到客户端,减少重复请求。 - 代理缓存:使用
proxy_cache
缓存后端服务器的响应,减少后端负载和响应时间。 - FastCGI 缓存:通过
fastcgi_cache
缓存动态生成的内容,降低应用服务器的压力。
对于性能优化而言,缓存是一种能够大幅度提升性能的方案,因此几乎可以在各处都能看见缓存,如客户端缓存、代理缓存、服务器缓存等等,Nginx
的缓存则属于代理缓存的一种。对于整个系统而言,加入缓存带来的优势额外明显:
- 减少了再次向后端或文件服务器请求资源的带宽消耗。
- 降低了下游服务器的访问压力,提升系统整体吞吐。
- 缩短了响应时间,提升了加载速度,打开页面的速度更快。
那么在Nginx
中,又该如何配置代理缓存呢?先来看看缓存相关的配置项:「proxy_cache_path」:代理缓存的路径。语法:
1 | proxy_cache_path path [levels=levels] [use_temp_path=on|off] keys_zone=name:size [inactive=time] [max_size=size] [manager_files=number] [manager_sleep=time] [manager_threshold=time] [loader_files=number] [loader_sleep=time] [loader_threshold=time] [purger=on|off] [purger_files=number] [purger_sleep=time] [purger_threshold=time]; |
是的,你没有看错,就是这么长…,解释一下每个参数项的含义:
path
:缓存的路径地址。levels
:缓存存储的层次结构,最多允许三层目录。use_temp_path
:是否使用临时目录。keys_zone
:指定一个共享内存空间来存储热点Key(1M可存储8000个Key)。inactive
:设置缓存多长时间未被访问后删除(默认是十分钟)。max_size
:允许缓存的最大存储空间,超出后会基于LRU算法移除缓存,Nginx会创建一个Cache manager的进程移除数据,也可以通过purge方式。manager_files
:manager进程每次移除缓存文件数量的上限。manager_sleep
:manager进程每次移除缓存文件的时间上限。manager_threshold
:manager进程每次移除缓存后的间隔时间。loader_files
:重启Nginx载入缓存时,每次加载的个数,默认100。loader_sleep
:每次载入时,允许的最大时间上限,默认200ms。loader_threshold
:一次载入后,停顿的时间间隔,默认50ms。purger
:是否开启purge方式移除数据。purger_files
:每次移除缓存文件时的数量。purger_sleep
:每次移除时,允许消耗的最大时间。purger_threshold
:每次移除完成后,停顿的间隔时间。
「proxy_cache」:开启或关闭代理缓存,开启时需要指定一个共享内存区域。语法:
1 | proxy_cache zone | off; |
zone为内存区域的名称,即上面中keys_zone设置的名称。「proxy_cache_key」:定义如何生成缓存的键。语法:
1 | proxy_cache_key string; |
string为生成Key的规则,如$scheme$proxy_host$request_uri
。「proxy_cache_valid」:缓存生效的状态码与过期时间。语法:
1 | proxy_cache_valid [code ...] time; |
code为状态码,time为有效时间,可以根据状态码设置不同的缓存时间。例如:proxy_cache_valid 200 302 30m;
「proxy_cache_min_uses」:设置资源被请求多少次后被缓存。语法:
1 | proxy_cache_min_uses number; |
number为次数,默认为1。「proxy_cache_use_stale」:当后端出现异常时,是否允许Nginx返回缓存作为响应。语法:
1 | proxy_cache_use_stale error; |
error为错误类型,可配置timeout|invalid_header|updating|http_500...
。「proxy_cache_lock」:对于相同的请求,是否开启锁机制,只允许一个请求发往后端。语法:
1 | proxy_cache_lock on | off; |
「proxy_cache_lock_timeout」:配置锁超时机制,超出规定时间后会释放请求。
1 | proxy_cache_lock_timeout time; |
「proxy_cache_methods」:设置对于那些HTTP方法开启缓存。语法:
1 | proxy_cache_methods method; |
method为请求方法类型,如GET、HEAD等。「proxy_no_cache」:定义不存储缓存的条件,符合时不会保存。语法:
1 | proxy_no_cache string...; |
string为条件,例如$cookie_nocache $arg_nocache $arg_comment;
「proxy_cache_bypass」:定义不读取缓存的条件,符合时不会从缓存中读取。语法:
1 | proxy_cache_bypass string...; |
和上面proxy_no_cache
的配置方法类似。「add_header」:往响应头中添加字段信息。语法:
1 | add_header fieldName fieldValue; |
「$upstream_cache_status」:记录了缓存是否命中的信息,存在多种情况:
MISS
:请求未命中缓存。HIT
:请求命中缓存。EXPIRED
:请求命中缓存但缓存已过期。STALE
:请求命中了陈旧缓存。REVALIDDATED
:Nginx验证陈旧缓存依然有效。UPDATING
:命中的缓存内容陈旧,但正在更新缓存。BYPASS
:响应结果是从原始服务器获取的。
❝PS:这个和之前的不同,之前的都是参数项,这个是一个Nginx内置变量。❞OK~,对于Nginx
中的缓存配置项大概了解后,接着来配置一下Nginx
代理缓存:
1 | http{ |
第一次访问时,因为还没有请求过资源,所以缓存中没有数据,因此没有命中缓存。第二、三次,依旧没有命中缓存,直至第四次时才显示命中,这是为什么呢?因为在前面的缓存配置中,我们配置了加入缓存的最低条件为:「「资源至少要被请求三次以上才会加入缓存。」」 这样可以避免很多无效缓存占用空间。
缓存清理
当缓存过多时,如果不及时清理会导致磁盘空间被“吃光”,因此我们需要一套完善的缓存清理机制去删除缓存,在之前的proxy_cache_path
参数中有purger
相关的选项,开启后可以帮我们自动清理缓存,但遗憾的是:**purger
系列参数只有商业版的NginxPlus
才能使用,因此需要付费才可使用。**不过天无绝人之路,我们可以通过强大的第三方模块ngx_cache_purge
来替代,先来安装一下该插件:①首先去到Nginx
的安装目录下,创建一个cache_purge
目录:
1 | [root@localhost]# mkdir cache_purge && cd cache_purge |
②通过wget
指令从github
上拉取安装包的压缩文件并解压:
1 | [root@localhost]# wget https://github.com/FRiCKLE/ngx_cache_purge/archive/2.3.tar.gz |
③再次去到之前Nginx
的解压目录下:
1 | [root@localhost]# cd /soft/nginx/nginx1.21.6 |
④重新构建一次Nginx
,通过--add-module
的指令添加刚刚的第三方模块:
1 | [root@localhost]# ./configure --prefix=/soft/nginx/ --add-module=/soft/nginx/cache_purge/ngx_cache_purge-2.3/ |
⑤重新根据刚刚构建的Nginx
,再次编译一下,「但切记不要make install
」 :
1 | [root@localhost]# make |
⑥删除之前Nginx
的启动文件,不放心的也可以移动到其他位置:
1 | [root@localhost]# rm -rf /soft/nginx/sbin/nginx |
⑦从生成的objs
目录中,重新复制一个Nginx
的启动文件到原来的位置:
1 | [root@localhost]# cp objs/nginx /soft/nginx/sbin/nginx |
至此,第三方缓存清除模块ngx_cache_purge
就安装完成了,接下来稍微修改一下nginx.conf
配置,再添加一条location
规则:
1 | location ~ /purge(/.*) { |
然后再重启Nginx
,接下来即可通过http://xxx/purge/xx
的方式清除缓存。
八、Nginx实现IP黑白名单
IP 黑白名单是网站安全防护的一种手段。
白名单是一个"允许名单",里面是被许可访问的 IP 地址。只有名单上的 IP 才能访问网站,其他 IP 一律拒绝。
黑名单则是一个"禁止名单",里面是被禁止访问的 IP 地址。这些 IP 地址的请求会被 Nginx 直接拦截,不会转发到后端。
通过这种 IP 访问控制,Nginx 可以有效过滤掉一些恶意 IP,提高网站的安全性,避免遭受 DDoS 等攻击。
同时,IP 黑白名单还可以用于流量控制,例如限制某些 IP 的访问频率,以保护网站的可用性。
主要是使用 allow
和 deny
指令,指定允许或拒绝访问的 IP 地址或地址段。
有时候往往有些需求,可能某些接口只能开放给对应的合作商,或者购买/接入API
的合作伙伴,那么此时就需要实现类似于IP
白名单的功能。而有时候有些恶意攻击者或爬虫程序,被识别后需要禁止其再次访问网站,因此也需要实现IP
黑名单。那么这些功能无需交由后端实现,可直接在Nginx
中处理。Nginx
做黑白名单机制,主要是通过allow、deny
配置项来实现:
1 | allow xxx.xxx.xxx.xxx; # 允许指定的IP访问,可以用于实现白名单。 |
要同时屏蔽/开放多个IP
访问时,如果所有IP
全部写在nginx.conf
文件中定然是不显示的,这种方式比较冗余,那么可以新建两个文件BlocksIP.conf、WhiteIP.conf
:
1 | # --------黑名单:BlocksIP.conf--------- |
分别将要禁止/开放的IP
添加到对应的文件后,可以再将这两个文件在nginx.conf
中导入:
1 | http{ |
对于文件具体在哪儿导入,这个也并非随意的,如果要整站屏蔽/开放就在http
中导入,如果只需要一个域名下屏蔽/开放就在sever
中导入,如果只需要针对于某一系列接口屏蔽/开放IP
,那么就在location
中导入。❝当然,上述只是最简单的IP
黑/白名单实现方式,同时也可以通过ngx_http_geo_module、ngx_http_geo_module
第三方库去实现(这种方式可以按地区、国家进行屏蔽,并且提供了IP
库)。❞
九、Nginx跨域配置
跨域问题在之前的单体架构开发中,其实是比较少见的问题,除非是需要接入第三方SDK
时,才需要处理此问题。但随着现在前后端分离、分布式架构的流行,跨域问题也成为了每个Java开发必须要懂得解决的一个问题。
跨域问题在之前的单体架构开发中,其实是比较少见的问题,除非是需要接入第三方SDK
时,才需要处理此问题。但随着现在前后端分离、分布式架构的流行,跨域问题也成为了每个Java开发必须要懂得解决的一个问题。
跨域问题产生的原因
产生跨域问题的主要原因就在于 「同源策略」 ,为了保证用户信息安全,防止恶意网站窃取数据,同源策略是必须的,否则cookie
可以共享。由于http
无状态协议通常会借助cookie
来实现有状态的信息记录,例如用户的身份/密码等,因此一旦cookie
被共享,那么会导致用户的身份信息被盗取。同源策略主要是指三点相同,「「协议+域名+端口」」 相同的两个请求,则可以被看做是同源的,但如果其中任意一点存在不同,则代表是两个不同源的请求,同源策略会限制了不同源之间的资源交互。
Nginx解决跨域问题
弄明白了跨域问题的产生原因,接下来看看Nginx
中又该如何解决跨域呢?其实比较简单,在nginx.conf
中稍微添加一点配置即可:
1 | location / { |
在nginx.conf
文件加上如上配置后,跨域请求即可生效了。❝但如果后端是采用分布式架构开发的,有时候RPC调用也需要解决跨域问题,不然也同样会出现无法跨域请求的异常,因此可以在你的后端项目中,通过继承HandlerInterceptorAdapter
类、实现WebMvcConfigurer
接口、添加@CrossOrgin
注解的方式实现接口之间的跨域配置。❞
十、Nginx防盗链设计
首先了解一下何谓盗链:「「盗链即是指外部网站引入当前网站的资源对外展示」」 ,来举个简单的例子理解:❝好比壁纸网站X
站、Y
站,X
站是一点点去购买版权、签约作者的方式,从而积累了海量的壁纸素材,但Y
站由于资金等各方面的原因,就直接通过<img src="X站/xxx.jpg" />
这种方式照搬了X
站的所有壁纸资源,继而提供给用户下载。❞那么如果我们自己是这个X
站的Boss
,心中必然不爽,那么此时又该如何屏蔽这类问题呢?那么接下来要叙说的**「「防盗链」」** 登场了!Nginx
的防盗链机制实现,跟一个头部字段:Referer
有关,该字段主要描述了当前请求是从哪儿发出的,那么在Nginx
中就可获取该值,然后判断是否为本站的资源引用请求,如果不是则不允许访问。Nginx
中存在一个配置项为valid_referers
,正好可以满足前面的需求,语法如下:
1 | valid_referers none | blocked | server_names | string ...; |
none
:表示接受没有Referer
字段的HTTP
请求访问。blocked
:表示允许http://
或https//
以外的请求访问。server_names
:资源的白名单,这里可以指定允许访问的域名。string
:可自定义字符串,支配通配符、正则表达式写法。
简单了解语法后,接下来的实现如下:
1 | # 在动静分离的location中开启防盗链机制 |
根据上述中的内容配置后,就已经通过Nginx
实现了最基本的防盗链机制,最后只需要额外重启一下就好啦!当然,对于防盗链机制实现这块,也有专门的第三方模块ngx_http_accesskey_module
实现了更为完善的设计,感兴趣的小伙伴可以自行去看看。❝PS:防盗链机制也无法解决爬虫伪造referers
信息的这种方式抓取数据。❞
十一、Nginx大文件传输配置
在某些业务场景中需要传输一些大文件,但大文件传输时往往都会会出现一些Bug
,比如文件超出限制、文件传输过程中请求超时等,那么此时就可以在Nginx
稍微做一些配置,先来了解一些关于大文件传输时可能会用的配置项:
在传输大文件时,client_max_body_size
、client_header_timeout
、proxy_read_timeout
、proxy_send_timeout
这四个参数值都可以根据自己项目的实际情况来配置。❝上述配置仅是作为代理层需要配置的,因为最终客户端传输文件还是直接与后端进行交互,这里只是把作为网关层的Nginx
配置调高一点,调到能够“容纳大文件”传输的程度。当然,Nginx
中也可以作为文件服务器使用,但需要用到一个专门的第三方模块nginx-upload-module
,如果项目中文件上传的作用处不多,那么建议可以通过Nginx
搭建,毕竟可以节省一台文件服务器资源。但如若文件上传/下载较为频繁,那么还是建议额外搭建文件服务器,并将上传/下载功能交由后端处理。❞
十二、Nginx配置SLL证书
随着越来越多的网站接入HTTPS
,因此Nginx
中仅配置HTTP
还不够,往往还需要监听443
端口的请求,HTTPS
为了确保通信安全,所以服务端需配置对应的数字证书,当项目使用Nginx
作为网关时,那么证书在Nginx
中也需要配置,接下来简单聊一下关于SSL
证书配置过程:①先去CA机构或从云控制台中申请对应的SSL
证书,审核通过后下载Nginx
版本的证书。②下载数字证书后,完整的文件总共有三个:.crt、.key、.pem
:
.crt
:数字证书文件,.crt
是.pem
的拓展文件,因此有些人下载后可能没有。.key
:服务器的私钥文件,及非对称加密的私钥,用于解密公钥传输的数据。.pem
:Base64-encoded
编码格式的源证书文本文件,可自行根需求修改拓展名。
③在Nginx
目录下新建certificate
目录,并将下载好的证书/私钥等文件上传至该目录。④最后修改一下nginx.conf
文件即可,如下:
1 | # ----------HTTPS配置----------- |
OK~,根据如上配置了Nginx
后,你的网站即可通过https://
的方式访问,并且当客户端使用http://
的方式访问时,会自动将其改写为HTTPS
请求。
十三、Nginx的高可用
线上如果采用单个节点的方式部署Nginx
,难免会出现天灾人祸,比如系统异常、程序宕机、服务器断电、机房爆炸、地球毁灭…哈哈哈,夸张了。但实际生产环境中确实存在隐患问题,由于Nginx
作为整个系统的网关层接入外部流量,所以一旦Nginx
宕机,最终就会导致整个系统不可用,这无疑对于用户的体验感是极差的,因此也得保障Nginx
高可用的特性。❝接下来则会通过keepalived
的VIP
机制,实现Nginx
的高可用。VIP
并不是只会员的意思,而是指Virtual IP
,即虚拟IP
。❞keepalived
在之前单体架构开发时,是一个用的较为频繁的高可用技术,比如MySQL、Redis、MQ、Proxy、Tomcat
等各处都会通过keepalived
提供的VIP
机制,实现单节点应用的高可用。
Nginx 中的 Keepalived + 重启脚本 + 双机热备搭建,以及在遇到故障时的应对措施。
- Keepalived 的作用:
- Keepalived 是一款高可用软件,可以实现 Nginx 服务的主备切换。
- 它通过 VRRP 协议,自动检测 Nginx 主服务器的状态,在主服务器宕机时,自动切换到备用服务器。
- 这样可以确保 Nginx 服务的高可用性,避免单点故障。
- 重启脚本的作用:
- 当 Nginx 主服务器发生故障时,需要快速自动地重启 Nginx 服务。
- 重启脚本可以检测 Nginx 进程的状态,并在必要时通过命令快速重启 Nginx。
- 这可以最大限度地减少服务中断时间,提高可用性。
- 双机热备的搭建:
- 将 Nginx 部署在两台服务器上,一台作为主服务器,一台作为备用服务器。
- 通过 Keepalived 实现主备自动切换,当主服务器宕机时,备用服务器会自动接管。
- 重启脚本会监控 Nginx 进程状态,在主服务器故障时快速重启 Nginx。
- 遇到故障的应对措施:
- 如果 Nginx 主服务器发生故障,Keepalived 会自动将请求切换到备用服务器。
- 同时,重启脚本也会检测到 Nginx 进程异常,并尝试自动重启 Nginx 服务。
- 如果重启脚本无法解决问题,还可以手动登录备用服务器,检查 Nginx 和 Keepalived 的运行状态,并进行必要的修复。
- 修复完成后,可以通过 Keepalived 的命令,将服务切换回主服务器,实现自动化的故障切换和恢复。
总之,Nginx 的 Keepalived + 重启脚本 + 双机热备方案,可以有效提高 Nginx 服务的可用性和可靠性。在遇到故障时,通过自动切换和快速重启,可以最大限度地降低服务中断时间,确保业务的连续性。这是一种非常实用的高可用解决方案。
①首先创建一个对应的目录并下载keepalived
到Linux
中并解压:
1 | [root@localhost]# mkdir /soft/keepalived && cd /soft/keepalived |
②进入解压后的keepalived
目录并构建安装环境,然后编译并安装:
1 | [root@localhost]# cd keepalived-2.2.4 |
③进入安装目录的/soft/keepalived/etc/keepalived/
并编辑配置文件:
1 | [root@localhost]# cd /soft/keepalived/etc/keepalived/ |
④编辑主机的keepalived.conf
核心配置文件,如下:
1 | global_defs { |
⑤克隆一台之前的虚拟机作为从(备)机,编辑从机的keepalived.conf
文件,如下:
1 | global_defs { |
⑥新建scripts
目录并编写Nginx
的重启脚本,check_nginx_pid_restart.sh
:
1 | [root@localhost]# mkdir /soft/scripts /soft/scripts/keepalived |
⑦编写的脚本文件需要更改编码格式,并赋予执行权限,否则可能执行失败:
1 | [root@localhost]# vi /soft/scripts/keepalived/check_nginx_pid_restart.sh |
⑧由于安装keepalived
时,是自定义的安装位置,因此需要拷贝一些文件到系统目录中:
1 | [root@localhost]# mkdir /etc/keepalived/ |
⑨将keepalived
加入系统服务并设置开启自启动,然后测试启动是否正常:
1 | [root@localhost]# chkconfig keepalived on |
其他命令:
1 | systemctl disable keepalived.service # 禁止开机自动启动 |
⑩最后测试一下VIP
是否生效,通过查看本机是否成功挂载虚拟IP
:
1 | [root@localhost]# ip addr |
❝从上图中可以明显看见虚拟IP
已经成功挂载,但另外一台机器192.168.12.130
并不会挂载这个虚拟IP
,只有当主机下线后,作为从机的192.168.12.130
才会上线,接替VIP
。最后测试一下外网是否可以正常与VIP
通信,即在Windows
中直接ping VIP
:❞
十四、Nginx性能优化
到这里文章的篇幅较长了,最后再来聊一下关于Nginx
的性能优化,主要就简单说说收益最高的几个优化项,在这块就不再展开叙述了,毕竟影响性能都有多方面原因导致的,比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等。
优化一:打开长连接配置
通常Nginx作为代理服务,负责分发客户端的请求,那么建议开启HTTP
长连接,用户减少握手的次数,降低服务器损耗,具体如下:
1 | upstream xxx { |
优化二、开启零拷贝技术
零拷贝这个概念,在大多数性能较为不错的中间件中都有出现,例如Kafka、Netty
等,而Nginx
中也可以配置数据零拷贝技术,如下:
1 | sendfile on; # 开启零拷贝机制 |
零拷贝读取机制与传统资源读取机制的区别:
- 「传统方式:」 硬件–>内核–>用户空间–>程序空间–>程序内核空间–>网络套接字
- 「零拷贝方式:」 硬件–>内核–>程序内核空间–>网络套接字
从上述这个过程对比,很轻易就能看出两者之间的性能区别。
优化三、开启无延迟或多包共发机制
在Nginx
中有两个较为关键的性能参数,即tcp_nodelay、tcp_nopush
,开启方式如下:
1 | tcp_nodelay on; |
TCP/IP
协议中默认是采用了Nagle算法的,即在网络数据传输过程中,每个数据报文并不会立马发送出去,而是会等待一段时间,将后面的几个数据包一起组合成一个数据报文发送,但这个算法虽然提高了网络吞吐量,但是实时性却降低了。❝因此你的项目属于交互性很强的应用,那么可以手动开启tcp_nodelay
配置,让应用程序向内核递交的每个数据包都会立即发送出去。但这样会产生大量的TCP
报文头,增加很大的网络开销。❞相反,有些项目的业务对数据的实时性要求并不高,追求的则是更高的吞吐,那么则可以开启tcp_nopush
配置项,这个配置就类似于“塞子”的意思,首先将连接塞住,使得数据先不发出去,等到拔去塞子后再发出去。设置该选项后,内核会尽量把小数据包拼接成一个大的数据包(一个MTU
)再发送出去.❝当然若一定时间后(一般为200ms
),内核仍然没有积累到一个MTU
的量时,也必须发送现有的数据,否则会一直阻塞。❞tcp_nodelay、tcp_nopush
两个参数是“互斥”的,如果追求响应速度的应用推荐开启tcp_nodelay
参数,如IM
、金融等类型的项目。如果追求吞吐量的应用则建议开启tcp_nopush
参数,如调度系统、报表系统等。❝注意:①tcp_nodelay
一般要建立在开启了长连接模式的情况下使用。②tcp_nopush
参数是必须要开启sendfile
参数才可使用的。❞
优化四、调整Worker工作进程
Nginx
启动后默认只会开启一个Worker
工作进程处理客户端请求,而我们可以根据机器的CPU核数开启对应数量的工作进程,以此来提升整体的并发量支持,如下:
1 | # 自动根据CPU核心数调整Worker进程数量 |
❝工作进程的数量最高开到8
个就OK了,8
个之后就不会有再大的性能提升。❞同时也可以稍微调整一下每个工作进程能够打开的文件句柄数:
1 | # 每个Worker能打开的文件描述符,最少调整至1W以上,负荷较高建议2-3W |
❝操作系统内核(kernel
)都是利用文件描述符来访问文件,无论是打开、新建、读取、写入文件时,都需要使用文件描述符来指定待操作的文件,因此该值越大,代表一个进程能够操作的文件越多(但不能超出内核限制,最多建议3.8W
左右为上限)。❞
优化五、开启CPU亲和机制
对于并发编程较为熟悉的伙伴都知道,因为进程/线程数往往都会远超出系统CPU的核心数,因为操作系统执行的原理本质上是采用时间片切换机制,也就是一个CPU核心会在多个进程之间不断频繁切换,造成很大的性能损耗。而CPU亲和机制则是指将每个Nginx
的工作进程,绑定在固定的CPU核心上,从而减小CPU切换带来的时间开销和资源损耗,开启方式如下:
1 | worker_cpu_affinity auto; |
优化六、开启epoll模型及调整并发连接数
在最开始就提到过:Nginx、Redis
都是基于多路复用模型去实现的程序,但最初版的多路复用模型select/poll
最大只能监听1024
个连接,而epoll
则属于select/poll
接口的增强版,因此采用该模型能够大程度上提升单个Worker
的性能,如下:
1 | events { |
❝这里对于select/poll/epoll
模型就不展开细说了,后面的IO模型文章中会详细剖析。❞
补充:
Nginx 采用的是 ET 模式的 epoll。Epoll 是同步的,那 Nginx 如何实现异步呢?
正常情况下,我们调用 read() 如果数据未到达,主线程会一直占用 CPU 询问,数据是否到达,而不陷入阻塞态,直到有数据到达,主线程才读取数据,这是同步。对于 Nginx 而言,它是若调用 read() 无数据到达,会注册一个事件,然后接着处理其他事情,等到数据到达后,事件触发,主线程才读取这个数据,这是异步。
Nginx实现负载均衡的常用方式包括
- 轮询模式
- IP哈希模式
- 权重模式
- 最少连接模式.
优化三、平滑升级
实现的步骤:
1、首先使用nginx -V查看nginx现有的编译参数
2、然后下载好要更新的源码包,上传到服务器中,然后使用make命令编译,编译时用–with添加要使用的模快,–without去除不需要的模快
3、备份旧的nginx二进制文件,再将新编译好的二进制文件复制到/usr/local/nginx/sbin下
4、备份完之后,给旧的进程发送一个kill -USR2的信号,会启动一个新的nginx主进程,实现热升级
5、然后这个时候就能发现/var/run/nginx/pid下会出现两个进程(nginx.pid、nginx.pid.oldbin)
6、再给旧的nginx进程发送一个kill -WINCH的信号,让旧的nginx work进程从容关闭,不再接受新请求
7、然后发送一个kill -QUIT的信号,让旧的nginx主进程处理完请求后再退出
8、最后再查看nginx的版本,是否升级成功
我的理解平滑升级就是fork的时候exevc一个新的可执行文件。
1 |
|
十五、LVS
简单来说,如果你只想做负载均衡就用LVS。
Q:什么是LVS?
A:**LVS(Linux Virtual Server)是一个基于Linux操作系统的高性能、可扩展的负载均衡器。**它提供了一种可靠的、高可用的解决方案,用于将来自客户端的请求分发到多个后端服务器,以实现负载均衡和高可用性。
详细说明:
- 部署位置: LVS 通常部署在一台(或多台)物理服务器或虚拟机上。这台服务器被称为负载均衡器(Load Balancer),它负责接收所有的外部请求。
- 功能: 部署了 LVS 的服务器通过内核中的 IPVS 模块(IP Virtual Server)来执行负载均衡操作。IPVS 负责拦截进入的网络请求,并根据配置的负载均衡算法将请求转发给合适的后端服务器。
Q:LVS的工作原理?
A:LVS 通过在网络层(IP 层)操作,将来自客户端的请求分发到后端的多个服务器(称为“真实服务器”)。LVS 本身作为一个虚拟服务器(Virtual Server),它接收所有的请求,并根据负载均衡算法将请求转发到合适的后端服务器。
Q:LVS 的组件的了解
A:LVS 主要包括以下几个组件:
- IPVS (IP Virtual Server): 这是 LVS 的核心组件,运行在 Linux 内核中。IPVS 负责将客户端请求分发到后端的真实服务器。它支持多种负载均衡算法。
- ipvsadm: 这是 LVS 的用户空间工具,用于管理和配置 IPVS。管理员可以使用
ipvsadm
命令来添加或删除后端服务器、查看 LVS 的状态等。
Q:LVS 的负载均衡算法
A:LVS 提供了多种负载均衡算法,主要包括:
- 轮询(Round Robin): 请求按顺序轮流分发给后端服务器。
- 最少连接(Least Connections): 请求优先分发给当前连接数最少的服务器。
- 源地址哈希(Source Hashing): 根据请求的源 IP 地址计算哈希值,并将请求传递给固定的后端服务器。
- 目标地址哈希(Destination Hashing): 类似于源地址哈希,但根据目标 IP 地址计算哈希值。
- 加权轮询(Weighted Round Robin): 根据服务器的权重进行轮询分发。
- 加权最少连接(Weighted Least Connections): 基于权重的最少连接算法。
Q:LVS 的工作模式
A:
LVS 支持三种主要的工作模式:
LVS-NAT(网络地址转换)
在 LVS-NAT 模式中,LVS 充当一个路由器或网关,它接收到客户端请求后,将请求的目标 IP 地址修改为真实服务器的 IP 地址,并将请求转发出去。真实服务器处理完请求后,将响应返回给 LVS,LVS 再将响应返回给客户端。
- 优点: 配置简单,支持任何协议。
- 缺点: LVS 成为流量的瓶颈,因为所有的流量都要经过 LVS。
LVS-DR(直接路由)
在 LVS-DR 模式中,LVS 只负责将请求分发给真实服务器,真实服务器直接将响应发送回客户端,而不经过 LVS。这种方式减少了 LVS 的负载。
- 优点: 高效,LVS 只处理请求而不处理响应。
- 缺点: 配置相对复杂,要求 LVS 和真实服务器在同一局域网内,并且真实服务器的网络配置需要做一些特殊配置(如配置虚拟 IP 地址)。
LVS-TUN(IP 隧道)
在 LVS-TUN 模式中,LVS 和真实服务器之间使用 IP 隧道进行通信。LVS 将请求封装在一个隧道包中发送给真实服务器,真实服务器解封装后处理请求并将响应直接发送给客户端。
- 优点: 适合地理上分布广泛的服务器,LVS 处理请求的负载较轻。
- 缺点: 配置复杂,需要支持 IP 隧道协议。
Q:IPVS 深入介绍
A:
1. IPVS(IP Virtual Server)
IPVS 是 LVS 的核心部分,它直接在 Linux 内核中实现,负责在网络层处理和调度请求。IPVS 通过修改 Linux 内核的网络栈实现对 IP 包的拦截和处理。
1.2 关键数据结构
在 IPVS 内部,几个关键的数据结构用于管理连接、服务和调度算法:
struct ip_vs_service
:- 代表一个虚拟服务(Virtual Service),即客户端访问的目标服务。一个虚拟服务通常由 IP 地址、端口和协议类型(如 TCP 或 UDP)标识。
- 包含了负载均衡算法、服务的调度状态、连接超时时间等信息。
struct ip_vs_dest
:- 代表一个目的服务器(真实服务器),即处理实际请求的后端服务器。它包含了服务器的 IP 地址、端口、权重等信息。
struct ip_vs_conn
:- 代表一个连接条目,记录了客户端与后端服务器之间的连接状态。IPVS 通过它来跟踪和管理每个连接。
struct ip_vs_scheduler
:- 代表负载均衡算法。每种负载均衡算法的具体实现都是通过实现这个结构体的相关函数来完成的。
2. 工作流程
LVS 的工作流程主要分为以下几个步骤:
2.1 抓取和分类网络包
当客户端请求到达 LVS 服务器时,IPVS 首先会拦截这个网络包。这个拦截在 Linux 网络栈的 Netfilter
框架中通过钩子函数实现。
IPVS 在 NF_IP_PRE_ROUTING
钩子中注册了回调函数,用于处理进入的网络包。当网络包被捕获后,IPVS 会根据包的目标 IP 地址和端口号来判断这个包是否匹配某个虚拟服务(ip_vs_service
)。
2.2 选择后端服务器
如果网络包匹配某个虚拟服务,IPVS 会根据配置的负载均衡算法选择一个合适的后端服务器(ip_vs_dest
)。这个选择过程由 ip_vs_scheduler
结构体中的调度算法函数完成。
IPVS 支持多种负载均衡算法,如轮询、最少连接、加权轮询等。不同的算法在选择服务器时有不同的策略。
2.3 转发网络包
根据选择的后端服务器,IPVS 需要修改包的目标 IP 地址和端口号,并将包转发到对应的后端服务器。这部分工作根据 LVS 的不同模式(NAT、DR、TUN)有不同的实现:
- NAT 模式:IPVS 会修改包的目标 IP 地址和端口号,然后将包路由到目标服务器。响应包会通过 LVS 服务器再返回给客户端。
- DR 模式:IPVS 只修改目标 MAC 地址,将包直接发往目标服务器。目标服务器直接将响应包发送给客户端,不经过 LVS 服务器。
- TUN 模式:IPVS 会将包封装在一个新的 IP 包中,通过 IP 隧道将包发往目标服务器。目标服务器解封装后处理请求,并直接将响应包发送给客户端。
2.4 处理连接跟踪
IPVS 需要跟踪每个连接的状态,以便处理后续的请求或响应包。这个连接状态通过 ip_vs_conn
结构体记录。在 NAT 模式下,IPVS 会记录源地址、目标地址、源端口和目标端口,以便后续响应包能够正确返回。
举个例子:
假设我们有一台部署了 LVS 的服务器,它的 IP 地址是 192.168.1.1
。LVS 通过负载均衡算法将请求分发到后端的两台服务器,后端服务器的 IP 地址分别是 192.168.1.2
和 192.168.1.3
。
- 客户端请求: 客户端向
192.168.1.1
发送 HTTP 请求。 - LVS 处理: 部署了 LVS 的服务器接收请求,IPVS 模块根据负载均衡算法选择
192.168.1.2
作为目标服务器。 - 请求转发: LVS 修改请求包的目标 IP 地址为
192.168.1.2
,并将请求转发给这台服务器。 - 响应处理: 后端服务器
192.168.1.2
处理请求并返回响应。在 NAT 模式下,响应会先返回给 LVS 服务器,然后 LVS 服务器再将响应返回给客户端。
Q:LVS 的高可用性保障
A:
- Keepalived: 是一种服务,用于检测 LVS 服务器的健康状况,并在主服务器失败时自动切换到备份服务器。
- Heartbeat: 是另一种高可用性解决方案,提供类似的功能,用于管理 LVS 的高可用性架构。
Q:和Nginx的对比?
A:
特性 | LVS | Nginx |
---|---|---|
工作层次 | 网络层(IP 层) | 应用层(HTTP 层) |
主要功能 | 负载均衡、协议无关 | 负载均衡、反向代理、Web 服务器 |
性能 | 极高(适合大规模并发) | 高(适合中小规模应用) |
配置难度 | 较复杂 | 简单易用 |
灵活性 | 低(只操作网络包) | 高(支持基于内容的负载均衡) |
高可用性 | 通过 Keepalived 实现 | 灵活的配置和集群部署 |
应用场景 | 大型企业级应用、跨地区集群 | Web 应用、反向代理、静态文件服务 |
Q:LVS 为什么比Nginx更适合需要处理大量并发连接的场景?
A:
主要原因在于它的设计层次、实现方式、性能优化和资源消耗等方面的优势。
1. 工作层次不同
- LVS:工作在网络层(IP 层)
- LVS 直接在 Linux 内核的网络层(OSI 模型第 3 层,即 IP 层)实现负载均衡。它处理的是网络包的转发,而不涉及应用层的协议解析。
- 由于 LVS 只需处理网络包的转发,不需要解析上层协议(如 HTTP、HTTPS),其工作量相对较小,处理效率极高。
- Nginx:工作在应用层(HTTP 层)
- Nginx 工作在 OSI 模型的第 7 层,即应用层。它不仅需要处理 TCP 连接,还需要解析 HTTP 请求、处理负载均衡策略、可能还要执行反向代理、缓存、SSL/TLS 卸载等功能。
- 因为 Nginx 需要处理更复杂的应用层逻辑,其每个请求的处理开销相对较大,尤其在高并发场景下,这种开销会显著增加。
2. 实现方式和资源消耗
- LVS:内核态实现,资源消耗低
- LVS 通过 IPVS 模块在 Linux 内核中实现,所有操作都在内核态完成。这种设计使得 LVS 可以非常高效地处理大量网络请求,避免了用户态和内核态之间的频繁切换。
- 由于 LVS 是在内核态操作网络包,因此它对系统资源(如 CPU、内存)的消耗非常低,非常适合处理海量的并发连接。
- Nginx:用户态实现,资源消耗相对较高
- Nginx 运行在用户态,需要频繁地进行用户态和内核态之间的上下文切换,尤其是在处理大量并发请求时,这种开销会显著增加。
- Nginx 需要处理更复杂的逻辑(如应用层协议解析、反向代理、SSL/TLS 卸载等),这些操作都会增加 CPU 和内存的使用量。
3. 性能和吞吐量
- LVS:极高的连接处理能力
- LVS 由于在内核层面直接处理网络包,它的处理速度非常快,吞吐量极高。LVS 可以轻松处理数十万甚至上百万级别的并发连接,这使得它特别适合需要处理大量并发连接的场景。
- LVS 的设计使其非常擅长处理短连接或大量的简单请求,这种情况下,LVS 可以非常高效地分发请求,而不会成为系统的瓶颈。
- Nginx:高性能但相比 LVS 略逊色
- Nginx 作为一个高性能的 HTTP 服务器和反向代理,已经非常高效,但由于其工作在应用层,涉及更多的逻辑处理,因此在处理极高并发连接时,性能会低于 LVS。
- 尽管 Nginx 可以通过优化配置和使用异步 I/O 模型来提高性能,但其在处理极大量的并发连接时,系统开销会增加,表现不如 LVS。
4. 处理复杂性和可扩展性
- LVS:专注于负载均衡,简单而高效
- LVS 专注于网络层的负载均衡,功能单一但性能极高。它的设计使得它可以非常轻松地扩展,只需增加后端服务器即可提高处理能力。
- LVS 的简单性使得它在处理大量并发连接时非常稳定和高效,不容易因为处理复杂的逻辑而影响性能。
- Nginx:功能丰富,但处理复杂性高
- Nginx 的功能非常丰富,不仅支持负载均衡,还提供反向代理、静态文件服务、缓存、SSL/TLS 卸载等功能。这些功能虽然强大,但也增加了系统的复杂性。
- 在极高并发场景下,Nginx 的多功能性可能导致资源争用和瓶颈,影响整体性能。
5. 使用场景的差异
- LVS 的典型使用场景
- LVS 通常用于需要处理极大量并发连接的场景,如大型电商网站、社交网络、搜索引擎等。这些场景下,LVS 能够高效地分发请求,确保系统的高可用性和高性能。
- 在需要跨多个数据中心或需要处理不同协议的场景下,LVS 的优势更加明显。
- Nginx 的典型使用场景
- Nginx 更适合处理中小规模的并发请求,尤其是在需要复杂应用层处理(如 HTTPS 代理、内容缓存、Web 应用负载均衡)的场景下,Nginx 的表现非常出色。
- Nginx 也常被用作 Web 服务器来处理静态内容或作为应用层的反向代理。