Linux-system-performance-optimization

本文最后更新于：2024年8月9日晚上

一、影响 Linux 性能的各种因素

1、系统硬件资源

（1）CPU

如何判断多核 CPU 与超线程

消耗 CPU 的业务：动态 web 服务、mail 服务

（2）内存

物理内存与 swap 的取舍
选择 64 位 Linux 操作系统

消耗内存的业务：内存数据库（redis/hbase/mongodb）

（3）磁盘 IO

RAID 技术（RAID0/1/5/01/10）
SSD 磁盘

消耗磁盘的业务：数据库服务器

（4）网络带宽

网卡/交换机的选择
操作系统双网卡绑定(bond/team)

消耗带宽的业务：hadoop 平台、视频业务平台

2、操作系统相关资源

（1）系统安装优化

磁盘分区、RAID 设置、swap 设置

（2）内核参数优化

ulimit -n（查看或设置用户能够打开的文件描述符（file descriptors）的最大数量，比如文件，套接字等）

ulimit -u（用来查看或设置用户能够创建的最大进程数量）

（3）文件系统优化

ext2：Linux 下标准文件系统，无日志记录（inode）功能。
ext3：在ext2 基础上增加了日志记录功能（inode），仅支持 32000 个子目录。
ex4：ext3 的后续版本，Linux2.6.28 内核开始支持。无限子目录支持，快速 fsck。
xfs：高性能文件系统，Linux3.10 内核开始默认支持。

建议：

读操作频繁，同时小文件众多的应用：首选 ext4 文件系统，接下来依次是 xfs、ext3

写操作频繁的应用，首选是 xfs，接下来依次是 ext4 和 ext3

对性能要求不高、数据安全要求不高的业务，ext3 是比较好的选择。

3、程序问题

此类问题需要开发人员查看代码，介入处理。但作为运维人员需要给出程序问题的有力证据。

二、Linux 性能优化工具

1、CPU 性能评估工具

（1）vmstat（系统默认自带）

利用 vmstat 命令可以对操作系统的内存信息、进程状态、CPU活劢等进行监视。

常用方式：vmstat 2 5 : 表示每 2秒更新一次输出信息，统计 5 次后停止输出。

对上面每项的输出解释如下：

procs
r 列表示运行和等待 cpu 时间片的进程数，这个值如果长期大于系统CPU 的个数，说明 CPU 不足，需要增加 CPU。
b 列表示在等待资源的进程数，比如正在等待 I/O、或者内存交换等。
memory
swpd 列表示切换到内存交换区的内存数量（以 k为单位）。如果 swpd 的值不为0，或者比较大，只要 si、so 的值长期为 0，这种情况下一般不用担心，不会影响系统性能。
free列表示当前空闲的物理内存数量（以 k为单位）
buff 列表示 buffers cache的内存数量，一般对块设备的读写才需要缓冲。
cache列表示 page cached 的内存数量，一般作为文件系统 cached，频繁访问的文件都会被 cached，如果 cache 值较大，说明 cached 的文件数较多，如果此时 IO 中 bi比较小，说明文件系统效率比较好。
swap
si列表示由磁盘调入内存，也就是内存进入内存交换区的数量。
so 列表示由内存调入磁盘，也就是内存交换区进入内存的数量。

一般情况下， si、 so 的值都为 0，如果 si、 so 的值长期不为 0，则表示系统内存不足。需要增加系统内存。

IO 项显示磁盘读写状况
Bi列表示从块设备读入数据的总量（即读磁盘）（每秒 kb）。
Bo 列表示写入到块设备的数据总量（即写磁盘）（每秒 kb）。

这里我们设置的 bi+bo 参考值为 1000，如果超过 1000，而且 wa值较大，则表示系统磁盘 IO 有问题，应该考虑提高磁盘的读写性能。

system 显示采集间隔内发生的中断数
in 列表示在某一时间间隔中观测到的每秒设备中断数。
cs 列表示每秒产生的上下文切换次数。

上面这 2 个值越大，会看到由内核消耗的 CPU 时间会越多。

CPU 项显示了 CPU 的使用状态，此列是我们关注的重点。
us 列显示了用户进程消耗的 CPU 时间百分比。us 的值比较高时，说明用户进程消耗的 cpu 时间多，但是如果长期大于 50%，就需要考虑优化程序或算法。
sy列显示了内核进程消耗的 CPU 时间百分比。Sy的值较高时，说明内核消耗的CPU 资源很多。

根据经验， us+sy的参考值为 80%，如果 us+sy大于 80%说明可能存在 CPU 资源不足。

id 列显示了 CPU 处在空闲状态的时间百分比。
wa 列显示了 IO 等待所占用的 CPU 时间百分比。wa 值越高，说明 IO 等待越严重，根据经验，wa 的参考值为 20%，如果 wa 超过 20%，说明 IO 等待严重，引起 IO 等待的原因可能是磁盘大量随机读写造成的，也可能是磁盘或者磁盘控制器的带宽瓶颈造成的（主要是块操作）。

综上所述，在对 CPU 的评估中，需要重点注意的是procs 项 r 列的值和 CPU 项中 us、sy和 id 列的值。

（2）iostat（需要安装 sysstat 工具包）

iostat 是 I/O statistics（输入/输出统计）的缩写，主要的功能是对系统的磁盘 I/O 操作进行监视。

常用方式：iostat -c 3 5

其中，-c 表示显示CPU 的使用情况，-d：显示磁盘的使用情况。

（3）uptime 命令

uptime 是监控系统性能最常用的一个命令，主要用来统计系统当前的运行状况，输出的信息依次为：系统现在的时间、系统从上次开机到现在运行了多长时间、系统目前有多少登陆用户、系统在一分钟内、五分钟内、十五分钟内的平均负载。

1 2	`[root@home ~]# uptime 09:28:51 up 5 days, 2:29, 1 user, load average: 0.60, 0.82, 0.90`

2、内存性能评估

（1）free 命令

free 命令是监控 linux 内存使用状况最常用的指令

常见用法：free –mh

[root@home ~]# free -mh
               total        used        free      shared  buff/cache   available
Mem:           3.5Gi       1.2Gi       260Mi        51Mi       2.4Gi       2.3Gi
Swap:          3.8Gi       0.0Ki       3.8Gi

total: 总内存量，表示系统中物理内存的总量。
used: 已使用的内存量，表示当前已经被使用的物理内存量。
free: 空闲内存量，表示当前系统中可用的空闲物理内存量。
shared: 共享内存量，表示被多个进程共享使用的内存量。
buffers: 缓冲区内存量，表示被内核用作缓冲的内存量，通常包括用于存储文件系统元数据的缓冲区。
cached: 缓存内存量，表示被内核用作缓存的内存量，通常包括用于缓存文件系统数据的缓存区。

在 swap 项可以看出，交换分区还未使用。所以从应用的角度来说，此系统内存资源还非常充足。

一般有这样一个经验公式：应用程序可用内存/系统物理内存>70%时，表示系统内存资源非常充足，不影响系统性能，应用程序可用内存/系统物理内存<20%时，表示系统内存资源紧缺，需要增加系统内存，20%<应用程序可用内存/系统物理内存<70%时，表示系统内存资源基本能满足应用需求，暂时不影响系统性能。

（2）sar/pidstat

此两个命令主要用于监控全部或指定进程占用系统资源的情况，如 CPU，内存、设备IO。

三个公用参数：-u（获取 CPU 状态）、-r（获取内存状态）、-d（获取磁盘）

常用组合：

sar -u 3 ：获取 cpu 3 秒内的状态

pidstat -r –p 1 3 获取内存 3 秒内的状态

看看以上两个命令的差别？

请看下面的一个输出：

其中：

Kbmemfree 表示空闲物理内存大小，kbmemused 表示已使用的物理内存空间大小，%memused 表示已使用内存占总内存大小的百分比，kbbuffers 和 kbcached 分别表示Buffer Cache 和 Page Cache 的大小，kbcommit 和%commit 分别表示应用程序当前使用的内存大小和使用百分比。

可以看出 sar 的输出其实与 free的输出完全对应，不过 sar 更加人性化，不但给出了内存使用量，还给出了内存使用的百分比以及统计的平均值。从%commit 项可知，此系统目前内存资源充足。

3、磁盘性能评估

（1）iostat –d 组合

iostat –d 2 3

通过“iostat –d”命令组合也可以查看系统磁盘的使用状况，请看如下输出：

对上面每项的输出解释如下：

Blk_read/s 表示每秒读取的数据块数。
Blk_wrtn/s 表示每秒写入的数据块数。
Blk_read 表示读取的所有块数。
Blk_wrtn 表示写入的所有块数。

（2）pidstat -d -p 31887 3

（3）sar -d 2 3

通过“sar –d”组合，可以对系统的磁盘 IO 做一个基本的统计，请看下面的一个输出：

对上面每项的输出解释如下：

DEV 表示磁盘设备名称。
tps 表示每秒到物理磁盘的传送数，也就是每秒的 I/O 流量。一个传送就是一个 I/O 请求，多个逻辑请求可以被合并为一个物理 I/O 请求。
rd_sec/s 表示每秒从设备读取的扇区数（1 扇区=512 字节）。
wr_sec/s 表示每秒写入设备的扇区数目。
avgrq-sz 表示平均每次设备 I/O 操作的数据大小（以扇区为单位）。
avgqu-sz 表示平均 I/O 队列长度。
await 表示平均每次设备 I/O 操作的等待时间（以毫秒为单位）。
svctm表示平均每次设备 I/O 操作的服务时间（以毫秒为单位）。
%util表示一秒中有百分之几的时间用于 I/O 操作。

Linux 中 I/O 请求系统与现实生活中超市购物排队系统有很多类似的地方，通过对超市购物排队系统的理解，可以很快掌握 linux 中 I/O 运行机制。比如：

avgrq-sz 类似于超市排队中每人所买东西的多少。
avgqu-sz 类似于超市排队中单位时间内平均排队的人数。
await 类似于超市排队中每人的等待时间。
svctm类似于超市排队中收银员的收款速度。
%util类似于超市收银台前有人排队的时间比例。

对于磁盘 IO 性能，一般有如下评判标准：

正常情况下 svctm 应该是小于 await 值的，而 svctm 的大小和磁盘性能有关，CPU、内存的负荷也会对 svctm值造成影响，过多的请求也会间接的导致 svctm值的增加。

await 值的大小一般取决于 svctm 的值和 I/O 队列长度以及 I/O 请求模式，如果 svctm的值与 await 很接近，表示几乎没有 I/O 等待，磁盘性能很好，如果 await 的值远高于 svctm的值，则表示 I/O 队列等待太长，系统上运行的应用程序将变慢，此时可以通过更换更快的硬盘来解决问题。

%util 项的值也是衡量磁盘 I/O 的一个重要指标，如果%util 接近 100%，表示磁盘产生的 I/O 请求太多，I/O 系统已经满负荷的在工作，该磁盘可能存在瓶颈。长期下去，势必影响系统的性能，可以通过优化程序或者通过更换更高、更快的磁盘来解决此问题。

4、网络性能评估

（1）ping 命令

请看下面的一个输出：

[root@home ~]# ping -c 3 qq.com
PING qq.com (113.108.81.189) 56(84) bytes of data.
64 bytes from 113.108.81.189 (113.108.81.189): icmp_seq=1 ttl=53 time=33.5 ms
--- qq.com ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms
rtt min/avg/max/mdev = 33.528/33.855/34.104/0.241 ms

在这个输出中，time值显示了两台主机之间的网络延时情况，如果此值很大，则表示网络的延时很大，单位为毫秒。在这个输出的最后，是对上面输出信息的一个总结，packet loss 表示网络的丢包率，此值越小，表示网络的质量越高。

（2）netstat 命令

netstat –i （查看路由情况）

netstat –r（查看网络接口状态）

netstat -antlpe | grep常用于查看tcp端口的连接状态

（3）mtr/traceroute 命令

跟踪网络路由状态，推荐使用 mtr，动态跟踪网络路由，用于排除网络问题非常方便。

三、系统性能分析标准

四、linux 内核常用调优参数

内核常用调优参数:
01. vm.swappiness：该参数控制系统在内存不足时，内核将页面交换到磁盘的程度。默认值为60，建议值为10-30。 02. vm.overcommit_memory：该参数控制系统是否允许超额分配内存。默认值为0，建议值为1。 03. vm.dirty_ratio：该参数控制系统脏页占内存的比例。默认值为20，建议值为5-10。 04. vm.dirty_background_ratio：该参数控制系统后台写入脏页的比例。默认值为10，建议值为1-5。 05. vm.dirty_expire_centisecs：该参数控制系统脏页过期时间。默认值为3000，建议值为1000-2000。 06. vm.dirty_writeback_centisecs：该参数控制系统写回脏页的时间间隔。默认值为500，建议值为100-200。 07. vm.vfs_cache_pressure：该参数控制系统内核缓存的大小和清理频率。默认值为100，建议值为50-100。 08. vm.min_free_kbytes：该参数控制系统保留的最小空闲内存。默认值为4096，建议值为65536。 09. vm.max_map_count：该参数控制系统允许的最大内存映射数量。默认值为65530，建议值为262144。 010. net.core.somaxconn：该参数控制系统TCP连接的最大排队数量。默认值为128，建议值为1024。 011. net.core.netdev_max_backlog：该参数控制系统网络设备接收数据包的队列大小。默认值为1000，建议值为5000。 012. net.core.rmem_max：该参数控制系统TCP接收缓冲区的最大大小。默认值为212992，建议值为524288。 013. net.core.wmem_max：该参数控制系统TCP发送缓冲区的最大大小。默认值为212992，建议值为524288。 014. net.ipv4.tcp_fin_timeout：该参数控制系统TCP连接关闭的超时时间。默认值为60，建议值为10-20。 015. net.ipv4.tcp_tw_reuse：该参数控制系统是否允许重用TIME_WAIT状态的TCP连接。默认值为0，建议值为1。 016. net.ipv4.tcp_tw_recycle：该参数控制系统是否启用TCP连接回收机制。默认值为0，建议值为1。 017. net.ipv4.tcp_max_syn_backlog：该参数控制系统TCP连接请求队列的大小。默认值为128，建议值为1024。 018. net.ipv4.tcp_keepalive_time：该参数控制系统TCP连接的保持时间。默认值为7200秒，建议值为600-1200。 019. net.ipv4.tcp_max_tw_buckets：该参数控制系统可以处理的TIME_WAIT状态的TCP连接的最大数量。默认值为180000，建议值为262144。 020. net.ipv4.ip_local_port_range：该参数控制系统可以使用的本地端口范围。默认值为32768-61000，建议值为1024-65535。 021. net.ipv4.tcp_slow_start_after_idle：该参数控制系统TCP连接空闲一段时间后是否重新进入慢启动状态。默认值为1，建议值为0。 022. net.ipv4.tcp_no_metrics_save：该参数控制系统是否保存TCP连接的性能指标。默认值为0，建议值为1。 023. net.ipv4.tcp_mtu_probing：该参数控制系统是否启用TCP MTU探测。默认值为0，建议值为1。 024. net.ipv4.tcp_congestion_control：该参数控制系统TCP拥塞控制算法。默认值为cubic，建议值为bbr。 025. fs.file-max：该参数控制系统可以打开的文件句柄数量。默认值为65536，建议值为1048576。 026. fs.nr_open：该参数控制系统可以打开的文件句柄数量。默认值为1048576，建议值为1048576。 027. fs.inotify.max_user_watches：该参数控制系统可以监视的文件数量。默认值为8192，建议值为524288。 028. kernel.sem：该参数控制系统信号量的数量。默认值为250，建议值为512-1024。 029. kernel.shmmax：该参数控制系统的共享内存大小。默认值为4294967295，建议值为536870912。 030. kernel.shmall：该参数控制系统的共享内存大小。默认值为2097152，建议值为134217728。 031. kernel.pid_max：该参数控制系统可以创建的最大进程数。默认值为32768，建议值为524288。 032. kernel.core_pattern：该参数控制系统在出现核心转储文件时的文件名格式。默认值为core，建议值为/corefiles/core-%e-%s-%u-%g-%p-%t。 033. kernel.msgmnb：该参数控制系统消息队列的最大大小。默认值为16384，建议值为65536。 034. kernel.msgmax：该参数控制系统消息队列的最大大小。默认值为8192，建议值为65536。 035. kernel.sysrq：该参数控制系统是否允许使用SysRq键。默认值为1，建议值为0。 036. kernel.printk：该参数控制系统内核日志的输出级别。默认值为4 4 1 7，建议值为3 3 3 3。 037. kernel.randomize_va_space：该参数控制系统是否启用地址空间随机化。默认值为2，建议值为2。 038. kernel.nmi_watchdog：该参数控制系统是否启用NMI watchdog。默认值为1，建议值为0。 039. kernel.softlockup_panic：该参数控制系统是否在软锁定时触发内核崩溃。默认值为0，建议值为1。 040. kernel.hung_task_panic：该参数控制系统是否在任务超时时触发内核崩溃。默认值为0，建议值为1。 041. kernel.panic：该参数控制系统在内核崩溃时的行为。默认值为0，建议值为10。 042. kernel.panic_on_oops：该参数控制系统在Oops发生时是否触发内核崩溃。默认值为0，建议值为1。 043. kernel.exec-shield：该参数控制系统是否启用执行保护。默认值为1，建议值为1。 044. kernel.dmesg_restrict：该参数控制系统是否限制非特权用户访问dmesg。默认值为1，建议值为1。

内核常用调优参数:

01. vm.swappiness：该参数控制系统在内存不足时，内核将页面交换到磁盘的程度。默认值为60，建议值为10-30。
02. vm.overcommit_memory：该参数控制系统是否允许超额分配内存。默认值为0，建议值为1。
03. vm.dirty_ratio：该参数控制系统脏页占内存的比例。默认值为20，建议值为5-10。
04. vm.dirty_background_ratio：该参数控制系统后台写入脏页的比例。默认值为10，建议值为1-5。
05. vm.dirty_expire_centisecs：该参数控制系统脏页过期时间。默认值为3000，建议值为1000-2000。
06. vm.dirty_writeback_centisecs：该参数控制系统写回脏页的时间间隔。默认值为500，建议值为100-200。
07. vm.vfs_cache_pressure：该参数控制系统内核缓存的大小和清理频率。默认值为100，建议值为50-100。
08. vm.min_free_kbytes：该参数控制系统保留的最小空闲内存。默认值为4096，建议值为65536。
09. vm.max_map_count：该参数控制系统允许的最大内存映射数量。默认值为65530，建议值为262144。
010. net.core.somaxconn：该参数控制系统TCP连接的最大排队数量。默认值为128，建议值为1024。
011. net.core.netdev_max_backlog：该参数控制系统网络设备接收数据包的队列大小。默认值为1000，建议值为5000。
012. net.core.rmem_max：该参数控制系统TCP接收缓冲区的最大大小。默认值为212992，建议值为524288。
013. net.core.wmem_max：该参数控制系统TCP发送缓冲区的最大大小。默认值为212992，建议值为524288。
014. net.ipv4.tcp_fin_timeout：该参数控制系统TCP连接关闭的超时时间。默认值为60，建议值为10-20。
015. net.ipv4.tcp_tw_reuse：该参数控制系统是否允许重用TIME_WAIT状态的TCP连接。默认值为0，建议值为1。
016. net.ipv4.tcp_tw_recycle：该参数控制系统是否启用TCP连接回收机制。默认值为0，建议值为1。
017. net.ipv4.tcp_max_syn_backlog：该参数控制系统TCP连接请求队列的大小。默认值为128，建议值为1024。
018. net.ipv4.tcp_keepalive_time：该参数控制系统TCP连接的保持时间。默认值为7200秒，建议值为600-1200。
019. net.ipv4.tcp_max_tw_buckets：该参数控制系统可以处理的TIME_WAIT状态的TCP连接的最大数量。默认值为180000，建议值为262144。
020. net.ipv4.ip_local_port_range：该参数控制系统可以使用的本地端口范围。默认值为32768-61000，建议值为1024-65535。
021. net.ipv4.tcp_slow_start_after_idle：该参数控制系统TCP连接空闲一段时间后是否重新进入慢启动状态。默认值为1，建议值为0。
022. net.ipv4.tcp_no_metrics_save：该参数控制系统是否保存TCP连接的性能指标。默认值为0，建议值为1。
023. net.ipv4.tcp_mtu_probing：该参数控制系统是否启用TCP MTU探测。默认值为0，建议值为1。
024. net.ipv4.tcp_congestion_control：该参数控制系统TCP拥塞控制算法。默认值为cubic，建议值为bbr。
025. fs.file-max：该参数控制系统可以打开的文件句柄数量。默认值为65536，建议值为1048576。
026. fs.nr_open：该参数控制系统可以打开的文件句柄数量。默认值为1048576，建议值为1048576。
027. fs.inotify.max_user_watches：该参数控制系统可以监视的文件数量。默认值为8192，建议值为524288。
028. kernel.sem：该参数控制系统信号量的数量。默认值为250，建议值为512-1024。
029. kernel.shmmax：该参数控制系统的共享内存大小。默认值为4294967295，建议值为536870912。
030. kernel.shmall：该参数控制系统的共享内存大小。默认值为2097152，建议值为134217728。
031. kernel.pid_max：该参数控制系统可以创建的最大进程数。默认值为32768，建议值为524288。
032. kernel.core_pattern：该参数控制系统在出现核心转储文件时的文件名格式。默认值为core，建议值为/corefiles/core-%e-%s-%u-%g-%p-%t。
033. kernel.msgmnb：该参数控制系统消息队列的最大大小。默认值为16384，建议值为65536。
034. kernel.msgmax：该参数控制系统消息队列的最大大小。默认值为8192，建议值为65536。
035. kernel.sysrq：该参数控制系统是否允许使用SysRq键。默认值为1，建议值为0。
036. kernel.printk：该参数控制系统内核日志的输出级别。默认值为4 4 1 7，建议值为3 3 3 3。
037. kernel.randomize_va_space：该参数控制系统是否启用地址空间随机化。默认值为2，建议值为2。
038. kernel.nmi_watchdog：该参数控制系统是否启用NMI watchdog。默认值为1，建议值为0。
039. kernel.softlockup_panic：该参数控制系统是否在软锁定时触发内核崩溃。默认值为0，建议值为1。
040. kernel.hung_task_panic：该参数控制系统是否在任务超时时触发内核崩溃。默认值为0，建议值为1。
041. kernel.panic：该参数控制系统在内核崩溃时的行为。默认值为0，建议值为10。
042. kernel.panic_on_oops：该参数控制系统在Oops发生时是否触发内核崩溃。默认值为0，建议值为1。
043. kernel.exec-shield：该参数控制系统是否启用执行保护。默认值为1，建议值为1。
044. kernel.dmesg_restrict：该参数控制系统是否限制非特权用户访问dmesg。默认值为1，建议值为1。

linux

Linux-system-performance-optimization

https://git.msft.vip/2024/03/27-Linux-system-performance-optimization/

作者

Jas0n0ss

发布于

2024年3月27日

更新于

2024年8月9日

许可协议

Linux kernel Upgrade 上一篇

How to customize iconfont icon in Hexo fluid theme 下一篇