百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

DNS 常见问题分析(dns经常出现异常)

nanshan 2024-10-09 12:55 173 浏览 0 评论

1. 准备测试环境

sudo docker pull alpine:3.8

运行容器,注意这里一定要带--privileged 否则后面的部分 tc 命令无法执行:

$ sudo docker run -d --privileged --name ctn-1 alpine:3.8 sleep 3600d
$ sudo docker ps
CONTAINER ID    IMAGE        COMMAND         CREATED        STATUS          PORTS  NAMES
233bc36bde4b    alpine:3.8   "sleep 3600d"   1 minutes ago  Up 14 minutes           ctn-1

进入容器:

$ sudo docker exec -it ctn-1 sh

查看容器网络信息:

/ # ifconfig
eth0      Link encap:Ethernet  HWaddr 02:42:AC:11:00:09
          inet addr:172.17.0.9  Bcast:0.0.0.0  Mask:255.255.0.0

查看 DNS 配置

Linux 上的 DNS 配置在/etc/resolv.conf 里面。我们先来查看容器的配置:

/ # cat /etc/resolv.conf# Dynamic resolv.conf(5) file for glibc resolver(3) generated by resolvconf(8)#     DO NOT EDIT THIS FILE BY HAND -- YOUR CHANGES WILL BE OVERWRITTEN
nameserver 192.168.1.11
nameserver 192.168.1.12

这其实是继承了宿主机的 DNS 配置,在宿主机上执行 cat /etc/resolv.conf 会看到一样的 结果

  1. DNS 问题排查

机器未配置 DNS 导致域名查找失败

  • 现象:网络是通的(例如 ping IP 通),但是 DNS 查询总是失败
  • 可能的原因:机器没有配置 DNS 服务器
  • 解决办法:修改/etc/resolv.conf,给机器配置合适的 DNS 服务器

有时新启动的机器(不管是物理机、虚拟机还是容器)没有设置 DNS,导致访问域名不通。 我们来复现一下。

在正常的容器里用 nslookup 工具查看域名对应的 IP 地址:

/ # nslookup example.com

Name:      example.com
Address 1: 93.184.216.34
Address 2: 2606:2800:220:1:248:1893:25c8:1946

可以看到,我们获取到了该域名一个 IPv4 地址和一个 IPv6 地址。

/etc/resolv.conf 里的 DNS 服务器列表用#注释掉,模拟没有配置 DNS 服务器的场景。

再次测试:

/ # nslookup example.com

nslookup: can't resolve 'example.com': Try again

所以遇到这种问题,可以先去排查/etc/resolv.conf 里面是否配置了 DNS 服务器

DNS 服务太慢

  • 现象:DNS 查询太慢
  • 可能的原因:配置的 DNS 服务器不合理
  • 解决办法:修改/etc/resolv.conf,配置合适的 DNS 服务器

每个公司一般都有自维护的 DNS 服务器,不仅用来解析内网 DNS,而且可以加速解析公网域名 。

dig 是另外一个功能更强大的 DNS 查询工具,安装:

/ # apk update && apk add bind-tools

首先查看使用内网 DNS,查询域名的延迟:

/ # dig example.com
...
example.com.            15814   IN      A       93.184.216.34

;; Query time: 0 msec
;; SERVER: 192.168.1.11#53(192.168.1.11)

可以看到非常快,在 1ms 以内。

然后我们测试如果使用 Google 的公网 DNS 服务器 8.8.8.8 [1],延迟会是多少。

修改/etc/resolv.conf,将其他 nameserver 注释掉,添加一行 nameserver 8.8.8.8

再次测试:

/ # dig example.com
...
example.com.            15814   IN      A       93.184.216.34

;; Query time: 120 msec
;; SERVER: 8.8.8.8#53(8.8.8.8)

延迟变成了 150ms,比原来大了 150 多倍。

因此,对于 DNS 查询特别慢的场景,首先要查看配置的 DNS 服务器是否合理

/etc/hosts 添加了定义记录,导致跳过 DNS 查询

  • 现象:某域名访问太慢、某域名总是指向相同 IP(多 IP 情况下)、特定机器不可访问 某域名等等
  • 可能的原因:/etc/hosts 有 hardcode 域名及 IP
  • 解决办法:修改/etc/hosts

前面提到,大部分公网域名都对应多个 IP 地址,因此每次 DNS 查询拿到的 IP 地址都可能不一 样,我们用 ping 来测试一下:

/ # ping baidu.com
PING baidu.com (220.181.57.216): 56 data bytes
64 bytes from 220.181.57.216: seq=0 ttl=45 time=26.895 ms
64 bytes from 220.181.57.216: seq=1 ttl=45 time=26.701 ms
^C

/ # ping baidu.com
PING baidu.com (123.125.115.110): 56 data bytes
64 bytes from 123.125.115.110: seq=0 ttl=43 time=27.587 ms
64 bytes from 123.125.115.110: seq=1 ttl=43 time=27.757 ms
^C

可以看到,两次 ping 测试(内部首先查询 baidu.com 对应的 IP 地址)拿到的 IP 地址是不一样 的。用 nslookup 可以看到它们都是 baidu.com 对应的 IP 地址:

/ # nslookup baidu.com
Name:   baidu.com
Address: 220.181.57.216
Name:   baidu.com
Address: 123.125.115.110

/etc/hosts 里面可以直接 harcode 一个域名对应的 IP 地址,这会导致机器跳过 DNS 查询,直接拿这个 IP 作 为该域名的 IP。我们来验证一下。

修改/etc/hosts,添加一行 123.125.115.110 baidu.com,再次 ping 测试

/ # ping baidu.com
PING baidu.com (123.125.115.110): 56 data bytes
64 bytes from 123.125.115.110: seq=0 ttl=43 time=27.861 ms
^C
--- baidu.com ping statistics ---
1 packets transmitted, 1 packets received, 0% packet loss
round-trip min/avg/max = 27.861/27.861/27.861 ms
/ # ping baidu.com
PING baidu.com (123.125.115.110): 56 data bytes
64 bytes from 123.125.115.110: seq=0 ttl=43 time=27.614 ms
^C

这是不管执行多少次,baidu.com 对应的 IP 地址都不会变了。而实际上,这个 IP 地址并不一定是最优的 IP 地址,甚至有可能这 个 IP 不可用,导致访问 baidu.com 失败

DNS 查询不稳定

  • 现象:DNS 查询不稳定,时快时慢
  • 可能的原因:机器上有 tciptables 规则,导致到 DNS 服务器的 packet 变慢或丢 失
  • 解决办法:修改或删除 tc/iptables 规则

我们用 tc 来模拟网络延迟:

/ # apk add iproute2

首先查看有没有 tc 规则:

/ # tc -p qdisc ls dev eth0

默认没有任何规则。

然后我们加一条:每个 packet 延迟 600ms:

/ # tc qdisc add dev eth0 root netem delay 600ms

/ # tc -p qdisc ls dev eth0
/ # qdisc netem 8001: root refcnt 2 limit 1000 delay 600.0ms

测试:

/ # dig example.com
...
example.com.            15814   IN      A       93.184.216.34

;; Query time: 600 msec
;; SERVER: 192.168.1.11#53(192.168.1.11)

可以看到,DNS 查询变成了 600ms。

这里我们测试的是固定延迟,这种问题很容易发现。我们还可以测试随机延迟,或者按 比例延迟等 [2]:

/ # tc qdisc change dev eth0 root netem delay 600ms 10ms 25%
/ # tc qdisc change dev eth0 root netem delay 600ms 20ms distribution normal

此类规则会导致 DNS 查询速度更有随机性。

最后删除 tc 规则:

/ # tc qdisc del dev eth0 root

iptables 规则也会导致类似的问题。

很多软件在运行之后,会在宿主机上添加 tciptables 规则,例如 OpenStack,K8S 等等 。因此遇到这种随机延迟问题,首先可以查看机器上是否有 tciptables 规则


DNS 反向查询不稳定

线上遇到过这样一个问题:从一台机器 ping 一个内网域名,每个 ping 包看起来都会卡 5~30s 不等,但是 CTL-C 关闭 ping 之后,打印出来的统计信息里,既没有丢包,ping 的延迟也很低 (毫秒级),这就很奇怪。接下来:

  1. dig <URL>,很快,毫秒级,说明 DNS 查询没有问题
  2. dig 能看到域名对应的 IP,直接 ping 这个 IP,发现是没有卡顿的
  3. 仍然 ping 域名,用 tcpdump 抓包,tcpdump -i eth0 host <URL> and icmp,发现 ping 包都是立即响应的,印证了统计信息里,ping 延迟很低的事实

根据以上信息,说明 ping 卡顿的问题出在这台机器,而且应该就是 ping 程序本身在做什么耗 时的操作。继续:

  1. 仍然 ping 域名,同时,用 ltrace -p <PID>跟踪 ping 进程,发现卡在一个叫 gethostbyaddr()的函数
  2. 查阅文档,发现这个函数是根据 IP 反向查询 hostname,需要和 DNS 交互

到这里,基本确定了是 DNS 服务器反向查询的问题,我们用另外几个命令行工具验证一下, 以下三个命令都是根据 IP 反查 hostname:

  1. nslookup <IP>
  2. host <IP>
  3. dig -x <IP>

果然,以上三个命令都会卡住。修改/etc/resolv.conf,换一个 DNS 服务器之后,问题 消失了。

相关推荐

0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)

文档编写目的在前面的文档中,介绍了在有CM和无CM两种情况下使用rpm方式安装CDH5.10.0,本文档将介绍如何在无CM的情况下使用rpm方式安装CDH6.2.0,与之前安装C5进行对比。环境介绍:...

ARM64 平台基于 openEuler + iSula 环境部署 Kubernetes

为什么要在arm64平台上部署Kubernetes,而且还是鲲鹏920的架构。说来话长。。。此处省略5000字。介绍下系统信息;o架构:鲲鹏920(Kunpeng920)oOS:ope...

生产环境starrocks 3.1存算一体集群部署

集群规划FE:节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。>3节点。BE:节点负责数据存储和SQL执行。>3节点。CN:无存储功能能的BE。环境准备CPU检查JDK...

在CentOS上添加swap虚拟内存并设置优先级

现如今很多云服务器都会自己配置好虚拟内存,当然也有很多没有配置虚拟内存的,虚拟内存可以让我们的低配服务器使用更多的内存,可以减少很多硬件成本,比如我们运行很多服务的时候,内存常常会满,当配置了虚拟内存...

国产深度(deepin)操作系统优化指南

1.升级内核随着deepin版本的更新,会自动升级系统内核,但是我们依旧可以通过命令行手动升级内核,以获取更好的性能和更多的硬件支持。具体操作:-添加PPAs使用以下命令添加PPAs:```...

postgresql-15.4 多节点主从(读写分离)

1、下载软件[root@TX-CN-PostgreSQL01-252software]#wgethttps://ftp.postgresql.org/pub/source/v15.4/postg...

Docker 容器 Java 服务内存与 GC 优化实施方案

一、设置Docker容器内存限制(生产环境建议)1.查看宿主机可用内存bashfree-h#示例输出(假设宿主机剩余16GB可用内存)#Mem:64G...

虚拟内存设置、解决linux内存不够问题

虚拟内存设置(解决linux内存不够情况)背景介绍  Memory指机器物理内存,读写速度低于CPU一个量级,但是高于磁盘不止一个量级。所以,程序和数据如果在内存的话,会有非常快的读写速度。但是,内存...

Elasticsearch性能调优(5):服务器配置选择

在选择elasticsearch服务器时,要尽可能地选择与当前业务量相匹配的服务器。如果服务器配置太低,则意味着需要更多的节点来满足需求,一个集群的节点太多时会增加集群管理的成本。如果服务器配置太高,...

Es如何落地

一、配置准备节点类型CPU内存硬盘网络机器数操作系统data节点16C64G2000G本地SSD所有es同一可用区3(ecs)Centos7master节点2C8G200G云SSD所有es同一可用区...

针对Linux内存管理知识学习总结

现在的服务器大部分都是运行在Linux上面的,所以,作为一个程序员有必要简单地了解一下系统是如何运行的。对于内存部分需要知道:地址映射内存管理的方式缺页异常先来看一些基本的知识,在进程看来,内存分为内...

MySQL进阶之性能优化

概述MySQL的性能优化,包括了服务器硬件优化、操作系统的优化、MySQL数据库配置优化、数据库表设计的优化、SQL语句优化等5个方面的优化。在进行优化之前,需要先掌握性能分析的思路和方法,找出问题,...

Linux Cgroups(Control Groups)原理

LinuxCgroups(ControlGroups)是内核提供的资源分配、限制和监控机制,通过层级化进程分组实现资源的精细化控制。以下从核心原理、操作示例和版本演进三方面详细分析:一、核心原理与...

linux 常用性能优化参数及理解

1.优化内核相关参数配置文件/etc/sysctl.conf配置方法直接将参数添加进文件每条一行.sysctl-a可以查看默认配置sysctl-p执行并检测是否有错误例如设置错了参数:[roo...

如何在 Linux 中使用 Sysctl 命令?

sysctl是一个用于配置和查询Linux内核参数的命令行工具。它通过与/proc/sys虚拟文件系统交互,允许用户在运行时动态修改内核参数。这些参数控制着系统的各种行为,包括网络设置、文件...

取消回复欢迎 发表评论: