许吉友 - 运维

Linux 下 VxLAN 实践

VxLAN 简介

任何技术的产生,都有其特定的时代背景与实际需求,VXLAN正是为了解决云计算时代虚拟化中的一系列问题而产生的一项技术。那么我们先看看 VXLAN 到底要解决哪些问题。

传统“二层+三层”的网络在应对这些要求时变得力不从心,虽然通过很多改进型的技术比如堆叠、SVF、TRILL等可以构建物理上的大二层网络,可以将虚拟机迁移的范围扩大。但是,构建物理上的大二层,难免需要对原来的网络做大的改动,并且大二层网络的范围依然会受到种种条件的限制。

为了解决这些问题,有很多方案被提出来,VxLAN就是其中之一。VxLAN 是 VMware、Cisco 等一众大型企业共同推出的。

定义

在介绍完VxLAN要解决的问题也就是技术背景之后,接下来正式阐述一下VxLAN的定义,也就是它到底是什么。

VXLAN 全称是 Virtual eXtensible Local Area Network,虚拟可扩展的局域网。它是一种 Overlay 技术,采用L2 over L4(MAC-in-UDP)封装方式,是NVO3(Network Virtualization over Layer 3)中的一种网络虚拟化技术,将二层报文用三层协议进行封装,可实现虚拟的二层网络在三层范围内进行扩展,同时满足数据中心大二层虚拟迁移和多租户的需求。RFC7348上的介绍是这样的:

A framework for overlaying virtualized layer 2 networks over lay 3 networks.

意义

针对大二层网络,VxLAN技术的出现很好的解决了云计算时代背景下数据中心在物理网络基础设施上实施服务器虚拟化的隔离和可扩展性问题:

VxLAN 模型

image-20201206145506244

VxLAN的典型网络模型中主要包含以下几个基本元素:

VxLAN报文格式

vxlan

VXLAN是MAC in UDP的网络虚拟化技术,所以其报文封装是在原始以太报文之前添加了一个UDP头及VXLAN头封装:VTEP会将VM发出的原始报文封装成一个新的UDP报文,并使用物理网络的IP和MAC地址作为外层头,对网络中的其他设备只表现为封装后的参数。也就是说,网络中的其他设备看不到VM发送的原始报文。

如果服务器作为VTEP,那从服务器发送到接入设备的报文便是经过封装后的报文,这样,接入设备就不需要学习VM的MAC地址了,它只需要根据外层封装的报文头负责基本的三层转发就可以了。因此,虚拟机规模就不会受网络设备表项规格的限制了。

当然,如果网络设备作为VTEP,它还是需要学习VM的MAC地址。但是,从对报文进行封装的角度来说,网络设备的性能还是要比服务器强很多。

上图是 VxLAN 协议的报文,白色的部分是虚拟机发出的原始报文(二层帧,包含了 MAC 头部、IP 头部和传输层头部的报文),前面加了VxLAN 头部用来专门保存 VxLAN 相关的内容,再前面是标准的 UDP 协议头部(UDP 头部、IP 头部和 MAC 头部)用来在物理网路上传输报文。

从这个报文中可以看到三个部分:

  1. 最外层的 UDP 协议报文用来在底层物理网络上传输,也就是 VTEP 之间互相通信的基础;
  2. 中间是 VXLAN 头部,VTEP 接受到报文之后,去除前面的 UDP 协议部分,根据这部分来处理 VxLAN 的逻辑,主要是根据 VNI 发送到最终的虚拟机;
  3. 最里面是原始的二层帧,也就是虚拟机所见的报文内容。

VxLAN Header: VxLAN头。8字节。

VxLAN 缺点

VxLAN协议比原始报文多出50字节的内容,这会降低网络链路传输有效数据的比例。此外,新增加的VXLAN报文封装也引入了一个问题,即MTU值的设置。一般来说,虚拟机的默认MTU为1500 Bytes,也就是说原始以太网报文最大为1500字节。这个报文在经过VTEP时,会封装上50字节的新报文头(VXLAN头8字节+UDP头8字节+外部IP头20字节+外部MAC头14字节),这样一来,整个报文长度达到了1550字节。而现有的VTEP设备,一般在解封装VXLAN报文时,要求VXLAN报文不能被分片,否则无法正确解封装。这就要求VTEP之间的所有网络设备的MTU最小为 1550字节。如果中间设备的MTU值不方便进行更改,那么设置虚拟机的MTU值为1450,也可以暂时解决这个问题。

VxLAN头部最重要的是VNID字段,其他的保留字段主要是为了未来的扩展,很多厂商都会加以运用来实现自己组网的一些特性。

最简单的点对点 VxLAN

宿主机器网络:

10.28.63.16 vm1
10.28.63.19 vm2

对应的上层虚拟地址是:

192.168.0.16
192.168.0.19

在 vm1 上执行:

$ sudo ip link add vxlan1 type vxlan id 1 remote 10.28.63.19 dstport 4789 dev bond0
$ sudo ip link set vxlan1 up
$ sudo ip addr add 192.168.0.16/24 dev vxlan1

上面的第一条命令创建了一个 Linux 上类型为 vxlan 的网络接口,名为 vxlan1。

第二条命令让 vxlan1 接口 up 起来。第三条命令给设备分配 IP 地址 192.168.0.16, 子网掩码为 24 (255.255.255.0)。

在 vm2 上,利用类似方法创建名为 vxlan1 的网络接口:

$ sudo ip link add vxlan1 type vxlan id 1 remote 10.28.63.16 dstport 4789 dev bond0
$ sudo ip link set vxlan1 up
$ sudo ip addr add 192.168.0.19/24 dev vxlan1

以上简单的命令就完成了所有配置,使用 ip a 可以看到接口。

看下路由表,发现已经自动创建好了路由表:

$ route -n
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
192.168.0.0     0.0.0.0         255.255.255.0   U     0      0        0 vxlan1

Ping 一下试试,发现可以ping通:

$ ping 192.168.0.19
PING 192.168.0.19 (192.168.0.19) 56(84) bytes of data.
64 bytes from 192.168.0.19: icmp_seq=1 ttl=64 time=0.212 ms
64 bytes from 192.168.0.19: icmp_seq=2 ttl=64 time=0.247 ms
64 bytes from 192.168.0.19: icmp_seq=3 ttl=64 time=0.235 ms
64 bytes from 192.168.0.19: icmp_seq=4 ttl=64 time=0.256 ms
^C
--- 192.168.0.19 ping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 107ms
rtt min/avg/max/mdev = 0.212/0.237/0.256/0.022 ms

在 vm1 上抓包:

$ sudo tcpdump -i bond0 host 192.168.0.19 -s0 -v -w vxlan_vni_1.pcap