概述
此文为极客时间趣谈网络协议第二模块“从第二层到第三层”中,第四节和第五节的学习笔记。
主要内容包括网关,路由等,介绍了设备是如何在多个局域网间通过网关进行通信的。
一、网关
在前文,我们了解到,局域网中的机器可以向另一局域网发出请求,在同一个局域网中的请求最后会抵达路由器或者交换机,最后再转发出去,而之所以请求都能到达一处,就在于他们所在的局域网中有一个统一的网关(Gateway)。
1.数据是如何到网关的
首先我们需要了解数据包中 MAC 头与 IP 头的结构:
我们知道,网络层总是一层套一层的,因此 MAC 包里包含 IP 包,MAC 头下会有 IP 头。
MAC 头的结构
在 MAC 头中,携带了源 MAC 与目标 MAC,此外还会携带一个协议类型,用于说明 MAC 包里头是 IP 协议包。
IP 头的结构
IP 协议会有版本号,即 IPv4 还是 IPv6;服务类型 TOS 用于选择 MAC 策略;TTL 用于设置数据包在网络中的存活时间;片偏移用于在数据分片的情况下指明当前数据片段在完成数据中的偏移位置;IP 层中有八位协议号,用于指明 IP 的上层协议,比如 ICMP 或者 UDP;最后是最重要的源 IP 和目标 IP。
当一个至少包含 IP 和 MAC 包的数据包在网络层传输时:
- 机器需要根据 IP 和子网掩码进行与运算判断源 IP 与目标 IP 是否在同一网段,如果在同一网段,就直接发起 ARP 请求获取目标 MAC,而如果不在目标网段,就需要发往网关,让网关找到一个合适的地方进行广播。
- 网关的 IP 一般都是源 IP 所在网段的第一个或者第二个地址,比如
192.168.0.0/8
的 IP,它所在网段的网关 IP 往往是192.186.0.1
或者192.168.0.2
。 - 发送过程,由于 ARP 无法直接获得不在同一网段中机器的 MAC,因此会在设置好 IP 头以后,通过 ARP 获得网关的 MAC 地址,然后将目标 MAC 设置为网关,然后包发送以后就会被网关收到。
因此,网关其实可以理解为路由器的一个网口,他是一个局域网通往另一个局域网的出口,并不等于路由器或者交换机,如果一台三层设备连接了多个局域网,那么每个局域网都会在设备上有一个网关。
2.静态路由
网关在拿到一个数据包以后,会拆开数据包拿出 IP 头和 MAC 头,根据不同的路由算法,决定要把包路由到哪——即加上下一个目的地的 IP 和 MAC。
而路由策略大致分为两类:静态路由和动态路由。
对于静态路由,它相当于在路由器上配置好的规则,对于某一固定的目的地,从几号出口出去,下一条的哪个 IP.....等等,这些的固定死的,当网关拿到数据以后,就会去匹配规则,当匹配到了就根据规则对数据包进行路由。
二、数据是如何从网关路由的
通过前文,我们不难理解,如果我们需要先走网关,那么由于网关也是一个设备,发起请求是目标 MAC 必然是网关 MAC。而 IP 却不一样,如果网关转发过程不改变 IP,则我们称其为转发网关,反之,则称其为 NAT 网关,也就是 Network Address Translation。
1.转发网关
假如我们现在有这么一个网络结构,192.168.1.101/24
想要请求 192.168.4.101/24
,那么有:
服务器 A 要请求不在同一局域网中的服务器 B,根据默认网关配置,它将目标 IP 设置为服务器 B 的 IP,通过 ARP 获取路由器 A 的 MAC,将包发送至路由器 A 上的网关
192.168.1.1/24
。现在数据包格式为:1
2
3
4源MAC:服务器A的MAC
目标MAC:路由器A的MAC
源IP:服务器A的IP
目标IP:服务器B的IP路由器 A 根据规则匹配,发现下一跳需要从
192.168.56.1/24
这个网关出去,发给路由器 B 上的192.168.56.2/24
网关,于是发起 ARP 请求,获取路由器 B 的 MAC,将数据包的源 MAC 换为路由器 A 的 MAC,将数据包的目标 MAC 换为路由器 B 的 MAC,然后发给192.168.56.2/24
。现在数据包格式为:1
2
3
4源MAC:路由器A的MAC
目标MAC:路由器B的MAC
源IP:服务器A的IP
目标IP:服务器B的IP现在路由器 B 收到了数据包,然后它发现目标 IP 跟自己在同一网段,于是就发送 ARP 请求获取服务器 B 的 MAC,然后将数据包的源 MAC 换为路由器 B 的 MAC,将数据包的目标 MAC 换为服务器 B 的 MAC。现在数据包格式为:
1
2
3
4源MAC:路由器B的MAC
目标MAC:服务器B的MAC
源IP:服务器A的IP
目标IP:服务器B的IP
可以看到,在整个转发过程中,数据包只改变目标 MAC 和源 MAC,目标 IP 和源 IP 是不会改变的。
2.NAT网关
假如我们现在有 LAN A 和 LAN B,服务器 A 和 服务器 B 在各自的 LAN 中 IP 地址是一样的,现在服务器 A 要请求 服务器 B:
由于 LAN A 和 LAN B 不再在一个体系中的,因而当服务器 A 访问服务器 B 的时候,需要服务 B 有一个全局有效的身份,我们姑且叫全局 IP,是
192.168.56.2
,他与路由器 B 记录中的189.168.1.101/24
对应。现在,服务器 A 通过 ARP 请求获取到了路由器 A 的 MAC,然后发给路由器 A 上 IP 为
192.168.1.1
的网关。现在现在数据包格式为:1
2
3
4源MAC:服务器A的MAC
目标MAC:路由器A的MAC
源IP:服务器A的IP(192.168.101.5/24)
目标IP:服务器B的全局IP(192.168.56.2)路由器 A 通过网关收到的数据包,根据规则匹配,要从
192.168.56.1/24
这个网关出去,发给路由器 B 的192.168.1.1
这个网关,因此路由器 A 通过 ARP 获取路由器 B 的 MAC。由于现在要出去了,服务器 A 也要和服务器 B 一样有一个全局 IP,我们认为它是192.168.56.1
。现在现在数据包格式为:1
2
3
4源MAC:路由器A的MAC
目标MAC:路由器B的MAC
源IP:服务器A的全局IP(192.168.56.1)
目标IP:服务器B的全局IP(192.168.56.2)接着,路由器 B 也是一个 NAT 网关,他上面配置了服务器 B 的内网 IP 和全局 IP 的对照关系,因此将全局 IP 转为内网 IP
192.168.1.101
,发现网段和自己一样,于是直接发送 ARP 请求,获取服务器 B 的 MAC,然后把包发给它。现在现在数据包格式为:1
2
3
4源MAC:路由器B的MAC
目标MAC:服务器B的MAC
源IP:服务器A的全局IP(192.168.56.1)
目标IP:服务器B的IP(192.168.56.2)
可以看到,NAT 网关之所以需要改变 IP,主要是为了将内网 IP 转为全局 IP,放到现实里,实际上就是将其转为公网 IP。
3.NAPT协议
按照上面的逻辑,我们似乎可以看出,NAT 网关是会把内网 IP 转为对应的公网 IP 的,但是实际上公网 IP 根本不可能人手一个,做不到一个内网 IP 对应一个 公网 IP,因此最好的选择就是基于一个公网 IP,根据端口再映射到不同的内网 IP 上,也就是用 NAPT 协议。
NAPT 全称 Network Address Port Translation,即网络地址端口转换,它可以将内网IP + 端口号映射到一个公网 IP + 端口号,实现了一个公网 IP 对应多个内网 IP,因此也叫一对多 NAT。
三、动态路由算法
上面举的例子全是基于静态路由,实际上现实里的网络是一个复杂的图状结构,起点的路由到终点的路由中间可能会有非常多的路线可以进行选择。
由于路线很多,因此我们需要想办法求出最短路径,一般有 Bellman-Ford 算法和 Dijkstra 算法两种算法。
1.距离矢量路由算法
根据 Bellman-Ford 的思想有距离矢量路由算法,这种算法的思路的每个路由器都保存一张路由表,记录到达某一个路由器需要走那条路线,距离是多少,也就是说,一个路由器需要记住到达所有路由节点的路线信息。
然后每隔几秒,路由器都将自己的路由表发送给邻居,邻居也是如此,然后根据自己到邻居的距离 X,与邻居到布标节点的距离 Y,就可以算出自己到达目标节点的距离是 X+Y。
通过实时更新,保证路由表上记录的路线永远是最短路线。
但是这样的问题在于:
- 第一,如果节点加入了,那么网络很快就可以根据新加入的节点更新路由表,但是如果一个节点挂了,由于挂掉的节点不会广播,因此只有实际真的有路由器访问的时候才会更新数据。
- 第二,如果整个网络非常大,节点非常多,那么路由表就会很大,每隔几秒所有的节点都要传输完整的路由表,对网络的压力非常大。最早的路由协议 RIP 协议就是基于这个算法
2.链路状态路由算法
基于 Dijkstra 算法,有了链路状态路由算法。
这种算法的思路是,当一个路由器启动的时候,他会发现邻居,他跟邻居发送消息并且邻居响应以后,说明他跟邻居之间的路是通的,然后就会发起广播,让所有的路由节点记住他跟邻居的链路状态。以此类推,路由节点会不断的广播他跟邻居的关系,慢慢的就可以在路由表中构建起来完整的网络结构。然后根据这个图,使用 Dijkstra 算法寻找最短路径并记录。
链路状态路由算法的好处在于,他只广播更新的结构,对网络的负载压力更小,并且这样不管是新增节点还是删除节点,网络都能很快的做出响应。
四、动态路由协议
2.基于距离矢量路由算法的 BGP
外网的路由协议,也即国家之间的,我们称为外网路由协议(Border Gateway Protocol,简称 BGP)。
由于国家间网络的复杂情况,有些时候是没有办法完全按照最短路径选择路由方向的,因此,对于每一个数据中心,都会设置自己的策略,比如对外暴露哪些 IP,哪些路由节点可以通过,哪些不行。
因此,在网络中,国家范围的网络称为一个自治系统 AS(Autonomous System):
- Stub AS:对外只有一个连接。这类 AS 不会传输其他 AS 的包。例如,个人或者小公司的网络。
- Multihomed AS:可能有多个连接连到其他的 AS,但是大多拒绝帮其他的 AS 传输包。例如一些大公司的网络。
- Transit AS:有多个连接连到其他的 AS,并且可以帮助其他的 AS 传输包。例如主干网。
每个自治系统都有边界路由器,通过它和外面的世界建立联系。
BGP 又分为两类,eBGP 和 iBGP。
自治系统间,边界路由器之间使用 eBGP 广播路由。内部网络也需要访问其他的自治系统。边界路由器如何将 BGP 学习到的路由导入到内部网络呢?就是通过运行 iBGP,使得内部的路由器能够找到到达外网目的地的最好的边界路由器。
BGP 协议使用的算法是路径矢量路由协议(path-vector protocol)。它是距离矢量路由协议的升级版。
前面说了距离矢量路由协议的缺点。其中一个是收敛慢。在 BGP 里面,除了下一跳 hop 之外,还包括了自治系统 AS 的路径,从而可以避免坏消息传得慢的问题,也即上面所描述的,B 知道 C 原来能够到达 A,是因为通过自己,一旦自己都到达不了 A 了,就不用假设 C 还能到达 A 了。另外,在路径中将一个自治系统看成一个整体,不区分自治系统内部的路由器,这样自治系统的数目是非常有限的。就像大家都能记住出去玩,从中国出发先到韩国然后到日本,只要不计算细到具体哪一站,就算是发送全局信息,也是没有问题的
1.基于链路状态路由算法的 OSPF
OSPF 全称 Open Shortest Path First,即开放式最短路径优先。他是基于链路状态路由算法的路由协议,被广泛运用在数据中心中。
我们知道,很多时候我们可以在一个网络中找到多条最短路径,OSPF 会在多条最短路径中进行负载均衡,因而也叫等价路由。
有了 OSPF,就可以配合引用层的负载均衡实现高吞吐量的接入层设计。
五、总结
网关是一个局域网访问外部网络必须经过的一个关卡,他跟路由器的网口对应,一般而言,一个局域网的网关默认是这个局域网里的第一个或者第二个 IP。
根据数据包是否会在经过网关的时候改变源 IP 和目标 IP,分为抓发网关和 NAT 网关。转发网关只改变 MAC,而 NAT 网关由于需要访问外网,需要在数据包经过网关的时候将内网 IP 与外网 IP 互相转换,因此需要改变 IP。
实际上,一般不会出现内网 IP 和外网 IP 一对一的情况,为了共用一个公网 IP,需要用 NAPT 协议,通过将不同的内网 IP + 端口号路由到不同的公网 IP + 端口号。