Linux的高级路由和流量控制HOWTO（1）

Linux的高级路由和流量控制HOWTO
中文版

Bert Hubert

Netherlabs BV
bert.hubert@netherlabs.nl
Gregory Maxwell (章节作者)
remco%virtu.nl
Remco van Mook (章节作者)
remco@virtu.nl
Martijn van Oosterhout (章节作者)
kleptog@cupid.suninternet.com
Paul B Schroeder (章节作者)
paulsch@us.ibm.com
Jasper Spaans (章节作者)
jasper@spaans.ds9a.nl
Pedro Larroy (章节作者)
piotr%omega.resa.ed

一个非常上手的关于iproute2、流量整形和一点netfilter的指南。

译者序
可以说，翻译这篇文档的过程就是我重新学习Linux的过程。与原文的作者感受相似，当我根据这篇文档大致了解了Linux在IP方面的功能后，绝对是“it really blew me away！”。才发现我以前一直是把Linux当成UNIX来用，Linux本身很多精彩的功能都被我忽略了。
看来Linux在路由方面的设计的确非常独到。
但愿这篇文章的内容能够对您应用Linux有所帮助。
本文档的原作实际上还尚未完成，估计要等到Linux的2.6版内核发布之后才能最终定稿。但是我已经等不及了，非常希望尽快与各位共享这篇文档。如果这篇文档的原作完成，我会尽力追踪翻译。
这里是本HOWTO的正规出处。
由于本人的英语和语文都是业余水平，有两三处晦涩或者与技术无关的内容没有翻译，希望英语高手予以指点。如有词不达意甚至理解错误之处，非常渴望您能通过Email告知！谢谢！
2/15/2003 5:28 PM 译毕
JohnBull
目录
第1章贡献 1
第2章简介 2
2.1. 除外责任与许可 2
2.2. 预备知识 2
2.3. LINUX能为你做什么 3
2.4. 内务声明 3
2.5. 访问、CVS和提交更新 4
2.6. 邮件列表 4
2.7. 本文档的布局 4
第3章介绍 IPROUTE2 6
3.1 为什么使用 IPROUTE2? 6
3.2 IPROUTE2 概览 6
3.3 先决条件 6
3.4 浏览你的当前配置 7
3.4.1. 让ip显示我们的链路 7
3.4.2. 让ip显示我们的 IP 地址 7
3.4.3. 让ip显示路由 8
3.5. ARP 9
第4章规则——路由策略数据库 11
4.1. 简单的源策略路由 11
4.2. 多重上连ISP的路由 12
4.2.1. 流量分割 13
4.2.2. 负载均衡 14
第5章 GRE 和其他隧道 15
5.1. 关于隧道的几点注释 15
5.2. IP-IN-IP 隧道 15
5.3. GRE 隧道 16
5.3.1. IPv4隧道 16
5.3.2. IPv6隧道 18
5.4. 用户级隧道 18
第6章用CISCO和6BONE实现IPV6隧道 19
6.1. IPV6隧道 19
第7章 IPSEC:INTERNET上安全的IP 22
7.1. 从手动密钥管理开始 22
7.2. 自动密钥管理 25
7.2.1. 理论 26
7.2.2. 举例 26
7.2.3. 使用X.509证书进行自动密钥管理 29
7.3. IPSEC隧道 32
7.4. 其它IPSEC软件 33
7.5. IPSEC与其它系统的互操作 33
7.5.1. Windows 33
第8章多播路由 34
第9章带宽管理的队列规定 36
9.1. 解释队列和队列规定 36
9.2. 简单的无类队列规定 37
9.2.1. pfifo_fast 37
9.2.2. 令牌桶过滤器(TBF) 39
9.2.3. 随机公平队列(SFQ) 41
9.3. 关于什么时候用哪种队列的建议 42
9.4. 术语 43
9.5. 分类的队列规定 45
9.5.1. 分类的队列规定及其类中的数据流向 45
9.5.2. 队列规定家族：根、句柄、兄弟和父辈 45
9.5.3. PRIO队列规定 46
9.5.4. 著名的CBQ队列规定 48
9.5.5. HTB(Hierarchical Token Bucket, 分层的令牌桶) 54
9.6. 使用过滤器对数据包进行分类 55
9.6.1. 过滤器的一些简单范例 56
9.6.2. 常用到的过滤命令一览 57
9.7. IMQ(INTERMEDIATE QUEUEING DEVICE,中介队列设备) 58
9.7.1. 配置范例 58
第10章多网卡的负载均衡 60
10.1. 告诫 61
10.2. 其它可能性 61
第11章 NETFILTER和IPROUTE——给数据包作标记 62
第12章对包进行分类的高级过滤器 64
12.1. U32分类器 65
12.1.1. U32选择器 65
12.1.2. 普通选择器 66
12.1.3. 特殊选择器 67
12.2. 路由分类器 67
12.3. 管制分类器 68
12.3.1. 管制的方式 68
12.3.2. 越限动作 69
12.3.3. 范例 70
12.4. 当过滤器很多时如何使用散列表 70
第13章内核网络参数 72
13.1. 反向路径过滤 72
13.2. 深层设置 73
13.2.1. ipv4一般设置 73
13.2.2. 网卡的分别设置 78
13.2.3. 邻居策略 79
13.2.4. 路由设置 80
第14章不经常使用的高级队列规定 82
14.1. BFIFO/PFIFO 82
14.1.1. 参数与使用 82
14.2. CLARK-SHENKER-ZHANG算法 (CSZ) 82
14.3. DSMARK 83
14.3.1. 介绍 83
14.3.2. Dsmark与什么相关？ 83
14.3.3. Differentiated Services指导 84
14.3.4. 使用Dsmark 84
14.3.5. SCH_DSMARK如何工作 84
14.3.6. TC_INDEX过滤器 85
14.4. 入口队列规定 87
14.4.1. 参数与使用 87
14.5. RED(RANDOM EARLY DETECTION，随机提前检测) 87
14.6. GRED(GENERIC RANDOM EARLY DETECTION,一般的随机提前检测) 88
14.7. VC/ATM模拟 89
14.8. WRR(WEIGHTED ROUND ROBIN，加权轮转) 89
第15章方便菜谱 90
15.1. 用不同的SLA运行多个网站。 90
15.2. 防护SYN洪水攻击 90
15.3. 为防止DDOS而对ICMP限速 91
15.4. 为交互流量设置优先权 92
15.5. 使用NETFILTER、IPROUTE2和SQUID实现WEB透明代理 93
15.5.1. 实现之后的数据流图 96
15.6. 与PMTU发现有关的“基于路由的MTU设置” 96
15.6.1. 解决方案 97
15.7. 与PMTU发现有关的MSS箝位（给ADSL，CABLE，PPPOE和PPTP用户） 98
15.8. 终极的流量控制：低延迟、高速上/下载 98
15.8.1. 为什么缺省设置不让人满意 99
15.8.2. 实际的脚本(CBQ) 100
15.8.3. 实际的脚本(HTB) 102
15.9. 为单个主机或子网限速 103
15.10. 一个完全NAT和QOS的范例 104
15.10.1. 开始优化那不多的带宽 104
15.10.2. 对数据包分类 106
15.10.3. 改进设置 107
15.10.4. 让上面的设置开机时自动执行 108
第16章构建网桥以及用ARP代理构建伪网桥 109
16.1. 桥接与IPTABLES的关系 109
16.2. 桥接与流量整形 109
16.3. 用ARP代理实现伪网桥 109
16.3.1. ARP和ARP代理 110
16.3.2. 实现 110
第17章动态路由——OSPF和BGP 112
17.1. 用ZEBRA设置OSPF 112
17.1.1. 必要条件 113
17.1.2. 配置Zebra 113
17.1.3. 运行Zebra 115
第18章其它可能性 117
第19章进一步学习 119
第20章鸣谢 120

第1章贡献
本文档的成形得益于很多人的贡献，我希望能够回报他们。列出其中几个：
. Rusty Russell

. Alexey N. Kuznetsov

. 来自Google的一些好心人

. Casema Internet的工作人员

第2章简介
欢迎，亲爱的读者。
希望这篇文档能对你更好地理解Linxs2.2/2.4的路由有所帮助和启发。不被大多数使用者所知道的是，你所使用工具，其实能够完成相当规模工作。比如route 和ifconfig，实际上暗中调用了非常强大的iproute 2的底层基本功能。
我希望这个HOWTO能够象Rusty Russell的作品那样通俗易懂。
你可以随时给HOWTO工作组发电子邮件来找到我们。但是如果您的问题并不直接与这个HOWTO文档相关，请首先考虑发给邮件列表(参考相关章节)。我们可不是免费的帮助平台，但我们经常会在邮件列表上回答问题。
在钻研这个HOWTO之前，如果您想做的只是一点简单的流量整形，不妨直接去看看其它可能性这一章里面的CBQ.init。
2.1. 除外责任与许可
这个文档依着对公众有利用价值的目的而发布，但不提供任何担保，即使是在经销或者使用在特定场合时的潜在担保。
简单地说，如果您的STM-64骨干网瘫痪，并向您尊敬的客户们散布黄色图片，对不起，那绝对不关我的事。
Copyright (c) 2002 所有：bert hubert、Gregory Maxwell、Martijn van Oosterhout、Remco van Mook、Paul B. Schroeder等等。这份材料可以在遵从Open Publication License, v1.0(或更新版)各项条款的前提下发布。Open Publication License的最新版可以在http://www.opencontent.org/openpub/ 得到。
请随意复制并发布(出售或者赠送)本文档，格式不限。只是请求将纠正和/或注解转发给文档的维护者。
还希望如果你出版本HOWTO的硬拷贝，请给作者们发一份以备复习之用。.
2.2. 预备知识
就像标题所暗示的，这是一个“高级”HOWTO。虽然它不是终极的航天科技，但还是要求一定的基础知识。
这里是一些可能对你有帮助的参考文献：
Rusty Russell的networking-concepts-HOWTO
非常精彩的介绍，解释了什么是网络以及一个网络如何与其它网络互联。
Linux Networking-HOWTO (以前叫做Net-3 HOWTO)
好东西，虽然非常冗长。它讲授的内容就是你连接到Internet所需的的配置内容。应该在/usr/doc/HOWTO/NET3-4-HOWTO.txt中，也可以在线阅读。
2.3. Linux能为你做什么
一个小列表：
. 管制某台计算机的带宽

. 管制通向某台计算机的带宽

. 帮助你公平地共享带宽

. 保护你的网络不受DoS攻击

. 保护Internet不受到你的客户的攻击

. 把多台服务器虚拟成一台，进行负载均衡或者提高可用性

. 限制对你的计算机的访问

. 限制你的用户访问某些主机

. 基于用户账号(没错！)、MAC地址、源IP地址、端口、服务类型、时间或者内容等条件进行路由。

现在，很多人都没有用到这些高级功能。这有很多原因。比如提供的文档过于冗长而且不容易上手，而且流量控制甚至根本就没有归档。
2.4. 内务声明
关于这个文档有些事情要指出。当我写完这个文档的绝大部分的时候，我真的不希望它永远就是那个样子。我是一个坚信开放源代码的人，所以我希望你能够给我发回反馈、更新、补丁等等。所以你应该尽可以告知我你的手稿或者指出一些哪怕是无关紧要的错误，不必犹豫。如果我的英语有些晦涩，请原谅那不是我的母语，尽可以给我建议。
如果你认为自己更有资格维护某个章节，或者认为自己可以写作并维护一个新的章节，请您一定不要客气。这个HOWTO的SGML可以通过CVS得到，我估计肯定有很多人还在为它出力。
作为请求援助，你会在文档中发现很多“求助”的字样。我们永远欢迎您的补丁！无论您在哪里发现“求助”，都应该明白您正在踏入一个未知的领域。这并不是说在别的地方就没有错误，但您应该倍加小心。如果您确认了某些事情，请您一定通知我们，以便我们能够把“求助”的标记去掉。
关于这个HOWTO，I will take some liberties along the road. For example, I postulate a 10Mbit Internet connection, while I know full well that those are not very common.
2.5. 访问、CVS和提交更新
本HOWTO的规范位置在这里。
我们现在向全球开放了匿名CVS访问。从各个角度来说这都是一件好事。你可以轻松地升级到本HOWTO的最新版本，而且提交补丁也不再成为问题。
另外的好处是，这可以让作者在源码上独立地继续工作。
$ export CVSROOT=:pserver:anon@outpost.ds9a.nl:/var/cvsroot
$ cvs login
CVS password: [enter 'cvs' (without 's)]
$ cvs co 2.4routing
cvs server: Updating 2.4routing
U 2.4routing/lartc.db
如果您做了修改并希望投稿，运行：
cvs -z3 diff –uBb
然后把输出用电子邮件发给，我们就可以很轻松地把它集成进去了。谢谢！请确认你修改的是.db文件，其它文件都是通过它生成的。
提供了一个Makefile帮助您生成postscript、dvi、pdf、html和纯文本格式的文件。你可能需要安装docbook、docboot-utils、ghostscript和tetex等等支持软件才能生成各种格式的文本。
注意，不要更改2.4routing.sgml！那里面有旧版本的HOWTO。正确的文件是lartc.db。
2.6. 邮件列表
作者已经开始收到关于这个HOWTO越来越多的邮件了。为了把大家的兴趣条理化，已经决定启动一个邮件列表，让大家在那里互相探讨有关高级路由和流量控制的话题。你可以在这里进行订阅。
需要指出的是，作者们对于列表中没有问及的问题不可能及时回答。我们愿意让列表的归档成为一个知识库。如果你有问题，请搜索归档，然后在post到邮件列表里。
2.7. 本文档的布局
我们几乎马上就要做一些有趣的实验，也就意味着最开始部分的基本概念解释并不完整或者不完善，请您不必管它，后面会一点点说清楚。
路由和包过滤是完全不同的概念。关于过滤的问题，Rusty的文档说得很清楚，你可以在这里找到：
. Rusty出色的不可靠指南

我们则将致力于netfilter与iproute2相结合后能做什么。

第3章介绍 iproute2
3.1 为什么使用 iproute2?
现在，绝大多数 Linux 发行版和绝大多数 UNIX都使用古老的arp, ifconfig和route命令。虽然这些工具能够工作，但它们在Linux2.2和更高版本的内核上显得有一些落伍。比如，现在GRE隧道已经成为了路由的一个主要概念，但却不能通过上述工具来配置。
使用了iproute2，隧道的配置与其他部分完全集成了。
2.2 和更高版本的Linux 内核包含了一个经过彻底重新设计的网络子系统。这些新的代码让Linux在操作系统的竞争中取得了功能和性能上的优势。实际上，Linux新的路由、过滤和分类代码，从功能和性能上都不弱于现有的那些专业的路由器、防火墙和流量整形产品。
随着新的网络概念的提出，人们在现有操作系统的现有体系上修修补补来实现他们。这种固执的行为导致了网络代码中充斥着怪异的行为，这有点像人类的语言。过去，Linux模仿了SunOS的许多处理方式，并不理想。
这个新的体系则有可能比以往任何一个版本的Linux都更善于清晰地进行功能表达。
3.2 iproute2 概览
Linux有一个成熟的带宽供给系统，称为Traffic Control（流量控制）。这个系统支持各种方式进行分类、排序、共享和限制出入流量。
我们将从 iproute2 各种可能性的一个简要概览开始。
3.3 先决条件
你应该确认已经安装了用户级配置工具。这个包的名字在RedHat和Debian中都叫作“iproute”，也可以在这个地方找到：
ftp://ftp.inr.ac.ru/ip-routing/iproute2-2.2.4-now-ss??????.tar.gz
你也可以试试在这里找找最新版本。
iproute 的某些部分需要你打开一些特定的内核选项。应该指出的是，RedHat6.2及其以前的所有发行版中所带的缺省内核都不带有流量控制所需要的绝大多数功能。
而RedHat 7.2在缺省情况下能满足所有要求。
另外，确认一下你的内核支持netlink ，Iproute2需要它.
3.4 浏览你的当前配置
这听上去确实让人惊喜：iproute2已经配置好了！当前的ifconfig和route命令已经正在使用新的系统调用，但通常使用了缺省参数(真无聊)。
新的工具ip成为中心，我们会让它来显示我们的网卡配置。
3.4.1. 让ip显示我们的链路
[ahu@home ahu]$ ip link list
1: lo: mtu 3924 qdisc noqueue
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
2: dummy: mtu 1500 qdisc noop
    link/ether 00:00:00:00:00:00 brd ff:ff:ff:ff:ff:ff
3: eth0: mtu 1400 qdisc pfifo_fast qlen 100
    link/ether 48:54:e8:2a:47:16 brd ff:ff:ff:ff:ff:ff
4: eth1: mtu 1500 qdisc pfifo_fast qlen 100
    link/ether 00:e0:4c:39:24:78 brd ff:ff:ff:ff:ff:ff
3764: ppp0: mtu 1492 qdisc pfifo_fast qlen 10
    link/ppp
你的结果可能有所区别，但上述显示了我家里NAT路由器的情况。我将只解释输出中并非全部直接相关的部分。因为并不是所有部分都与我们的话题有关，所以我只会解释输出的一部分。
我们首先看到了 loopback 接口。 While your computer may function somewhat without one, I'd advise against it. MTU (最大传输单元)尺寸为 3924 字节，并且不应该参与队列。这是因为 loopback 接口完全是内核想象出来的、并不存在的接口。
现在我们跳过这个无关的接口，它应该并不实际存在于你的机器上。然后就是两个物理网络接口，一个接在我的 cable modem 上，另一个接到我家里的以太网端上。再下面，我们看见了一个 ppp0 接口。
应该指出，我们没有看到 IP 地址。iproute 切断了“链路”和“IP 地址”两个概念的直接联系。当使用 IP 别名的时候，IP地址的概念显得更加不相关了。
尽管如此，还是显示出了标识以太网卡硬件的 MAC 地址。
3.4.2. 让ip显示我们的 IP 地址
[ahu@home ahu]$ ip address show
1: lo: mtu 3924 qdisc noqueue
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 brd 127.255.255.255 scope host lo
2: dummy: mtu 1500 qdisc noop
    link/ether 00:00:00:00:00:00 brd ff:ff:ff:ff:ff:ff
3: eth0: mtu 1400 qdisc pfifo_fast qlen 100
    link/ether 48:54:e8:2a:47:16 brd ff:ff:ff:ff:ff:ff
    inet 10.0.0.1/8 brd 10.255.255.255 scope global eth0
4: eth1: mtu 1500 qdisc pfifo_fast qlen 100
    link/ether 00:e0:4c:39:24:78 brd ff:ff:ff:ff:ff:ff
3764: ppp0: mtu 1492 qdisc pfifo_fast qlen 10
    link/ppp
    inet 212.64.94.251 peer 212.64.94.1/32 scope global ppp0
这里包含了更多信息。显示了我们所有的地址，以及这些地址属于哪些网卡。“inet”表示Internet (IPv4)。还有很多其它的地址类型，但现在还没有涉及到。
让我们先就近看看eth0。上面说它与IP地址10.0.0.1/8相关联。这是什么意思呢？“/8”表示IP地址表示网络地址的位数。因为一共是32个bit，所以我们的这个网络有了24 bit的主机空间。 10.0.0.1 的开始8bit是10.0.0.0,也就是我们的网络地址，我们的子网掩码是255.0.0.0。
其它的bit直接连接在这个网卡上，所以10.250.3.13可以直接通过eth0联络到，就象10.0.0.1一样。
对于ppp0，仍是相同的概念，虽然数字看上去有所不同。它的地址是212.64.94.251，不带子网掩码。这意味着这是一个点到点的连接，而且除了212.64.94.251之外的地址是对端的。当然，还有很多信息。它还告诉我们这个链路的另一端只有一个地址：212.64.94.1。/32意思是说没有表示网络的bit。
掌握这些概念是绝对重要的。如果有问题，不妨先参考以下这个HOWTO文件开头曾经提到的那些文档。
你应该注意到了“qdisc”，它是基于对列规范的一个概念。它在后面会变得很重要。
3.4.3. 让ip显示路由
好的，现在我们已经知道如何找到10.x.y.z了，然后我们就可以到达212.64.94.1。但这还不够，我们还得说明如何找到全世界。可以通过我们的ppp连接找到Internet，212.64.94.1愿意把我们的数据包发给全世界，并把回应的数据包传回给我们。
[ahu@home ahu]$ ip route show
212.64.94.1 dev ppp0  proto kernel  scope link  src 212.64.94.251
10.0.0.0/8 dev eth0  proto kernel  scope link  src 10.0.0.1
127.0.0.0/8 dev lo  scope link
default via 212.64.94.1 dev ppp0
字面的意思相当清楚。前4行的输出明确地说明了ip address show的意思，最后一行说明了世界的其它部分可以通过我们的缺省网关212.64.94.1找到。我们通过“via”这个词断定这是一个网关，我们要把数据包交给它。这就是我们要留心的问题
下面列出以前route 命令的输出作为参考：
[ahu@home ahu]$ route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use
Iface
212.64.94.1     0.0.0.0         255.255.255.255 UH    0      0        0 ppp0
10.0.0.0        0.0.0.0         255.0.0.0       U     0      0        0 eth0
127.0.0.0       0.0.0.0         255.0.0.0       U     0      0        0 lo
0.0.0.0         212.64.94.1     0.0.0.0         UG    0      0        0 ppp0
3.5. ARP
ARP 是由 RFC 826 所描述的“地址解析协议”。ARP是网络上的计算机在居域网中用来解析另一台机器的硬件地址/位置的时候使用的。互联网上的机器一般都是通过机器名解析成IP地址来互相找到的。这就能够解决foo.com网络能够与bar.net网络通讯。但是，仅仅依靠IP地址，却无法得到一台计算机在一个网络中的物理位置。这时候就需要ARP。
让我们举一个非常简单的例子。假定我有一个网络，里面有几台机器。其中的两台在我的子网上，一台叫foo，IP地址是10.0.0.1，另一台叫bar，IP地址是10.0.0.2。现在，foo想ping一下bar看看是不是正常，但是呢，foo只知道bar的IP地址，却并不知道bar的硬件(MAC)地址。所以foo在ping bar之前就会先发出ARP询问。这个ARP询问就像在喊：“Bar(10.0.0.2)!你在哪里(你的MAC地址是多少)？！” 结果这个广播域中的每台机器都能听到foo的喊话，但是只有bar(10.0.0.2)会回应。Bar会直接给foo发送一个ARP回应，告诉它“Foo (10.0.0.1)，我的Mac地址是00:60:94:E9:08:12”。经过这种简单的交谈，机器就能够在局域网中定位它要通话的对象。Foo会一直使用这个结果，直到它的ARP缓冲忘掉这个结果(在Unix系统上通常是15分钟之后)。
现在我们来看一看具体的工作过程。你可以这样察看你的ARP表（缓冲）：
[root@espa041 /home/src/iputils]# ip neigh show
9.3.76.42 dev eth0 lladdr 00:60:08:3f:e9:f9 nud reachable
9.3.76.1 dev eth0 lladdr 00:06:29:21:73:c8 nud reachable
你可以看到，我的机器 espa041 (9.3.76.41) 知道如何找到 espa042 (9.3.76.42) 和 espagate (9.3.76.1)。现在让我们往缓冲中添加另一台机器。
[root@espa041 /home/paulsch/.gnome-desktop]# ping -c 1 espa043
PING espa043.austin.ibm.com (9.3.76.43) from 9.3.76.41 : 56(84) bytes of data.
64 bytes from 9.3.76.43: icmp_seq=0 ttl=255 time=0.9 ms

--- espa043.austin.ibm.com ping statistics ---
1 packets transmitted, 1 packets received, 0% packet loss
round-trip min/avg/max = 0.9/0.9/0.9 ms

[root@espa041 /home/src/iputils]# ip neigh show
9.3.76.43 dev eth0 lladdr 00:06:29:21:80:20 nud reachable
9.3.76.42 dev eth0 lladdr 00:60:08:3f:e9:f9 nud reachable
9.3.76.1 dev eth0 lladdr 00:06:29:21:73:c8 nud reachable
由于espa041试图联络espa043，espa043的硬件地址已经添加到ARP缓冲里了。所以直到espa043的记录失效以前(也就是两个机器间长时间没有通讯)，espa041 知道如何找到espa043，也就不必频繁地进行ARP询问了。
现在让我们来删除 espa043 的ARP缓冲：
[root@espa041 /home/src/iputils]# ip neigh delete 9.3.76.43 dev eth0
[root@espa041 /home/src/iputils]# ip neigh show
9.3.76.43 dev eth0  nud failed
9.3.76.42 dev eth0 lladdr 00:60:08:3f:e9:f9 nud reachable
9.3.76.1 dev eth0 lladdr 00:06:29:21:73:c8 nud stale
现在espa041 已经忘记了espa043 的MAC地址，如果下次它要与espa043 通讯，需要再次发送 ARP询问。你在espagate (9.3.76.1) 上也会发现以上输出已经变成了"stale"状态。这意味着MAC地址仍然是在册，但是接下来第一次通讯的时候需要确认一下。

第4章规则——路由策略数据库
如果你有一个大规模的路由器，你可能不得不同时满足不同用户对于路由的不同需求。路由策略数据库可以帮助你通过多路由表技术来实现。
如果你想使用这个特性，请确认你的内核配置中带有 "IP: advanced router" 和 "IP: policy routing" 两项。
当内核需要做出路由选择时，它会找出应该参考哪一张路由表。除了 "ip" 命令之外，以前的 "route" 命令也能修改 main 和 local 表。
缺省规则：
[ahu@home ahu]$ ip rule list
0: from all lookup local
32766: from all lookup main
32767: from all lookup default
上面列出了规则的优先顺序。我们看到，所有的规则都应用到了所有的包上 (“from all”)。我们前面已经看到了 "main" 表，就是“ip route ls”命令的输出，但是“local”和“default”是初次见到。
如果我们想做点有趣的事情，就可以生成一些指向不同路由表的规则，取代系统中的路由规则。
对于内核如何处理一个IP包匹配多个规则的精确意义，请参见Alexey关于 ip-cref文档。
4.1. 简单的源策略路由
让我们再来一个真实的例子。我有两个Cable Modem，连接到了一个 Linux的NAT (“伪装”) 路由器上。这里的室友们向我付费使用 Internet。假如我其中的一个室友因为只想访问 hotmail 而希望少付一些钱。对我来说这没有问题, 他们肯定只能使用那个比较次的 Cable Modem。
那个比较快的cable modem 的IP地址是 212.64.94.251， PPP 链路，对端IP是212.64.94.1。而那个比较慢的cable modem 的IP 地址是212.64.78.148，对端是195.96.98.253。
local 表：
[ahu@home ahu]$ ip route list table local
broadcast 127.255.255.255 dev lo  proto kernel  scope link  src 127.0.0.1
local 10.0.0.1 dev eth0  proto kernel  scope host  src 10.0.0.1
broadcast 10.0.0.0 dev eth0  proto kernel  scope link  src 10.0.0.1
local 212.64.94.251 dev ppp0  proto kernel  scope host  src 212.64.94.251
broadcast 10.255.255.255 dev eth0  proto kernel  scope link  src 10.0.0.1
broadcast 127.0.0.0 dev lo  proto kernel  scope link  src 127.0.0.1
local 212.64.78.148 dev ppp2  proto kernel  scope host  src 212.64.78.148
local 127.0.0.1 dev lo  proto kernel  scope host  src 127.0.0.1
local 127.0.0.0/8 dev lo  proto kernel  scope host  src 127.0.0.1
有很多明显的事实，其实可能还需要进一步说明。好了，这样就行了。“default” 表为空。
让我们看看“main”路由表：
[ahu@home ahu]$ ip route list table main
195.96.98.253 dev ppp2  proto kernel  scope link  src 212.64.78.148
212.64.94.1 dev ppp0  proto kernel  scope link  src 212.64.94.251
10.0.0.0/8 dev eth0  proto kernel  scope link  src 10.0.0.1
127.0.0.0/8 dev lo  scope link
default via 212.64.94.1 dev ppp0
我们现在为我们的朋友创建了一个叫做“John”的规则。其实我们完全可以使用纯数字表示规则，但是不方便。我们可以向 /etc/iproute2/rt_tables 文件中添加数字与名字的关联：
# echo 200 John >> /etc/iproute2/rt_tables
# ip rule add from 10.0.0.10 table John
# ip rule ls
0: from all lookup local
32765: from 10.0.0.10 lookup John
32766: from all lookup main
32767: from all lookup default
现在，剩下的事情就是为 John 的路由表创建路由项了。别忘了刷新路由缓存：
# ip route add default via 195.96.98.253 dev ppp2 table John
# ip route flush cache
这样就做好了。至于如何在 ip-up 阶段实现就留给读者自己去研究吧。
4.2. 多重上连ISP的路由
下图是很常见的配置，同一个局域网（甚至是同一台计算机）通过两个ISP连接到互联网上。
                                                                 ________
                                          +------------+        /
                                          |            |       |
                            +-------------+    ISP 1   +-------
        __                  |             |            |     /
    ___/  _         +------+-------+     +------------+    |
  _/        __      |     if1      |                      /
/                  |              |                      |
|     局域网    -----+ Linux 路由器 |                      |     国际互联网
_           __/    |              |                      |
   __     __/       |     if2      |
      ___/          +------+-------+     +------------+    |
                            |             |            |
                            +-------------+    ISP 2   +-------
                                          |            |       |
                                          +------------+        ________
这种情况下通常会出现两个问题。
4.2.1. 流量分割
首先是如何保证：回应来自某一个ISP的数据包时，仍然使用相同的ISP。
让我们先定义一些符号。令第一块网卡(上图的if1)的名字叫 $IF1，而第二块网卡叫做 $IF2 。然后设置 $IF1 的IP地址为 $IP1，$IF2 的IP地址为 $IP2。并且，令ISP1 的网关地址为 $P1，ISP2 的网关地址为 $P2。最后，令$P1的网络地址为 $P1_NET ，令$P2的网络地址为 $P2_NET。
额外创建两个路由表， T1 和 T2。加入到 /etc/iproute2/rt_tables 中。然后如下设置两个路由表中的路由：
ip route add $P1_NET dev $IF1 src $IP1 table T1
ip route add default via $P1 table T1
ip route add $P2_NET dev $IF2 src $IP2 table T2
ip route add default via $P2 table T2

没什么大不了的，不过是建立了通向该网关的一条路由，并使之成为默认网关，分别负责一个单独的上行流，并且为这两个ISP都作这样的配置。要指出的是，那条网络路由是必要条件，因为它能够让我们找到那个子网内的主机，也包括上述那台网关。
下一步，我们设置“main”路由表。把包通过网卡直接路由到与网卡相连的局域网上不失为一个好办法。要注意“src” 参数，他们能够保证选择正确的出口IP地址。
ip route add $P1_NET dev $IF1 src $IP1
ip route add $P2_NET dev $IF2 src $IP2

然后，设置你的缺省路由：
ip route add default via $P1

接着，设置路由规则。这实际上在选择用什么路由表进行路由。你需要确认当你从一个给定接口路由出数据包时，是否已经有了相应的源地址：你需要保证的就是如果你已经有了相应的源地址，就应该把数据包从相应的网卡路由出去：
ip rule add from $IP1 table T1
ip rule add from $IP2 table T2

以上命令保证了所有的回应数据都会从他们来的那块网卡原路返回。
现在，完成了非常基本的配置。这将对于所有运行在路由器上所有的进程起作用，实现IP伪装以后，对本地局域网也将起作用。如果不进行伪装，那么你要么拥有两个ISP的地址空间，要么你想对两个ISP中的一个进行伪装。无论哪种情况，你都要添加规则，基于发包的主机在局域网内的IP地址，选择从哪个ISP路由出去。
4.2.2. 负载均衡
第二个问题是如何对于通过两个ISP流出的数据进行负载均衡。如果你已经成功地实现了流量分割，这件事并不难。
与选择两个ISP中的一个作为缺省路由不同，这次是设置缺省路由为多路路由。在缺省内核中，这会均衡两个ISP的路由。象下面这样做(基于前面的流量分割实验):
ip route add default scope global nexthop via $P1 dev $IF1 weight 1
nexthop via $P2 dev $IF2 weight 1

这样就可以均衡两个ISP的路由。通过调整“weight”参数我们可以指定其中一个ISP的优先权高于另一个。
应该指出，由于均衡是基于路由进行的，而路由是经过缓冲的，所以这样的均衡并不是100%精确。也就是说，对于一个经常访问的站点，总是会使用同一个ISP。
进而，如果你对此不满意，你可能需要参考以下Julian Anastasov的内核补丁：
http://www.linuxvirtualserver.org/~julian/#routes
Julian的路由补丁会弥补上述缺陷。

第5章 GRE 和其他隧道
Linux有3种隧道。它们是： IP-in-IP 隧道、 GRE 隧道和非内核隧道(如PPTP)。
5.1. 关于隧道的几点注释
隧道可以用于实现很多非常不一般而有趣的功能。但如果你的配置有问题，却也会发生可怕的错误。除非你确切地知道你在做什么，否则不要把缺省路由指向一个隧道设备。而且，隧道会增加协议开销，因为它需要一个额外的IP包头。一般应该是每个包增加20个字节，所以如果一个网络的MTU是1500字节的话，使用隧道技术后，实际的IP包长度最长只能有1480字节了。这倒不是什么原则性的问题，但如果你想使用隧道技术构建一个比较大规模的网络的话，最好仔细研究一下关于IP包的分片和汇聚的知识。哦，还有，挖一个隧道最好的方法当然是同时从两头挖。
5.2. IP-in-IP 隧道
这种隧道在Linux上已经实现很长一段时间了。需要两个内核模块：ipip.o 和 new_tunnel.o。
比如说你有3个网络：内部网A和B，中间网C(比如说：Internet)。A网络的情况：
网络地址 10.0.1.0
子网掩码 255.255.255.0
路由器 10.0.1.1
路由器在C网络上的地址是172.16.17.18。
B网络的情况：
网络地址 10.0.2.0
子网掩码 255.255.255.0
路由器 10.0.2.1
路由器在C网络上的IP地址是 172.19.20.21。
已知C网络已经连通，我们假定它会将所有的数据包从A传到B，反之亦然。而且你可以随便使用Internet。
这就是你要做的：
首先，确认模块是否加载：
insmod ipip.o
insmod new_tunnel.o
然后，在A网络的路由器上输入：
ifconfig tunl0 10.0.1.1 pointopoint 172.19.20.21
route add -net 10.0.2.0 netmask 255.255.255.0 dev tunl0
并且在B网络的路由器上输入：
ifconfig tunl0 10.0.2.1 pointopoint 172.16.17.18
route add -net 10.0.1.0 netmask 255.255.255.0 dev tunl0
如果你想中止隧道，输入：
ifconfig tunl0 down
简单之极！但是你不能通过IP-in-IP隧道转发广播或者IPv6数据包。你只是连接了两个一般情况下无法直接通讯的IPv4网络而已。至于兼容性，这部分代码已经有很长一段历史了，它的兼容性可以上溯到1.3版的内核。据我所知，Linux的IP-in-IP 隧道不能与其他操作系统或路由器互相通讯。它很简单，也很有效。需要它的时候尽管使用，否则就使用GRE。
5.3. GRE 隧道
GRE是最初由CISCO开发出来的隧道协议，能够做一些IP-in-IP隧道做不到的事情。比如，你可以使用GRE隧道传输多播数据包和IPv6数据包。在Linux下，你需要ip_gre.o模块。
5.3.1. IPv4隧道
让我们先来做一做IPv4隧道：
比如说你有3个网络：内部网A和B，中间网C(比如说：Internet)。A网络的情况：
网络地址 10.0.1.0
子网掩码 255.255.255.0
路由器 10.0.1.1
路由器在C网络上的地址是172.16.17.18。我们称之为neta。
B网络的情况：
网络地址 10.0.2.0
子网掩码 255.255.255.0
路由器 10.0.2.1
路由器在C网络上的IP地址是 172.19.20.21。我们称之为netb。
已知C网络已经连通，我们假定它会将所有的数据包从A传到B，反之亦然。至于原因，我们不考虑。
在A网络的路由器上，输入：
ip tunnel add netb mode gre remote 172.19.20.21 local 172.16.17.18 ttl 255
ip link set netb up
ip addr add 10.0.1.1 dev netb
ip route add 10.0.2.0/24 dev netb
让我们稍微讨论一下。第1行，我们添加了一个隧道设备，并且称之为netb(为了能够表示出这个隧道通向哪里)。并且表示要使用GRE协议 (mode gre),对端地址是172.19.20.21(另一端的路由器)，我们的隧道数据包发源于172.16.17.18(以便当你的路由器在C网络中拥有多个地址的时候，你可以指定哪一个应用于隧道) 并且包的TTL字段应设置为255(ttl 255)。
第2行，启用该隧道。
第3行，我们给这个新生的网卡配置了一个IP：10.0.1.1。对于小网络来说足够了，但如果你网络中的隧道多得象无证运营的小煤窑一样，你可能就要考虑给你的隧道规划一个单独的IP地址范围(在本例中，你可以使用10.0.3.0)。
第4行，我们为B网络设置了一条路由。注意子网掩码的另一种表示方法。如果你不熟悉这种表示，我就来解释一下：你把你的子网掩码写成二进制形式，数数里面由多少个1。如果你连这个也不会做，不妨就简单地记住：255.0.0.0 就是 /8，255.255.0.0 就是 /16， 255.255.255.0 就是 /24。
让我们再看看B网络的路由器。
ip tunnel add neta mode gre remote 172.16.17.18 local 172.19.20.21 ttl 255
ip link set neta up
ip addr add 10.0.2.1 dev neta
ip route add 10.0.1.0/24 dev neta
如果你想从A路由器中停止隧道，输入：
ip link set netb down
ip tunnel del netb
当然，你可以把netb换成neta，在B路由器上操作。
5.3.2. IPv6隧道
关于IPv6地址，请参看第6章第1节。
这就开始吧。
我们假设你有如下的IPv6网络，你想把它连接到6bone或者一个朋友那里。
Network 3ffe:406:5:1:5:a:2:1/96
你的IPv4地址是172.16.17.18，6bone 路由器的IPv4地址是172.22.23.24。
ip tunnel add sixbone mode sit remote 172.22.23.24 local 172.16.17.18 ttl 255
ip link set sixbone up
ip addr add 3ffe:406:5:1:5:a:2:1/96 dev sixbone
ip route add 3ffe::/15 dev sixbone
让我们来讨论一下。我们创建了一个叫做sixbone的隧道设备。我们设置它的模式是sit(也就是在IPv4隧道中使用IPv6)并且告诉它对端(remote)和本端 (local)在哪里。TTL设置为最大，255。接着，我们激活了这个设备(up)。然后，我们添加了我们自己的网络地址，并添加了一条通过隧道去往3ffe::/15 (现在全部属于6bone)的路由。
GRE隧道是现在最受欢迎的隧道技术。它也广泛地应用于Linux世界之外并成为一个标准，是个好东西。
5.4. 用户级隧道
在内核之外，还有很多实现隧道的方法，最闻名的当然要数PPP和PPTP，但实际上还有很多(有些是专有的，有些是安全的，有些甚至根本不用IP)，但那远远超出了本HOWTO所涉及的范围。

第6章用Cisco和6bone实现IPv6隧道
Marco Davids marco@sara.nl 著
NOTE to maintainer:
As far as I am concerned, this IPv6-IPv4 tunneling is not per definition GRE tunneling. You could tunnel IPv6 over IPv4 by means of GRE tunnel devices (GRE tunnels ANY to IPv4), but the device used here ("sit") only tunnels IPv6 over IPv4 and is therefore something different.
6.1. IPv6隧道
这是Linux隧道能力的另一个应用。这在IPv6的早期实现中非常流行。下面动手试验的例子当然不是实现IPv6隧道的唯一方法。然而，它却是在Linux与支持IPv6的CISCO路由器之间搭建隧道的常用方法，经验证明多数人都是照这样做的。八成也适合于你.。
简单谈谈IPv6地址：
相对于IPv4地址而言, IPv6地址非常大，有128bit而不是32bit。这让我们得到了我们需要的东西——非常非常多的IP地址。确切地说，有340,282,266,920,938,463,463,374,607,431,768,211,465个。同时，IPv6(或者叫Ipng，下一代IP)还能让Internet上的骨干路由器的路由表变得更小、设备的配置更简单、IP层的安全性更好以及更好地支持QoS。
例如: 2002:836b:9820:0000:0000:0000:836b:9886
写下一个IPv6地址确实是件麻烦事。所以我们可以使用如下规则来进行简化：
. 数字打头的零不要写，就像IPv4一样。

. 每16bit或者两个字节之间使用冒号分隔。

. 当出现很多连续的零时可简写成“::”。在一个地址中只能使用一次。

例如：地址2002:836b:9820:0000:0000:0000:836b:9886可以写成：2002:836b:9820::836b:9886，看上去更简单些。
另一个例子：地址3ffe:0000:0000:0000:0000:0020:34A1:F32C可以写成3ffe::20:34A1:F32C，要短得多。
IPv6将可能取代现有的IPv4。因为它采用了相对更新的技术，所以现在还没有全球范围的IPv6网络。为了能够平滑地过渡，引入了6bone计划。
IPv6网络中的站点通过现有的IPv4体系互联，把IPv6数据包封装在IPv4数据包中进行传输。
这就是为什么引入隧道机制的原因。
为了能够使用IPv6，我们需要一个能够支持它的内核。现在有很多文档都很好地说明了这个问题。不外乎以下几步：
. 找到一个新版的Linux发行版，要有合适的glibc库。

. 找到一份最新的内核源代码。

都准备好了以后，就可以继续编译一个带IPv6支持的内核了：
. cd /usr/src/linux

. make menuconfig

. 选择“Networking Options”

. 选择“The IPv6 protocol”、“IPv6: enable EUI-64 token format”， “IPv6: disable provider based addresses”

提示：不要编译成内核模块，那样经常会出问题。换句话说，就是把IPv6内置入内核。
然后你就可以象往常一样保存配置并编译内核了。
提示：在编译之前，可以修改一下Makefile，把EXTRAVERSION = -x变成EXTRAVERSION = -x-IPv6
有很多文档都很好地说明了如何编译并安装一个内核，我们这篇文档不是讨论这个问题的。如果你在这个过程中出现了问题，请参阅合适的资料。你可以先看看/usr/src/linux/README。
当你完成之后，用新的内核重启系统，你可以输入“/sbin/ifconfig -a”看看有没有新的“sit0-device”设备。SIT的意思是“简单Internet过渡”(Simple Internet Transition)。如果到这里没有问题，你就可以奖励自己了，你已经向着下一代IP网络迈进了一大步。
现在继续下一步。你需要把你的主机，或甚至整个局域网连接到另外一个IPv6网络上。这个网络很可能是“6bone”，它就是为了这个特定的目的而专门设立的。
让我们假定你有如下IPv6网络: 3ffe:604:6:8::/64，并且希望连接到6bone，或者其他地方。请注意，/64这个子网声明的意义与IPv4相同。
你的IPv4地址是145.100.24.181，6bone的路由器的IPv4地址是145.100.1.5。
# ip tunnel add sixbone mode sit remote 145.100.1.5 [local 145.100.24.181 ttl 255]
# ip link set sixbone up
# ip addr add 3FFE:604:6:7::2/126 dev sixbone
# ip route add 3ffe::0/16 dev sixbone
让我们讨论一下。第1行，我们创建了一个叫做sixbone的隧道。设置为sit (让IPv4隧道承载IPv6数据包)模式，并设置对端与本端IP。TTL设为最大——255。
下一步，我们激活(up)了这个设备。然后添加我们自己的网络地址，并设置利用隧道通往3ffe::/15 (which is currently all of 6bone) 的路由。如果你运行这个的这台机器是你的IPv6网关，就得考虑运行下面的命令：
# echo 1 >/proc/sys/net/ipv6/conf/all/forwarding
# /usr/local/sbin/radvd
下面的一行，radvd是一个类似于zebra的路由公告守护程序，用来支持IPv6的自动配置特性。如果感兴趣的话就用你最喜欢的搜索引擎找一找。你可以检查一下：
# /sbin/ip -f inet6 addr
如果你的Linux网关支持IPv6且运行了radvd，在局域网上启动后，你就可以享受IPv6的自动配置特性了：
# /sbin/ip -f inet6 addr
1: lo: mtu 3924 qdisc noqueue inet6 ::1/128 scope host

3: eth0: mtu 1500 qdisc pfifo_fast qlen 100
inet6 3ffe:604:6:8:5054:4cff:fe01:e3d6/64 scope global dynamic
valid_lft forever preferred_lft 604646sec inet6 fe80::5054:4cff:fe01:e3d6/10
scope link
你可以继续进行了，为IPv6配置你的bind。与A记录等价的，支持IPv6的记录类型是“AAAA”。与in-addr.arpa等价的是“ip6.int”。这方面可以找到很多信息。
支持IPv6的应用系统曾在增加，包括ssh、telnet、inetd、Mozilla浏览器、Apache WEB浏览器..。但那些都不是这个路由文档所应该涉及的。
作为Cisco系统，应该这样配置：
!
interface Tunnel1
description IPv6 tunnel
no ip address
no ip directed-broadcast
ipv6 address 3FFE:604:6:7::1/126
tunnel source Serial0
tunnel destination 145.100.24.181
tunnel mode ipv6ip
!
ipv6 route 3FFE:604:6:8::/64 Tunnel1
但如果你没有Cisco作为disposal，试试Internet上的众多IPv6隧道提供者之一。他们愿意在他们的Cisco设备上为你额外创建一个隧道。大部分是友好的WEB界面。用你常用的搜索引擎搜索一下“ipv6 tunnel broker”。