三层交换机在网上的应用越来越多,与传统的路由器加二层以太网交换机的组网方式比较,使用三层交换机可以明显的提高效率,降低成本,因为三层交换机在内部集成了路由功能和二层交换功能,并引入了一些其它机制和技术,使得转发效率特别高。 给人的初步印象就是,三层交换机就是一个路由器和二层交换机的集合体(二层交换机并不一定专门指以太网交换机,也可能提供其它类型局域网技术的交换,比如令牌环,FDDI等)。这样的看法有一定的道理,但是很肤浅。实际上,三层交换机在实现的时候,专门做了一些优化,引入了一些普通路由器上不存在的转发技术,使得三层交换机的效率特别高。总体来说,三层交换机有下列特点,在文章中我们会一一介绍: 1、三层交换机不但具有所有二层交换机的功能,比如基于MAC地址的数据帧转发,生成树协议,VLAN等,还具有三层功能,即能完成VLAN之间的三层互通; 2、一般三层交换机上都实现了三层精确查找,即根据数据帧的目的网络层地址直接检索内部的高速缓冲区,而传统的路由器进行的则是最长匹配查找,即根据数据帧的目的网络地址查找路由表,选择有最长匹配的作为转发依据; 3、专门针对局域网,特别是以太网进行优化,大部分三层交换机只提供以太网接口和ATM局域网仿真接口,有的三层交换机还提供了上行的高速接口,比如POS等,但路由器却接口种类丰富; 4、由于三层交换机可以在二层和三层对数据帧进行转发,于是一些特殊的应用又出现了,比如VLAN聚合,ARP代理等,这些应用在实际中应用很广泛; 5、伴随着一些特殊需求的出现,三层交换机并不仅仅局限于转发二层的以太网数据帧和三层的网络数据帧,而且集成了其它一些功能,比如DHCP Releay,服务质量,用户接入认证等。 在以上的特点中,最重要的就是第一条,在一些文章中,把第二条,即实现基于网络层地址(不是网络地址,而是主机的三层地址)的精确匹配查询作为三层交换机的最重要特点,在一些低端的三层交换机中,这是有道理的,因为如果不实现精确的三层匹配查询而象传统路由器那样仅仅依据最长匹配查询路由表,在以软件实现的这些设备中,效率是很低的,但如果在高端的三层交换机领域中,就不然了,因为实现的转发都是基于硬件的,即使使用最长匹配查询,其效率也不会有明显的降低,但如果这些高端交换机也实现了精确的三层匹配查询,效果会更明显。 在下面的章节中,我们详细讲述上述特点,并给出一些实际中的三层交换机的例子。为了突出重点,文章在每个小节的结束都给出了一个小结,读者只要深入理解这些小结的含义,就说明已经掌握了本文的核心概念,因而对三层交换机也有了一个大致的理解。 第二章 三层交换机基本特点 在概述部分中,我们给出了三层交换机的基本特点综述,主要有下列特点: 1、二层交换和三层互通 2、实现三层精确匹配查询 3、专门针对局域网,特别是以太网进行了优化 4、引入了一些在二层交换机和三层路由器上都不存在的特性 5、实现了初步的BAS功能 一般来说,只要能做到第一点,就可以称为三层交换机了,但目前大多数流行的三层交换机都不局限于第一点,而是实现了上述的大部分功能。因此,为了更好的理解三层交换机,接下来我们对上述特点进行详细讲述。 2.1 二层交换和三层互通 三层交换机首先是一个交换机,即完成二层交换功能。在以太网上,跟普通的二层交换机一样,三层交换机也维护一张用于二层交换的地址表(通常称为CAM表),该表是MAC地址与出接口的对应关系。这样每当接收到一个以太网数据帧,三层交换机判断如果该数据帧不是发送给自己的(这个概念很重要,至于三层交换机怎么判断,在下面的讲述中会详细说明),则根据数据帧的目的MAC地址查询CAM表,如果能命中(所谓命中,就是在CAM表中找到与该MAC地址对应的转发项),则根据查询的结果,通常是一个出接口列表,来进行转发。如果不能命中,则向所有端口广播该数据帧。 交换机的这张CAM表可以通过多种方式获得,比如静态配置,动态学习,针对多播还可以通过各种多播协议,比如IGMP窥探,GMRP协议等方式获得(注意,多播转发表不能通过学习获得,而且多播转发项跟普通转发项不同的是,跟其对应的出口可能不止一个,而是一个出口集合,如果想详细了解多播的一些基础概念,请参考前面的专题资料)。但对于单播,最重要的一种建立方式是学习。 当交换机接收到一个数据帧,提取出该数据帧的目的MAC地址,并依此为根据进行CAM表查询,如果能查找到结果,则根据结果进行数据帧的转发,如果不能命中,则(向除接收端口外的)所有端口进行复制。在进行数据转发的同时,交换机还进行一个学习的过程,交换机把数据帧的源MAC地址提取出来,查询CAM表,看CAM表中是否有针对该MAC地址的转发项,如果没有,则把该MAC地址和接收到该MAC地址的端口绑定起来,插入CAM表项,这样当接收到一个发送到该MAC地址的数据帧时,就不需要向所有端口广播,而仅仅向这一个端口发送即可。需要注意的是,数据帧的转发是依据目的MAC地址查询CAM表,而CAM表的学习则是以源MAC地址为依据。 交换机动态学习的CAM表项并不是一成不变的,而是启动一个定时器,当该定时器递减到零时,该CAM表项被删除,每使用一次该CAM表项进行转发,则恢复定时器初始值。 上述情况是没有VLAN的工作过程,现在的交换机一般都实现了VLAN(即虚拟局域网,详细内容请参考以太网的有关教程),这样在交换机进行转发的CAM表就进行了变化,由原来的两项对应关系(MAC地址跟接口)变成了三项对应关系(MAC地址,VLAN ID,出口),这样当接收到一个数据帧的时候,交换机根据数据帧的目的MAC地址和VLAN ID两项来查询CAM表,找到接口后把该数据帧转发出去。 但如果交换机根据MAC地址和VLAN ID查询CAM表失败,即没有跟该MAC和VLAN ID的对应关系,则交换机把该数据帧向该VLAN包含的(除接收端口以外的)所有端口上复制。如果只根据CAM表来确定一个VLAN包含哪些端口,则必须遍历整个CAM表,这样如果CAM表的规模非常大(一般情况下是4K以上),则效率特别低,所以一般的交换机上在实现VLAN时,还创建另外一张表,即VLAN配置表,该表包含了VLAN ID和所有端口的对应关系,即只要根据VLAN ID查询该表,就可以找到该VLAN包含的所有端口,这样在进行VLAN内广播的时候,就非常容易。 另外一个问题出现了,就是数据帧的VLAN ID是怎样获得的。交换机一般根据下列原则来给一个数据帧附加上VLAN ID: 1、如果接收到数据帧的端口是一个非TAG端口,且数据帧是一个普通数据帧,则附加上该端口的默认VLAN ID; 根据农基文的理解:当一个非TAG端口收到了一个数据帧,且含有VLAN ID时,做判断,如果VLAN ID=端口PVID,则可以接收;否则,丢弃。 2、如果接收到数据帧的端口是一个TAG端口,而数据帧是一个普通数据帧,则附加上该端口的默认VLAN ID; 3、如果接收到数据帧的端口是一个TAG端口,数据帧自己携带了VLAN ID(通过802.1Q协议),则该数据帧的VLAN ID就是携带的VLAN ID。 需要注意的是,实现VLAN的交换机在查询CAM表进行转发之前,首先给该数据帧附加上VLAN ID。 以上功能都是二层功能,作为一台三层交换机,上述功能是必须实现的,但三层交换机的最根本特点还是VLAN间的互通。 在三层交换机上,VLAN之间的互通是通过实现一个虚拟VLAN接口来实现的,即针对每个VLAN,交换机内部维护了一个与该VLAN对应的接口,该接口对外是不可见的,是一个虚拟的接口,但该接口有所有物理接口所具有的特性,比如有MAC地址,可配置最大传输单元和传输的以太网帧类型等。在上述的说明中,我们提到了当交换机接收到一个数据帧时,判断是不是发给自己的,判断的依据便是查看该MAC地址是不是针对接收数据帧所在VLAN的接口MAC地址,如果是,则进行三层处理,若不是,则进行二层处理,按照上述流程进行转发。 既然实现了三层转发,交换机必须维护一个三层转发表,该表可以是基于最长匹配查询的FIB表,也可以是基于目的网络层地址精确匹配的三层转发表,这跟实现的厂家设备有关。这样当交换机接收到一个数据帧,该数据帧的目的MAC地址跟该数据帧所在VLAN对应的VLAN接口的MAC地址相同,则进行三层转发。转发的过程是查询三层转发表,查找的结果是一个(或多个,当数据帧是多播的时候)出口和相应的二层封装数据,交换机于是把该数据帧所携带的三层数据帧(比如,是IP或IPX数据报)进行修改,比如修改校验和,在IP协议中还进行TTL字段递减,然后重新计算CHECKSUM,完成这些后,就把该三层数据包进行二层封装(根据三层转发表查找的结果),从相应的接口发送出去。 这个三层转发表的形成跟二层转发表(CAM表)的形成有很大的不同,它是通过查询路由表并经过其它协议(比如ARP协议)形成的。在后面介绍典型产品实例的时候,我们以例子来讲述三层转发表的形成。 & 本部分有下列要点: 1、三层交换机有二层交换机所有功能,比如基于MAC地址的过滤(也就是基于MAC地址的单播转发),生成树协议等; 2、三层交换机通过为每个VLAN分配一个VLAN接口完成VLAN之间的互通,VLAN接口有自己的MAC地址和IP地址,凡目的MAC地址是VLAN接口的数据帧,交换机都进行三层转发或自己接收—取决于目的IP地址是否是交换机的接口地址。 2.2 三层精确匹配查询 在路由器上,每当接收到一个数据报,路由器便进行路由表的查询来找出该数据报的下一跳,然后通过相应的接口发送出去。路由器查询路由表采用的是最长匹配算法,在以前的路由器中,最长匹配算法采用软件实现,而且实现起来非常复杂,导致了效率特别低。 我们可以设想,能否改变这种最长匹配的查找思想,而采用精确匹配的查找技术实现呢?可以引入一个高速缓冲区,用来存放精确查询所需要的信息(一般是三层IP地址跟出口的对应fib表,还关联有一些二层封装信息Arp表,比如链路层头等),当接收到一个需要进行三层转发的数据帧的时候,路由器先查询高速缓冲区(采用精确匹配算法,即直接根据目的IP地址进行索引),如果命中,则根据查询出的信息进行数据的转发,如果不能命中,则查询路由表(采用最长匹配算法),根据查询的结果进行转发,同时更新相应的精确查询缓冲区,这样当到达同一个目的地的数据报来的时候,就可以直接查询精确匹配缓冲区进行转发了。 跟CAM表一样,精确匹配查询项也有一个定时机制,超过了一定的时间限制就从缓冲区中删除掉,跟CAM表不同的是,三层精确匹配查询项跟路由表同步,每当路由表变化,必定修改精确转发缓冲区,来保证跟路由表的同步。 如果数据链路层是以太网,网络层是IP,则这个三层高速转发缓冲区是通过ARP协议建立的,我们说明它的工作过程。 开始的时候,三层交换机只有一张用于路由的路由表(该路由表是通过路由协议建立的),而精确匹配的三层转发表为空,这样当三层交换机接收到一个需要进行三层交换的数据帧时,它首先查询三层精确匹配缓冲区,因为三层转发表为空,查询失败,于是,三层交换机通过最长匹配算法查询路由表(根据数据报的目的IP地址),查询的结果是一个出口(一般是一个VLAN接口)和一个下一跳。于是,有两中可能的情况: 1、数据报的目的地址跟VLAN接口不在同一个网段; 2、数据报的目的地址跟VLAN接口在同一个网段。 在第一种情况下,三层交换机通过ARP解析来解析下一跳IP地址,获得下一跳的MAC地址后,三层交换机把接收的数据帧进行二层封装,然后发送给下一跳。在第二种情况下,三层交换机直接解析数据报的目的IP地址,获得目的IP地址对应的主机MAC地址后,直接把该数据帧发送给目的主机。不论哪种情况,交换机进行ARP解析的时候,都会获得一个IP地址跟出口的对应关系,同时还通过ARP协议获得了下一跳的MAC地址,于是,三层交换机会把这些数据组合成一个三层精确匹配项,并插入到三层精确匹配缓冲区里面。这样当到达同一目的地的数据报到来后,三层交换机使用精确匹配算法直接查询高速缓冲区,根据查询的结果进行转发。 需要说明的是,实现三层精确匹配并不是三层交换机必须具备的特性。在一些低端交换机的场合下,最长匹配查询采用软件实现,效率特别低,因而引入三层精确匹配算法,这是合理而且必须的,但对一些高端场合,就不适应了,在一些高端交换机上,最长匹配算法都是基于硬件实现的,而且采用了效率很高的树查找算法,其效率跟精确匹配算法相差无几,而且只采用最长匹配算法还减少了精确匹配缓冲区和路由表的同步问题,因而在一些基于硬件实现的三层交换机上,精确匹配不是必须的。在后面介绍典型实例分析的时候,我们会介绍仅仅采用最长匹配算法实现高端三层的交换机。 & 本部分有下列要点: 1、三层交换机为了提高效率,采用了精确匹配查找算法,在一些高端三层交换机上,该特性不是必须的,因为采用最长匹配查找算法的效率并不一定比采用精确匹配查找算法效率差。 2.3 针对局域网进行优化 传统的路由器提供丰富的接口种类,比如E1/T1,ISDN,Frame-Relay,X.25,POS,ATM,SMDS等,每种接口对应不同的封装类型,而且每种接口所对应的最大传输单元和最大接收单元都不相同,这样存在数据报分片的概率相当大,概括起来,这些特性使得路由器的转发效率特别低。 而三层交换机是由二层交换机发展起来的,而且其发展过程中一直遵循为局域网服务的指导思想,没有过多的引入其它接口类型,而只提供跟局域网有关的接口,比如以太网接口,ATM局域网仿真接口等,这样接口类型单纯,大部分情况下三层交换机只提供以太网接口,这样在多种类型接口路由器上所碰到的问题就彻底消除了,比如,最大传输单元问题,由于各个接口都是以太网接口,一般不存在冲突的问题,分片的概率就大大降低了。 接口类型单纯的另外一个好处就是在进行数据转发的时候,内部经过的路径比较单纯。现在的通信处理器一般都是集中在一块ASIC芯片上的,而且不同的接口类型有不同的ASIC芯片进行处理。这样如果接口类型比较单一,所需要的ASIC芯片就相对单一,交互起来必定流畅,使用ASIC芯片本身带的功能就可以完成多个接口之间的数据交换,但如果接口类型不统一,则必须有一个转换机构来完成这些芯片之间的数据交换,效率上大大影响。 目前成熟的以太网接口速率最高可以达到1G(虽然10G的以太网已经商用,但还不是很普遍),如果需要更高的速率,只能采用链路聚合的方式把几个GE端口聚合成一个物理端口,虽然逻辑上是可行的,但实现起来可能会遇到这样那样的问题,比如聚合的链路不能跨越同一块处理板,芯片本身的问题等,于是有些交换机抛弃了这种纯粹以太网接口的解决方案,而引入了其它的接口类型作为上行接口,比如STM-16的POS接口(2.5G POS接口)等。这些接口用于上行连接核心层设备。 |