session会话基础理论
本节大纲
何为会话保持
何时需要会话保持
会会话保持的分类
何为会话保持
会话保持是负载均衡最常见的问题之一,也是一个相对比较复杂的问题。会话保持有时候又叫做粘滞会话(Sticky Sessions)。会话保持是指在负载均衡器上的一种机制,可以识别客户端与服务器之间交互过程的关连性,在作负载均衡的同时还保证一系列相关连的访问请求会保持分配到一台服务器上
何时需要会话保持
在讨论这个问题前,我们必须先花点时间弄清楚一些概念:什么是连接(Connection)、什么是会话(Session),以及这二者之间的区别。需要特别强调的是,如果我们仅仅是谈论负载均衡,会话和连接往往具有相同的含义。
从简单的角度来看,如果用户需要登录,那么就可以简单的理解为会话;如果不需要登录,那么就是连接。
对于同一个连接中的数据包,负载均衡会将其进行NAT转换后,转发至后端固定的服务器进行处理。负载均衡系统内部会专门有一张表来记录这些连接的状况,包括:[源IP:端口]、[目的IP:端口]、[服务器IP:端口]、空闲超时时间(Idle Timeout)等等。由于负载均衡内部记录连接状态的这张表需要消耗系统的内存资源,因此这张表不可能无限大,所有传统厂商都会有一定的限制。这张表的大小一般称之为最大并发连接数,也就是系统同时能够容纳的连接数量。负载均衡的当前连接状态表项中,设计了一个空闲超时时间(Idle Timeout)的参数。当该连接在Idle Timeout内无流量通过时,负载均衡会自动删除该连接条目,释放系统资源。
删除连接后,客户端的请求将无法保证继续发往同一个后端服务器,需要遵循负载均衡器的流量分发策略。
在某些要求登录状态的情境下,要求客户端和服务器之间保持一个会话(session)以记录客户端的各种信息。比如在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中,一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的,服务器在进行这些交互过程的某一个交互步骤时往往需要了解上一次或上几次的交互过程处理结果,这就要求所有这些相关的交互过程都由一台服务器完成,而不能被负载均衡器分散到不同的服务器上否则可能出现异常情景:
客户端输入了正确的用户名和口令,但却反复跳到登录页面;
用户输入了正确的验证码,但是总提示验证码错误;
客户端放入购物车的物品丢失
…
因此会话保持机制的意义就在于,确保在合适的情境下,将来自相同客户端的请求转发至后端相同的服务器进行处理。换句话说,就是将客户端与服务器之间建立的多个连接,都发送到相同的服务器进行处理。如果在客户端和服务器之间部署了负载均衡设备,很有可能这多个连接会被转发至不同的服务器进行处理。如果服务器之间没有会话信息的同步机制,会导致其他服务器无法识别用户身份,造成用户在和应用系统发生交互时出现异常。
负载均衡希望将来自客户端的连接、请求均衡的转发至后端的多台服务器,以避免单台服务器负载过高;而会话保持机制却要求将某些请求转发至同一台服务器进行处理。因此,在实际的部署环境中,我们要根据应用环境的特点,选择适当的会话保持机制。
会话保持类型
会话保持大体可以分为三大类,session sticky,session LBcluster和session server,而这三种会话绑定方式又各有优缺点,适应不同的场景;
1 session sticky
Session sticky,即会话绑定,即将客户端的访问通过某种算法将它调度至固定的服务器上,而这种实现方式主要是由调度器的调度算法来实现的,像在Nginx反向代理功能中就提供了ip_hash(每个请求按访问ip结果分配。这样来自同一个ip的访问将被调度到同一台服务器上,有效解决的动态网页存在的session共享问题。),url_hash(此方法是按照访问url的hash结果来分配请求,使每一个url定向到同一个后端服务器,可以进一步提高后端缓存服务器的效率。Nginx本身是不支持url_hash算法的)以及更加强大的一致性hash算法。这种调度方式是基于四层的会话调度,这种调度粒度很粗。
会话绑定中一个很重要的参数就是连接超时值,负载均衡器会为每一个处于保持状态中的会话设定一个时间值。若一个会话从上一次完成到下次再来之间的间隔时间小于超时值时,负载均衡器将会将新的连接进行会话保持;但如果这个间隔大于该超时值,负载均衡器会将新来的连接认为是新的会话然后进行负载平衡。这种会话话保持实现简单,只需要根据数据包三四层的信息就可以实现,效率比较高。
但此种方式存在的问题就在于,当多个客户端通过代理或地址转换的方式访问服务器时,由于来源地址一样,请求都被分配到同一台服务器上,会导致服务器之间的负载严重失衡。另外一种情况是,同一个客户端产生大量并发,要求分配到多个服务器上处理的同时进行会话保持。这时基于客户端源地址的会话保持方法也会导致负载均衡失效。以上情况出现时,就必须要考虑使用其他的会话保持方式。
2 Session Lbcluster
由于session sticky在调度中不能够很好的实现会话的保持与高可用性,只要其中一台主机宕机,就意味着这台主机维持的所有会话都将丢失,这不仅对用户是一种不好的体验,更是一个站点的损失,于是人们开始思考能否让后端的每个服务器都能够携带所有服务器的会话呢?渐渐的找到了解决方案,那就是实现会话集群,会话集群,顾名思义,那就是将所有维持会话的服务组合成一个集群,维护该站点所有的会话信息,这样一来,我们就不用在担心因为某台主机而使得用户的信息丢失。
这种方式解决了用户会话丢失的问题,用户再也不会出现什么"客户端放入购物车的物品丢失"这类问题了。但是解决了A类问题也会带来B类问题,每个会话服务器既要处理前端的用户请求又要会话同步至其他的主机,如果这是一个量很大的服务站点,那么每一台主机在同步其他主机的会话信息,以及将自己维持的会话发送给其他服务器时将会产生大量IO操作,这就使得每个服务器的压力变得异常大,处理前端的请求的性能大大降低。并且,同步使用的是组播的方式来实现的,大量服务器同时同步各自的会话给其他的主机,这将消耗大量的带宽。
3 Session Server
鉴于会话集群带来的新问题,我们选择一组服务器来专门用户进行会话的管理,后端服务器只需要将自己的会话写入到后端的会话服务器即可,等到用户的请求到来是,只需要与session server中的会话值做比较即可。那么session Server怎样存储这些会话信息呢,于是有了以下几种存储方式:
1) 数据库存放
Session信息存储到数据库表以实现不同应用服务器间Session信息的共享。此种方式适合数据库访问量不大的网站。
优点:实现简单
缺点:由于数据库服务器相对于应用服务器更难扩展且资源更为宝贵,在高并发的Web应用中,最大的性能瓶颈通常出现在数据库服务器。因此如果将 Session存储到数据库表,频繁的数据库操作会影响业务。
2) 文件系统存放
通过文件系统(比如NFS)来实现各台服务器间的Session共享。此种方式适合并发量不大的网站。
优点:各台服务器只需要mount存储Session的磁盘即可,实现较为简单。
缺点:NFS对高并发读写的性能并不高,在硬盘I/O性能和网络带宽上存在较大瓶颈,尤其是对于Session这样的小文件的频繁读写操作。
3) Memcached存放
利用Memcached来保存Session数据,直接通过内存的方式读取。
优点:效率高,在读写速度上会比存放在文件系统时快很多,而且多个服务器共用Session也更加方便,将这些服务器都配置成使用同一组memcached服务器就可以,减少了额外的工作量。
缺点:一旦宕机内存中的数据将会丢失,但对Session数据来说并不是严重的问题。如果网站访问量太大、Session太多的时候memcached会将不常用的部分删除,但是如果用户隔离了一段时间之后继续使用,将会发生读取失败的问题。