TCPカーネルパラメータによる障害復旧時間の短縮

クラスタ構成のサーバでは、障害発生後にクライアントがすぐに復旧しない場合があります。サーバ側がフェイルオーバした後にクライアント側が再接続するまでの時間を短くする方法を紹介します。

クライアントからサーバに接続するとソケットはESTABLISHEDになります。もしESTABLISHEDになったソケットで正しくパケットが送信されなかった場合、OSは再送を試みます。再送に失敗してソケットをクローズするまでの時間はOSの設定によります。

OSがTCP接続の異常を検知してからクローズするまでの時間を短くするには3つの方法があります。

例えばSSHでは上記3つの設定が可能ですが、Keep Aliveに対応していないアプリもあります。ここでは、1を適用した場合のTCPの挙動について考察します。

SSHクライアントとSSHサーバの間のパケットが欠落した場合の挙動を確認してみます。障害試験は、SSH接続中にファイアウォールでパケットをドロップすることで実施します。

SSHクライアント	ファイアウォール	SSHサーバ
172.16.35.1	172.16.35.254 - 172.16.36.254	172.16.36.1

約15分でソケットがクローズされる結果となりました。

時刻	作業手順	SSHクライアントのソケットステータス	SSHサーバのソケットステータス
02:48:10	SSHクライアントからSSHサーバに接続し、1秒毎に日時を表示する。	ESTABLISHED	ESTABLISHED
02:50:30	ファイアウォールでSSHをドロップするようポリシーを変更する。	ESTABLISHED	ESTABLISHED
03:05:56	-	ESTABLISHED	CLOSED
03:06:20	SSHクライアントでEnterキーを押す	ESTABLISHED	CLOSED
03:21:48	SSHクライアントが異常終了	CLOSED	CLOSED

パケットログを見てみましょう。再送パケットを時系列に並べてみました。ちなみに初回はパケットログを取り忘れたのでもう一回やってます。

間隔を2倍ずつ大きくして再送していることが分かります。Linux カーネルでは再送回数のデフォルト値が15回に設定されています。これは /proc/sys/net/ipv4/tcp_retries2 で確認できます。

再送回数を7回に設定してみましょう。/etc/sysctl.confに以下を追加してsysctl -pを実行します。

# /etc/sysctl.conf
net.ipv4.tcp_retries2 = 7

すると、約50秒でソケットがクローズされる結果となりました。

時刻	作業手順	SSHクライアントのソケットステータス	SSHサーバのソケットステータス
04:21:00	SSHクライアントからSSHサーバに接続し、1秒毎に日時を表示する。	ESTABLISHED	ESTABLISHED
04:21:20	ファイアウォールでSSHをドロップするようポリシーを変更する。	ESTABLISHED	ESTABLISHED
04:22:11	-	ESTABLISHED	CLOSED

パケットログを見ても、7回の再送でタイムアウトしていることが分かります。

再送回数をあまりにも少なくすると、ネットワークが瞬断しただけでTCP接続が切れてしまいます。ファイアウォールのフェイルオーバ時間より長い時間であれば問題ないでしょう。

NFSのようにTCP Keep Aliveを設定できないプロトコルでは、再送回数をデフォルトより少なくすることで障害復旧時の立ち直りが早くなるはずです。他ミドルへの影響を検討してからお試しください。

1秒毎にソケットステータスをログるスクリプトです。

#!/bin/bash
PORT=22
while true; do
    netstat -an --inet 2> /dev/null | grep ":$PORT" | sed -e "s,^,$(date +%Y-%m-%dT%H:%M:%S)\t,g"
    sleep 1
done

GeekFactory