家鯖(FreeBSD 11)とメインマシン(Windows 10)をConnectX-3の40GBASE-SR4で繋ぐようになって早5ヵ月。メインマシンをスリープ&レジュームすると、40GBASE-SR4が再リンクアップせず、サーバ側のQSFP+トランシーバを抜き差しすると直る、という現象が発生することがあった。
その時は決まって、サーバ側のTXシグナルが出ていないという状況。
$ ifconfig -v mlxen0 mlxen0: flags=8947<UP,BROADCAST,DEBUG,RUNNING,PROMISC,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ad00b9<RXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6> ether e4:1d:2d:74:16:e0 hwaddr e4:1d:2d:74:16:e0 nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet 40Gbase-CR4 <full-duplex> (autoselect) status: no carrier plugged: QSFP+ 40GBASE-SR4 (MPO Parallel Optic) vendor: Mellanox PN: MC2210411-SR4 SN: MEQSRIC0115 DATE: 2015-03-23 compliance level: Unspecified nominal bitrate: 10300 Mbps module temperature: 40.00 C voltage: 3.22 Volts lane 1: RX: 0.57 mW (-2.37 dBm) TX: 0.36 mW (-4.38 dBm) lane 2: RX: 1.06 mW (0.26 dBm) TX: 0.37 mW (-4.30 dBm) lane 3: RX: 0.96 mW (-0.17 dBm) TX: 0.00 mW (-30.46 dBm) lane 4: RX: 1.12 mW (0.52 dBm) TX: 0.37 mW (-4.20 dBm)
スリープ&レジュームで電気的に不連続状態になるメインマシン側がそうなるならまだしも、無関係なサーバ側がなんで死ぬのか全く意味がわからないのだが、結局のところQSFP+モジュールとNICとドライバの相性らしい。とりあえず10GtekのMellanox互換モジュールAMQ10-SR4-M1からAvago AFBR-79EQPZに変えて2ヵ月ほど経つが、今のところ再現はしていない。メインマシンの方は変わらずAMQ10-SR4-M1を使っていて特に問題なし。
やっぱりサーバ側の相性ということでFAで、直ったっぽい?