光纤通道长距离难题

光纤通道长距离难题

我需要一双全新的眼睛。

我们使用的是一条 15 公里长的光纤线路,光纤通道和 10GbE 通过该线路进行多路复用(无源光纤 CWDM)。对于 FC,我们有适合长达 40 公里的长距离激光器(Skylane SFCxx0404F0D)。多路复用器受限于 SFP,其最大支持 4Gb 光纤通道。FC 交换机是 Brocade 5000 系列。FC 的波长分别为 1550、1570、1590 和 1610nm,10GbE 的波长分别为 1530nm。

问题是 4GbFC 结构几乎从来都不干净。有时即使有大量流量,它们也会保持一段时间干净。然后它们可能会突然开始产生错误(RX CRC、RX 编码、RX 差异等),即使只有少量流量。我附上了一些错误和流量图。当流量为 1Gb/s 时,错误目前约为每 5 分钟 50-100 个错误。


光学

以下是汇总的一个端口的功率输出(sfpshow在不同的交换机上收集)

SITE-A 单位=uW(微瓦)SITE-B
***************************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm(ko)
      接收 95.2 发送 1175.6
FAB2
SW2 TX 1422.0 RX 104.6 SW4 1610nm(正常)
      接收 54.3 发送 1468.4      

我现在感到好奇的是功率水平的不对称。虽然 SW2 以 1422uW 发射,而 SW4 以 104uW 接收,但 SW2 仅以 54uW 接收具有类似原始功率的 SW4 信号。

SW1-3 则相反。

无论如何,SFP 的 RX 灵敏度低至 -18dBm(约 20uW),所以在任何情况下都应该没问题......但事实并非如此。

制造商已诊断出某些 SFP 存在故障(上图中带有“ko”的 1550nm 型号)。1610nm 型号显然没有问题,它们已使用流量生成器进行了测试。租用线路也经过了多次测试。一切都在容差范围内。我正在等待更换,但出于某种原因,我不认为更换会让情况变得更好,因为看似良好的型号也不会产生零错误。

之前,在将信号放到线路上之前,有主动设备(某种 4GFC 重定时器)参与其中。不知道为什么。由于存在问题,该设备被淘汰,因此我们现在只有:

  • 开关中的长距离激光,
  • (新)10m LC-SC 单模电缆连接至复用器(用于每个结构),
  • 租用线路,
  • 链接的另一侧是同样的事情,只不过是反过来的。


FC 交换机

这是 Brocade 的端口配置portcfgshow(显然两边都是这样的)

区域编号:0
速度等级:4G
填充字(活动时) 0(空闲-空闲)
填充字(当前) 0(空闲-空闲)
AL_PA 偏移 13:关闭
中继端口开启
长距离 LS
VC 链路初始化关闭
所需距离 32 公里
保留缓冲区 70
锁定 L_Port 关闭
锁定 G_Port 关闭
禁用 E_Port 关闭
锁定 E_Port 关闭
ISL R_RDY 模式关闭
RSCN 抑制关闭
永久禁用关闭
LOS TOV 启用关闭
NPIV 功能开启
QOS E_端口关闭
端口自动禁用:关闭
速率限制关闭
EX 端口关闭
镜像端口关闭
信用恢复开启
F_Port 缓冲器关闭
故障延迟:0(R_A_TOV)
NPIV PP 限制:126
CSCTL 模式:关闭

强制链接到 2GbFC 不会产生错误,但我们购买了 4GbFC 并且我们想要 4GbFC。

错误和流量图

我不知道该去哪里找了。有什么想法可以尝试下一步或如何继续吗?

如果我们不能使 4GbFC 可靠地工作,我想知道使用 8 或 16 的人会怎么做...我不认为“这里或那里出现一些错误”是可以接受的。

哦,顺便说一句,我们与所有制造商都有联系(FC 交换机、MUX、SFP 等)。除了需要更换的 SFP(有些之前已经更换过)外,没人知道。Brocade SAN Health 说结构没问题。MUX,嗯,它是被动的,它只是一个棱镜,是大自然的最佳状态。

有黑暗中的镜头吗?


附录:问题的答案

@Chopper3:这是第二代 Brocades 出现的问题。之前我们有 5000,现在我们有 5100。一开始我们还有主动 MUX 时,我们曾租用过长距离激光器,将其直接放入交换机中,以便进行一天的测试,当然,那一天它是干净的。但正如我所说,有时它就是这样干净的。有时则不是。替代交换机意味着要用它们重建整个 SAN 才能进行测试。替代 SFP,嗯,它们很难找到。

@longneck:这条线路是租来的。这是一条暗光纤(9um 单模),所以上面没有其他人。当然有接头。我不能去看看,但我必须相信他们已经正确地完成了。正如我所说,这条线路已经检查过一次又一次(使用光时域反射仪)。显然你自己没有所有这些设备,因为太贵了。

@mdpc:您认为哪种类型的电缆是“错误的”?是的,直到交换机为止,所有电缆都是单模的。连接器也是正确的。是的,我知道有绿色的,光纤以某个角度切断等等。但就我所知,我们有正确的电缆。


进度报告 #1

我们拥有两个采用 Brocade 5100s 和 FabricOS 6.4.1 的结构(=2x2 交换机),以及两个采用 FabricOS 7.0.2 的结构(另外 2x4 交换机)。

在长距离 ISL(每个结构中各一个)上,事实证明,将 FOS 6.4.1 设置为长距离会发出有关 VC Init 设置以及填充字的警告。但这些只是警告。FOS 7.0.2需要您可以对 VCI 和长距离链接的填充字进行修改。

将 FOS 6.4.1 设置为 LS(长距离静态距离)设置,并使用错误的 VCI 和填充字设置,导致整个结构无法运行(卡在 SCN 循环中,用来fabriclog -s查看,在其他任何地方都看不到它,没有端口错误计数器或任何增加的内容)。

目前,我正在对一种在我看来更正确的设置进行测试,它似乎运行良好,而另一种没有太多流量的结构仍然存在一些错误。

进度1

简而言之:

  • 我们已经消除了 MUX (FC 重定时器) 的活动部分。
  • 我们正在将长距离 SFP 放入终端设备中。
  • 为了确保万无一失,我们购买了新的单模电缆,将终端设备连接到 MUX 的剩余无源部分。
  • 我们现在正在尝试几种长距离配置。

这几乎是黑魔法。发生的一切都是经验性的,似乎没有人知道做某事的确切原因是什么。(“我们试过这个,但没有成功,然后我们试过那个,成功了,所以我们坚持这样做。”但似乎没有人真正知道为什么。)

我会及时通知你的。


进度报告 #2

我们在保修期内为其中一种织物购买了新激光器。即使在 4GbFC 上,它也非常干净。

它们的发射功率大约为 2mW(3dBm),而其他的仅为 1.5mW(1.5dBm),尽管这确实应该足够了。

其它结构(其中激光器显然没有问题)仍然会偶尔产生一到两个 CRC。

使用sfpshow产生实际 RX 错误的 SFP 显示

状态/控制:0x82
警报标志[0,1] = 0x5, 0x40
警告标志[0,1] = 0x5, 0x40

现在我必须弄清楚那是什么意思。不确定它以前是否存在。

好吧,我先休一周的假来清醒一下头脑。8-)

答案1

好吧,我想我需要发表一个答案。用一个词来概括就是:坚持

问题并没有完全按照我的意愿解决,因为我们仍然有一个结构偶尔会出现 1 个 CRC 错误。另一个结构没有问题。但我可以忍受。

无论如何,我们不会继续使用 CWDM 单元很长时间,而是明年改用无源 DWDM 多路复用器,因为我们的基础设施将发生很大变化。显然,DWDM 激光器也比 CWDM 激光器便宜。哦,我们拭目以待,也许到时候我会有很多问题要问你 :-)


更新不,我们再次购买了 CWDM,而且它确实更便宜。然而,对于某些应用来说,你转向 DWDM,因为没有 CWDM 激光器。最后,我们尝试尽可能接近制造商,与从分销商甚至集成商处购买相比,整个过程的价格大约只有 1/5。


因此,我可以得出结论,如果你购买的解决方案不能按预期工作:坚持下去。在技术方面,我们做了两件事

  • 删除 MUX 的活动部分(我不能说我对此感到后悔,但也不确定这是否最终是另一个错误来源)
  • 彻底检查 SFP

(当然,所有的标准诊断都是一次改变一件事,看看会发生什么等等,不需要告诉你这些。所以我们也检查了每条线路和电缆等,不幸的是,这是我们的损失。)

在这种情况下,我们坚持了很长时间,但最终还是得到了制造商自己派出几个人和一些设备来执行检查的帮助。当然,我们让集成商支付了这笔费用,因为我们的硬件正在维护中。所以这既是一个商业挑战,也是一个技术挑战。

附言:哦,我上次更新中提到的标志并没有表示任何不好的事情,但我不记得它们到底是什么意思。当我找到声明时,我会为了完整性而更新答案。


最终,这些标志还是意味着一些不好的事情。但显然不能确定哪一侧的链接是导致错误的原因。所以那对也必须改变。

哦,顺便说一句,8GbFC DWDM 收发器仅比 8G CWDM 便宜 ;-) 最便宜的方式是在 CWDM 上使用 4GbFC,然后使用 ISL 中继(如果您有许可证)

相关内容