Manuals

Manuals
故障排除 : Dell PowerEdge 可扩充 RAID 控制器 5/i 和 5/E 用户指南

返回目录页面

故障排除

Dell™ PowerEdge™ 可扩充 RAID 控制器 5/i 和 5/E 用户指南

  性能下降的虚拟磁盘

  内存错误

  一般问题

  物理磁盘的相关问题

  物理磁盘故障和重建

  SMART 错误

  PERC 5 Post 错误信息

  Red Hat Enterprise Linux 操作系统错误

  LED 行为样式

  声音警报警告


要获得关于 Dell™ PowerEdge™ 可扩充 RAID 控制器(PERC)5 控制器的帮助,可以与 Dell 技术服务代表联络或访问 Dell 支持 Web 站点 support.dell.com


性能下降的虚拟磁盘

某个物理磁盘出现故障或无法访问时,冗余虚拟磁盘处于性能下降状态。例如,包含两个物理磁盘的 RAID 1 虚拟磁盘在出现故障或无法访问的状态下可以维持一个物理磁盘,成为性能下降的虚拟磁盘。

要从性能下降的虚拟磁盘恢复,请在无法访问状态下重建该物理磁盘。成功完成重建过程后,虚拟磁盘将从性能下降状态变为最佳状态。有关重建步骤,请参阅 RAID 配置和管理中的执行单个物理磁盘的手动重建


内存错误

内存错误可能会毁坏高速缓存的数据,所以控制器旨在检测到这些内存错误并尝试从这些内存错误中恢复。单位内存错误可以由固件处理而不影响正常运行。如果单位错误的数目超过了阈值,将发送通知。

多位错误更严重,因为此类错误会导致数据毁坏和数据丢失。以下是出现多位错误时采取的措施:

  • 如果在使用恶劣高速缓存启动控制器时访问高速缓存内存中的数据而导致多位错误,则固件将放弃高速缓存内容。固件将生成警告信息并发送到系统控制台,指示已放弃高速缓存并将生成事件。

  • 如果在运行时代码/数据或高速缓存中出现多位错误,则固件将停止。

  • 固件会将事件记录到固件内部事件日志并将在 POST 过程中记录指示已出现多位错误的信息。

注:如果出现多位错误,请与 Dell 技术支持联络。

一般问题

表 6-1 介绍了用户可能遇到的一般问题以及建议的解决方案。

表 6-1. 一般问题

问题

建议的解决方案

设备显示在设备管理器中,但标注了黄色警示符号(感叹号)。

重新安装驱动程序。请参阅驱动程序安装一节中的驱动程序安装步骤。

设备管理器中未出现该设备。

关闭系统电源并重置控制器。

在 Microsoft® Windows® 2000 Server、Windows Server® 2003 或 Windows XP 环境中使用 CD 安装期间,出现 No Hard Drives Found(未找到硬盘驱动器)信息,原因如下:

  1. 该驱动程序不是操作系统中的本地驱动程序。
  2. 虚拟磁盘未正确配置。
  3. 控制器 BIOS 被禁用。

对于导致该信息的三种原因的相应解决方案为:

  1. 按 <F6> 键以在安装期间安装 RAID 设备驱动程序。
  2. 进入 BIOS 配置公用程序以配置虚拟磁盘。有关配置虚拟磁盘的步骤,请参阅RAID 配置和管理一节。
  3. 进入 BIOS 配置公用程序以启用 BIOS。有关配置虚拟磁盘的步骤,请参阅硬件安装和配置一节。


物理磁盘的相关问题

表 6-2 介绍了用户可能遇到的与物理磁盘相关的问题以及建议的解决方案。

表 6-2. 物理磁盘问题

问题

建议的解决方案

磁盘阵列中的某个物理磁盘处于无法访问状态。

请采取以下措施以解决该问题:

  • 检查机壳或背板是否有损坏。
  • 检查 SAS 电缆。
  • 重置物理磁盘。
  • 如果问题仍然存在,请与 Dell 技术支持联络。

无法重建容错虚拟磁盘。

这可能是由于以下某个原因:

  • 更换磁盘太小。用具有足够容量的优良物理磁盘更换出现故障的磁盘。

访问虚拟磁盘时报告出现致命错误或数据毁坏。

请与 Dell 技术支持联络。


物理磁盘故障和重建

表 6-3 介绍了有关物理磁盘故障和重建的问题。

表 6-3. 物理磁盘故障和重建问题

问题

建议的解决方案

某个物理磁盘处于无法访问状态后重建物理磁盘。

如果已配置热备用,PERC 5 控制器将自动尝试使用一个热备用重建处于无法访问状态的物理磁盘。如果没有热备用具有重建无法访问的物理磁盘所需的容量,则需要手动重建。在重建物理磁盘之前,必须将具有足够存储量的物理磁盘插入子系统。您可以使用 BIOS 配置公用程序或 Dell OpenManage™ Storage Management 应用程序手动重建单个物理磁盘。

有关重建单个物理磁盘的步骤,请参阅 RAID 配置和管理中的执行单个物理磁盘的手动重建一节。

多个物理磁盘同时无法访问之后重建物理磁盘。

单个阵列中的多个物理磁盘错误通常表示布线或连接存在故障并且可能出现数据丢失。多个物理磁盘同时无法访问之后,可以恢复虚拟磁盘。请执行以下步骤恢复虚拟磁盘。

  1. 关闭系统电源,检查电缆连接,然后重置物理磁盘。

请遵循安全预防措施,以防止静电释放。

请确保所有驱动器均在机壳中。

  1. 打开系统电源,然后进入 CTRL-R 公用程序并导入外来配置。

如果进入脱机状态之前虚拟磁盘有冗余并且已过渡到性能下降状态,则导入配置后将自动启动重建操作。如果由于拉动电缆或切断电源而使虚拟磁盘直接进入脱机状态,则虚拟磁盘将在处于最佳状态时导入,而不会进行重建。

可以使用 BIOS 配置公用程序或 Dell OpenManage Storage Management 应用程序手动重建多个物理磁盘。

有关重建单个物理磁盘的步骤,请参阅 RAID 配置和管理中的执行单个物理磁盘的手动重建一节。

使用全局热备用进行重建时虚拟磁盘出现故障。

全局热备用返回到“HOTSPARE”(热备用)状态,虚拟磁盘返回到“FAIL”(出现故障)状态。

使用专用热备用进行重建时虚拟磁盘出现故障。

专用热备用返回到热备用状态,虚拟磁盘返回到故障状态。

在具有热备用的冗余虚拟磁盘上进行重建过程中,物理磁盘将无法访问。

重建完成后,将自动启动对无法访问的物理磁盘的重建操作。

重建物理磁盘所用时间将超出预期时间。

在高工作强度下重建物理磁盘需要更长的时间。例如,每五个主机输入/输出(I/O)操作中就有一个重建 I/O 操作。


SMART 错误

表 6-4 介绍了有关自我监测分析和报告技术(SMART)的问题。SMART 监测所有马达、磁头和物理磁盘电子组件以及检测可预测的物理磁盘故障。

注:有关在何处查找可能指示硬件故障的 SMART 错误报告的信息,请参阅 Dell OpenManage Storage Management 说明文件。

表 6-4. SMART 错误

问题

建议的解决方案

在冗余虚拟磁盘中的物理磁盘上检测到 SMART 错误。

请执行以下步骤:

  1. 强制该物理磁盘脱机。
  2. 用具有相等或更高容量的新物理磁盘更换该磁盘。
  3. 执行重建。

有关重建步骤,请参阅执行单个物理磁盘的手动重建

在非冗余虚拟磁盘中的物理磁盘上检测到 SMART 错误。

请执行以下步骤:

  1. 备份数据。
  2. 删除该虚拟磁盘。

有关删除虚拟磁盘的信息,请参阅删除虚拟磁盘

  1. 使用具有相等或更高容量的新物理磁盘更换受影响的物理磁盘。
  2. 重新创建虚拟磁盘。

有关创建虚拟磁盘的信息,请参阅设置虚拟磁盘

  1. 恢复备份。


PERC 5 Post 错误信息

在 PERC 5 控制器中,BIOS(只读内存,ROM )为连接至控制器的虚拟磁盘提供了 INT 13h 功能(磁盘 I/O),使您可以从物理磁盘进行引导或访问物理磁盘,而无需使用驱动程序。表 6-5 介绍了为 BIOS 显示的错误信息和警告。

表 6-5. BIOS 错误和警告

信息

含义

BIOS Disabled. No Logical Drives Handled by BIOS(BIOS 已禁用。BIOS 未处理任何逻辑驱动器)

此警告在禁用配置公用程序中的 ROM 选项后显示。如果禁用 ROM 选项,BIOS 将无法与 Int13h 连接并且无法从虚拟磁盘进行引导。(Int13h 是一个中断信号,支持多种发送至 BIOS 然后传递给物理磁盘的命令。这些命令包括可以对物理磁盘执行的操作,例如读取、写入和格式化。)

Press <Ctrl><R> to Enable BIOS(按 <Ctrl><R> 组合键以启用 BIOS)

禁用 BIOS 后,系统将提供选项使您可以通过进入配置公用程序来启用 BIOS。您可以在配置公用程序中将设置更改为“Enabled”(已启用)

Adapter at Baseport xxxx is not responding where xxxx is the baseport of the controller

(基本端口 xxxx 处的适配器未响应,其中 xxxx 是控制器的基本端口)

如果控制器由于某种原因未响应,但被 BIOS 检测到,则将会显示此警告并继续。

关闭系统并尝试重置控制器。如果此信息仍然出现,请与 Dell 技术支持联络。

x Virtual Disk(s) Failed where x is the number of virtual disks failed

(x 个虚拟磁盘出现故障,其中 x 为出现故障的虚拟磁盘的数目)

如果 BIOS 检测到虚拟磁盘处于故障状态,将显示此警告。应进行检查以确定虚拟磁盘出现故障的原因并纠正问题。BIOS 未采取任何措施。

x Virtual Disk(s) Failed where x is the number of virtual disks failed

(x 个虚拟磁盘性能下降,其中 x 为性能下降的虚拟磁盘的数目)

如果 BIOS 检测到虚拟磁盘处于性能下降状态,将显示此警告。应尝试将虚拟磁盘恢复到最佳状态。BIOS 未采取任何措施。

Memory/Battery problems were detected. The adapter has recovered, but cached data was lost.Press any key to continue. (检测到内存/电池问题。适配器已恢复,但高速缓存的数据丢失。请按任意键继续。)

此信息将在以下情况中显示:

  • 适配器检测到控制器高速缓存中的高速缓存尚未写入磁盘子系统
  • 初始化过程中控制器在执行高速缓存例行检查时,检测到错误纠正代码(ECC)
  • 然后控制器将放弃高速缓存而不是将其发送至磁盘子系统,因为无法保证数据完整性

要解决此问题,请将电池充满电。如果问题仍然存在,则可能是电池或适配器 DIMM 出现故障。如果是那样,请与 Dell 技术支持联络。

Firmware is in Fault State(固件处于故障状态)

请与 Dell 技术支持联络。

Firmware version inconsistency was detected.The adapter has

recovered, but cached data was lost.

Press any key to continue.(检测到固件版本不一致。适配器已恢复,但高速缓存的数据丢失。请按任意键继续。)

已快擦写与早期版本不兼容的新固件。高速缓存包含尚未写入物理磁盘且无法恢复的数据。请检查数据完整性。您可能需要从备份中恢复数据。

Foreign configuration(s) found on adapter. Press any key to continue, or 'C' to load the configuration utility.(适配器上发现外来配置。请按任意键继续,或按“C”键载入配置公用程序。)

控制器固件检测到具有现有异常元数据的物理磁盘时,会将此物理磁盘标记为异常并生成警报,指示检测到异常磁盘。

您可以使用 BIOS 配置公用程序导入或清除外来配置。

The foreign configuration message is always present during POST but no foreign configurations are present in the foreign view page in CTRL+R and all virtual disks are in an optimal state.(POST 过程中总是出现外来配置信息,但 CTRL+R 的外来视图页面中不存在外来配置,并且所有虚拟磁盘均处于最佳状态。)

请使用 CTRL+R 或 Dell OpenManage™ Server Administrator Storage Management 清除外来配置。

如果插入系统的物理磁盘曾是虚拟磁盘的成员,且此磁盘先前的位置已在重建过程中由更换磁盘占据,先前曾是虚拟磁盘成员的新插入磁盘的外来配置标志必须手动删除。

Previous configuration(s) cleared or missing. Press any key to continue, or 'C' to load the configuration utility.(先前配置已清除或丢失。正在导入 XX/XX XX.XX 创建的配置。请按任意键继续,或按“C”键载入配置公用程序。)

该信息表示控制器和物理磁盘具有不同的配置。您可以使用 BIOS 配置公用程序导入或清除外来配置。

There are X enclosures connected to port X but only X may be connected to a single SAS port. Please remove the extra enclosures then restart your system.(有 X 个存储设备连接至端口 X,但一个 SAS 端口仅可连接 X 个。请卸下额外的存储设备,然后重新启动系统。)

连接至一个端口的存储设备过多。必须卸下额外的存储设备并重新启动系统。

Invalid SAS topology detected. Please check your cable configurations, repair the problem, and restart your system.(检测到无效的 SAS 拓扑。请检查电缆配置,修复问题,然后重新启动系统。)

系统的 SAS 电缆未正确连接。请检查电缆连接并解决所有问题,然后重新启动系统。您可能需要从备份中恢复数据。

Multi-bit errors are detected on the controller. DIMM on the controller needs replacement. If you continue, data corruption can occur. Press 'X' to continue or else power off the system and replace the DIMM module and reboot. If you have replaced the DIMM please press 'X' to continue.(在控制器上检测到多位错误。需要更换控制器上的 DIMM。如果继续,会导致数据毁坏。请按“X”键继续,或者关闭系统,更换 DIMM 模块,然后重新引导系统。如果已更换 DIMM,请按“X”继续。)

存在多位 ECC 错误(MBE)。ECC 错误是出现在内存中的错误,可能毁坏高速缓存的数据,以致不得不放弃高速缓存的数据。

注意:多位错误很严重,因为此类错误会导致数据毁坏和数据丢失。如果出现多位错误,请与 Dell 技术支持联络。

注:如果引导过程中在控制器上检测到多个单位 ECC 错误,将出现类似信息。

Some configured disks have been removed from your system, or are no longer accessible. Check your cables and ensure all disks are present. Press any key to continue.(某些已配置的磁盘已从系统中卸下,或者无法再对其进行访问。请检查电缆并确保所有磁盘均存在。请按任意键或“C”键继续。)

某个阵列出现故障。某些已配置的磁盘从系统中卸下,或者,如果没有卸下,则是由于其它原因无法再对其进行访问。

系统的 SAS 电缆可能未正确连接。请检查电缆连接并解决所有问题,然后重新启动系统。您可能需要从备份中恢复数据。

如果不存在电缆问题,请按任意键或 <C> 键继续。

Physical disk removed: Physical Disk {x.x.x} Controller {x}, Connector {x}(卸下的物理磁盘:物理磁盘 {x.x.x} 控制器 {x}、连接器 {x}

 

Device failed: Physical Disk {x.x.x} Controller {x}, Connector {x}(出现故障的设备:物理磁盘 {x.x.x} 控制器 {x}、连接器 {x}。

卸下驱动器时,这两条信息将出现在事件日志中。一条指示磁盘已卸下,另一条指示设备出现故障。这是预期行为。

存储组件(例如物理磁盘或存储设备)出现故障。出现故障的组件可能已被控制器在执行任务(例如重新扫描或一致性检查)时识别。

更换出现故障的组件。您可以通过查找状态为红色“X”的磁盘来标识出现故障的磁盘。更换磁盘后执行重新扫描。

Battery is missing or the battery could be fully discharged. If battery is connected and has been allowed to charge for 30 minutes and this message continues to appear, then contact Technical Support for assistance.(电池丢失或者可能已全部放电。如果连接了电池并且充电 30 分钟,而此信息继续出现,则请与技术支持联络以获得帮助。)

  • 控制器电池已丢失或损坏。
  • 控制器电池已完全放电,需要充电才能激活。首先必须为电池充电,然后必须重新启动系统,才能将电池再次激活。


Red Hat Enterprise Linux 操作系统错误

表 6-6 介绍了有关 Red Hat Enterprise Linux 操作系统的问题。

表 6-6. Linux 操作系统错误

错误信息

建议的解决方案

<Date:Time> <HostName> kernel: sdb: asking for cache data failed(<日期:时间> <主机名> 内核:sdb:请求高速缓存数据失败)

<Date:Time> <HostName> kernel: sdb: assuming drive cache: write through(<日期:时间> <主机名> 内核:sdb:假定驱动器高速缓存:直写式)

在 Linux 小型计算机系统接口(SCSI)中间层要求物理磁盘高速缓存设置时将显示此错误信息。因为 PERC 5 控制器固件基于控制器和虚拟磁盘管理虚拟磁盘高速缓存设置,所以该固件不响应此命令。因此,Linux SCSI 中间层假定该虚拟磁盘的高速缓存策略为直写式。SDB 是虚拟磁盘的设备节点。该值根据每个虚拟磁盘而更改。

有关直写式高速缓存的详细信息,请参阅设置虚拟磁盘一节。

除此信息外,该行为没有其它副作用。虚拟磁盘的高速缓存策略和 I/O 吞吐量不受此信息的影响。PERC5 SAS RAID 系统的高速缓存策略设置仍然为已选定的设置。

Driver does not autobuild into new kernel after customer updates.(客户更新后,驱动器不会自动创建到新内核。)

此错误是 DKMS 的常见问题并适用于所有已启用 DKMS 的驱动程序软件包。执行以下步骤时会出现此问题:

  1. 安装已启用 DKMS 的驱动程序软件包。
  2. 运行 up2date 或类似工具以将内核升级为最新版本。
  3. 重新引导到新内核中。

新内核中运行的驱动程序是新内核中的本地驱动程序。安装在新内核中的驱动程序软件包在新内核中不起作用。

请执行以下步骤以使驱动程序自动创建到新内核中:

  1. 键入:

dkms build -m <module_name> -v <module version> -k <kernel version>
(dkms build -m <module_name> -v <模块版本> -k <内核版本>)

  1. 键入:

dkms install -m <module_name> -v <module version> -k <kernel version>
(dkms install -m <module_name> -v <模块版本> -k <内核版本>)

  1. 键入以下内容,以检查驱动程序是否已成功安装在新内核中:

DKMS

将出现以下详细信息:

<driver name>, <driver version>, <new kernel version>: installed
(<驱动程序的名称>、<驱动程序的版本>、<新内核的版本>:已安装)

smartd[smartd[2338] Device: /dev/sda, Bad IEC (SMART) mode page, err=-5, skip device(smartd[smartd[2338] 设备:v/sda,故障 IEC [SMART] 模式页面,err=-5,跳过设备)

 

smartd[2338] Unable to register SCSI device /dev/sda at line 1 of file /etc/smartd.conf(smartd[2338] 无法注册文件 /etc/smartd.conf 行 1 中的 SCSI 设备 /dev/sda)

这些错误信息是由直接来自用户应用程序的不受支持的命令导致的。这是一个已知问题,是用户应用程序尝试将命令描述符块引入 RAID 卷时发生的。此错误信息对用户没有影响并且不会因此丢失任何功能。

Mode Sense/Select 命令由 PERC 5 上的固件支持。但是 Linux 内核守护程序向虚拟磁盘发出该命令,而不是向驱动程序 IOCTL 节点。系统不支持此操作。


LED 行为样式

PERC 5/E 适配器上的外部 SAS 端口中的每个 x4 SAS 端口的端口状态均为 LED。该双色 LED 显示任意外部 SAS 端口的状态。LED 指示是所有的链路均正常运行还是只有部分链路正常运行。表 6-7 介绍了端口的状态样式。

表 6-7. LED 行为样式

端口状态

LED 状态

开机状态

不亮

重设状态

不亮

端口中的所有链路均已连接

绿灯亮起

一个或多个链路未连接(仅适用于宽端口配置)

琥珀色灯亮起

端口中所有链路均已断开连接或电缆已断开连接

不亮


声音警报警告

PERC 5/E 适配器提供声音警报,将警告有关虚拟磁盘或物理磁盘问题的严重事件和警告事件。您可以使用基本输入/输出系统(BIOS)配置公用程序启用、禁用该机载警报,或将警报设为静音。

注:将警报设为静音只是停止了当前警报,以后的警报仍将发出声音。要永久禁用警报,请选择“disable alarm”(禁用警报)选项。

表 6-8 列出了严重的警告事件、事件的严重性级别和声音代码。

表 6-8. 声音警报说明

说明

严重性

声音代码

控制器警报已启用

正常

N/A

虚拟磁盘出现故障

严重

响 3 秒,停 1 秒

虚拟磁盘性能下降

警告

响 1 秒,停 1 秒

全局热备用出现故障

警告

响 1 秒,停 1 秒

专用热备用出现故障

警告

响 1 秒,停 1 秒

物理磁盘出现故障

严重

响 1 秒,停 1 秒

物理磁盘上的重建完成

正常

响 1 秒,停 3 秒

物理磁盘上的重建失败

警告

响 1 秒,停 1 秒

物理磁盘脱机

严重

响 1 秒,停 1 秒

注:如果由于之前的故障 PERC 5/E 警报已发出哔声,并且已在同一控制器上创建新虚拟磁盘,则先前的警报将停止。这是预期行为。

返回目录页面

Laptops | Desktops | Business Laptops | Business Desktops | Workstations | Servers | Storage | Monitors | Printers | LCD TVs | Electronics
© 2009 Dell | About Dell | Terms of Sale | Unresolved Issues | Privacy | About Our Ads | Dell Recycling | Contact | Site Map | Feedback
AT | AU | BE | BR | CA | CH | CL | CN | CO | DE | DK | ES | FR | HK | IE | IN | IT | JP | KR | ME | MX | MY | NL | NO | PA | PR | RU | SE | SG | UK | VE | ALL

snEB13