许吉友 - 运维

设备管理

官方文档:https://ceph.readthedocs.io/en/latest/rados/operations/devices/

Ceph跟踪哪个守护程序消耗了哪些硬件存储设备(例如HDD,SSD),并收集有关这些设备的运行状况指标,以提供预测和/或自动响应硬件故障的工具。

设备查询

可以查询哪些存储设备正在使用:

$ ceph device ls

还可以按守护程序或主机列出设备:

$ ceph device ls-by-daemon <daemon>
$ ceph device ls-by-host <host>

对于任何单个设备,可以查询有关其位置以及如何使用它的信息:

$ ceph device info <devid>

点灯

可以使硬件机箱上的驱动器LED闪烁,以使更换故障磁盘变得容易,并且不易出错。使用以下命令:

device light on|off <devid> [ident|fault] [--force]

[ident | fault]参数用于设置闪烁的灯光的种类。默认情况下,使用 identification

开启监控

Cepe 也可以监控设备,例如,SATA硬盘实现了一个称为SMART的标准,该标准提供了有关设备使用情况和运行状况的广泛内部指标,例如开机小时数,电源循环次数或不可恢复的读取错误。诸如SAS和NVMe之类的其他设备类型实现了一组相似的指标(通过略有不同的标准)。 Ceph可以通过smartctl工具收集所有这些信息。

开启磁盘监控:

$ ceph device monitoring on

或者关闭:

$ ceph device monitoring off

定期获取指标

如果启用了监控,则将定期自动获取指标。该间隔可以配置为:

$ ceph config set mgr mgr/devicehealth/scrape_frequency <seconds>

默认值为每24小时获取一次。 您可以使用以下方法手动触发所有设备的刮擦:

$ ceph device scrape-health-metrics

单个设备可以用以下方式获取:

$ ceph device scrape-health-metrics <device-id>

或者单个守护进程的设备可以通过以下方式进行抓取:

$ ceph device scrape-daemon-health-metrics <who>

可以使用以下命令检索设备的存储的健康指标(可选地,用于特定的时间戳记):

$ ceph device get-health-metrics <devid> [sample-timestamp]

故障预测

Ceph可以根据其收集的健康指标预测预期寿命和设备故障。共有两种模式:

预测模式可以配置为:

$ ceph config set global device_failure_prediction_mode <mode>

可以在 ceph device ls 中看到预期寿命

可以使用以下命令显式地强制预测设备的预期寿命:

$ ceph device predict-life-expectancy <devid>

如果您未使用Ceph的内部设备故障预测,但是拥有一些有关设备故障的外部信息源,则可以通过以下方式告知Ceph设备的预期寿命:

$ ceph device set-life-expectancy <devid> <from> [<to>]

健康检查

$ sudo ceph device check-health