Метрики основного хранилища
Метрики, используемые для мониторинга основного хранилища, настраиваются в правилах записи Prometheus, и их можно найти в следующих файлах на каждом из узлов в кластере:
- /var/lib/prometheus/rules/mdsd.rules
- /var/lib/prometheus/rules/csd.rules
- /var/lib/prometheus/rules/fused.rules
- /var/lib/prometheus/rules/rjournal.rules
Метрики, используемые для создания оповещений по основному хранилищу, добавляются в правила оповещений в файле /var/lib/prometheus/alerts/pcs.rules. Эти метрики описаны в следующей таблице.
| Метрика | Описание |
|---|---|
fused_stuck_reqs_30s
|
Количество запросов ввода-вывода, зависших на узле в течение более чем 30 секунд |
fused_stuck_reqs_10s
|
Количество запросов ввода-вывода, зависших на узле в течение более чем 10 секунд |
fused_maps_failed
|
Количество завершившихся сбоем запросов сопоставления на узле |
fused_map_failures_total
|
Общее количество завершившихся сбоем запросов сопоставления на узле |
fused_unaligned_writes:rate5m
|
Количество невыровненных запросов записи в секунду за 5 минут |
fused_writes:rate5m
|
Количество запросов записи в секунду за 5 минут |
fused_unaligned_reads:rate5m
|
Количество невыровненных запросов чтения в секунду за 5 минут |
fused_reads:rate5m
|
Количество запросов чтения в секунду за 5 минут |
mdsd_cluster_replication_stuck_chunks
|
Количество фрагментов, блокирующих репликацию |
mdsd_cluster_replication_touts_total
|
Общее количество фрагментов, замедляющих репликацию |
job:mdsd_fs_chunk_maps:sum
|
Количество фрагментов в кластере хранилища |
job:mdsd_fs_files:sum
|
Количество файлов в кластере хранилища |
master:mdsd_cs_status
|
Статус сервиса фрагментов данных |
mdsd_cluster_free_space_bytes
|
Объем свободного физического пространства в кластере хранилища |
mdsd_cluster_space_bytes
|
Общий объем физического пространства в кластере хранилища |
mdsd_is_master
|
Узел, на котором выполняется главный сервис метаданных |
mdsd_master_uptime
|
Время непрерывной работы главного сервиса метаданных |
instance_le:rjournal_commit_duration_seconds_bucket:rate5m
|
Текущая задержка фиксации для определенного сервиса метаданных в течение 5 минут, для каждой из корзин |
instance_csid:csd_journal_usage_ratio:rate5m
|
Процент свободного пространства для журнала сервиса фрагментов за 5 минут |
process_cpu_seconds_total
|
Суммарная длительность времени, в течение которого процесс использовал ЦП |
process_swap_bytes
|
Объем пространства подкачки, используемого процессом |