Метрики основного хранилища

Метрики, используемые для мониторинга основного хранилища, настраиваются в правилах записи Prometheus, и их можно найти в следующих файлах на каждом из узлов в кластере:

  • /var/lib/prometheus/rules/mdsd.rules
  • /var/lib/prometheus/rules/csd.rules
  • /var/lib/prometheus/rules/fused.rules
  • /var/lib/prometheus/rules/rjournal.rules

Метрики, используемые для создания оповещений по основному хранилищу, добавляются в правила оповещений в файле /var/lib/prometheus/alerts/pcs.rules. Эти метрики описаны в следующей таблице.

Метрика Описание
fused_stuck_reqs_30s Количество запросов ввода-вывода, зависших на узле в течение более чем 30 секунд
fused_stuck_reqs_10s Количество запросов ввода-вывода, зависших на узле в течение более чем 10 секунд
fused_maps_failed Количество завершившихся сбоем запросов сопоставления на узле
fused_map_failures_total Общее количество завершившихся сбоем запросов сопоставления на узле
fused_unaligned_writes:rate5m Количество невыровненных запросов записи в секунду за 5 минут
fused_writes:rate5m Количество запросов записи в секунду за 5 минут
fused_unaligned_reads:rate5m Количество невыровненных запросов чтения в секунду за 5 минут
fused_reads:rate5m Количество запросов чтения в секунду за 5 минут
mdsd_cluster_replication_stuck_chunks Количество фрагментов, блокирующих репликацию
mdsd_cluster_replication_touts_total Общее количество фрагментов, замедляющих репликацию
job:mdsd_fs_chunk_maps:sum Количество фрагментов в кластере хранилища
job:mdsd_fs_files:sum Количество файлов в кластере хранилища
master:mdsd_cs_status Статус сервиса фрагментов данных
mdsd_cluster_free_space_bytes Объем свободного физического пространства в кластере хранилища
mdsd_cluster_space_bytes Общий объем физического пространства в кластере хранилища
mdsd_is_master Узел, на котором выполняется главный сервис метаданных
mdsd_master_uptime Время непрерывной работы главного сервиса метаданных
instance_le:rjournal_commit_duration_seconds_bucket:rate5m Текущая задержка фиксации для определенного сервиса метаданных в течение 5 минут, для каждой из корзин
instance_csid:csd_journal_usage_ratio:rate5m Процент свободного пространства для журнала сервиса фрагментов за 5 минут
process_cpu_seconds_total Суммарная длительность времени, в течение которого процесс использовал ЦП
process_swap_bytes Объем пространства подкачки, используемого процессом