Метрики хранилища резервных копий

Метрики, используемые для мониторинга хранилища резервных копий, настраиваются в правилах записи Prometheus и находятся в файле /var/lib/prometheus/rules/abgw.rules на каждом узле кластера. Самые важные из этих метрик описаны в таблице ниже.

Метрика Описание
Счетчики объектов FES
abgw_accounts Количество учетных записей, с которыми хранилище резервных копий работает в настоящее время (то есть количество учетных записей с открытыми архивами резервных копий)
abgw_files

Количество архивов резервных копий, открытых в настоящее время. Архивы резервных копий открываются для чтения и записи только во время операции резервного копирования. Другие операции, такие как восстановление, просмотр и проверка, открывают архивы резервных копий только для чтения.

abgw_conns[proto] Количество текущих соединений между хранилищем резервных копий и клиентами. Значение представляет собой набор счетчиков. Доступны подробные сведения о протоколе хранилища резервных копий (V1/V2).
Счетчики подключений
abgw_conns_total Общее количество соединений между хранилищем резервных копий и клиентами с момента запуска сервиса
abgw_client_conns_cur[name] Количество клиентов, подключенных в настоящее время, с разделением по типам
abgw_client_conns_total[name] Общее количество клиентов с момента запуска сервиса с разделением по типам
Ошибки и сроки действия сертификатов
abgw_verify_certs_errors_total[err] Общее количество ошибок проверки сертификатов с момента запуска сервиса с разделением по типу ошибки
abgw_next_certificate_expiration[path] Дата истечения срока действия сертификатов хранилища резервных копий
abgw_cert_update_fail_total

Количество неудачных попыток обновить список отзыва сертификатов. Этот список требуется для правильного применения новой квоты в Кибер Бэкап Облачный, когда отзывается текущий сертификат клиента и запрашивается новый.

abgw_crl_download_fail_total Количество неудачных попыток загрузить список отзыва сертификатов. Этот список требуется для правильного применения новой квоты в Кибер Бэкап Облачный, когда отзывается текущий сертификат клиента и запрашивается новый.
Гистограммы и счетчики запросов для протокола хранилища резервных копий V1
abgw_read_reqs_total Количество запросов на чтение с момента запуска сервиса
abgw_write_reqs_total Количество запросов на запись с момента запуска сервиса
abgw_req_errs_total[req][err] Набор ошибок запросов, с разделением по типу запроса и коду ошибки
abgw_req_latency_ms[req] Гистограмма с задержкой запросов
Гистограммы и счетчики запросов для протокола хранилища резервных копий V2
abgw_v2_ireq_errs_total[req][err] Количество запросов на чтение с момента запуска сервиса
abgw_v2_ireq_latency_ms[req][lat] Количество запросов на запись с момента запуска сервиса
abgw_v2_ereq_errs_total[req][err] Набор ошибок запросов, с разделением по типу запроса и коду ошибки
abgw_v2_ereq_latency_ms[req][err] Гистограмма с задержкой запросов
Счетчики байтов
abgw_read_bytes_total[proxied] Количество байтов, прочитанных с диска с момента запуска сервиса. Параметр proxied показывает данные, прочитанные через обратный прокси.
abgw_write_bytes_total[proxied] Количество байтов, записанных на диск с момента запуска сервиса. Параметр proxied показывает данные, записанные через обратный прокси.
abgw_write_rollback_bytes_total

Размер данных, перезаписанных хранилищем резервных копий по запросу клиента, когда хранилищу не удалось подтвердить клиенту, что данные уже записаны. Эта метрика используется только для протокола хранилища резервных копий V1 и старых клиентов резервного копирования.

Метрики операций с файлами и операций ввода-вывода
abgw_file_lookup_errs_total[err] Количество неудачных попыток открыть файлы или найти уже открытые файлы с разделением по коду ошибки
abgw_fop_latency_ms_bucket[fop][proxied][err] Гистограмма с суммой задержки файловых операций с разделением по типу операции (чтение, запись, синхронизация, статистика), по использованию прокси, по номеру ошибки, а также другие файловые операции
abgw_iop_latency_ms_bucket[iop][proxied][err] Гистограмма с задержкой операций ввода-вывода с разделением по типу операции, по использованию прокси и по номеру ошибки
abgw_io_limiting_failures_total[type] Количество неудачных запросов ввода-вывода к хранилищу резервных копий с момента запуска сервиса вследствие низкой производительности базового хранилища
abgw_iop_wd_timeouts[iop] Количество файловых операций, занимающих больше двух минут, с разделением по типу операции
Метрики миграции
abgw_account_pull_errs_total[err]

Количество неудачных попыток целевого хранилища резервных копий получить список учетных записей из исходного хранилища перед началом миграции

abgw_nr_files_to_pull Количество файлов для переноса из исходного хранилища резервных копий в целевое (включает все файлы, миграция которых не завершена)
abgw_pull_backlog_bytes Количество байтов в исходном хранилище резервных копий, которые еще не перенесены в целевое хранилище
abgw_pull_progress_bytes_total Количество байтов в целевом хранилище резервных копий, которые уже перенесены из исходного хранилища с момента запуска сервиса
abgw_file_migration_source_open_errs_total[err] Количество неудачных попыток открыть файлы для миграции в исходном хранилище резервных копий с момента запуска сервиса
abgw_file_migration_source_read_errs_total[err] Количество неудачных попыток прочитать файлы для миграции в исходном хранилище резервных копий с момента запуска сервиса
Метрики хранилища объектов и георепликации
abgw_push_backlog_bytes[ostor, replica] Количество байтов для записи в целевое хранилище объектов или в подчиненный кластер в случае георепликации
abgw_push_progress_bytes_total[ostor, replica] Количество байтов, записанных в целевое хранилище объектов или в подчиненный кластер в случае георепликации. Эта метрика помогает оценить скорость репликации или копирования данных.
abgw_push_replica_errs_total[err] Количество неудачных попыток записать файлы в целевое хранилище объектов или в подчиненный кластер в случае георепликации с момента запуска сервиса с разделением по типу ошибки
abgw_replica_integrity_checks_fail_total

Количество поврежденных реплик в подчиненном кластере с момента запуска сервиса

abgw_file_replica_auto_errs_total[err] Количество ошибок георепликации для новых файлов (созданных после настройки георепликации) с момента запуска сервиса с разделением по типу ошибки
abgw_file_replica_open_errs_total[err] Количество неудачных попыток главного кластера открыть файлы для записи в подчиненном кластере с момента запуска сервиса с разделением по коду ошибки
Метрики целевого хранилища объектов
abgw_ostor_used_space_bytes Размер пространства, занимаемого всеми архивами резервных копий, включая данные и неиспользуемое пространство, в целевом хранилище объектов
abgw_nr_ostor_sequence_mismatch_total Количество файлов, которые хранилищу резервных копий не удалось открыть из-за несовпадения версий в целевом хранилище объектов
abgw_ostor_garbage_bytes Размер неиспользуемого пространства внутри всех архивов резервных копий, которое еще не было физически очищено в целевом хранилище объектов
Результаты проверки архивов контейнера
abgw_containers_validate_segments_fail_total

Количество архивов с ошибкой проверки (сегментов) в NFS и целевом хранилище объектов

abgw_containers_validate_trees_fail_total Количество архивов с ошибкой проверки (деревьев) в NFS и целевом хранилище объектов
Другие метрики
abgw_append_throttle_delay_ms_total Общая сумма задержек, внедренных с момента запуска сервиса. Эта метрика помогает понять, включено ли регулирование для хранилища резервных копий.
abgw_iop_ebusy Количество ошибок ввода-вывода для операций открытия файлов с момента запуска сервиса

Метрики гистограммы с суффиксом _bucket имеют соответствующие метрики, заканчивающиеся на _sum и _counter, например:

  • abgw_iop_latency_ms_bucket показывает текущее измерение для задержки операций ввода-вывода по отдельным корзинам
  • abgw_iop_latency_ms_count показывает общую сумму всех измерений для задержки операций ввода-вывода по отдельным корзинам
  • abgw_iop_latency_ms_sum показывает количество сохраненных измерений для задержки операций ввода-вывода по отдельным корзинам