Метрики хранилища резервных копий
Метрики, используемые для мониторинга хранилища резервных копий, настраиваются в правилах записи Prometheus и находятся в файле /var/lib/prometheus/rules/abgw.rules на каждом узле кластера. Самые важные из этих метрик описаны в таблице ниже.
| Метрика | Описание |
|---|---|
| Счетчики объектов FES | |
abgw_accounts
|
Количество учетных записей, с которыми хранилище резервных копий работает в настоящее время (то есть количество учетных записей с открытыми архивами резервных копий) |
abgw_files
|
Количество архивов резервных копий, открытых в настоящее время. Архивы резервных копий открываются для чтения и записи только во время операции резервного копирования. Другие операции, такие как восстановление, просмотр и проверка, открывают архивы резервных копий только для чтения. |
abgw_conns[proto]
|
Количество текущих соединений между хранилищем резервных копий и клиентами. Значение представляет собой набор счетчиков. Доступны подробные сведения о протоколе хранилища резервных копий (V1/V2). |
| Счетчики подключений | |
abgw_conns_total
|
Общее количество соединений между хранилищем резервных копий и клиентами с момента запуска сервиса |
abgw_client_conns_cur[name]
|
Количество клиентов, подключенных в настоящее время, с разделением по типам |
abgw_client_conns_total[name]
|
Общее количество клиентов с момента запуска сервиса с разделением по типам |
| Ошибки и сроки действия сертификатов | |
abgw_verify_certs_errors_total[err]
|
Общее количество ошибок проверки сертификатов с момента запуска сервиса с разделением по типу ошибки |
abgw_next_certificate_expiration[path]
|
Дата истечения срока действия сертификатов хранилища резервных копий |
abgw_cert_update_fail_total
|
Количество неудачных попыток обновить список отзыва сертификатов. Этот список требуется для правильного применения новой квоты в Кибер Бэкап Облачный, когда отзывается текущий сертификат клиента и запрашивается новый. |
abgw_crl_download_fail_total
|
Количество неудачных попыток загрузить список отзыва сертификатов. Этот список требуется для правильного применения новой квоты в Кибер Бэкап Облачный, когда отзывается текущий сертификат клиента и запрашивается новый. |
| Гистограммы и счетчики запросов для протокола хранилища резервных копий V1 | |
abgw_read_reqs_total
|
Количество запросов на чтение с момента запуска сервиса |
abgw_write_reqs_total
|
Количество запросов на запись с момента запуска сервиса |
abgw_req_errs_total[req][err]
|
Набор ошибок запросов, с разделением по типу запроса и коду ошибки |
abgw_req_latency_ms[req]
|
Гистограмма с задержкой запросов |
| Гистограммы и счетчики запросов для протокола хранилища резервных копий V2 | |
abgw_v2_ireq_errs_total[req][err]
|
Количество запросов на чтение с момента запуска сервиса |
abgw_v2_ireq_latency_ms[req][lat]
|
Количество запросов на запись с момента запуска сервиса |
abgw_v2_ereq_errs_total[req][err]
|
Набор ошибок запросов, с разделением по типу запроса и коду ошибки |
abgw_v2_ereq_latency_ms[req][err]
|
Гистограмма с задержкой запросов |
| Счетчики байтов | |
abgw_read_bytes_total[proxied]
|
Количество байтов, прочитанных с диска с момента запуска сервиса. Параметр proxied показывает данные, прочитанные через обратный прокси. |
abgw_write_bytes_total[proxied]
|
Количество байтов, записанных на диск с момента запуска сервиса. Параметр proxied показывает данные, записанные через обратный прокси. |
abgw_write_rollback_bytes_total
|
Размер данных, перезаписанных хранилищем резервных копий по запросу клиента, когда хранилищу не удалось подтвердить клиенту, что данные уже записаны. Эта метрика используется только для протокола хранилища резервных копий V1 и старых клиентов резервного копирования. |
| Метрики операций с файлами и операций ввода-вывода | |
abgw_file_lookup_errs_total[err]
|
Количество неудачных попыток открыть файлы или найти уже открытые файлы с разделением по коду ошибки |
abgw_fop_latency_ms_bucket[fop][proxied][err]
|
Гистограмма с суммой задержки файловых операций с разделением по типу операции (чтение, запись, синхронизация, статистика), по использованию прокси, по номеру ошибки, а также другие файловые операции |
abgw_iop_latency_ms_bucket[iop][proxied][err]
|
Гистограмма с задержкой операций ввода-вывода с разделением по типу операции, по использованию прокси и по номеру ошибки |
abgw_io_limiting_failures_total[type]
|
Количество неудачных запросов ввода-вывода к хранилищу резервных копий с момента запуска сервиса вследствие низкой производительности базового хранилища |
abgw_iop_wd_timeouts[iop]
|
Количество файловых операций, занимающих больше двух минут, с разделением по типу операции |
| Метрики миграции | |
abgw_account_pull_errs_total[err]
|
Количество неудачных попыток целевого хранилища резервных копий получить список учетных записей из исходного хранилища перед началом миграции |
abgw_nr_files_to_pull
|
Количество файлов для переноса из исходного хранилища резервных копий в целевое (включает все файлы, миграция которых не завершена) |
abgw_pull_backlog_bytes
|
Количество байтов в исходном хранилище резервных копий, которые еще не перенесены в целевое хранилище |
abgw_pull_progress_bytes_total
|
Количество байтов в целевом хранилище резервных копий, которые уже перенесены из исходного хранилища с момента запуска сервиса |
abgw_file_migration_source_open_errs_total[err]
|
Количество неудачных попыток открыть файлы для миграции в исходном хранилище резервных копий с момента запуска сервиса |
abgw_file_migration_source_read_errs_total[err]
|
Количество неудачных попыток прочитать файлы для миграции в исходном хранилище резервных копий с момента запуска сервиса |
| Метрики хранилища объектов и георепликации | |
abgw_push_backlog_bytes[ostor, replica]
|
Количество байтов для записи в целевое хранилище объектов или в подчиненный кластер в случае георепликации |
abgw_push_progress_bytes_total[ostor, replica] |
Количество байтов, записанных в целевое хранилище объектов или в подчиненный кластер в случае георепликации. Эта метрика помогает оценить скорость репликации или копирования данных. |
abgw_push_replica_errs_total[err]
|
Количество неудачных попыток записать файлы в целевое хранилище объектов или в подчиненный кластер в случае георепликации с момента запуска сервиса с разделением по типу ошибки |
abgw_replica_integrity_checks_fail_total
|
Количество поврежденных реплик в подчиненном кластере с момента запуска сервиса |
abgw_file_replica_auto_errs_total[err]
|
Количество ошибок георепликации для новых файлов (созданных после настройки георепликации) с момента запуска сервиса с разделением по типу ошибки |
abgw_file_replica_open_errs_total[err]
|
Количество неудачных попыток главного кластера открыть файлы для записи в подчиненном кластере с момента запуска сервиса с разделением по коду ошибки |
| Метрики целевого хранилища объектов | |
abgw_ostor_used_space_bytes
|
Размер пространства, занимаемого всеми архивами резервных копий, включая данные и неиспользуемое пространство, в целевом хранилище объектов |
abgw_nr_ostor_sequence_mismatch_total
|
Количество файлов, которые хранилищу резервных копий не удалось открыть из-за несовпадения версий в целевом хранилище объектов |
abgw_ostor_garbage_bytes
|
Размер неиспользуемого пространства внутри всех архивов резервных копий, которое еще не было физически очищено в целевом хранилище объектов |
| Результаты проверки архивов контейнера | |
abgw_containers_validate_segments_fail_total
|
Количество архивов с ошибкой проверки (сегментов) в NFS и целевом хранилище объектов |
abgw_containers_validate_trees_fail_total
|
Количество архивов с ошибкой проверки (деревьев) в NFS и целевом хранилище объектов |
| Другие метрики | |
abgw_append_throttle_delay_ms_total
|
Общая сумма задержек, внедренных с момента запуска сервиса. Эта метрика помогает понять, включено ли регулирование для хранилища резервных копий. |
abgw_iop_ebusy
|
Количество ошибок ввода-вывода для операций открытия файлов с момента запуска сервиса |
Метрики гистограммы с суффиксом _bucket имеют соответствующие метрики, заканчивающиеся на _sum и _counter, например:
abgw_iop_latency_ms_bucketпоказывает текущее измерение для задержки операций ввода-вывода по отдельным корзинамabgw_iop_latency_ms_countпоказывает общую сумму всех измерений для задержки операций ввода-вывода по отдельным корзинамabgw_iop_latency_ms_sumпоказывает количество сохраненных измерений для задержки операций ввода-вывода по отдельным корзинам