Sage Roadmap 2024-2026
Отладка алертов из Git
Маркировка проблемных алертов
Теги к алертам
Поддержка TypeScript для DevMode-алертов
Шаблоны сообщений с Handlebars
Доработанный графический интерфейс трейсинга
Управление интервалом поиска
Logs2Metrics: тестовая версия
Упрощенный вызов функции now
Округление значений даты и времени
Сжатие трейсов (gzip, snappy, lz4, zstd)
done
Sage Tracing
Sage UI
done
Done
Log&Search
Sage Metrics
done
Реализованы независимые консьюмеры под каждый топик
Добавлено ограничение на количество попыток скрейпинга через squid-прокси. Максимальное количество попыток — две
Самомониторинг пайплайна метрик инструментировали трассировками
Исправлена работа подстрок при создании правил l2m
done
Sage Logs2Metrics
Sage Core
done
Добавлена подсветка ответов от хостов в зависимости от критичности. Теперь ответы с ошибками подсвечиваются красным, без ошибок — зеленым
Добавлена конфигурация для закрытия групп с чувствительными данными
Исправлена ошибка, из-за которой при использовании команды fields выполнялась сортировка по умолчанию. Теперь поля отображаются в том порядке, в котором они указаны в команде
DONE
Sage Alerts
2024 H2
Исправлена ошибка, из-за которой не отправлялось последнее значение удаляемой метрики, не используемой длительное время
Теперь можно использовать Handlebars для создания шаблонов сообщений в MageQL- и YAML-алертах. Это позволяет легко настраивать оповещения под конкретные нужды
Добавлена поддержка TypeScript для DevMode-алертов. Это помогает снизить вероятность ошибок и упростить отладку
Теперь можно отлаживать JS- и YAML-алерты, созданные в Git. Это упрощает процесс разработки и тестирования
Введена функция автоматической маркировки алертов с низким качеством исполнения. Это помогает быстрее выявлять и устранять проблемы
Добавлены теги к алертам. Это позволяет сделать поиск алертов удобнее
Можно задавать интервал поиска прямо в запросе с помощью параметров start_time и end_time, а также использовать команду vars и макрос var
Добавлена возможность округлять значения до миллисекунд, секунд, минут, часов, дней и недель прямо в запросе
Теперь функцию now можно вызывать без скобок. Это упрощает написание запросов
Logs2Metrics доступен в тестовой версии. Это позволяет ознакомиться с его возможностями
Добавлены гистограмма трейсов, масштабирование таймлайна в трейсинге и подсказки о логах
Добавлена возможность работы со сжатыми трейсами для экономии места при хранении и емкости сети передачи данных
  • Добавлена конфигурация для управления очисткой истории эскалаций
  • Добавлен подход type-safety при создании JS-алертов
  • Реализована отправка сообщений после завершения исполнения алерта. Ранее сообщения отправлялись в процессе исполнения алерта с помощью вызовов Manul API
  • Полностью переработан компонент Sauron API
  • Улучшено отображение текста в сообщении при отладке алерта. Теперь текст в интерфейсе форматируется в Markdown
  • Изменен способ исполнения MageQL- и YAML-алертов. Теперь алерты передаются в сервис sauronjs в виде контрактов на новый API
  • Добавлена возможность отключения ссылок на мьюты в теле сообщения в алертах
  • Добавлена возможность отключения предустановленного набора полей в теле сообщения в простых алертах
  • Реализован новый API для работы с AlertExecutionContexts (групповые настройки в алертах)
  • Добавлена новая сущность ExecutionContext, которая используется для получения контекста исполнения и поиска алертов
  • Добавлена метрика sauron_trigger_failed, которая показывает общее количество алертов с ошибками исполнения
  • Добавлена поддержка сложных условий для GitYaml-алертов
  • Добавлены теги в контекст сообщения простого алерта
Доработки
Sage Alerts
  • Добавлена поддержка трейсинга OpenTelemetry
  • Добавлена поддержка макроса $ (эквивалент макроса var)
  • Изменена логика работы со значениями даты и времени. Теперь при работе учитывается параметр tzOffset — часовой пояс пользователя
  • Улучшено логирование запросов. Теперь полная информация о запросе содержится в логе Finished processing search request
  • Обновлены версии используемых библиотек. Теперь Mage использует JDK21, а также sage.libs.bom для управления зависимостями
  • Добавлена умная маршрутизация в Celestia
  • Добавлена настройка лимитеров на кластер ElasticSearch
  • Оптимизировано количество логов в Celestia
  • Добавлена валидация значения параметра size в методе POST/mage/api/search. Теперь значение параметра должно быть всегда > 0
  • Добавлена валидация значения параметра limit в команде sort. Теперь в параметре может быть указано только целое число
  • Доработано исключение при ошибке создания индекса. Теперь исключение содержит объяснение ошибки
  • Доработана спецификация Mage API. Теперь параметры, которые являются обязательными, промаркированы
  • Оптимизировано высокое потребление памяти Mage. Теперь для команд chart и timechart добавлены лимиты, аналогичные лимитам для команды stats
Доработки
Log&Search
  • Добавлено отображение длительности поискового запроса
  • Оптимизирована сборка файлов docs-openapi для встроенной документации
  • Переработан интерфейс таблицы мьютов с использованием нового компонента
  • Завершен переход на серверную фильтрацию для мьютов
  • Переработан интерфейс формы создания/редактирования мьюта с использованием нового компонента
  • Добавлены теги алерта в контекст редактора Handlebars
  • Переработан интерфейс таблицы алертов с использованием нового компонента
  • Добавлено отображение поля для ввода тегов на форме алерта
  • Переработан интерфейс вкладки с групповыми настройками алертов для интеграции с новым API
  • Добавлена возможность выбирать часовой пояс в меню пользователя
  • Добавлен защитный механизм для сериализации данных в строку в логике notification
  • Обновлен значок веб-страницы приложения (favicon)
  • Оптимизирована функция автодополнения MageQL
  • Добавлена возможность редактирования тегов в трейсах
  • Добавлена возможность поиска в дереве трейса
  • Переработана панель отображения информации о спанах
  • Добавлена возможность регулирования ширины панели фильтров на странице со списком трейсов
  • Переработана таблица для отображения сервисов
  • Реализована возможность экспорта и импорта трейсов
  • Переработана фильтрация в трейсинге
  • Обновлен интерфейс страницы с трейсами
  • Добавлено цветовое разграничение сервисов в трейсинге
  • Добавлено отображение предупреждений о неполноте возвращаемых данных на странице с трейсами
Доработки
Sage UI
  • Добавлена информация о проблемных трейсах в API
  • Улучшена фильтрация трейсов в API: добавлен множественный выбор инсталляций/операций, выгрузка тегов и фильтр по ошибкам
  • Повышена гарантия доставки данных. Теперь запись в Kafka стала синхронной
  • Улучшена поддержка grpc-ответов протокола OpenTelemetry в части уточнения причин отклонения спанов и всего запроса
  • Оптимизирована запись в ClickHouse
  • Оптимизирован трафик между узлами благодаря переносу лимитирования на collector
  • Уменьшено потребление диска на ClickHouse при использовании более одного экземпляра
  • Добавлена возможность загружать трейсы по http
  • Оптимизирована схема хранения спанов. Это позволило ускорить скорость поиска
Доработки
Sage Tracing
  • Реализован Circut Breaker для скрейпинга через squid-прокси
  • Добавлен параметр trace id в сообщениях в Kafka
  • Добавлена метрика для мониторинга зарегистрированных таргетов в разрезе групп
  • Добавлена валидация хоста для таргетов
  • Улучшена наблюдаемость скрапперов
  • Параметры скрапперов перенесены в конфигурационные файлы
  • Улучшена работа graceful shutdown
  • Повышена гарантия доставки метрик через Fallback-консьюмеры
  • Оптимизировано распространение конфигурации для скрапперов
  • Понижен уровень логирования ошибок от таргетов до Warning
  • Ускорен холодный старт скрапперов
  • Улучшена балансировка запросов к VictoriaMetrics, когда открыт Curcuit Breaker
  • Остановлен скрейпинг таргетов по группам, которые были удалены
  • Добавлены новые метрики для сбора статистики по скрейпингу
  • Реализована сортировка лейблов метрики при скрейпинге. Теперь служебные лейблы указываются в начале списка
  • Добавлено ограничение на количество лейблов при скрейпинге. Теперь максимальное количество лейблов в метрике — 20
  • Добавлен статус Unhealthy в heartbeat-логи компонента Frost
  • Повышена точность запуска планировщика скрейпинга
  • Добавлена функция двойного скрейпинга
  • Добавлена поддержка Unleash для управления feature flags
  • Повышена отказоустойчивость записи в VictoriaMetrics
  • Оптимизирована балансировка нагрузки
Доработки
Sage Metrics
  • Исправлена синтаксическая ошибка, которая не позволяла обращаться к выражениям при перечислении значений в [] с оператором in. Теперь в блоках [] с оператором in поддержано обращение и к выражениям, и к константам
  • Исправлена некорректная работа команды rex, при которой извлеченное значение записывалось в исходное поле
  • Исправлена ошибка при попытке создать правило, в котором запрос возвращал логи только старше суток
Доработки
Log2Metrics
  • Добавлено случайное распределение максимального времени жизни индексов на ±10%. Теперь ролловер индексов происходит не одновременно, а распределенно
  • Добавлен маршрут /.well-known/jwks.json для валидации токена Sage
  • В метод GET api/group добавлен фильтр групп по параметрам Tenant и Name
  • Добавлена поддержка TypeScript в интерфейсе алертов
  • Добавлены якоря для всех уровней заголовков в документации
  • В интерфейс трейсинга добавлена фильтрация трейсов по ошибкам
  • Добавлено отображение флага открытой/закрытой группы в списке групп
  • Приложение Sage мигрировано на React
  • Добавлена обработка настроек пользователей только по логину
  • Оптимизировано выполнение метода GET/sauron/api/Group. Ранее при выполнении метода наблюдалась высокая загрузка ЦП
Доработки
Sage Core
Мониторы аномалий
Консоль мониторинга и активность мониторов
Универсальный агент
Поддержка больших групп в SageDB
Безопасное хранение
Новые функции языка запросов
Карта сервисов
RED-метрики
Список сервисов
Группировка и разметка
Новые уведомления
Жизненный цикл монитора (monitor recovery)
Проактивные мониторы для приложений
PLANNED
Умные мониторы
Логи
planned
planned
Мониторы (ex-Alerts)
Мониторинг инфраструктуры
planned
Связи с приложением
Хосты и контейнеры
planned
Логи
ErrorHub
planned
Мониторинг бэкенда
planned
Мониторинг производительности приложений (APM)
2025 H2
2025 H1
Асинхронные запросы
Долгосрочное хранение (LTS)
planned
Сбор телеметрии
Введение подробного списка сервисов вашего приложения для улучшения видимости и управления
Визуализация взаимодействия сервисов внутри вашего приложения для понимания зависимости и связи
Метрики RED (Rate, Errors, Duration) для эффективного мониторинга производительности сервисов
Улучшенная организация с возможностью группировать и отмечать мониторы для упрощения управления
Возможность подписаться не только на срабатывание, но и на прекращение условий монитора
Подробные оповещения с расширенной информацией
Хранение логов на длительные периоды для соблюдения требований регуляторов и ретроспективного анализа
Поддержка асинхронных запросов к логам для повышения производительности
Улучшения языка запросов, новые функции и возможности для анализа данных
Инструменты, которые предвидят и обнаруживают потенциальные проблемы до того, как они повлияют на пользователей
Централизованная консоль для управления мониторами и отслеживания их активности во времени
Продвинутые мониторы, которые идентифицируют отклонения в метриках на базе автоматического расчета доверительных интервалов и прогнозирования
Расширенные возможностей для мониторинга физических хостов и контейнеризированных сред
Визуализация того, как компоненты инфраструктуры связаны с вашими приложениями
Улучшение масштабируемости для обработки больших наборов данных и групп пользователей
Усиленные функции безопасности для надежного хранения конфиденциальных логов
Специализированные инструменты для мониторинга бэкенд-сервисов, чтобы обеспечить надежность и производительность
Единый и универсальный агент для сбора телеметрических данных в различных средах и платформах
Правила записи
Инструменты RCA (Root Cause Analysis)
Активность мониторов
Сетевые мониторы
Преобразование трассировок в метрики
Детали сетевого общения
Карта сети
Ноутбуки
AI-помощник
Контекстные мониторы
PLANNED
Усовершенствования умных мониторов
Препроцессинг данных
planned
planned
Sage Notebooks
Быстрый старт
planned
Каталоги алертов
Дашборды
Каталоги дашбордов
planned
Расширенный сетевой мониторинг
planned
Мониторинг производительности сети (NPM)
2026 H2
2026 H1
Преобразование логов в метрики
Пайплайны логов
Динамическая карта для визуализации топологии сети, соединений и потоков данных
Глубокий анализ сетевых взаимодействий и метрик производительности
Инструменты для совместного анализа данных, визуализации и отчетности в интерактивной среде
Интеграция AI-ассистента для помощи в формулировании запросов, обнаружении паттернов и получении инсайтов
Настраиваемые пайплайны для обработки и трансформации логов перед их хранением или анализом
Автоматическое преобразование записей логов в полезные метрики для мониторинга
Трансформация данных трассировок в метрики для получения инсайтов о производительности
Составление правил записи определенных данных с течением времени для постоянного мониторинга
Возможность быстро создавать мониторы на базе контекста данных
Исторические данные о работе мониторов и срабатывании событий
Интегрированные инструменты для помощи в распознавания основных причин инцидентов
Готовые к использованию дашборды для мгновенной видимости ключевых метрик
Библиотека предопределенных оповещений для общих сценариев, чтобы ускорить настройку
Коллекции дашбордов, адаптированные под различные потребности мониторинга
Специализированные мониторы, сфокусированные на производительности сети, надежности и обнаружении проблем
Специализированные мониторы, сфокусированные на производительности сети, надежности и обнаружении проблем