Kapitel 62: Metriken mit Prometheus

29. Mai 2025

Die Erfassung und Analyse von Metriken ist ein wesentlicher Bestandteil der Überwachung und Leistungsoptimierung von Systemen und Anwendungen. Durch die kontinuierliche Überwachung können potenzielle Probleme frühzeitig erkannt und behoben werden, bevor sie zu größeren Störungen führen. Die Erfassung von Metriken ermöglicht es, wertvolle Einblicke in das Verhalten und die Leistung von Anwendungen zu gewinnen, sodass informierte Entscheidungen getroffen werden können.

Prometheus ist ein leistungsstarkes Monitoring-Tool, das speziell für die Erfassung und Analyse von Metriken entwickelt wurde. Es verwendet ein Time-Series-Datenbankmodell, um Metriken zeitbasiert zu speichern und leicht zugänglich zu machen. Prometheus unterstützt sowohl die aktive Abfrage von Metriken als auch die passive Erfassung von Daten durch sogenannte Exporter, die Metriken von unterschiedlichen Systemen und Anwendungen sammeln.

Um Metriken effektiv zu erfassen, sollten die spezifischen Leistungsindikatoren, die überwacht werden sollen, klar definiert werden. Zu den häufigsten Metriken gehören:

Systemauslastung: Diese Metrik gibt Auskunft darüber, wie stark die Ressourcen eines Systems wie CPU, RAM und I/O genutzt werden.
Anwendungsantwortzeiten: Die Zeitspanne zwischen einer Anfrage und der entsprechenden Antwort von der Anwendung, welche Hinweise auf die Leistung der Anwendung geben kann.
Fehlerquoten: Die Anzahl der fehlgeschlagenen Anfragen im Vergleich zu den insgesamt gesendeten Anfragen, die Aufschluss über die Stabilität der Anwendung gibt.
Benutzermetriken: Informationen über die Anzahl der aktiven Benutzer und deren Interaktionen mit der Anwendung, die helfen, das Benutzerverhalten zu verstehen.

Die Analyse der gesammelten Metriken erfolgt in der Regel über eine grafische Benutzeroberfläche oder durch Abfragen der Prometheus-Datenbank. Hierbei ist es wichtig, Trends über längere Zeiträume zu erkennen und Analysen in Form von Dashboards zu visualisieren, um einen schnellen Überblick über den Zustand des Systems zu erhalten.

Die effektivste Analyse erfolgt häufig durch Kombinierung verschiedener Metriken, wodurch ein umfassenderes Bild der Systemleistung entsteht. Beispielsweise kann die Analyse von Antwortzeiten in Verbindung mit Benutzeraktivitäten helfen, Engpässe zu identifizieren und die Nutzererfahrung zu verbessern.

Prometheus installieren und konfigurieren

Die Installation und Konfiguration von Prometheus ist ein entscheidender Schritt zur Nutzung seiner leistungsstarken Monitoring-Funktionen. Der Installationsprozess kann sowohl lokal auf einem Server als auch in Container-Umgebungen wie Docker oder Kubernetes erfolgen. In diesem Abschnitt werden die Schritte zur Installation und grundlegenden Konfiguration von Prometheus beschrieben.

Um Prometheus zu installieren, können Sie die offizielle Prometheus-Website besuchen und die neueste Version für Ihr Betriebssystem herunterladen. Nach dem Download müssen Sie das Archiv entpacken und die ausführbare Datei in ein Verzeichnis Ihrer Wahl verschieben. Dies kann auf einem Linux-Server wie folgt aussehen:

tar -xvf prometheus-*.tar.gz
mv prometheus-*/prometheus /usr/local/bin/
mv prometheus-*/promtool /usr/local/bin/

Nach der Installation sollten Sie die Konfigurationsdatei von Prometheus anpassen. Diese Datei, die in der Regel `prometheus.yml` heißt, ermöglicht es Ihnen, die zu überwachenden Endpunkte sowie die Konfiguration der Metriken festzulegen. Ein einfaches Beispiel einer Konfigurationsdatei könnte folgendermaßen aussehen:

global:
  scrape_interval: 15s  # Wie oft die Daten erfasst werden
scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['localhost:9100']  # Ziel-URL für den Node Exporter

Nachdem die Konfigurationsdatei erstellt oder angepasst wurde, können Sie Prometheus mit dem folgenden Befehl starten:

prometheus --config.file=prometheus.yml

Nachdem der Dienst gestartet ist, können Sie die Benutzeroberfläche von Prometheus über Ihren Webbrowser aufrufen. Standardmäßig ist die Oberfläche unter http://localhost:9090 verfügbar. Hier können Sie die Statusseite von Prometheus einsehen, die Informationen über aktive Jobs und deren Status anzeigt.

Ein wichtiger Aspekt der Konfiguration besteht darin, sicherzustellen, dass die Endpunkte, von denen Metriken gesammelt werden, erreichbar sind. Sie können dazu verschiedene Exporter verwenden, die speziell für verschiedene Anwendungen und Systeme entwickelt wurden. Beispiele für häufig verwendete Exporter sind:

Node Exporter: Erfasst Metriken von Linux-Servern und stellt Informationen über Systemressourcen bereit.
Application Exporter: Ist spezifisch für Anwendungen und erfasst Anwendungsmetriken.
Blackbox Exporter: Überwacht die Erreichbarkeit von Diensten über HTTP, HTTPS, TCP und ICMP.

Die Überwachung und Anpassung der Konfiguration ist ein fortlaufender Prozess, der sicherstellt, dass die erfassten Metriken relevant und nützlich bleiben. Eine sorgfältige Planung und Überprüfung der Konfiguration kann dazu beitragen, die Effizienz von Prometheus in Ihrer Umgebung zu maximieren.

Datenabfragen mit PromQL

Die Datenabfrage mit PromQL (Prometheus Query Language) ist ein zentraler Bestandteil der Nutzung von Prometheus zur Analyse und Visualisierung von Metriken. PromQL ermöglicht es Ihnen, komplexe Abfragen über die gesammelten Metriken zu formulieren und diese in unterschiedlichen Formaten anzuzeigen. Die Flexibilität dieser Sprache bietet eine Vielzahl von Möglichkeiten zur Datenanalyse, die es Ihnen erlauben, tiefere Einblicke in das Verhalten Ihrer Systeme zu erhalten.

Ein grundlegendes Konzept von PromQL ist die Unterscheidung zwischen metrischen Namen und Labels. Jeder Metrikenserie hat einen Namen und kann mit verschiedenen Labels versehen sein, die zusätzliche Informationen über den Zustand oder die Herkunft der Metrik liefern. Eine Abfrage könnte in ihrer einfachsten Form aus dem Namen der Metrik bestehen, zum Beispiel:

httprequeststotal

Dies liefert alle gesammelten HTTP-Anfragen. Um gezielte Daten zu erhalten, können Sie Labels verwenden, um nur eine Teilmenge der Metriken abzufragen. Ein Beispiel dafür könnte so aussehen:

httprequeststotal{status="500"}

Diese Abfrage würde nur die Metriken für HTTP-Anfragen mit dem Statuscode 500 zurückgeben, was eine wesentliche Hilfe bei der Fehlersuche sein kann.

Ein weiteres wichtiges Konzept sind Aggregationsfunktionen, die es Ihnen ermöglichen, Daten zu aggregieren und zu konsolidieren. Mit Funktionen wie PLACEHOLDERe707df115d38441a, PLACEHOLDER1d9f06f522af1f8b, PLACEHOLDER8cbf0c92215b308f und PLACEHOLDER8416b9a61b78c398 können Sie die Metriken zusammenfassen. Zum Beispiel könnte eine Abfrage zur Berechnung der durchschnittlichen Anfragen pro Sekunde so aussehen:

avg(rate(httprequeststotal[5m]))

In dieser Abfrage wird die Rate der HTTP-Anfragen über die letzten 5 Minuten gemessen und der Durchschnitt berechnet. Solche Aggregationen sind entscheidend, um Trends und Muster im Zeitverlauf zu erkennen.

PromQL bietet auch die Möglichkeit zur Verwendung von Zeitintervallen. Durch die Angabe von Zeitspannen können Sie historische Daten analysieren oder Trends sehen. Ein Beispiel hierfür wäre:

httprequeststotal{instance="server1"}[1h]

Hiermit wird die Metrik der HTTP-Anfragen für den Server „server1“ der letzten Stunde abgerufen. Dies hilft dabei, langfristige Trends und saisonale Veränderungen in den Daten zu beobachten.

Ein weiteres mächtiges Feature in PromQL ist die Möglichkeit, mehrere Abfragen zu kombinieren oder Sub-Abfragen zu erstellen. So können Sie komplexe Analysen durchführen, indem Sie beispielsweise die Metriken von mehreren Quellen zusammenfassen oder miteinander in Beziehung setzen. Dies könnte mit einer Abfrage wie folgt geschehen:

sum(rate(httprequeststotal[5m])) by (instance)

Diese Abfrage summiert die Rate der HTTP-Anfragen über die letzten 5 Minuten und gruppiert sie nach Instanz, was Aufschluss darüber gibt, wie viele Anfragen jede Instanz verarbeitet.

Die Nutzung von PromQL wird durch eine umfangreiche Dokumentation und zahlreiche Beispiele unterstützt. Es ist empfehlenswert, die Abfragen in der Benutzeroberfläche von Prometheus auszuprobieren, um ein besseres Verständnis der Funktionsweise und der Flexibilität von PromQL zu entwickeln. Experimentieren und das Erstellen spezifischer Abfragen helfen dabei, die individuellen Bedürfnisse Ihrer Überwachungs- und Analysetätigkeiten besser zu erfüllen.

Visualisierung der Metriken

Die Visualisierung der Metriken ist ein entscheidender Aspekt, um die gesammelten Daten aus Prometheus effektiv zu nutzen und zu interpretieren. Durch die richtige Darstellung der Daten können technische Teams Probleme schneller identifizieren und Maßnahmen ergreifen, um die Systemleistung zu optimieren. Die Visualisierung bietet einen schnellen Überblick über den Zustand des Systems und ermöglicht es, Trends über längere Zeiträume zu erkennen.

Prometheus selbst bietet eine grundlegende Benutzeroberfläche, die Ihnen erlaubt, Metriken abzufragen und in einfacher grafischer Form darzustellen. Diese Oberfläche ist jedoch oft nicht ausreichend für umfassende Analyse- und Präsentationsanforderungen. Daher nutzen viele Teams zusätzliche Tools zur erweiterten Visualisierung, wie zum Beispiel Grafana, das eine breite Palette von Visualisierungsmöglichkeiten und Integrationen mit Prometheus unterstützt.

Bei der Verwendung von Grafana können Sie Dashboards erstellen, die verschiedene Metriken in einem zentralisierten Layout anzeigen. Dies ermöglicht den Nutzern, Echtzeitdaten zu beobachten und unterstützt die sofortige Identifizierung von Abweichungen von der Norm. Zu den verfügbaren Visualisierungen gehören:

Liniendiagramme: Ideal zur Darstellung von Metriken über Zeit, um Trends und Muster leicht zu erkennen.
Balkendiagramme: Nützlich für Vergleiche zwischen verschiedenen Metriken oder Instanzen.
Kreisdiagramme: Bieten eine Übersicht über Anteile und Verhältnis von bestimmten Unterkategorien, wie z.B. Fehlerraten im Vergleich zu erfolgreichen Anfragen.
Heatmaps: Zeigen Daten über Zeit mit Farbverläufen an, was die Erkennung von Verhaltensmustern erleichtert.

Das Erstellen von Dashboards in Grafana ist einfach und intuitiv. Zunächst müssen Sie eine Datenquelle hinzufügen, in diesem Fall Prometheus. Anschließend können Sie Panels hinzufügen und Abfragen mit PromQL definieren, um die passenden Metriken für Ihre Visualisierungen auszuwählen. Bei der Gestaltung der Dashboards ist es wichtig, die relevanten Metriken klar zu strukturieren und die Visualisierungen so zu wählen, dass sie schnell verständlich sind.

Ein weiterer wichtiger Aspekt der Visualisierung ist die Möglichkeit zur Einstellbarkeit. Dabei können Alarme und Benachrichtigungen in Grafana konfiguriert werden, die bei Überschreiten bestimmter Schwellenwerte ausgelöst werden. Dies ermöglicht es, proaktiv auf sich abzeichnende Probleme zu reagieren, bevor sie sich zu kritischen Ausfällen entwickeln. Die Kombination von Dashboards und Alarmierungsfunktionen stellt sicher, dass alle Teammitglieder sofort über zugrunde liegende Probleme informiert werden und entsprechende Maßnahmen ergreifen können.

Zusätzlich zu Grafana gibt es weitere Tools zur Visualisierung, die in Verbindung mit Prometheus verwendet werden können. Zum Beispiel ist Chronograf ein weiteres beliebtes Tool, das umfassende Visualisierungs- und Analysemöglichkeiten bietet. Es ist speziell für die Verwendung mit Zeitreihendaten geeignet und ermöglicht eine benutzerfreundliche Analyse von Metriken und Ereignissen.

Abschließend ist die Visualisierung von Metriken in Prometheus und anderen unterstützenden Tools ein kritischer Schritt, um verwertbare Erkenntnisse aus den gesammelten Daten abzuleiten, die Leistung von Systemen zu überwachen und letztlich fundierte Entscheidungen zur Verbesserung der Systemarchitektur und Dienstbereitstellung zu treffen. Effektives Monitoring und Visualisierung stärken die Fähigkeit eines Teams, proaktive Maßnahmen zu ergreifen und die Systemverfügbarkeit sowie die Benutzererfahrungen nachhaltig zu verbessern.

Best Practices für den Einsatz von Prometheus

Best Practices für den Einsatz von Prometheus sind entscheidend, um die Effizienz und Effektivität des Monitoring-Systems zu maximieren. Eine gründliche Planung und strategische Implementierung sind notwendig, um sicherzustellen, dass die gesammelten Metriken relevant und aussagekräftig sind. Hier sind einige empfohlene Vorgehensweisen, die Ihnen helfen können, Prometheus optimal zu nutzen.

Ein zentraler Aspekt ist die Definition der Metriken. Stellen Sie sicher, dass Sie nur die Metriken erfassen, die für Ihre Anwendungsfälle von Bedeutung sind. Übermäßiges Sammeln von Daten kann zu Speicherproblemen und unnötiger Komplexität führen. Konzentrieren Sie sich auf die wichtigsten Leistungsindikatoren, die Einblick in die Systemleistung und -stabilität geben.

Die Nutzung von Labels ist ebenfalls von großer Bedeutung. Durch den strategischen Einsatz von Labels können Sie Metriken besser filtern und analysieren. Achten Sie darauf, ein konsistentes Schema für Labels zu verwenden, um die Nachvollziehbarkeit und Wartbarkeit zu erhöhen. Beispiele für nützliche Labels sind:

job: Die Art des überwachten Dienstes, z.B. „web“ oder „api“.
instance: Der spezifische Server oder Container, von dem die Metriken gesammelt werden.
status: Der Status von Anfragen, z.B. „success“ oder „error“.

Um die Leistung zu optimieren, sollten Sie auch auf die Konfiguration des scrape_interval achten. Die Frequenz, mit der Prometheus Metriken abruft, kann je nach Leistung und Wichtigkeit der gesammelten Daten angepasst werden. Bei weniger kritischen Metriken kann ein längeres Intervall ausreichen, während wichtige Metriken kontinuierlich überwacht werden sollten.

Alarme und Benachrichtigungen sind ein weiterer wichtiger Bestandteil eines effektiven Monitoring-Systems. Nutzen Sie die Alertmanager-Funktion von Prometheus, um Alarme bei kritischen Bedingungen zu konfigurieren. Stellen Sie sicher, dass die Alarmierung so eingestellt ist, dass übermäßige oder fehlerhafte Benachrichtigungen vermieden werden, was als „Alarmmüdigkeit“ bekannt ist. Definieren Sie daher klar, unter welchen Bedingungen Alarme ausgelöst werden sollen.

Das Testen und Überprüfen Ihrer Konfiguration sollte regelmäßig durchgeführt werden. Überprüfen Sie Ihre Metriken und Abfragen, um sicherzustellen, dass sie die gewünschten Daten liefern. Führen Sie diese Überprüfungen nicht nur nach der Installation durch, sondern regelmäßig, um sicherzustellen, dass sich Änderungen in der Infrastruktur nicht negativ auf das Monitoring auswirken.

Zusätzlich ist es ratsam, Dokumentationen zu erstellen, die den Einsatz von Prometheus in Ihrer Umgebung klar umreißen. Dazu gehören Informationen zu den erfassten Metriken, Konfigurationsdetails und Anwendungsbeispielen. Eine gute Dokumentation erleichtert es neuen Teammitgliedern, sich einzuarbeiten, und hilft, Wissen im Team zu bewahren.

Schließlich sollten Sie die Prometheus-Community und die verfügbaren Plugins und Integrationen nutzen. Es gibt zahlreiche Plugins und Tools, die die Funktionalität von Prometheus erweitern können. Bleiben Sie über neue Entwicklungen informiert und experimentieren Sie mit verschiedenen Integrationen, um Ihre Monitoring-Lösung kontinuierlich zu verbessern.