enabled telegraf again and set failsave configuration

2025-11-26 15:43:25 +01:00
parent 338a3b5ae2
commit 990b22176f
5 changed files with 48 additions and 5 deletions
--- a/roles/server/files/telegraf.d/agent.conf
+++ b/roles/server/files/telegraf.d/agent.conf
@@ -0,0 +1,20 @@
+###############################################################################
+# GLOBAL AGENT CONFIG
+###############################################################################
+[agent]
+  ## Erfassungsintervall
+  interval = "10s"
+
+  ## Batches kleiner halten → weniger RAM pro Batch
+  metric_batch_size = 500
+  metric_buffer_limit = 10000    # Maximal 10.000 Messpunkte im RAM
+
+  ## Wenn der Buffer voll ist, werden alte Daten verworfen
+  ## → verhindert "Memory blowup"
+  collection_jitter = "1s"
+  flush_interval = "10s"
+  flush_jitter = "2s"
+
+  ## Jeder Output-Write versucht nur kurz, dann wird das Batch verworfen
+  ## → wichtig gegen RAM-Voll-Laufen
+  round_interval = true
--- a/roles/server/files/telegraf.d/output_file.conf
+++ b/roles/server/files/telegraf.d/output_file.conf
@@ -0,0 +1,11 @@
+# --- FALLBACK: Metriken in Datei schreiben (optional, aber SEHR hilfreich) ---
+# Wird aktiviert, wenn du sicherstellen willst, dass keine Daten verloren gehen,
+# selbst wenn die InfluxDB tagelang offline ist.
+#
+# WICHTIG: Der File-Output belegt praktisch KEINEN RAM, da er direkt streamt.
+
+[[outputs.file]]
+  files = ["stdout", "/var/log/telegraf/metrics_backup.out"]
+  rotation_interval = "1h"
+  rotation_max_size = "100MB"
+  rotation_max_archives = 5
--- a/roles/server/files/telegraf.d/output_influx.conf
+++ b/roles/server/files/telegraf.d/output_influx.conf
@@ -1,4 +1,17 @@
 [[outputs.influxdb]]
  urls = ["http://grafana.universe.local:8086"]
  database = "linux"
+
+  ## Timeouts BEGRENZEN, damit der Puffer nicht endlos wächst
+  timeout = "3s"
+  username = "telegraf"
+  password = "secret"
+
+  ## Wenn die DB nicht erreichbar ist, nicht zu lange blockieren:
+  ## nur wenige Wiederholungen
+  write_timeout = "3s"
+  ## Ab Telegraf 1.20+ sinnvoll:
+  http_headers = { "Connection" = "close" }
+
+  ## Fehler schnell melden → verhindert große Warteschlangen
  skip_database_creation = false