Excelente explicación de como reducir el Unreachable Poller

From Zabbix-ES
Jump to navigation Jump to search
Buenas os dejo una explicación de como reducir el Unreachable poller en Zabbix y los links a la explicación original
Fuente: https://www.zabbix.com/forum/zabbix-troubleshooting-and-problems/400962-solving-the-alert-zabbix-unreachable-poller-processes-more-than-75-busy

STEP 1: Limpiando los unreachable items

Vamos a Configuration > Hosts, y hacemos click sobre cualquier link a un item de cualquier host.
Abrimos los filtros y limpiamos todos los campos, dejamos completamente vacíos los filtros hasta el del host.
Cambiamos el State de all por Not supported. Este cambio cambiara automáticamente el campo Status a Enabled.
Por ultimo aplicamos los cambios y se generara un reporte de todos los items que no se pueden acceder. Por desgracia, esto tambien incluye todos los items desabilitados en los hosts. Ahora hay que deshabilitar todos los items que nunca cambiaran a disponible o solventamos uno a uno los problemas del item.

STEP 2: Limpiando los unreachable hosts.

Vamos a Configuration > Hosts
Buscamos la columna 'Availablity' que este con el led en Rojo para ZBX|SNMP|JMX|IPMI
Todos los leds en Rojo son suseptibles de ser ir a unreachable poller.
Nuevamente desactivamos los host que nunca van a estar UP nuevamente o solventamos el problema que ZBX nos esta informando.

STEP 3: Buscando que estan haciendo los unreachable pollers.

Esto es lo que me llevo a descubrir el Step 2
Abrimos una terminal en el zabbix server y ejecutamos un: ps axu|grep -i unreachable
Nota: Los unreachable pollers  lentos son los que muestran 1 item en 60 segundos. Nos quedamos con el PID de ese proceso.
Utilizando el comando strace miramos que esta haciendo ese thread. Ej. strace -p 1234
En mi caso recupero algo de IO con una dirección IP (el que esta generando los Unreachable pollers!!!) y una seleccion de fd con time out de 30 segundos.
Para el numero de fs, ejecutamos un ls -hal /proc/1234/fd/0, esto es para le PID 1234 y el FD 0. Con esto se podran ver los sockets que causan la lentitud.
This also yielded an interesting fact:
In /etc/zabbix/zabbix_server.conf there was a line Timeout=30 . It turns out some of our items do in rare circumstances need 30 seconds to check so this is impossible to change. But it also meant every unreachable SNMP host took 30 seconds to check, and there were a lot of these. It would be nice to be able to tune this setting specifically for the unreachable pollers.