Advertising:

Excelente explicación de como reducir el Unreachable Poller

From Zabbix-ES
Jump to navigation Jump to search
Buenas os dejo una explicación de como reducir el Unreachable poller en Zabbix y los links a la explicación original
Fuente: https://www.zabbix.com/forum/zabbix-troubleshooting-and-problems/400962-solving-the-alert-zabbix-unreachable-poller-processes-more-than-75-busy

STEP 1: Limpiando los unreachable items

Vamos a Configuration > Hosts, y hacemos click sobre cualquier link a un item de cualquier host.
Abrimos los filtros y limpiamos todos los campos, dejamos completamente vacíos los filtros hasta el del host.
Cambiamos el State de all por Not supported. Este cambio cambiara automáticamente el campo Status a Enabled.
Por ultimo aplicamos los cambios y se generara un reporte de todos los items que no se pueden acceder. Por desgracia, esto tambien incluye todos los items desabilitados en los hosts. Ahora hay que deshabilitar todos los items que nunca cambiaran a disponible o solventamos uno a uno los problemas del item.

STEP 2: Limpiando los unreachable hosts.

Vamos a Configuration > Hosts
Buscamos la columna 'Availablity' que este con el led en Rojo para ZBX|SNMP|JMX|IPMI
Todos los leds en Rojo son suseptibles de ser ir a unreachable poller.
Nuevamente desactivamos los host que nunca van a estar UP nuevamente o solventamos el problema que ZBX nos esta informando.

STEP 3: Finding out what the unreachable pollers are doing.

This is what led me to discover step 2.
Open a linux terminal and do something like ps axu|grep -i unreachable
Note the unreachable pollers that are slow. E.g. I had some saying 1 item in 60 seconds. Note the PID (of the thread, not of the whole zabbix process)
Use strace to find out what that thread is doing, e.g. strace -p 1234
I got some IO on an IP adress (bingo) and a select on fd 0 with time out of 30 seconds.
For the fd number, do something like ls -hal /proc/1234/fd/0 , this is for PID 1234 and FD 0. You can now see what file/socket/... is causing the slowdown.
This also yielded an interesting fact:
In /etc/zabbix/zabbix_server.conf there was a line Timeout=30 . It turns out some of our items do in rare circumstances need 30 seconds to check so this is impossible to change. But it also meant every unreachable SNMP host took 30 seconds to check, and there were a lot of these. It would be nice to be able to tune this setting specifically for the unreachable pollers.