Cluster Suite HA CentOS 6.3

Forums: 

Un gusto saludarl@s nuevamente, aca molestando por un problema que ya me lleva una semana y nada,estoy implementando un Cluster HA (activo/pasivo)para un web server(apache), los recursos son IP_VIRTUAL y APACHE, con dos servidores físicos, el problema es cuando defino como recurso la ip_virtual la ip_virtual no inicia y me da error aca el log,


Oct 11 15:25:45 rgmanager Restarting changed resources.
Oct 11 15:25:45 rgmanager Starting changed resources.
Oct 11 15:25:45 rgmanager start on ip "10.10.1.88/255.255.255.0" returned 1 (generic error)
Oct 11 15:25:54 rgmanager [ip] Checking 10.10.1.88/255.255.255.0, Level 10
Oct 11 15:25:54 rgmanager [ip] 10.10.1.88/255.255.255.0 is not configured
Oct 11 15:25:54 rgmanager Stopping service service:EG
Oct 11 15:25:54 rgmanager [ip] 10.10.1.88/255.255.255.0 is not configured
Oct 11 15:25:54 rgmanager [fs] unmounting /opt
Oct 11 15:25:54 rgmanager Service service:EG is recovering
Oct 11 15:25:55 rgmanager Service service:EG is stopped

Aca la salida del comando clustat de ambos nodos
Node 1

Cluster Status for JBOSS_WEB_HA @ Thu Oct 11 15:31:00 2012
Member Status: Quorate

Member Name ID Status
------ ---- ---- ------
node1 1 Online, Local, rgmanager
node2 2 Online, rgmanager

Service Name Owner (Last) State
------- ---- ----- ------ -----
service:EG (node2) stopped

Node2


Cluster Status for JBOSS_WEB_HA @ Thu Oct 11 15:30:14 2012
Member Status: Quorate

Member Name ID Status
------ ---- ---- ------
node1 1 Online, rgmanager
node2 2 Online, Local, rgmanager

Service Name Owner (Last) State
------- ---- ----- ------ -----
service:EG (node2) stopped

Aca el archivo cluster.conf


<?xml version="1.0"?>

Favor si alguien lo ha hecho en la versión Centos 6 o Red Hat 6,por que el la versión 5 no hay problema, pero por un requerimiento se lo debe hacer en 6. Gracias por su tiempo.

Lo recomendable es tener en

Imagen de deathUser

Lo recomendable es tener en cada nodo al menos 2 interfaces de red, una de las cuales garantizará la conectividad entre todos los nodos del cluster, la otra interfaz debe tener una dirección IP de la misma subred que la IP compartida (la IP con la que se brindará el servicio) si esto no es así, el cluster manager no tiene manera de saber en que interfaz asignar la dirección IP requerida ...

bye
;)

Tengo un documento de un

Imagen de deathUser

Tengo un documento de un cluster que implementé como parte de un laboratorio en un curso de postgresql, probablemente lo coloque en ecualug en la sección de COMOS para el que le interese.

bye
;)

Gracias por tu interes

Imagen de robecarlsiro

Perdon por la demora estaba haciendo pruebas de todo .Correcto tengo configuradas dos interfaces x cada servidor la red 10.10.1.X (heartbeat) es un cat6 conectado directo punto a punto y la 10.10.2.X esta conectado al switch:
Node 1

2: eth0: mtu 1500 qdisc mq state UP qlen 1000
inet 10.10.2.35/24 brd 10.121.151.255 scope global eth0
3: eth1: mtu 1500 qdisc mq state UP qlen 1000
inet 10.10.1.10/24 brd 10.10.1.255 scope global eth1

Node 2

2: eth0: mtu 1500 qdisc mq state UP qlen 1000
inet 10.10.2.36/24 brd 10.121.151.255 scope global eth0
3: eth1: mtu 1500 qdisc mq state UP qlen 1000
inet 10.10.1.20/24 brd 10.10.1.255 scope global eth1

/etc/hosts

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
10.10.2.35 srv1 srv1.xxx.com
10.10.2.36 srv2 srv2.xxx.com
10.10.1.10 node1
10.10.1.20 node2

Aca un poco de log


Oct 16 12:51:43 modcluster: Restarting service: HA_APACHE
Oct 16 12:51:43 ricci[3601]: Executing '/usr/bin/virsh nodeinfo'
Oct 16 12:51:43 rgmanager[2160]: Starting disabled service service:HA_APACHE
Oct 16 12:51:43 ricci[3604]: Executing '/usr/libexec/ricci/ricci-worker -f /var/lib/ricci/queue/643616570'
Oct 16 12:51:43 rgmanager[2160]: start on ip "10.10.1.88/255.255.255.0" returned 1 (generic error)
Oct 16 12:51:43 rgmanager[2160]: #68: Failed to start service:HA_APACHE; return value: 1
Oct 16 12:51:44 rgmanager[2160]: Stopping service service:HA_APACHE
Oct 16 12:51:44 ricci[3640]: Executing '/usr/libexec/ricci/ricci-worker -f /var/lib/ricci/queue/62548536'
Oct 16 12:51:44 rgmanager[2160]: Service service:HA_APACHE is recovering
Oct 16 12:51:44 rgmanager[2160]: #71: Relocating failed service service:HA_APACHE

Favor agradeceria mucho que me digan donde estoy equivocandome,

Saludos
Roberto D.

Lo único que se me hace raro

Imagen de deathUser

Lo único que se me hace raro es la dirección de broadcast:

[quote=robecarlsiro]inet 10.10.2.35/24 brd 10.121.151.255 scope global eth0[/quote]

No se corresponde con la máscara debería ser:


inet 10.10.2.35/24 brd 10.10.2.255 scope global eth0

por otra parte verifica que la dirección IP 10.10.1.88 no esté asignada a ningún dispositivo ...

bye
;)

Gracias por responder

Imagen de robecarlsiro

1 .- Lo único que se me hace raro es la dirección de broadcast:

jeje :P para no hacer publica la info no estoy poniendo los ips reales,

2.-por otra parte verifica que la dirección IP 10.10.1.88 no esté asignada a ningún dispositivo ...

No esta asignado a nada

PING 10.10.1.88 (10.10.1.88) 56(84) bytes of data.
From 10.10.1.10 icmp_seq=2 Destination Host Unreachable
From 10.10.1.10 icmp_seq=3 Destination Host Unreachable
From 10.10.1.10 icmp_seq=4 Destination Host Unreachable

Saludos
Roberto D.

Tienes IPs públicas para los

Imagen de deathUser

Tienes IPs públicas para los nodos del cluster ...??? bueno quizás para el servicio podría ser pública, si no es así no creo que 4 direcciones IP privadas puedan comprometer la seguridad y/o privacidad de tu red ...

En todo caso, valida las máscaras de todas las redes involucradas, las redes deberían ser completamente independientes, en el ejemplo 10.10.1.0 y 10.10.2.0 con máscaras 24 estarían bien, un ejemplo de redes no adecuadas sería:
10.10.1.0 / 24
10.10.0.0 / 16

ya que la dirección del servicio del ejemplo 10.10.1.88 sería accesible desde cualquiera de las dos redes ya que una es un subconjunto de la otra ...

que no responda al ping no es garantía de que no esté en uso, mira si no encuentras referencias en la tabla de arp por ejemplo.

por último, creo que puedes habilitar el debug en los mensajes del cluster, seguramente te dará más información sobre el por qué del fallo en la asignación de la dirección IP ...

bye
;)

PD: cuando tuve el problema solamente fue por que la ip compartida no estaba en la misma subred de ninguna de las interfaces de los nodos, una vez corregido el tema la asignación se hizo sin problemas.

Gracias , me ayudo mucho

Imagen de robecarlsiro

Gracias , me ayudo mucho entender el funcionamiento del cluster suite con tus consejos, el error lo corregi al NO poner mascara (netmask) cuando configuro el recurso IP ADDRESS aca el cluster.conf


<?xml version="1.0"?>

Aca la salida del ip addr

eth0: mtu 1500 qdisc mq state UP qlen 1000
inet 10.10.2.35/24 brd 10.121.151.255 scope global eth0
inet 10.10.2.32/24 scope global secondary eth0


eth1: mtu 1500 qdisc mq state UP qlen 1000
inet 10.10.1.10/24 brd 10.10.1.255 scope global eth1
inet 10.10.1.100/24 scope global secondary eth1

Gracias por tu tiempo maestro !!!!

Saludos
Roberto D.

Genial, el problema es que

Imagen de deathUser

Genial, el problema es que según recuerdo, este detalle no está por ninguna parte de la documentación, o está muy oculto, cuando debería ser muy explícito, ya que cuando te pasa no tienes ni idea del porqué ...

también me costó un buen tiempo encontrar el origen del problema :)

bye
;)