Willkommen im ersten deutschsprachigen Nagios-Forum

Willkommen im ersten deutschsprachigen Nagios-Forum » Suche » Suchergebnis

» Hallo Gast [Anmelden|Registrieren]

Zeige Beiträge 1 bis 20 von 389 Treffern

Seiten (20): [1] 2 3 nächste » ... letzte »

Autor

Beitrag

Thema: drbd + heartbeat FEHLERSUCHE

Fuechsin

Antworten:	13
Hits:	606

22.03.2007 07:41

Forum: Linux

Hm

hab nun mal eben die private Leitung rausgenommen, dann klappt der failover einwandfrei...

sprich nur ein bcast auf 192.168.1.x und ping auf 192.168.1.5

Rein theoretisch macht es ja auch nicht wirklich Sinn, wenn er einen failover macht wenn "nur" die private Leitung weg ist... Oder seh ich das gerade falsch...?

Ist das vielleicht sobald man 2 Einträge drin hat eine "und"-Verknüfung? Also nur wenn BEIDE Einträge nicht erreichbar sind wird ein Failover gemacht.

Eine weitere Frage habe ich noch...
Waum folgte auf DRBD in der Version 0.7.23 die Version 8.0.0? verwirrt

Thema: drbd + heartbeat FEHLERSUCHE

Fuechsin

Antworten:	13
Hits:	606

21.03.2007 15:46

Forum: Linux

das wäre ja in dem Fall die 192.168.1.5...

Thema: drbd + heartbeat FEHLERSUCHE

Fuechsin

Antworten:	13
Hits:	606

21.03.2007 15:17

Forum: Linux

Moin,

jetzt stehe ich wieder vor einem Problem und trotz der unerbittlichen Hilfe von Frank hab ichs bisher nicht geschafft das Problem zu lösen... unglücklich

Also, wenn ich die private Leitung (cross-Kabel) kappe übernimmt ha2 die Dienste von ha1.
So sollte es auch sein, kappe ich aber die öffentliche Leitung tut sich nichts und der Dienst ist nicht mehr erreichbar...

hier meine ha.cf

code:
1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14: 15: 16:	keepalive 2 deadtime 10 warntime 10 initdead 120 ucast eth1 192.168.0.7 ucast eth0 192.168.1.3 ping 192.168.1.5 auto_failback on node ha1 node ha2

Die private Verbindung ist 192.168.0.x
Die öffentliche Verbindung ist 192.168.1.x

Auf dem Ersatzserver hab ich jeweils die IP vom Hauptserver eingesetzt.

Jemand eine Idee?
traurig

Thema: drbd + heartbeat FEHLERSUCHE

Fuechsin

Antworten:	13
Hits:	606

20.03.2007 09:59

Forum: Linux

Huhu,

zwar klappt der Failover Fall nicht, aber heartbeat startet FEHLERFREI!!! Baby

Es lag am "Filesystem" Skript! Habe mir das von:
http://cvs.linux-ha.org/viewcvs/viewcvs.cgi/linux-ha/heartbeat/resource.d/A
ttic/Filesystem?rev=1.3
genommen und damit startet alles wie es sollte großes Grinsen

Thema: drbd + heartbeat FEHLERSUCHE

Fuechsin

Antworten:	13
Hits:	606

20.03.2007 08:48

Forum: Linux

Also,

ich glaube das Problem ist das mounten von drbd0 nach /web

Wie schon erwähtn der Funktionstest mit nur Heartbeat klappt.

habe meine haresources geändert:

code:
1: 2: 3:	ha1 192.168.1.4 drbddisk::drbd0 httpstart

Starte ich nun DRBD, setze ha1 auf Primary und mounte /dev/drbd0 nach /web, starte heartbeart, heartbeat auf ha2 starten

Jetzt läuft alles ohne Fehlermeldung, beende ich heartbeat auf ha1 wieder ist im log von ha2 folgendes zu finden:

code:

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:

heartbeat[25206]: 2007/03/20_08:42:02 info: Link ha1:eth1 dead.
harc[25246]:    2007/03/20_08:42:03 info: Running /etc/ha.d/rc.d/status status
heartbeat[25247]: 2007/03/20_08:42:03 info: No local resources [/usr/lib/heartbeat/ResourceManager listkeys ha2] to acquire.
mach_down[25266]:       2007/03/20_08:42:03 info: Taking over resource group 192.168.1.4
ResourceManager[25286]: 2007/03/20_08:42:03 info: Acquiring resource group: ha1 192.168.1.4 drbddisk::drbd0 httpstart
IPaddr[25310]:  2007/03/20_08:42:03 INFO:  Resource is stopped
ResourceManager[25286]: 2007/03/20_08:42:03 info: Running /etc/ha.d/resource.d/IPaddr 192.168.1.4 start
IPaddr[25364]:  2007/03/20_08:42:03 INFO: Using calculated nic for 192.168.1.4: eth0
IPaddr[25364]:  2007/03/20_08:42:03 INFO: Using calculated netmask for 192.168.1.4: 255.255.255.0
IPaddr[25364]:  2007/03/20_08:42:03 INFO: Using calculated broadcast for 192.168.1.4: 192.168.1.255
IPaddr[25364]:  2007/03/20_08:42:03 DEBUG: Sending Gratuitous Arp for 192.168.1.4 on eth0:0 [eth0]
IPaddr[25355]:  2007/03/20_08:42:03 INFO:  Success
ResourceManager[25286]: 2007/03/20_08:42:04 info: Running /etc/ha.d/resource.d/drbddisk drbd0 start
ResourceManager[25286]: 2007/03/20_08:42:04 info: Running /etc/ha.d/resource.d/httpstart  start
ResourceManager[25286]: 2007/03/20_08:42:04 ERROR: Return code 127 from /etc/ha.d/resource.d/httpstart
ResourceManager[25286]: 2007/03/20_08:42:04 CRIT: Giving up resources due to failure of httpstart
ResourceManager[25286]: 2007/03/20_08:42:04 info: Releasing resource group: ha1 192.168.1.4 drbddisk::drbd0 httpstart
ResourceManager[25286]: 2007/03/20_08:42:04 info: Running /etc/ha.d/resource.d/httpstart  stop
ResourceManager[25286]: 2007/03/20_08:42:04 ERROR: Return code 127 from /etc/ha.d/resource.d/httpstart

Thema: drbd + heartbeat FEHLERSUCHE

Fuechsin

Antworten:	13
Hits:	606

20.03.2007 07:12

Forum: Linux

und der Rest...

code:

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:

Mar 20 06:57:08 ha1 ResourceManager[5199]: ERROR: Resource script for Filesystem::/dev/drbd0::/web::ext3 probably not LSB-compliant.
Mar 20 06:57:08 ha1 ResourceManager[5199]: WARN: it (Filesystem::/dev/drbd0::/web::ext3) MUST succeed on a stop when already stopped
Mar 20 06:57:08 ha1 ResourceManager[5199]: WARN: Machine reboot narrowly avoided!
Mar 20 06:57:08 ha1 ResourceManager[5199]: info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
Mar 20 06:57:08 ha1 ResourceManager[5199]: debug: Starting /etc/ha.d/resource.d/drbddisk drbd0 stop
Mar 20 06:57:08 ha1 ResourceManager[5199]: debug: /etc/ha.d/resource.d/drbddisk drbd0 stop done. RC=20
.
.
.
Mar 20 06:58:27 ha1 syslog-ng[2526]: syslog-ng version 1.6.11 starting
Mar 20 06:58:28 ha1 auditd: Config file /etc/audit/auditd.conf doesn't exist, skipping
Mar 20 06:58:28 ha1 ifup:     sit0      
Mar 20 06:58:28 ha1 syslog-ng[2526]: Changing permissions on special file /dev/xconsole
Mar 20 06:58:28 ha1 syslog-ng[2526]: Changing permissions on special file /dev/tty10
Mar 20 06:58:28 ha1 ifup:               No configuration found for sit0
Mar 20 06:58:28 ha1 auditd[2577]: Init complete, auditd 1.2.6 listening for events
Mar 20 06:58:31 ha1 rcpowersaved: s2ram does not know your machine. See 's2ram -i' for details. (127)
Mar 20 06:58:31 ha1 rcpowersaved: Use SUSPEND2RAM_FORCE=yes to override this detection.
Mar 20 06:58:31 ha1 /usr/sbin/cron[2886]: (CRON) STARTUP (V5.0)
Mar 20 06:58:31 ha1 powersaved[2889]: WARNING (CpufreqManagement:51) No capability cpufreq_control
Mar 20 06:58:31 ha1 powersaved[2889]: WARNING (CpufreqManagement:51) No capability cpufreq_control
Mar 20 06:58:32 ha1 sshd[3070]: Server listening on :: port 22.
Mar 20 06:58:32 ha1 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Mar 20 06:58:32 ha1 kernel: powernow: This module only works with AMD K7 CPUs
Mar 20 06:58:32 ha1 kernel: eth0:  setting half-duplex.
Mar 20 06:58:32 ha1 kernel: eth1:  setting full-duplex.
Mar 20 06:58:32 ha1 kernel: NET: Registered protocol family 10
Mar 20 06:58:32 ha1 kernel: lo: Disabled Privacy Extensions
Mar 20 06:58:32 ha1 kernel: IPv6 over IPv4 tunneling driver
Mar 20 06:58:32 ha1 kernel: audit(1174370308.403:3): audit_backlog_limit=256 old=64 by auid=4294967295
Mar 20 06:58:32 ha1 kernel: audit(1174370308.599:4): audit_pid=2577 old=0 by auid=4294967295
Mar 20 06:58:32 ha1 kernel: IA-32 Microcode Update Driver: v1.14a <tigran@veritas.com>
Mar 20 06:58:35 ha1 zmd: NetworkManagerModule (WARN): Failed to connect to NetworkManager
Mar 20 06:58:38 ha1 zmd: Daemon (WARN): Not starting remote web server
Mar 20 06:58:38 ha1 kernel: eth1: no IPv6 routers present
Mar 20 06:58:38 ha1 kernel: eth0: no IPv6 routers present

Übrigens ein fettes SORRY wegen der Platzverschwendung verwirrt

Also....

ich habe eben auf beiden Rechnern /dev/hda3 nach /web gemountet, eine minimale haresources:

code:
1: 2: 3:	ha1 192.168.1.4 httpstart

in httpstart ist ein bashscript welches auf /web/httpd/bin/apachectl weist und ein start dahinter...
Funktionstest bestanden großes Grinsen

Nun muss ich mal mit DRBD schaun... ICH SSCHAFF DAS NOCH großes Grinsen

Thema: drbd + heartbeat FEHLERSUCHE

Fuechsin

Antworten:	13
Hits:	606

20.03.2007 07:11

Forum: Linux

soooo nun noch ein log...
10.000 Zeichen... tz großes Grinsen

letzten Einträge aus /var/log/messages:

code:

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
40:
41:
42:
43:
44:
45:
46:
47:
48:
49:
50:
51:
52:
53:
54:
55:
56:
57:
58:
59:
60:
61:
62:
63:
64:
65:
66:
67:
68:
69:
70:
71:
72:
73:
74:
75:
76:
77:
78:
79:
80:
81:
82:
83:
84:
85:
86:
87:
88:
89:
90:
91:
92:
93:
94:
95:
96:
97:
98:
99:
100:
101:
102:
103:
104:
105:
106:
107:
108:
109:
110:

Mar 20 06:46:35 ha1 kernel: drbd: initialised. Version: 0.7.22 (api:79/proto:74)
Mar 20 06:46:35 ha1 kernel: drbd: SVN Revision: 2554 build by lmb@dale, 2006-10-30 22:52:11
Mar 20 06:46:35 ha1 kernel: drbd: registered as block device major 147
Mar 20 06:46:36 ha1 kernel: drbd0: Requested disk size is too big (10485760 > 10399532)
Mar 20 06:46:36 ha1 kernel: drbd0: Requested disk size is too big (10485760 > 10399532)
Mar 20 06:46:36 ha1 kernel: klogd 1.4.1, ---------- state change ---------- 
Mar 20 06:46:36 ha1 kernel: drbd0: resync bitmap: bits=2599883 words=81248
Mar 20 06:46:36 ha1 kernel: drbd0: size = 9 GB (10399532 KB)
Mar 20 06:46:36 ha1 kernel: drbd0: 0 KB marked out-of-sync by on disk bit-map.
Mar 20 06:46:36 ha1 kernel: drbd0: Found 6 transactions (213 active extents) in activity log.
Mar 20 06:46:36 ha1 kernel: drbd0: Marked additional 595 MB as out-of-sync based on AL.
Mar 20 06:46:36 ha1 kernel: drbd0: drbdsetup [5002]: cstate Unconfigured --> StandAlone
Mar 20 06:46:36 ha1 kernel: drbd0: drbdsetup [5015]: cstate StandAlone --> Unconnected
Mar 20 06:46:36 ha1 kernel: drbd0: drbd0_receiver [5016]: cstate Unconnected --> WFConnection
Mar 20 06:46:48 ha1 kernel: drbd0: drbd0_receiver [5016]: cstate WFConnection --> WFReportParams
Mar 20 06:46:48 ha1 kernel: drbd0: Handshake successful: DRBD Network Protocol version 74
Mar 20 06:46:48 ha1 kernel: drbd0: Requested disk size is too big (10485760 > 10399532)
Mar 20 06:46:48 ha1 kernel: drbd0: Requested disk size is too big (10485760 > 10399532)
Mar 20 06:46:48 ha1 kernel: drbd0: Connection established.
Mar 20 06:46:48 ha1 kernel: drbd0: I am(S): 1:00000003:00000001:00000009:00000002:10
Mar 20 06:46:48 ha1 kernel: drbd0: Peer(S): 1:00000003:00000001:00000009:00000002:00
Mar 20 06:46:48 ha1 kernel: drbd0: drbd0_receiver [5016]: cstate WFReportParams --> WFBitMapS
Mar 20 06:46:48 ha1 kernel: drbd0: Secondary/Unknown --> Secondary/Secondary
Mar 20 06:46:48 ha1 kernel: drbd0: drbd0_receiver [5016]: cstate WFBitMapS --> SyncSource
Mar 20 06:46:48 ha1 kernel: drbd0: Resync started as SyncSource (need to sync 610092 KB [152523 bits set]).
Mar 20 06:47:27 ha1 kernel: drbd0: Secondary/Secondary --> Primary/Secondary
Mar 20 06:47:43 ha1 kernel: drbd0: Resync done (total 55 sec; paused 0 sec; 11092 K/sec)
Mar 20 06:47:43 ha1 kernel: drbd0: drbd0_worker [5003]: cstate SyncSource --> Connected
Mar 20 06:47:47 ha1 kernel: (fs/jbd/recovery.c, 255): journal_recover: JBD: recovery, exit status 0, recovered transactions 115 to 118
Mar 20 06:47:47 ha1 kernel: (fs/jbd/recovery.c, 257): journal_recover: JBD: Replayed 9 and revoked 0/0 blocks
Mar 20 06:47:47 ha1 kernel: kjournald starting.  Commit interval 5 seconds
Mar 20 06:47:47 ha1 kernel: EXT3 FS on drbd0, internal journal
Mar 20 06:47:47 ha1 kernel: EXT3-fs: recovery complete.
Mar 20 06:47:47 ha1 kernel: EXT3-fs: mounted filesystem with ordered data mode.
Mar 20 06:56:34 ha1 logd: [5060]: info: logd started with default configuration.
Mar 20 06:56:34 ha1 logd: [5060]: WARN: Core dumps could be lost if multiple dumps occur
Mar 20 06:56:34 ha1 logd: [5060]: WARN: Consider setting /proc/sys/kernel/core_uses_pid (or equivalent) to 1 for maximum supportability
Mar 20 06:56:34 ha1 logd: [5062]: info: G_main_add_SignalHandler: Added signal handler for signal 15
Mar 20 06:56:34 ha1 logd: [5060]: info: G_main_add_SignalHandler: Added signal handler for signal 15
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: Core dumps could be lost if multiple dumps occur
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: Consider setting /proc/sys/kernel/core_uses_pid (or equivalent) to 1 for maximum supportability
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: Deprecated 'legacy' auto_failback option selected.
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: Please convert to 'auto_failback on'.
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: See documentation for conversion details.
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: Logging daemon is disabled --enabling logging daemon is recommended
Mar 20 06:56:34 ha1 heartbeat: [5104]: info: **************************
Mar 20 06:56:34 ha1 heartbeat: [5104]: info: Configuration validated. Starting heartbeat 2.0.7
Mar 20 06:56:34 ha1 heartbeat: [5105]: info: heartbeat: version 2.0.7
Mar 20 06:56:34 ha1 heartbeat: [5105]: info: Heartbeat generation: 7
Mar 20 06:56:34 ha1 heartbeat: [5105]: info: G_main_add_TriggerHandler: Added signal manual handler
Mar 20 06:56:34 ha1 heartbeat: [5105]: info: G_main_add_TriggerHandler: Added signal manual handler
Mar 20 06:56:34 ha1 heartbeat: [5105]: info: Removing /var/run/heartbeat/rsctmp failed, recreating.
Mar 20 06:56:35 ha1 heartbeat: [5105]: info: glib: UDP Broadcast heartbeat started on port 694 (694) interface eth1
Mar 20 06:56:35 ha1 heartbeat: [5105]: info: glib: UDP Broadcast heartbeat closed on port 694 interface eth1 - Status: 1
Mar 20 06:56:35 ha1 heartbeat: [5105]: info: G_main_add_SignalHandler: Added signal handler for signal 17
Mar 20 06:56:35 ha1 heartbeat: [5105]: info: Local status now set to: 'up'
Mar 20 06:56:36 ha1 heartbeat: [5105]: info: Link ha1:eth1 up.
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Link ha2:eth1 up.
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Status update for node ha2: status up
Mar 20 06:56:44 ha1 heartbeat: [5105]: debug: get_delnodelist: delnodelist= 
Mar 20 06:56:44 ha1 heartbeat: [5111]: debug: notify_world: setting SIGCHLD Handler to SIG_DFL
Mar 20 06:56:44 ha1 harc[5111]: info: Running /etc/ha.d/rc.d/status status
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Comm_now_up(): updating status to active
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Local status now set to: 'active'
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Status update for node ha2: status active
Mar 20 06:56:44 ha1 heartbeat: [5105]: debug: StartNextRemoteRscReq(): child count 1
Mar 20 06:56:44 ha1 IPaddr[5149]: INFO:  Resource is stopped
Mar 20 06:56:44 ha1 heartbeat: [5122]: info: Local Resource acquisition completed.
Mar 20 06:56:44 ha1 heartbeat: [5105]: debug: StartNextRemoteRscReq(): child count 1
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Initial resource acquisition complete (req_our_resources)
Mar 20 06:56:44 ha1 heartbeat: [5174]: debug: notify_world: setting SIGCHLD Handler to SIG_DFL
Mar 20 06:56:44 ha1 harc[5174]: info: Running /etc/ha.d/rc.d/status status
Mar 20 06:56:44 ha1 heartbeat: [5184]: debug: notify_world: setting SIGCHLD Handler to SIG_DFL
Mar 20 06:56:44 ha1 harc[5184]: info: Running /etc/ha.d/rc.d/ip-request-resp ip-request-resp
Mar 20 06:56:45 ha1 ip-request-resp[5184]: received ip-request-resp 192.168.1.4 OK yes
Mar 20 06:56:45 ha1 ResourceManager[5199]: info: Acquiring resource group: ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd MailTo::jessica@bla.de::Web_Failover
Mar 20 06:56:45 ha1 IPaddr[5223]: INFO:  Resource is stopped
Mar 20 06:56:45 ha1 ResourceManager[5199]: info: Running /etc/ha.d/resource.d/IPaddr 192.168.1.4 start
Mar 20 06:56:45 ha1 ResourceManager[5199]: debug: Starting /etc/ha.d/resource.d/IPaddr 192.168.1.4 start
Mar 20 06:56:45 ha1 IPaddr[5277]: INFO: Using calculated nic for 192.168.1.4: eth0
Mar 20 06:56:45 ha1 IPaddr[5277]: INFO: Using calculated netmask for 192.168.1.4: 255.255.255.0
Mar 20 06:56:45 ha1 IPaddr[5277]: INFO: Using calculated broadcast for 192.168.1.4: 192.168.1.255
Mar 20 06:56:45 ha1 IPaddr[5277]: DEBUG: Sending Gratuitous Arp for 192.168.1.4 on eth0:0 [eth0]
Mar 20 06:56:45 ha1 IPaddr[5268]: INFO:  Success
Mar 20 06:56:45 ha1 ResourceManager[5199]: debug: /etc/ha.d/resource.d/IPaddr 192.168.1.4 start done. RC=0
Mar 20 06:56:45 ha1 kernel: NET: Registered protocol family 17
Mar 20 06:56:45 ha1 ResourceManager[5199]: info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 start
Mar 20 06:56:45 ha1 ResourceManager[5199]: debug: Starting /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 start
Mar 20 06:56:45 ha1 ResourceManager[5199]: debug: /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 start done. RC=2
Mar 20 06:56:45 ha1 ResourceManager[5199]: ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
Mar 20 06:56:45 ha1 ResourceManager[5199]: CRIT: Giving up resources due to failure of Filesystem::/dev/drbd0::/web::ext3
Mar 20 06:56:45 ha1 ResourceManager[5199]: info: Releasing resource group: ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd MailTo::jessica@bla.de::Web_Failover
Mar 20 06:56:46 ha1 ResourceManager[5199]: info: Running /etc/ha.d/resource.d/httpd  stop
Mar 20 06:56:46 ha1 ResourceManager[5199]: debug: Starting /etc/ha.d/resource.d/httpd  stop
Mar 20 06:56:46 ha1 ResourceManager[5199]: debug: /etc/ha.d/resource.d/httpd  stop done. RC=1
Mar 20 06:56:46 ha1 ResourceManager[5199]: ERROR: Return code 1 from /etc/ha.d/resource.d/httpd
.
.
.
Mar 20 06:56:57 ha1 ResourceManager[5199]: ERROR: Resource script for httpd probably not LSB-compliant.
Mar 20 06:56:57 ha1 ResourceManager[5199]: WARN: it (httpd) MUST succeed on a stop when already stopped
Mar 20 06:56:57 ha1 ResourceManager[5199]: WARN: Machine reboot narrowly avoided!
Mar 20 06:56:57 ha1 ResourceManager[5199]: info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
Mar 20 06:56:57 ha1 ResourceManager[5199]: debug: Starting /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
Mar 20 06:56:57 ha1 ResourceManager[5199]: debug: /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop done. RC=2
.
.
.

Thema: drbd + heartbeat FEHLERSUCHE

Fuechsin

Antworten:	13
Hits:	606

20.03.2007 07:08

Forum: Linux

Also....

ich hatte gestern alle Prozesse beendet und heute folgendermaßen begonnen:

code:

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:

ha1:~ # /etc/init.d/drbd start
Starting DRBD resources:    [ d0 s0 n0 ].
..........
***************************************************************
 DRBD's startup script waits for the peer node(s) to appear.
 - In case this node was already a degraded cluster before the
   reboot the timeout is 120 seconds. [degr-wfc-timeout]
 - If the peer was available before the reboot the timeout will
   expire after 0 seconds. [wfc-timeout]
   (These values are for resource 'drbd0'; 0 sec -> wait forever)
 To abort waiting enter 'yes' [  11]:
ha1:~ # drbdsetup /dev/drbd0 primary --do-what-I-say
ha1:~ # mount /dev/drbd0 /web
ha1:~ # cat /proc/drbd 
version: 0.7.22 (api:79/proto:74)
SVN Revision: 2554 build by lmb@dale, 2006-10-30 22:52:11
 0: cs:Connected st:Primary/Secondary ld:Consistent  
    ns:610116 nr:0 dw:24 dr:610333 al:0 bm:249 lo:0 pe:0 ua:0 ap:0
ha1:~ # cat /proc/drbd 
version: 0.7.22 (api:79/proto:74)
SVN Revision: 2554 build by lmb@dale, 2006-10-30 22:52:11
 0: cs:Connected st:Primary/Secondary ld:Consistent  
    ns:610116 nr:0 dw:24 dr:610333 al:0 bm:249 lo:0 pe:0 ua:0 ap:0

Nach dem start auf ha1 hab ich dasselbe natürlich auch auf ha2 gemacht smile

Was müsste denn dort stehen? Secondary/Secondary? Was sehe ich dort überhaupt? Gibt es irgendeien Übersicht die mir die Kürzel erklärt? Hab bisher nix gefunden auf linux-ha.

Meine haresources sieht so aus:

code:
1: 2: 3:	ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd MailTo::jessica@bla.de::Web_Failover

So sieht der Link in der resources.d aus:

code:
1: 2: 3:	lrwxrwxrwx 1 root root 20 19. Mär 10:45 httpd -> /web/httpd/bin/httpd

Da ganze starte ich alles als root...

Den Webserver von Hand starten klappt ohne Probleme...

Ist es richtig erst drbd zu starten oder übernimmt Heartbeat das???

Nun würde ich heartbeat starten:

code:

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:

ha1:~ # /etc/init.d/heartbeat start
Starting High-Availability services2007/03/20_06:56:34 INFO:  Resource is stopped
heartbeat[5104]: 2007/03/20_06:56:34 WARN: Core dumps could be lost if multiple dumps occur
heartbeat[5104]: 2007/03/20_06:56:34 WARN: Consider setting /proc/sys/kernel/core_uses_pid (or equivalent) to 1 for maximum supportability
heartbeat[5104]: 2007/03/20_06:56:34 WARN: Deprecated 'legacy' auto_failback option selected.
heartbeat[5104]: 2007/03/20_06:56:34 WARN: Please convert to 'auto_failback on'.
heartbeat[5104]: 2007/03/20_06:56:34 WARN: See documentation for conversion details.
heartbeat[5104]: 2007/03/20_06:56:34 WARN: Logging daemon is disabled --enabling logging daemon is recommended
heartbeat[5104]: 2007/03/20_06:56:34 info: **************************
heartbeat[5104]: 2007/03/20_06:56:34 info: Configuration validated. Starting heartbeat 2.0.7
                                                                      done

Das selbe habe ich danachauf ha2 gemacht.

Und dann ist etwas komisches passiert. bin auf ha1 und ha2 per ssh eingeloggt. Nachdem letzten Schritt ging nichts mehr, die Verbindung zu ha1 wurde gekappt. Neu einloggen ging, aber weder drbd noch heartbeat liefen...

Die letzten Einträge aus dem ha-log:

code:

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:

ResourceManager[5199]:  2007/03/20_06:57:07 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[5199]:  2007/03/20_06:57:08 info: Retrying failed stop operation [Filesystem::/dev/drbd0::/web::ext3]
ResourceManager[5199]:  2007/03/20_06:57:08 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
ResourceManager[5199]:  2007/03/20_06:57:08 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[5199]:  2007/03/20_06:57:08 ERROR: Resource script for Filesystem::/dev/drbd0::/web::ext3 probably not LSB-compliant.
ResourceManager[5199]:  2007/03/20_06:57:08 WARN: it (Filesystem::/dev/drbd0::/web::ext3) MUST succeed on a stop when already stopped
ResourceManager[5199]:  2007/03/20_06:57:08 WARN: Machine reboot narrowly avoided!
ResourceManager[5199]:  2007/03/20_06:57:08 info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
ResourceManager[5199]:  2007/03/20_06:57:08 ERROR: Return code 20 from /etc/ha.d/resource.d/drbddisk
ResourceManager[5199]:  2007/03/20_06:57:09 info: Retrying failed stop operation [drbddisk::drbd0]
ResourceManager[5199]:  2007/03/20_06:57:10 info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop

rest kommt.... smile

Thema: drbd + heartbeat FEHLERSUCHE

Fuechsin

Antworten:	13
Hits:	606

drbd + heartbeat FEHLERSUCHE 19.03.2007 13:47

Forum: Linux

Moin,

und zwar habe ich ein Problem...

Vorweg:
Ich habe 2 Rechner mit jeweils 2 Netzwerkkarten
eth0: 192.168.1.2/3
eth1: 192.168.0.6/7

192.168.0.x sind miteeinander verbunden (Cross Kabel)

Ich habe DRBD (0.7) eingerichtet und es klappt.
Konfigurationsfile sieht folgendermaßen aus:

code:

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
40:

resource drbd0 {
 protocol C;
 incon-degr-cmd "echo '!DRBD! pri on incon-degr' | wall ; sleep 60 ; halt -f";
 startup {
  wfc-timeout   0;
  degr-wfc-timeout      120;
 }
disk {
 on-io-error detach;
 size 10G;
 }
net {
 timeout        60;
 connect-int    10;
 ping-int       10;
 max-buffers    2048;
 max-epoch-size 2048;
 ko-count       4;
 on-disconnect  reconnect;
 }
syncer {
 rate 100M;
 group 1;
 al-extents 257;
 }
on ha1 {
 device         /dev/drbd0;
 disk           /dev/hda3;
 address        192.168.0.6:7788;
 meta-disk      internal;
 }
on ha2 {
 device         /dev/drbd0;
 disk           /dev/hda3;
 address        192.168.0.7:7788;
 meta-disk      internal;
 }
}

Dieses starte ich folgendermaßen:
Auf beiden Rechnern:

code:
1: 2: 3:	/etc/init.d/drbd start

auf dem Primary:

code:
1: 2: 3: 4:	drbdsetup primary -do-what-I-say mount /dev/drbd0 /web

Habe dann einen Test gemacht der folgendermaßen aussah:
ha1 steht für primary, ha2 für secondary

code:
1: 2: 3: 4: 5: 6:	ha1: touch /web/blalala ha1: umount /web && drbdadm secondary all ha2: drbdadmin primary all ha2: mount /dev/drbd0 /web && ls -la /web

ausgegeben wird die Datei... Also wurde die rüberschrieben großes Grinsen

Dann alles in den Urzustand zurückgesetzt, also das eben gamacht nochmal, bloß auf dem jeweils anderen Rechner.

Dann habe ich heartbeat (2.0.7) installiert und folgendermaßen konfiguriert
ha.cf

code:

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:

logfacility     local0
# Heartbeat Meldungen alle 2 Sekunden
keepalive 2
# Nach 20 Sekunden wird der Partner für tot erklärt
deadtime 20
warntime 10
initdead 120
# udp port für bcast
#udpport        694
#Interface über das heartbeat laufen soll
bcast   eth1            # Linux
# soll bei start des primären knoten sofort zurückgeschaltet werden?
#auto_failback on
# stonith optionen
#stonith baytech /etc/ha.d/conf/stonith.baytech
# kann sich der server selbst überwachen?
#watchdog /dev/watchdog
#
# welche maschinen sind am Cluster?
node    ha1
node    ha2

authkeys:

code:
1: 2: 3: 4: 5: 6:	auth 1 1 crc #1 sha1 HI! #3 md5 Hello!

haressource:

code:
1: 2: 3:	ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd

Ich würde also als gemeinsame IP die 192.168.1.4 haben.

Nun habe ich den apache unter /web/httpd liegen, vielleicht ist das mein Fehler??? Dieser sollte theoretisch ja durch heartbeat gestartet werden, tut er aber nicht.
unter resource.d hab ich einen softlink auf /web/httpd/bin/httpd gelegt.

Nun heartbeat starten

code:
1: 2: 3:	/etc/init.d/heartbeat start

Funktioniert auf beiden Rechnern auch ohne Fehlermeldung.

Wenn ich nun in /var/log/hs-log gucke erschlagen mich Fehlermeldungen: (etwas gekürzt, aber nur doppeltes)

code:

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
40:
41:
42:
43:
44:
45:
46:
47:
48:
49:
50:
51:
52:
53:
54:
55:
56:
57:
58:
59:
60:
61:
62:
63:
64:
65:
66:
67:
68:

ResourceManager[3614]:  2007/03/19_13:10:47 info: Running /etc/ha.d/resource.d/IPaddr 192.168.1.4 start
IPaddr[3692]:   2007/03/19_13:10:47 INFO: Using calculated nic for 192.168.1.4: eth0
IPaddr[3692]:   2007/03/19_13:10:47 INFO: Using calculated netmask for 192.168.1.4: 255.255.255.0
IPaddr[3692]:   2007/03/19_13:10:47 INFO: Using calculated broadcast for 192.168.1.4: 192.168.1.255
IPaddr[3692]:   2007/03/19_13:10:47 DEBUG: Sending Gratuitous Arp for 192.168.1.4 on eth0:0 [eth0]
IPaddr[3683]:   2007/03/19_13:10:47 INFO:  Success
ResourceManager[3614]:  2007/03/19_13:10:47 info: Running /etc/ha.d/resource.d/drbddisk drbd0 start
ResourceManager[3614]:  2007/03/19_13:10:53 ERROR: Return code 20 from /etc/ha.d/resource.d/drbddisk
ResourceManager[3614]:  2007/03/19_13:10:53 CRIT: Giving up resources due to failure of drbddisk::drbd0
ResourceManager[3614]:  2007/03/19_13:10:53 info: Releasing resource group: ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd MailTo::jessica.holle@vit.de::Web_Failover
ResourceManager[3614]:  2007/03/19_13:10:53 info: Running /etc/ha.d/resource.d/MailTo [EMAIL]jessica.holle@vit.de[/EMAIL] Web_Failover stop
MailTo[3862]:   2007/03/19_13:10:53 INFO:  Success
ResourceManager[3614]:  2007/03/19_13:10:53 ERROR: Cannot locate resource script httpd
ResourceManager[3614]:  2007/03/19_13:10:53 ERROR: Cannot locate resource script httpd
ResourceManager[3614]:  2007/03/19_13:10:54 info: Retrying failed stop operation [httpd]
.
.
.
ResourceManager[3614]:  2007/03/19_13:11:04 ERROR: Resource script for httpd probably not LSB-compliant.
ResourceManager[3614]:  2007/03/19_13:11:04 WARN: it (httpd) MUST succeed on a stop when already stopped
ResourceManager[3614]:  2007/03/19_13:11:04 WARN: Machine reboot narrowly avoided!
ResourceManager[3614]:  2007/03/19_13:11:04 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
ResourceManager[3614]:  2007/03/19_13:11:04 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[3614]:  2007/03/19_13:11:05 info: Retrying failed stop operation [Filesystem::/dev/drbd0::/web::ext3]
ResourceManager[3614]:  2007/03/19_13:11:05 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
ResourceManager[3614]:  2007/03/19_13:11:05 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[3614]:  2007/03/19_13:11:06 info: Retrying failed stop operation [Filesystem::/dev/drbd0::/web::ext3]
ResourceManager[3614]:  2007/03/19_13:11:06 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
.
.
.
ResourceManager[3614]:  2007/03/19_13:11:17 ERROR: Resource script for Filesystem::/dev/drbd0::/web::ext3 probably not LSB-compliant.
ResourceManager[3614]:  2007/03/19_13:11:17 WARN: it (Filesystem::/dev/drbd0::/web::ext3) MUST succeed on a stop when already stopped
ResourceManager[3614]:  2007/03/19_13:11:17 WARN: Machine reboot narrowly avoided!
ResourceManager[3614]:  2007/03/19_13:11:17 info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
ResourceManager[3614]:  2007/03/19_13:11:17 info: Running /etc/ha.d/resource.d/IPaddr 192.168.1.4 stop
IPaddr[4697]:   2007/03/19_13:11:18 INFO:  Success
hb_standby[4738]:       2007/03/19_13:11:48 Going standby [foreign].
heartbeat[3520]: 2007/03/19_13:11:48 info: Standby mode only implemented when nice_failback on
heartbeat[3520]: 2007/03/19_13:14:56 info: Heartbeat shutdown in progress. (3520)
heartbeat[4790]: 2007/03/19_13:14:56 info: Giving up all HA resources.
ResourceManager[4800]:  2007/03/19_13:14:56 info: Releasing resource group: ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd MailTo::jessica.holle@vit.de::Web_Failover
ResourceManager[4800]:  2007/03/19_13:14:56 info: Running /etc/ha.d/resource.d/MailTo [EMAIL]jessica.holle@vit.de[/EMAIL] Web_Failover stop
MailTo[4835]:   2007/03/19_13:14:56 INFO:  Success
ResourceManager[4800]:  2007/03/19_13:14:56 info: Running /etc/ha.d/resource.d/httpd  stop
ResourceManager[4800]:  2007/03/19_13:14:56 ERROR: Return code 1 from /etc/ha.d/resource.d/httpd
ResourceManager[4800]:  2007/03/19_13:14:57 info: Retrying failed stop operation [httpd]
ResourceManager[4800]:  2007/03/19_13:14:57 info: Running /etc/ha.d/resource.d/httpd  stop
ResourceManager[4800]:  2007/03/19_13:14:57 ERROR: Return code 1 from /etc/ha.d/resource.d/httpd
ResourceManager[4800]:  2007/03/19_13:14:58 info: Retrying failed stop operation [httpd]
ResourceManager[4800]:  2007/03/19_13:15:18 info: Retrying failed stop operation [Filesystem::/dev/drbd0::/web::ext3]
ResourceManager[4800]:  2007/03/19_13:15:18 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
ResourceManager[4800]:  2007/03/19_13:15:18 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[4800]:  2007/03/19_13:15:19 info: Retrying failed stop operation [Filesystem::/dev/drbd0::/web::ext3]
ResourceManager[4800]:  2007/03/19_13:15:19 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
ResourceManager[4800]:  2007/03/19_13:15:19 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[4800]:  2007/03/19_13:15:19 ERROR: Resource script for Filesystem::/dev/drbd0::/web::ext3 probably not LSB-compliant.
ResourceManager[4800]:  2007/03/19_13:15:19 WARN: it (Filesystem::/dev/drbd0::/web::ext3) MUST succeed on a stop when already stopped
ResourceManager[4800]:  2007/03/19_13:15:19 WARN: Machine reboot narrowly avoided!
ResourceManager[4800]:  2007/03/19_13:15:19 info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
ResourceManager[4800]:  2007/03/19_13:15:19 ERROR: Return code 20 from /etc/ha.d/resource.d/drbddisk
ResourceManager[4800]:  2007/03/19_13:15:20 info: Retrying failed stop operation [drbddisk::drbd0]
ResourceManager[4800]:  2007/03/19_13:15:20 info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
ResourceManager[4800]:  2007/03/19_13:15:20 ERROR: Return code 20 from /etc/ha.d/resource.d/drbddisk
ResourceManager[4800]:  2007/03/19_13:15:21 info: Retrying failed stop operation [drbddisk::drbd0]

Hat irgendwer eine Ahnung wo mein Denkfehler liegt oder was ich falsch gemacht habe?

Thema: [gelöst] Netzwerkinterfaces umbenennen

Fuechsin

Antworten:	3
Hits:	292

19.03.2007 12:11

Forum: Linux

Dort lag nix aber ich habe in der Datei

code:
1: 2: 3:	/etc/udev/rules.d/30-net_persistent_names.rules

Die Einträge geändert und dann gings smile

Thema: [gelöst] Netzwerkinterfaces umbenennen

Fuechsin

Antworten:	3
Hits:	292

[gelöst] Netzwerkinterfaces umbenennen 19.03.2007 11:42

Forum: Linux

Moin,

und zwar habe ich ein Problem...
Ich hab in einem Rechner 2 Netzwerkkarten.
eth0 und eth2
Das eth2 kommt daher das die Karte einmal getauscht wurde.
Würde gerne statt eth2 eth1 haben, bloß wie mach ich sowas? verwirrt

openSuSe10.2 benutze ich...

Wäre auch etwas dringend ... traurig

Thema: heartbeat

Fuechsin

Antworten:	8
Hits:	724

31.01.2007 08:33

Forum: Linux

soooo gaaaaanz langsam mache ich mir Gedanken über mein Projekt was Ende März durchgeführt wird...

Thema: Einführung einer Hochverfügbarkeitslösung für eine Webanwendung

Das mein Projekt auf Heartbeat letztendlich hinauslaufen soll steht fest aber natürlich muss man aber über den Tellerrand schauen, wie man so etwas noch erreichen kann.

Hab schon eine Softwarealternative gefunden, leider für Windows. Ein SAN wäre für so ein Problem keine Lösung sehe ich das richtig? Es geht ja nicht um reine Fileserver sondern um eine Webapplikation, die ja nicht sonderlich viel an Speicherung benötigt.

Hat da vielleicht jemand Schlagwörter oder Ideen oder Alternativen?

Thema: heartbeat

Fuechsin

Antworten:	8
Hits:	724

04.12.2006 10:42

Forum: Linux

Danke, Danke smile

Werd ich mir mal alles durchlesen, anschaun, bestellen, usw smile

Also, die Partition, die ich für DRBD anlege wäre zum Beispiel die, auf der ich mein komplettes Nagios oder meinen kompletten Webserver installieren würde, richtig?

Thema: heartbeat

Fuechsin

Antworten:	8
Hits:	724

04.12.2006 08:36

Forum: Linux

Hm,

so langsam gehts los... großes Grinsen

Gibt es eigentlich so richtige Bücher zu heartbeat? Deutsche Lektüre zum Grundverständnis wäre bevorzugt, Englisch geht aber auch großes Grinsen

Hab grad mal geguckt und nicht wirklich was gefunden, aber hier gibt es ja viele bewanderte Menschen

Thema: heartbeat

Fuechsin

Antworten:	8
Hits:	724

heartbeat 16.10.2006 13:43

Forum: Linux

Moin,

klar gibt es mich noch auch wenn nur seltener in letzter Zeit. Ich habe mal eine Frage und zwar steht bald meine Abschlussprüfung an und ich wollte als Projekt "irgendwas" mit heartbeat machen. smile

Ich dachte da ans abgleichen von Webservern.

Meine Frage dazu: Gibt es vielleicht eine gute Doku, außer die von der offiziellen Seite? Vielleicht auch eine gute vernünftige deutschssprachige? Hab mich zwar schon ein bischen eingelesen, allerdings würd ich gern noch mehr Doku haben. Wenn jemand was hat oder kennt wäre ich sehr dankbar...

Lg

Thema: xplanet + Ressourcenverbrauch

Fuechsin

Antworten:	2
Hits:	403

31.07.2006 08:38

Forum: Linux

Hm,

xplanet

Nun ja, xplanet stellt die Erde und auch andere Planet auf dem Desktop dar. Beispielsweise die Erde aus der Sicht der Sonne, die Erde aus der Sicht deiner Koordinaten. Man kann wohl auch aktuell, ein Wolkenbild mit einfließen lassen, so, dass du aktuell die Wolken siehst die auf dich zukommen...

Thema: xplanet + Ressourcenverbrauch

Fuechsin

Antworten:	2
Hits:	403

xplanet + Ressourcenverbrauch 31.07.2006 08:09

Forum: Linux

Mohoin,

wollt mal Fragen wie xplanet so im Ressourchenverbauch liegt. Braucht des viel, wenn ich das im Hintergrund laufen habe? Wollt das sonst mal als Hintergrund einrichten bei mir, bloß, wenn das viel verbraucht, könnt es sein, dass mich der Blitz trifft großes Grinsen

Ah so, hat vielleicht jemand nette Ideen zu xplanet, außer die heimischen Koordinaten anzugeben?

Thema: nrpe ohne ssl kompilieren

Fuechsin

Antworten:	2
Hits:	415

28.07.2006 12:46

Forum: Plugins

Ahhhhhh, danke :-D

Thema: nrpe ohne ssl kompilieren

Fuechsin

Antworten:	2
Hits:	415

nrpe ohne ssl kompilieren 28.07.2006 11:47

Forum: Plugins

Waah ich wein gleich,
hat mal wer schnell den Aufruf um nrpe ohne ssl zu kompilieren, ich komm ned drauf grad....

Thema: Rrdtool

Fuechsin

Antworten:	16
Hits:	1.236

21.06.2006 11:05

Forum: Linux

Hm, muss ich morgen mal ausprobieren

Danke

Zeige Beiträge 1 bis 20 von 389 Treffern

Seiten (20): [1] 2 3 nächste » ... letzte »