Thema: drbd
+ heartbeat FEHLERSUCHE |
|
22.03.2007 07:41 |
Forum: Linux |
Hm
hab nun mal eben die private Leitung
rausgenommen, dann klappt der failover
einwandfrei...
sprich nur ein bcast auf
192.168.1.x und ping auf 192.168.1.5
Rein
theoretisch macht es ja auch nicht wirklich Sinn, wenn
er einen failover macht wenn "nur" die private Leitung
weg ist... Oder seh ich das gerade falsch...?
Ist
das vielleicht sobald man 2 Einträge drin hat eine
"und"-Verknüfung? Also nur wenn BEIDE Einträge nicht
erreichbar sind wird ein Failover
gemacht.
Eine weitere Frage habe ich
noch... Waum folgte auf DRBD in der Version 0.7.23
die Version 8.0.0? | |
Thema: drbd
+ heartbeat FEHLERSUCHE |
|
21.03.2007 15:17 |
Forum: Linux |
Moin,
jetzt stehe ich wieder vor einem
Problem und trotz der unerbittlichen Hilfe von Frank hab
ichs bisher nicht geschafft das Problem zu lösen...
Also, wenn ich die private Leitung
(cross-Kabel) kappe übernimmt ha2 die Dienste von
ha1. So sollte es auch sein, kappe ich aber die
öffentliche Leitung tut sich nichts und der Dienst ist
nicht mehr erreichbar...
hier meine ha.cf
code: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
|
keepalive 2
deadtime 10
warntime 10
initdead 120
ucast eth1 192.168.0.7
ucast eth0 192.168.1.3
ping 192.168.1.5
auto_failback on
node ha1
node ha2
| |
Die
private Verbindung ist 192.168.0.x Die öffentliche
Verbindung ist 192.168.1.x
Auf dem Ersatzserver
hab ich jeweils die IP vom Hauptserver eingesetzt.
Jemand eine Idee? | |
Thema: drbd
+ heartbeat FEHLERSUCHE |
|
20.03.2007 08:48 |
Forum: Linux |
Also,
ich glaube das Problem ist das mounten
von drbd0 nach /web
Wie schon erwähtn der
Funktionstest mit nur Heartbeat klappt.
habe
meine haresources geändert:
code: |
1:
2:
3:
|
ha1 192.168.1.4 drbddisk::drbd0 httpstart
| |
Starte
ich nun DRBD, setze ha1 auf Primary und mounte
/dev/drbd0 nach /web, starte heartbeart, heartbeat auf
ha2 starten
Jetzt läuft alles ohne Fehlermeldung,
beende ich heartbeat auf ha1 wieder ist im log von ha2
folgendes zu finden:
code: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
|
heartbeat[25206]: 2007/03/20_08:42:02 info: Link ha1:eth1 dead.
harc[25246]: 2007/03/20_08:42:03 info: Running /etc/ha.d/rc.d/status status
heartbeat[25247]: 2007/03/20_08:42:03 info: No local resources [/usr/lib/heartbeat/ResourceManager listkeys ha2] to acquire.
mach_down[25266]: 2007/03/20_08:42:03 info: Taking over resource group 192.168.1.4
ResourceManager[25286]: 2007/03/20_08:42:03 info: Acquiring resource group: ha1 192.168.1.4 drbddisk::drbd0 httpstart
IPaddr[25310]: 2007/03/20_08:42:03 INFO: Resource is stopped
ResourceManager[25286]: 2007/03/20_08:42:03 info: Running /etc/ha.d/resource.d/IPaddr 192.168.1.4 start
IPaddr[25364]: 2007/03/20_08:42:03 INFO: Using calculated nic for 192.168.1.4: eth0
IPaddr[25364]: 2007/03/20_08:42:03 INFO: Using calculated netmask for 192.168.1.4: 255.255.255.0
IPaddr[25364]: 2007/03/20_08:42:03 INFO: Using calculated broadcast for 192.168.1.4: 192.168.1.255
IPaddr[25364]: 2007/03/20_08:42:03 DEBUG: Sending Gratuitous Arp for 192.168.1.4 on eth0:0 [eth0]
IPaddr[25355]: 2007/03/20_08:42:03 INFO: Success
ResourceManager[25286]: 2007/03/20_08:42:04 info: Running /etc/ha.d/resource.d/drbddisk drbd0 start
ResourceManager[25286]: 2007/03/20_08:42:04 info: Running /etc/ha.d/resource.d/httpstart start
ResourceManager[25286]: 2007/03/20_08:42:04 ERROR: Return code 127 from /etc/ha.d/resource.d/httpstart
ResourceManager[25286]: 2007/03/20_08:42:04 CRIT: Giving up resources due to failure of httpstart
ResourceManager[25286]: 2007/03/20_08:42:04 info: Releasing resource group: ha1 192.168.1.4 drbddisk::drbd0 httpstart
ResourceManager[25286]: 2007/03/20_08:42:04 info: Running /etc/ha.d/resource.d/httpstart stop
ResourceManager[25286]: 2007/03/20_08:42:04 ERROR: Return code 127 from /etc/ha.d/resource.d/httpstart
| | | |
Thema: drbd
+ heartbeat FEHLERSUCHE |
|
20.03.2007 07:12 |
Forum: Linux |
und der Rest...
code: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
|
Mar 20 06:57:08 ha1 ResourceManager[5199]: ERROR: Resource script for Filesystem::/dev/drbd0::/web::ext3 probably not LSB-compliant.
Mar 20 06:57:08 ha1 ResourceManager[5199]: WARN: it (Filesystem::/dev/drbd0::/web::ext3) MUST succeed on a stop when already stopped
Mar 20 06:57:08 ha1 ResourceManager[5199]: WARN: Machine reboot narrowly avoided!
Mar 20 06:57:08 ha1 ResourceManager[5199]: info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
Mar 20 06:57:08 ha1 ResourceManager[5199]: debug: Starting /etc/ha.d/resource.d/drbddisk drbd0 stop
Mar 20 06:57:08 ha1 ResourceManager[5199]: debug: /etc/ha.d/resource.d/drbddisk drbd0 stop done. RC=20
.
.
.
Mar 20 06:58:27 ha1 syslog-ng[2526]: syslog-ng version 1.6.11 starting
Mar 20 06:58:28 ha1 auditd: Config file /etc/audit/auditd.conf doesn't exist, skipping
Mar 20 06:58:28 ha1 ifup: sit0
Mar 20 06:58:28 ha1 syslog-ng[2526]: Changing permissions on special file /dev/xconsole
Mar 20 06:58:28 ha1 syslog-ng[2526]: Changing permissions on special file /dev/tty10
Mar 20 06:58:28 ha1 ifup: No configuration found for sit0
Mar 20 06:58:28 ha1 auditd[2577]: Init complete, auditd 1.2.6 listening for events
Mar 20 06:58:31 ha1 rcpowersaved: s2ram does not know your machine. See 's2ram -i' for details. (127)
Mar 20 06:58:31 ha1 rcpowersaved: Use SUSPEND2RAM_FORCE=yes to override this detection.
Mar 20 06:58:31 ha1 /usr/sbin/cron[2886]: (CRON) STARTUP (V5.0)
Mar 20 06:58:31 ha1 powersaved[2889]: WARNING (CpufreqManagement:51) No capability cpufreq_control
Mar 20 06:58:31 ha1 powersaved[2889]: WARNING (CpufreqManagement:51) No capability cpufreq_control
Mar 20 06:58:32 ha1 sshd[3070]: Server listening on :: port 22.
Mar 20 06:58:32 ha1 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Mar 20 06:58:32 ha1 kernel: powernow: This module only works with AMD K7 CPUs
Mar 20 06:58:32 ha1 kernel: eth0: setting half-duplex.
Mar 20 06:58:32 ha1 kernel: eth1: setting full-duplex.
Mar 20 06:58:32 ha1 kernel: NET: Registered protocol family 10
Mar 20 06:58:32 ha1 kernel: lo: Disabled Privacy Extensions
Mar 20 06:58:32 ha1 kernel: IPv6 over IPv4 tunneling driver
Mar 20 06:58:32 ha1 kernel: audit(1174370308.403:3): audit_backlog_limit=256 old=64 by auid=4294967295
Mar 20 06:58:32 ha1 kernel: audit(1174370308.599:4): audit_pid=2577 old=0 by auid=4294967295
Mar 20 06:58:32 ha1 kernel: IA-32 Microcode Update Driver: v1.14a <tigran@veritas.com>
Mar 20 06:58:35 ha1 zmd: NetworkManagerModule (WARN): Failed to connect to NetworkManager
Mar 20 06:58:38 ha1 zmd: Daemon (WARN): Not starting remote web server
Mar 20 06:58:38 ha1 kernel: eth1: no IPv6 routers present
Mar 20 06:58:38 ha1 kernel: eth0: no IPv6 routers present
| |
Übrigens
ein fettes SORRY wegen der Platzverschwendung
Also....
ich habe eben auf
beiden Rechnern /dev/hda3 nach /web gemountet, eine
minimale haresources:
code: |
1:
2:
3:
|
ha1 192.168.1.4 httpstart
| | in
httpstart ist ein bashscript welches auf
/web/httpd/bin/apachectl weist und ein start dahinter...
Funktionstest bestanden
Nun muss ich mal mit DRBD schaun...
ICH SSCHAFF DAS NOCH | |
Thema: drbd
+ heartbeat FEHLERSUCHE |
|
20.03.2007 07:11 |
Forum: Linux |
soooo nun noch ein log... 10.000 Zeichen... tz
letzten Einträge aus
/var/log/messages:
code: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
40:
41:
42:
43:
44:
45:
46:
47:
48:
49:
50:
51:
52:
53:
54:
55:
56:
57:
58:
59:
60:
61:
62:
63:
64:
65:
66:
67:
68:
69:
70:
71:
72:
73:
74:
75:
76:
77:
78:
79:
80:
81:
82:
83:
84:
85:
86:
87:
88:
89:
90:
91:
92:
93:
94:
95:
96:
97:
98:
99:
100:
101:
102:
103:
104:
105:
106:
107:
108:
109:
110:
|
Mar 20 06:46:35 ha1 kernel: drbd: initialised. Version: 0.7.22 (api:79/proto:74)
Mar 20 06:46:35 ha1 kernel: drbd: SVN Revision: 2554 build by lmb@dale, 2006-10-30 22:52:11
Mar 20 06:46:35 ha1 kernel: drbd: registered as block device major 147
Mar 20 06:46:36 ha1 kernel: drbd0: Requested disk size is too big (10485760 > 10399532)
Mar 20 06:46:36 ha1 kernel: drbd0: Requested disk size is too big (10485760 > 10399532)
Mar 20 06:46:36 ha1 kernel: klogd 1.4.1, ---------- state change ----------
Mar 20 06:46:36 ha1 kernel: drbd0: resync bitmap: bits=2599883 words=81248
Mar 20 06:46:36 ha1 kernel: drbd0: size = 9 GB (10399532 KB)
Mar 20 06:46:36 ha1 kernel: drbd0: 0 KB marked out-of-sync by on disk bit-map.
Mar 20 06:46:36 ha1 kernel: drbd0: Found 6 transactions (213 active extents) in activity log.
Mar 20 06:46:36 ha1 kernel: drbd0: Marked additional 595 MB as out-of-sync based on AL.
Mar 20 06:46:36 ha1 kernel: drbd0: drbdsetup [5002]: cstate Unconfigured --> StandAlone
Mar 20 06:46:36 ha1 kernel: drbd0: drbdsetup [5015]: cstate StandAlone --> Unconnected
Mar 20 06:46:36 ha1 kernel: drbd0: drbd0_receiver [5016]: cstate Unconnected --> WFConnection
Mar 20 06:46:48 ha1 kernel: drbd0: drbd0_receiver [5016]: cstate WFConnection --> WFReportParams
Mar 20 06:46:48 ha1 kernel: drbd0: Handshake successful: DRBD Network Protocol version 74
Mar 20 06:46:48 ha1 kernel: drbd0: Requested disk size is too big (10485760 > 10399532)
Mar 20 06:46:48 ha1 kernel: drbd0: Requested disk size is too big (10485760 > 10399532)
Mar 20 06:46:48 ha1 kernel: drbd0: Connection established.
Mar 20 06:46:48 ha1 kernel: drbd0: I am(S): 1:00000003:00000001:00000009:00000002:10
Mar 20 06:46:48 ha1 kernel: drbd0: Peer(S): 1:00000003:00000001:00000009:00000002:00
Mar 20 06:46:48 ha1 kernel: drbd0: drbd0_receiver [5016]: cstate WFReportParams --> WFBitMapS
Mar 20 06:46:48 ha1 kernel: drbd0: Secondary/Unknown --> Secondary/Secondary
Mar 20 06:46:48 ha1 kernel: drbd0: drbd0_receiver [5016]: cstate WFBitMapS --> SyncSource
Mar 20 06:46:48 ha1 kernel: drbd0: Resync started as SyncSource (need to sync 610092 KB [152523 bits set]).
Mar 20 06:47:27 ha1 kernel: drbd0: Secondary/Secondary --> Primary/Secondary
Mar 20 06:47:43 ha1 kernel: drbd0: Resync done (total 55 sec; paused 0 sec; 11092 K/sec)
Mar 20 06:47:43 ha1 kernel: drbd0: drbd0_worker [5003]: cstate SyncSource --> Connected
Mar 20 06:47:47 ha1 kernel: (fs/jbd/recovery.c, 255): journal_recover: JBD: recovery, exit status 0, recovered transactions 115 to 118
Mar 20 06:47:47 ha1 kernel: (fs/jbd/recovery.c, 257): journal_recover: JBD: Replayed 9 and revoked 0/0 blocks
Mar 20 06:47:47 ha1 kernel: kjournald starting. Commit interval 5 seconds
Mar 20 06:47:47 ha1 kernel: EXT3 FS on drbd0, internal journal
Mar 20 06:47:47 ha1 kernel: EXT3-fs: recovery complete.
Mar 20 06:47:47 ha1 kernel: EXT3-fs: mounted filesystem with ordered data mode.
Mar 20 06:56:34 ha1 logd: [5060]: info: logd started with default configuration.
Mar 20 06:56:34 ha1 logd: [5060]: WARN: Core dumps could be lost if multiple dumps occur
Mar 20 06:56:34 ha1 logd: [5060]: WARN: Consider setting /proc/sys/kernel/core_uses_pid (or equivalent) to 1 for maximum supportability
Mar 20 06:56:34 ha1 logd: [5062]: info: G_main_add_SignalHandler: Added signal handler for signal 15
Mar 20 06:56:34 ha1 logd: [5060]: info: G_main_add_SignalHandler: Added signal handler for signal 15
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: Core dumps could be lost if multiple dumps occur
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: Consider setting /proc/sys/kernel/core_uses_pid (or equivalent) to 1 for maximum supportability
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: Deprecated 'legacy' auto_failback option selected.
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: Please convert to 'auto_failback on'.
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: See documentation for conversion details.
Mar 20 06:56:34 ha1 heartbeat: [5104]: WARN: Logging daemon is disabled --enabling logging daemon is recommended
Mar 20 06:56:34 ha1 heartbeat: [5104]: info: **************************
Mar 20 06:56:34 ha1 heartbeat: [5104]: info: Configuration validated. Starting heartbeat 2.0.7
Mar 20 06:56:34 ha1 heartbeat: [5105]: info: heartbeat: version 2.0.7
Mar 20 06:56:34 ha1 heartbeat: [5105]: info: Heartbeat generation: 7
Mar 20 06:56:34 ha1 heartbeat: [5105]: info: G_main_add_TriggerHandler: Added signal manual handler
Mar 20 06:56:34 ha1 heartbeat: [5105]: info: G_main_add_TriggerHandler: Added signal manual handler
Mar 20 06:56:34 ha1 heartbeat: [5105]: info: Removing /var/run/heartbeat/rsctmp failed, recreating.
Mar 20 06:56:35 ha1 heartbeat: [5105]: info: glib: UDP Broadcast heartbeat started on port 694 (694) interface eth1
Mar 20 06:56:35 ha1 heartbeat: [5105]: info: glib: UDP Broadcast heartbeat closed on port 694 interface eth1 - Status: 1
Mar 20 06:56:35 ha1 heartbeat: [5105]: info: G_main_add_SignalHandler: Added signal handler for signal 17
Mar 20 06:56:35 ha1 heartbeat: [5105]: info: Local status now set to: 'up'
Mar 20 06:56:36 ha1 heartbeat: [5105]: info: Link ha1:eth1 up.
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Link ha2:eth1 up.
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Status update for node ha2: status up
Mar 20 06:56:44 ha1 heartbeat: [5105]: debug: get_delnodelist: delnodelist=
Mar 20 06:56:44 ha1 heartbeat: [5111]: debug: notify_world: setting SIGCHLD Handler to SIG_DFL
Mar 20 06:56:44 ha1 harc[5111]: info: Running /etc/ha.d/rc.d/status status
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Comm_now_up(): updating status to active
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Local status now set to: 'active'
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Status update for node ha2: status active
Mar 20 06:56:44 ha1 heartbeat: [5105]: debug: StartNextRemoteRscReq(): child count 1
Mar 20 06:56:44 ha1 IPaddr[5149]: INFO: Resource is stopped
Mar 20 06:56:44 ha1 heartbeat: [5122]: info: Local Resource acquisition completed.
Mar 20 06:56:44 ha1 heartbeat: [5105]: debug: StartNextRemoteRscReq(): child count 1
Mar 20 06:56:44 ha1 heartbeat: [5105]: info: Initial resource acquisition complete (req_our_resources)
Mar 20 06:56:44 ha1 heartbeat: [5174]: debug: notify_world: setting SIGCHLD Handler to SIG_DFL
Mar 20 06:56:44 ha1 harc[5174]: info: Running /etc/ha.d/rc.d/status status
Mar 20 06:56:44 ha1 heartbeat: [5184]: debug: notify_world: setting SIGCHLD Handler to SIG_DFL
Mar 20 06:56:44 ha1 harc[5184]: info: Running /etc/ha.d/rc.d/ip-request-resp ip-request-resp
Mar 20 06:56:45 ha1 ip-request-resp[5184]: received ip-request-resp 192.168.1.4 OK yes
Mar 20 06:56:45 ha1 ResourceManager[5199]: info: Acquiring resource group: ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd MailTo::jessica@bla.de::Web_Failover
Mar 20 06:56:45 ha1 IPaddr[5223]: INFO: Resource is stopped
Mar 20 06:56:45 ha1 ResourceManager[5199]: info: Running /etc/ha.d/resource.d/IPaddr 192.168.1.4 start
Mar 20 06:56:45 ha1 ResourceManager[5199]: debug: Starting /etc/ha.d/resource.d/IPaddr 192.168.1.4 start
Mar 20 06:56:45 ha1 IPaddr[5277]: INFO: Using calculated nic for 192.168.1.4: eth0
Mar 20 06:56:45 ha1 IPaddr[5277]: INFO: Using calculated netmask for 192.168.1.4: 255.255.255.0
Mar 20 06:56:45 ha1 IPaddr[5277]: INFO: Using calculated broadcast for 192.168.1.4: 192.168.1.255
Mar 20 06:56:45 ha1 IPaddr[5277]: DEBUG: Sending Gratuitous Arp for 192.168.1.4 on eth0:0 [eth0]
Mar 20 06:56:45 ha1 IPaddr[5268]: INFO: Success
Mar 20 06:56:45 ha1 ResourceManager[5199]: debug: /etc/ha.d/resource.d/IPaddr 192.168.1.4 start done. RC=0
Mar 20 06:56:45 ha1 kernel: NET: Registered protocol family 17
Mar 20 06:56:45 ha1 ResourceManager[5199]: info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 start
Mar 20 06:56:45 ha1 ResourceManager[5199]: debug: Starting /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 start
Mar 20 06:56:45 ha1 ResourceManager[5199]: debug: /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 start done. RC=2
Mar 20 06:56:45 ha1 ResourceManager[5199]: ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
Mar 20 06:56:45 ha1 ResourceManager[5199]: CRIT: Giving up resources due to failure of Filesystem::/dev/drbd0::/web::ext3
Mar 20 06:56:45 ha1 ResourceManager[5199]: info: Releasing resource group: ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd MailTo::jessica@bla.de::Web_Failover
Mar 20 06:56:46 ha1 ResourceManager[5199]: info: Running /etc/ha.d/resource.d/httpd stop
Mar 20 06:56:46 ha1 ResourceManager[5199]: debug: Starting /etc/ha.d/resource.d/httpd stop
Mar 20 06:56:46 ha1 ResourceManager[5199]: debug: /etc/ha.d/resource.d/httpd stop done. RC=1
Mar 20 06:56:46 ha1 ResourceManager[5199]: ERROR: Return code 1 from /etc/ha.d/resource.d/httpd
.
.
.
Mar 20 06:56:57 ha1 ResourceManager[5199]: ERROR: Resource script for httpd probably not LSB-compliant.
Mar 20 06:56:57 ha1 ResourceManager[5199]: WARN: it (httpd) MUST succeed on a stop when already stopped
Mar 20 06:56:57 ha1 ResourceManager[5199]: WARN: Machine reboot narrowly avoided!
Mar 20 06:56:57 ha1 ResourceManager[5199]: info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
Mar 20 06:56:57 ha1 ResourceManager[5199]: debug: Starting /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
Mar 20 06:56:57 ha1 ResourceManager[5199]: debug: /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop done. RC=2
.
.
.
| | | |
Thema: drbd
+ heartbeat FEHLERSUCHE |
|
20.03.2007 07:08 |
Forum: Linux |
Also....
ich hatte gestern alle Prozesse
beendet und heute folgendermaßen begonnen:
code: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
|
ha1:~ # /etc/init.d/drbd start
Starting DRBD resources: [ d0 s0 n0 ].
..........
***************************************************************
DRBD's startup script waits for the peer node(s) to appear.
- In case this node was already a degraded cluster before the
reboot the timeout is 120 seconds. [degr-wfc-timeout]
- If the peer was available before the reboot the timeout will
expire after 0 seconds. [wfc-timeout]
(These values are for resource 'drbd0'; 0 sec -> wait forever)
To abort waiting enter 'yes' [ 11]:
ha1:~ # drbdsetup /dev/drbd0 primary --do-what-I-say
ha1:~ # mount /dev/drbd0 /web
ha1:~ # cat /proc/drbd
version: 0.7.22 (api:79/proto:74)
SVN Revision: 2554 build by lmb@dale, 2006-10-30 22:52:11
0: cs:Connected st:Primary/Secondary ld:Consistent
ns:610116 nr:0 dw:24 dr:610333 al:0 bm:249 lo:0 pe:0 ua:0 ap:0
ha1:~ # cat /proc/drbd
version: 0.7.22 (api:79/proto:74)
SVN Revision: 2554 build by lmb@dale, 2006-10-30 22:52:11
0: cs:Connected st:Primary/Secondary ld:Consistent
ns:610116 nr:0 dw:24 dr:610333 al:0 bm:249 lo:0 pe:0 ua:0 ap:0
| |
Nach
dem start auf ha1 hab ich dasselbe natürlich auch auf
ha2 gemacht Was müsste denn dort stehen?
Secondary/Secondary? Was sehe ich dort überhaupt? Gibt
es irgendeien Übersicht die mir die Kürzel erklärt? Hab
bisher nix gefunden auf linux-ha.
Meine
haresources sieht so aus:
code: |
1:
2:
3:
|
ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd MailTo::jessica@bla.de::Web_Failover
| |
So
sieht der Link in der resources.d aus:
code: |
1:
2:
3:
|
lrwxrwxrwx 1 root root 20 19. Mär 10:45 httpd -> /web/httpd/bin/httpd
| | Da
ganze starte ich alles als root...
Den Webserver
von Hand starten klappt ohne Probleme...
Ist es
richtig erst drbd zu starten oder übernimmt Heartbeat
das???
Nun würde ich heartbeat starten:
code: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
|
ha1:~ # /etc/init.d/heartbeat start
Starting High-Availability services2007/03/20_06:56:34 INFO: Resource is stopped
heartbeat[5104]: 2007/03/20_06:56:34 WARN: Core dumps could be lost if multiple dumps occur
heartbeat[5104]: 2007/03/20_06:56:34 WARN: Consider setting /proc/sys/kernel/core_uses_pid (or equivalent) to 1 for maximum supportability
heartbeat[5104]: 2007/03/20_06:56:34 WARN: Deprecated 'legacy' auto_failback option selected.
heartbeat[5104]: 2007/03/20_06:56:34 WARN: Please convert to 'auto_failback on'.
heartbeat[5104]: 2007/03/20_06:56:34 WARN: See documentation for conversion details.
heartbeat[5104]: 2007/03/20_06:56:34 WARN: Logging daemon is disabled --enabling logging daemon is recommended
heartbeat[5104]: 2007/03/20_06:56:34 info: **************************
heartbeat[5104]: 2007/03/20_06:56:34 info: Configuration validated. Starting heartbeat 2.0.7
done
| |
Das
selbe habe ich danachauf ha2 gemacht.
Und
dann ist etwas komisches passiert. bin auf ha1 und ha2
per ssh eingeloggt. Nachdem letzten Schritt ging nichts
mehr, die Verbindung zu ha1 wurde gekappt. Neu einloggen
ging, aber weder drbd noch heartbeat
liefen...
Die letzten Einträge aus dem
ha-log:
code: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
|
ResourceManager[5199]: 2007/03/20_06:57:07 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[5199]: 2007/03/20_06:57:08 info: Retrying failed stop operation [Filesystem::/dev/drbd0::/web::ext3]
ResourceManager[5199]: 2007/03/20_06:57:08 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
ResourceManager[5199]: 2007/03/20_06:57:08 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[5199]: 2007/03/20_06:57:08 ERROR: Resource script for Filesystem::/dev/drbd0::/web::ext3 probably not LSB-compliant.
ResourceManager[5199]: 2007/03/20_06:57:08 WARN: it (Filesystem::/dev/drbd0::/web::ext3) MUST succeed on a stop when already stopped
ResourceManager[5199]: 2007/03/20_06:57:08 WARN: Machine reboot narrowly avoided!
ResourceManager[5199]: 2007/03/20_06:57:08 info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
ResourceManager[5199]: 2007/03/20_06:57:08 ERROR: Return code 20 from /etc/ha.d/resource.d/drbddisk
ResourceManager[5199]: 2007/03/20_06:57:09 info: Retrying failed stop operation [drbddisk::drbd0]
ResourceManager[5199]: 2007/03/20_06:57:10 info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
| |
rest
kommt.... | |
Thema: drbd
+ heartbeat FEHLERSUCHE |
|
Moin,
und zwar habe ich ein
Problem...
Vorweg: Ich habe 2 Rechner mit
jeweils 2 Netzwerkkarten eth0: 192.168.1.2/3 eth1:
192.168.0.6/7
192.168.0.x sind miteeinander
verbunden (Cross Kabel)
Ich habe DRBD (0.7)
eingerichtet und es klappt. Konfigurationsfile sieht
folgendermaßen aus:
code: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
40:
|
resource drbd0 {
protocol C;
incon-degr-cmd "echo '!DRBD! pri on incon-degr' | wall ; sleep 60 ; halt -f";
startup {
wfc-timeout 0;
degr-wfc-timeout 120;
}
disk {
on-io-error detach;
size 10G;
}
net {
timeout 60;
connect-int 10;
ping-int 10;
max-buffers 2048;
max-epoch-size 2048;
ko-count 4;
on-disconnect reconnect;
}
syncer {
rate 100M;
group 1;
al-extents 257;
}
on ha1 {
device /dev/drbd0;
disk /dev/hda3;
address 192.168.0.6:7788;
meta-disk internal;
}
on ha2 {
device /dev/drbd0;
disk /dev/hda3;
address 192.168.0.7:7788;
meta-disk internal;
}
}
| |
Dieses
starte ich folgendermaßen: Auf beiden Rechnern:
code: |
1:
2:
3:
|
/etc/init.d/drbd start
| | auf
dem Primary:
code: |
1:
2:
3:
4:
|
drbdsetup primary -do-what-I-say
mount /dev/drbd0 /web
| | Habe
dann einen Test gemacht der folgendermaßen
aussah: ha1 steht für primary, ha2 für secondary
code: |
1:
2:
3:
4:
5:
6:
|
ha1: touch /web/blalala
ha1: umount /web && drbdadm secondary all
ha2: drbdadmin primary all
ha2: mount /dev/drbd0 /web && ls -la /web
| | ausgegeben
wird die Datei... Also wurde die rüberschrieben Dann alles in den Urzustand zurückgesetzt,
also das eben gamacht nochmal, bloß auf dem jeweils
anderen Rechner.
Dann habe ich heartbeat (2.0.7)
installiert und folgendermaßen konfiguriert ha.cf
code: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
|
logfacility local0
# Heartbeat Meldungen alle 2 Sekunden
keepalive 2
# Nach 20 Sekunden wird der Partner für tot erklärt
deadtime 20
warntime 10
initdead 120
# udp port für bcast
#udpport 694
#Interface über das heartbeat laufen soll
bcast eth1 # Linux
# soll bei start des primären knoten sofort zurückgeschaltet werden?
#auto_failback on
# stonith optionen
#stonith baytech /etc/ha.d/conf/stonith.baytech
# kann sich der server selbst überwachen?
#watchdog /dev/watchdog
#
# welche maschinen sind am Cluster?
node ha1
node ha2
| |
authkeys:
code: |
1:
2:
3:
4:
5:
6:
|
auth 1
1 crc
#1 sha1 HI!
#3 md5 Hello!
| |
haressource:
code: |
1:
2:
3:
|
ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd
| |
Ich
würde also als gemeinsame IP die 192.168.1.4
haben.
Nun habe ich den apache unter /web/httpd
liegen, vielleicht ist das mein Fehler??? Dieser sollte
theoretisch ja durch heartbeat gestartet werden, tut er
aber nicht. unter resource.d hab ich einen softlink
auf /web/httpd/bin/httpd gelegt.
Nun heartbeat
starten
code: |
1:
2:
3:
|
/etc/init.d/heartbeat start
| | Funktioniert
auf beiden Rechnern auch ohne Fehlermeldung.
Wenn ich nun in /var/log/hs-log gucke erschlagen
mich Fehlermeldungen: (etwas gekürzt, aber nur
doppeltes)
code: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
40:
41:
42:
43:
44:
45:
46:
47:
48:
49:
50:
51:
52:
53:
54:
55:
56:
57:
58:
59:
60:
61:
62:
63:
64:
65:
66:
67:
68:
|
ResourceManager[3614]: 2007/03/19_13:10:47 info: Running /etc/ha.d/resource.d/IPaddr 192.168.1.4 start
IPaddr[3692]: 2007/03/19_13:10:47 INFO: Using calculated nic for 192.168.1.4: eth0
IPaddr[3692]: 2007/03/19_13:10:47 INFO: Using calculated netmask for 192.168.1.4: 255.255.255.0
IPaddr[3692]: 2007/03/19_13:10:47 INFO: Using calculated broadcast for 192.168.1.4: 192.168.1.255
IPaddr[3692]: 2007/03/19_13:10:47 DEBUG: Sending Gratuitous Arp for 192.168.1.4 on eth0:0 [eth0]
IPaddr[3683]: 2007/03/19_13:10:47 INFO: Success
ResourceManager[3614]: 2007/03/19_13:10:47 info: Running /etc/ha.d/resource.d/drbddisk drbd0 start
ResourceManager[3614]: 2007/03/19_13:10:53 ERROR: Return code 20 from /etc/ha.d/resource.d/drbddisk
ResourceManager[3614]: 2007/03/19_13:10:53 CRIT: Giving up resources due to failure of drbddisk::drbd0
ResourceManager[3614]: 2007/03/19_13:10:53 info: Releasing resource group: ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd MailTo::jessica.holle@vit.de::Web_Failover
ResourceManager[3614]: 2007/03/19_13:10:53 info: Running /etc/ha.d/resource.d/MailTo [EMAIL]jessica.holle@vit.de[/EMAIL] Web_Failover stop
MailTo[3862]: 2007/03/19_13:10:53 INFO: Success
ResourceManager[3614]: 2007/03/19_13:10:53 ERROR: Cannot locate resource script httpd
ResourceManager[3614]: 2007/03/19_13:10:53 ERROR: Cannot locate resource script httpd
ResourceManager[3614]: 2007/03/19_13:10:54 info: Retrying failed stop operation [httpd]
.
.
.
ResourceManager[3614]: 2007/03/19_13:11:04 ERROR: Resource script for httpd probably not LSB-compliant.
ResourceManager[3614]: 2007/03/19_13:11:04 WARN: it (httpd) MUST succeed on a stop when already stopped
ResourceManager[3614]: 2007/03/19_13:11:04 WARN: Machine reboot narrowly avoided!
ResourceManager[3614]: 2007/03/19_13:11:04 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
ResourceManager[3614]: 2007/03/19_13:11:04 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[3614]: 2007/03/19_13:11:05 info: Retrying failed stop operation [Filesystem::/dev/drbd0::/web::ext3]
ResourceManager[3614]: 2007/03/19_13:11:05 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
ResourceManager[3614]: 2007/03/19_13:11:05 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[3614]: 2007/03/19_13:11:06 info: Retrying failed stop operation [Filesystem::/dev/drbd0::/web::ext3]
ResourceManager[3614]: 2007/03/19_13:11:06 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
.
.
.
ResourceManager[3614]: 2007/03/19_13:11:17 ERROR: Resource script for Filesystem::/dev/drbd0::/web::ext3 probably not LSB-compliant.
ResourceManager[3614]: 2007/03/19_13:11:17 WARN: it (Filesystem::/dev/drbd0::/web::ext3) MUST succeed on a stop when already stopped
ResourceManager[3614]: 2007/03/19_13:11:17 WARN: Machine reboot narrowly avoided!
ResourceManager[3614]: 2007/03/19_13:11:17 info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
ResourceManager[3614]: 2007/03/19_13:11:17 info: Running /etc/ha.d/resource.d/IPaddr 192.168.1.4 stop
IPaddr[4697]: 2007/03/19_13:11:18 INFO: Success
hb_standby[4738]: 2007/03/19_13:11:48 Going standby [foreign].
heartbeat[3520]: 2007/03/19_13:11:48 info: Standby mode only implemented when nice_failback on
heartbeat[3520]: 2007/03/19_13:14:56 info: Heartbeat shutdown in progress. (3520)
heartbeat[4790]: 2007/03/19_13:14:56 info: Giving up all HA resources.
ResourceManager[4800]: 2007/03/19_13:14:56 info: Releasing resource group: ha1 192.168.1.4 drbddisk::drbd0 Filesystem::/dev/drbd0::/web::ext3 httpd MailTo::jessica.holle@vit.de::Web_Failover
ResourceManager[4800]: 2007/03/19_13:14:56 info: Running /etc/ha.d/resource.d/MailTo [EMAIL]jessica.holle@vit.de[/EMAIL] Web_Failover stop
MailTo[4835]: 2007/03/19_13:14:56 INFO: Success
ResourceManager[4800]: 2007/03/19_13:14:56 info: Running /etc/ha.d/resource.d/httpd stop
ResourceManager[4800]: 2007/03/19_13:14:56 ERROR: Return code 1 from /etc/ha.d/resource.d/httpd
ResourceManager[4800]: 2007/03/19_13:14:57 info: Retrying failed stop operation [httpd]
ResourceManager[4800]: 2007/03/19_13:14:57 info: Running /etc/ha.d/resource.d/httpd stop
ResourceManager[4800]: 2007/03/19_13:14:57 ERROR: Return code 1 from /etc/ha.d/resource.d/httpd
ResourceManager[4800]: 2007/03/19_13:14:58 info: Retrying failed stop operation [httpd]
ResourceManager[4800]: 2007/03/19_13:15:18 info: Retrying failed stop operation [Filesystem::/dev/drbd0::/web::ext3]
ResourceManager[4800]: 2007/03/19_13:15:18 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
ResourceManager[4800]: 2007/03/19_13:15:18 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[4800]: 2007/03/19_13:15:19 info: Retrying failed stop operation [Filesystem::/dev/drbd0::/web::ext3]
ResourceManager[4800]: 2007/03/19_13:15:19 info: Running /etc/ha.d/resource.d/Filesystem /dev/drbd0 /web ext3 stop
ResourceManager[4800]: 2007/03/19_13:15:19 ERROR: Return code 2 from /etc/ha.d/resource.d/Filesystem
ResourceManager[4800]: 2007/03/19_13:15:19 ERROR: Resource script for Filesystem::/dev/drbd0::/web::ext3 probably not LSB-compliant.
ResourceManager[4800]: 2007/03/19_13:15:19 WARN: it (Filesystem::/dev/drbd0::/web::ext3) MUST succeed on a stop when already stopped
ResourceManager[4800]: 2007/03/19_13:15:19 WARN: Machine reboot narrowly avoided!
ResourceManager[4800]: 2007/03/19_13:15:19 info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
ResourceManager[4800]: 2007/03/19_13:15:19 ERROR: Return code 20 from /etc/ha.d/resource.d/drbddisk
ResourceManager[4800]: 2007/03/19_13:15:20 info: Retrying failed stop operation [drbddisk::drbd0]
ResourceManager[4800]: 2007/03/19_13:15:20 info: Running /etc/ha.d/resource.d/drbddisk drbd0 stop
ResourceManager[4800]: 2007/03/19_13:15:20 ERROR: Return code 20 from /etc/ha.d/resource.d/drbddisk
ResourceManager[4800]: 2007/03/19_13:15:21 info: Retrying failed stop operation [drbddisk::drbd0]
| |
Hat
irgendwer eine Ahnung wo mein Denkfehler liegt oder was
ich falsch gemacht habe?
| |
Thema: [gelöst]
Netzwerkinterfaces umbenennen |
|
19.03.2007 12:11 |
Forum: Linux |
Dort lag nix aber ich habe in der Datei
code: |
1:
2:
3:
|
/etc/udev/rules.d/30-net_persistent_names.rules
| |
Die
Einträge geändert und dann gings | |
Thema: [gelöst]
Netzwerkinterfaces umbenennen |
|
Moin,
und zwar habe ich ein Problem... Ich
hab in einem Rechner 2 Netzwerkkarten. eth0 und eth2
Das eth2 kommt daher das die Karte einmal getauscht
wurde. Würde gerne statt eth2 eth1 haben, bloß wie
mach ich sowas?
openSuSe10.2 benutze ich...
Wäre auch etwas dringend ... | |
Thema: heartbeat |
|
31.01.2007 08:33 |
Forum: Linux |
soooo gaaaaanz langsam mache ich mir Gedanken über
mein Projekt was Ende März durchgeführt
wird...
Thema: Einführung einer
Hochverfügbarkeitslösung für eine
Webanwendung
Das mein Projekt auf Heartbeat
letztendlich hinauslaufen soll steht fest aber natürlich
muss man aber über den Tellerrand schauen, wie man so
etwas noch erreichen kann.
Hab schon eine
Softwarealternative gefunden, leider für Windows. Ein
SAN wäre für so ein Problem keine Lösung sehe ich das
richtig? Es geht ja nicht um reine Fileserver sondern um
eine Webapplikation, die ja nicht sonderlich viel an
Speicherung benötigt.
Hat da vielleicht jemand
Schlagwörter oder Ideen oder Alternativen?
| |
Thema: heartbeat |
|
04.12.2006 10:42 |
Forum: Linux |
Danke, Danke
Werd ich mir mal alles durchlesen,
anschaun, bestellen, usw
Also, die Partition, die ich
für DRBD anlege wäre zum Beispiel die, auf der ich mein
komplettes Nagios oder meinen kompletten Webserver
installieren würde, richtig?
| |
Thema: heartbeat |
|
04.12.2006 08:36 |
Forum: Linux |
Hm,
so langsam gehts los...
Gibt es eigentlich so richtige Bücher
zu heartbeat? Deutsche Lektüre zum Grundverständnis wäre
bevorzugt, Englisch geht aber auch Hab grad mal geguckt und nicht wirklich was
gefunden, aber hier gibt es ja viele bewanderte Menschen
| |
Thema: heartbeat |
|
Moin,
klar gibt es mich noch auch wenn nur
seltener in letzter Zeit. Ich habe mal eine Frage und
zwar steht bald meine Abschlussprüfung an und ich wollte
als Projekt "irgendwas" mit heartbeat machen. Ich dachte da ans abgleichen von Webservern.
Meine Frage dazu: Gibt es vielleicht eine gute
Doku, außer die von der offiziellen Seite? Vielleicht
auch eine gute vernünftige deutschssprachige? Hab mich
zwar schon ein bischen eingelesen, allerdings würd ich
gern noch mehr Doku haben. Wenn jemand was hat oder
kennt wäre ich sehr dankbar...
Lg
| |
Thema: xplanet
+ Ressourcenverbrauch |
|
31.07.2006 08:38 |
Forum: Linux |
Hm,
xplanet
Nun ja, xplanet stellt
die Erde und auch andere Planet auf dem Desktop dar.
Beispielsweise die Erde aus der Sicht der Sonne, die
Erde aus der Sicht deiner Koordinaten. Man kann wohl
auch aktuell, ein Wolkenbild mit einfließen lassen, so,
dass du aktuell die Wolken siehst die auf dich
zukommen... | |
Thema: xplanet
+ Ressourcenverbrauch |
|
Mohoin,
wollt mal Fragen wie xplanet so im
Ressourchenverbauch liegt. Braucht des viel, wenn ich
das im Hintergrund laufen habe? Wollt das sonst mal als
Hintergrund einrichten bei mir, bloß, wenn das viel
verbraucht, könnt es sein, dass mich der Blitz trifft
Ah so, hat vielleicht jemand nette
Ideen zu xplanet, außer die heimischen Koordinaten
anzugeben? | |
Thema: nrpe
ohne ssl kompilieren |
|
Waah ich wein gleich, hat mal wer schnell den
Aufruf um nrpe ohne ssl zu kompilieren, ich komm ned
drauf grad.... | |
Thema: Rrdtool |
|
21.06.2006 11:05 |
Forum: Linux |
Hm, muss ich morgen mal ausprobieren
Danke
| | |