Xserves unter Leopard Server: Ständige Crashes

dannycool

Aktives Mitglied
Thread Starter
Dabei seit
02.02.2005
Beiträge
1.493
Reaktionspunkte
34
Hallo,

Ich habe hier 12 neuere Xserves mit OS X 10.5 in einer gemischten Umgebung (hauptsächlich Solaris), und dann noch ein paar vereinzelte ältere PPC und x86-Xserves an anderer Stelle.

Vorneweg, mit OS X 10.4 und OS X 10.3 habe ich keine Probleme. Mit anderen Macs, die nicht als Server eingesetzt werden, aber unter 10.5 laufen, gibt es ebenfalls keine Schwierigkeiten.

Die Xserves, die unter 10.5 laufen, schmieren mir dagegen alle ein bis zwei Tage ab.

Bei den oben erwähnten 12 neueren Xserves fällt mir mein Problem besonders auf. Die Anwendung ist ein verteiltes Testsystem für ein Softwareprodukt. Die Anwendung läuft komplett im user mode unter einem Account, der nicht Administrator ist. Es passiert nichts besonders spannendes; die Software wird mit gcc übersetzt und dann läuft für ein paar Stunden eine test suite.

Die Xserves haben zwei Quad-Core-Xeons. In einer vergleichbaren Klasse habe ich bspw. 20 Sun X4150 Server, auf denen die selbe Anwendung auf anderen Betriebssystemen läuft. Die Last auf den Servern kann mehr oder weniger dadurch gesteuert werden, wieviele Tests parallel durchgeführt werden.

Wenn ich die Last so einstelle wie bei den X4150, die unter Solaris oder Linux laufen, dann kann ich mit zwei bis drei Stunden uptime rechnen. Wenn ich die Last auf das Minimum senke (wie bei den X4150, die unter Windows laufen) dann kann ich mit ein bis zwei Tagen uptime rechnen.

Die Umgebung von so einem Crash im system.log:
Code:
Jan 22 21:43:44 slid02 kernel[0]: FusionMPT: Notification = 14 (Queue Full) for SCSI Domain = 0
Jan 22 21:44:14: --- last message repeated 1 time ---
Jan 22 23:01:35 localhost com.apple.launchctl.System[2]: 12300 allow tcp from any to any established

Noch eins:

Code:
Jan 22 17:59:57 slid09 ReportCrash[1442]: Formulating crash report for process DirectoryService[87011]
Jan 22 17:59:57 slid09 com.apple.launchd[1] (com.apple.DirectoryServices[87011]): Exited abnormally: Segmentation fault
Jan 22 17:59:57 slid09 ReportCrash[1442]: Saved crashreport to /Library/Logs/CrashReporter/DirectoryService_2009-01-22-175956_localhost.crash using uid: 0 gid: 0, euid: 0 egid: 0
Jan 22 18:31:17 localhost com.apple.launchctl.System[2]: 12300 allow tcp from any to any established

Dass der directory service hier abgeschmiert ist, scheint nicht direkt mit dem kompletten Crash zusammenzuhängen. Der directory service stürzt mir nämlich ungefähr einmal pro Stunde mit einem segfault ab. Normalerweise wird er dann vom launchd neu gestartet. In der kurzen Zeit, in der er nicht läuft, vergisst das OS X dann die LDAP-Benutzeraccounts und kennt nur noch die lokalen. Manchmal wird der service nicht korrekt neu gestartet. In einem solchen Fall kann ich ihn aber mit launchctl selbst neu starten.

Crash Reporter log für den directory service von gerade eben:
Code:
Process:         DirectoryService [37304]
Path:            /usr/sbin/DirectoryService
Identifier:      DirectoryService
Version:         ??? (???)
Code Type:       X86 (Native)
Parent Process:  launchd [1]

Date/Time:       2009-01-23 12:05:22.819 +0100
OS Version:      Mac OS X Server 10.5.6 (9G55)
Report Version:  6

Exception Type:  EXC_BAD_ACCESS (SIGSEGV)
Exception Codes: KERN_INVALID_ADDRESS at 0x0000000020ffe8e8
Crashed Thread:  2

...

Thread 2 Crashed:
0   libobjc.A.dylib                     0x91b8c699 objc_msgSend + 41
1   com.apple.CoreFoundation            0x920c17f5 __CFDictionaryFindBuckets1b + 293
2   com.apple.CoreFoundation            0x920c201d CFDictionaryGetValue + 141
3   DirectoryService                    0x0006295f CDSLocalPlugin::CopyNodeDictForNodeRef(unsigned long) + 9
5
4   DirectoryService                    0x0006de05 CDSLocalPlugin::GetRecordList(sGetRecordList*) + 2029
5   DirectoryService                    0x000ae0d2 BaseDirectoryPlugin::ProcessRequest(void*) + 396
6   DirectoryService                    0x0006dfde CDSLocalPlugin::ProcessRequest(void*) + 444
7   DirectoryService                    0x00002b55 CRequestHandler::HandlePluginCall(sComData**) + 775
8   DirectoryService                    0x00003910 CRequestHandler::HandleRequest(sComData**) + 82
9   DirectoryService                    0x0000b61d CMessaging::SendInlineMessage(unsigned long) + 211
10  DirectoryService                    0x0000a8ba dsGetRecordList + 1090
11  DirectoryService                    0x0000dd0b CSearchPlugin::GetRecordList(sGetRecordList*) + 975
12  DirectoryService                    0x00012142 CSearchPlugin::HandleRequest(void*) + 152
13  DirectoryService                    0x0000e50a CSearchPlugin::ProcessRequest(void*) + 372
14  DirectoryService                    0x00002b55 CRequestHandler::HandlePluginCall(sComData**) + 775
15  DirectoryService                    0x00003910 CRequestHandler::HandleRequest(sComData**) + 82
16  DirectoryService                    0x0000b61d CMessaging::SendInlineMessage(unsigned long) + 211
17  DirectoryService                    0x0000a8ba dsGetRecordList + 1090
18  DirectoryService                    0x0001569e CRequestHandler::DoCheckUserNameAndPassword(char const*, 
char const*, tDirPatternMatch, unsigned int*, char**) + 680
19  DirectoryService                    0x0002e6d4 dsmig_do_checkUsernameAndPassword + 522
20  DirectoryService                    0x00060a5d _XcheckUsernameAndPassword + 358
21  DirectoryService                    0x000608ce DirectoryServiceMIG_server + 109
22  DirectoryService                    0x00026ad0 dsmig_demux_notify(mach_msg_header_t*, mach_msg_header_t*
) + 86
23  libSystem.B.dylib                   0x9612209b mach_msg_server + 343
24  DirectoryService                    0x000235bd CMigHandlerThread::ThreadMain() + 303
25  ...ectoryServiceCore.Framework      0x00167f5b DSCThread::Run() + 39
26  ...ectoryServiceCore.Framework      0x00168166 DSLThread::_RunWrapper(void*) + 84
27  libSystem.B.dylib                   0x960de095 _pthread_start + 321
28  libSystem.B.dylib                   0x960ddf52 thread_start + 34

Eine Lösung erwarte ich ja gar nicht, aber beobachtet jemand anders vielleicht sowas ähnliches auch?
 
Zurück
Oben Unten