Heute war ich bei einem Kunden. Eigentlich wollte ich nur Rechnungen einreichen und ein Schwätzchen halten. Beides tat ich auch und wendete mich zum Gehen.
Beim Gehen bat mich eine Mitarbeiterin, noch mal eben schnell nach dem Mailserver zu schauen, da sie den Eindruck hatte, er würde keine Mails ausliefern.
Da ich los wollte, startete ich den betreffenden Server (SLOX = Suse Linux Open eXchangeserver)einfach neu. Er rappelte sich auch ohne Fehlermeldungen und gut war es.
Pustekuchen! Ein paar Mitarbeiter jammerten, daß diverse geöffnete Dateien sich nicht korrekt speichern ließen. Nun, das Problem kannte ich und zündete die betreffenden Rechner neu. Nur noch fix neu anmelden und dann endlich heim!
Doch was war das?
Der NT-Domänencontroller (den macht auch der SLOX) wurde nicht mehr gefunden. Das heißt, nach diversen Tests stellte sich heraus, daß 2 Arbeitsstationen sich problemlos anmelden konnten und auch Mail, Druck, Datenhaltung und Internet klappten. Alle anderen 8 hingegen konnten sich nicht an der Domäne anmelden. Lokal angemeldet kamen sie aber auf den Mailserver und konnten auch ins Internet.
Sehr seltsam! Was tun? Von der Infrastruktur in diesem Unternehmen habe ich nur vage Vorstellungen, der Einzige, der überhaupt wissen könnte, worum es geht, nämlich der Erbauer und Erfinder der ganzen Chose, ist definitiv vor dem Wochenende unerreichbar. Außerdem bezweifle ich stark, daß er in diesem Falle helfen kann. Ich bin mit meinem Latein am Ende. Außerdem wollte ich ja heim und Mittag kochen (Mmmh, feiner Kohl mit Hack).
Nun kann ich ja das Unternehmen nicht einfach ohne funktionierende Technik zurücklassen. Also mache ich erst einmal alle betreffenden Rechner und Switche aus.
Dann starte ich die externe Firewall (Astaro). Die läuft klaglos hoch. Genauso klaglos rappelt sich die interne FW (IPCOP) hoch. Oder umgedreht, völlig egal.
Der VPN-Router blinkerte auch wieder fröhlich und alle 7 Switche, die ich gleich mal pauschal mit neu zündete (die Nachbarfirma, die mit dranhängt merkte Gott sei Dank nichts) sahen auch völlig unschuldig aus.
Dann starte ich eine der Arbeitsstationen, die vorher noch gingen und … Zack, drinne ist sie in der Domäne, so muß das sein.
Dann die nächste … Rödelrödel, ratterratter. wart…“Domänencontroller nicht gefunden.“. Hallo? Der Nachbar hat ihn doch, Du trottelige Maschine.
Ich kontrolliere die IPs, alle fein im 10.x.x.x-Netz mit dem gleichen Gateway. Die Freigabe der Leases und anschließende Neuvergabe klappt auch. Nur eben die Anmeldung nicht. Mail und Internet tun es hingegen klaglos, wenn ich die Kisten lokal anmelde. Sehr merkwürdig.
Ich erkundige mich erst mal, ob in letzter Zeit irgend etwas Besonderes war. Es war. Ein paar Tage vorher war ein Techniker im Serverraum, der einen zweiten SDSL-Anschluß legen wollte, das aber erfolglos aufgab (ich treffe mich am 11.01.2006 mit ihm vor Ort nochmals). Nun, der konnte ja nichts mit meinem Problem zu tun haben. Ferner wurde mir mitgeteilt, daß im Rahmen der Vereinheitlichung Filialen andere T-Onlinekonten bekommen hätten. Nun, auch das ist nicht so spannend und nicht so richtig affin mit meinem Problem.
Nach Absprache mit der Geschäftsleitung versuche ich, externe Hilfe zu finden.
Doch wen konsultiert man denn so aus dem Kalten heraus. Die Suchmaschine hilft einen an dieser Stelle auch nicht sehr weiter.
Es war schon nach 13:00 Uhr, meine Mittagessensträume waren ad acta gelegt und ein unangenehmes Gefühl machte sich in meiner Nackengegend breit.
Dann kam mir eine erlösende Idee, ich rief einen ehemaligen Kommilitonen an, der irgendwie fit mit Linux und so ist und auch ein Geschäft in der Branche hat. Glücklicherweise hatte ich ihn auch gleich an der Strippe und berichtete von meinem Problem.
Noch glücklicherweise hatte er auch Zeit und nahm sich gleich der Sache an. Als erstes schuf ich ihm einen, mittlerweile selbstverständlich wieder deaktivierten, ssh-Zugang auf den Server. Das war schon sehr spannend, denn bis wir die richtige IP und die richtige Maschine gefunden hatten, ging einige Zeit ins Land. Da der SLOX nur via LDAP autorisiert, mußten noch einige conf-Dateien von mir editiert werden.
Nicht sehr hilfreich war es dabei, daß in dem Serverraum kein Festnetztelefon ist und daß das schnurlose Telefon gerade am Ende des Empfangsbereiches ist. Und die 1000 hochdrehenden Lüfter der diversen Xeon-Terminalserver und die 2 Klimaanlagen im Nacken sind auch sehr kontraproduktiv. Irgendwann nach 14:00 Uhr stand der ssh-Connect und mein Ex-Kommilitone und Retter in der Not sah sich erst einmal in den Logs und diversen Einstellungen um. In vielen, insgesamt mehrstündigen Telefonaten, kreisten wir dann Stück für Stück das Problem ein. Schwierig war vor allem, daß an diesen Server ja auch der bundesweite Mailverkehr und die VPN abgewickelt werden.
Schließlich stolperten wir über einen Logeintrag. Der Server heißt für Windowsklienten sinnigerweise auch SERVER und hat die IP 10.x.x.10. Aber die fehlschlagenden Arbeitsstationen hatten sich einen neuen Freund gesucht, einen NT4-Server, der SERVER heißt, aber die private IP 192.168.1xx.10 hat.
Nun hat der Kunde in manchen Filialen tatsächlich solche Server in Betrieb, allerdings achtete ich immer akribisch darauf, daß bei der Netzwerkkarte, die zum Router führt, keine Dienste wie DHCP, Arbeitsstationsdienst usw. gebunden sind, damit eben so was nicht passiert.
Eine Kontrolle in der VPN-Tabelle zeigte, daß der Übeltäter in Frankfurt steht. Sofort fiel mir ein, daß da im letzten Jahr irgendwelche Schulungen von irgendeiner Fremdfirma durchgeführt wurden, die mit ihrem eigenen Router…, jedenfalls deutete sich eine Problemlösung an. (Wenn ich das nächste Mal in Frankfurt bin, muß ich die Bindungen unbedingt killen.)
Ich kappte das VPN und … na prima, nun ging gar nichts mehr.
auch die beiden eben noch gehenden Arbeitsstationen verweigerten den Dienst. Klar, wie ich beim Prüfen feststellte, die hatten alle keine IP mehr und bekamen auch ums Verrecken keine mehr. Also wieder alles in einen definierten Ausgangszustand versetzt, mittlerweile war es 16:00 Uhr, und auf ein Neues. Ich konnte über meine Arbeitsstation, der ich händisch eine IP gab, den Router, die Drucker und diverse Server (UnitedLinuxserver für Lotus Notes *schauder* und der außerhalb stehende Webserver) pingen, nur der Domänencontroller war wie vom Erdboden verschwunden, wenigstens jetzt aber für alle.
Vom SLOX aus konnte man gar nichts im internen Netz pingen. Also blieb nur als Lösung die Netzwerkkarte oder das Kabel oder der Switch. Die Switche blinkerten aber fröhlich und alle Stecker waren fein eingeklickt. Wirklich alle Stecker? Nein, ein Stecker, der an der internen Nick hing „auf halb acht“, da er unter leichter Belastung stand. Und warum stand er unter Spannung? Weil der &%§“&°-Techniker von der Vorwoche sinnfrei irgendwelche überzähligen Seitenwände der 19′-Schränke verrückt hatte. Und so hatte das Kabel nur irgendwie Kontakt, ließ aber im Switch die LED fröhlich mitblinkern.
Also steckte ich noch einmal ALLE Kabel aus und mit deutlich hörbarem Klick wieder ein. Bei den meisten hatte ich das ja schon am Mittag gemacht.
Auch nach dieser Klickorgie (ja man kann auch ohne M$ und Maus klicken) ging immer noch nichts. Ich bekam keinen Ping auf den Server. Da aber auch mein hilfreicher Kollege nichts mehr machen konnte, kam ich auf die naheliegende Idee, mal am Server die Leertaste zu drücken. Da die Konsolen und der Tastaturcontroller eingefroren waren, schloß ich messerscharf, daß ein Reset von Nutzen wäre. Mittlerweile war es 17 Uhr durch. Der SLOX rappelte sich und… WOHOO! Alles ging wieder, als ob nie etwas gewesen wäre. Da konnte mich auch der Schreckensruf eines Mitarbeiters, der sich nicht anmelden konnte nicht schocken, denn dort mußte nur wieder die lokale auf Domänenanmeldung umgestellt werden.
Fazit: Ich habe mehr als fünf Stunden Zeit verplempert und kein Mittagessen gehabt, aber kenne jetzt wenigstens die Struktur etwas besser. Mein Kumpel hat sich ehrlich ein paar nette Euronen verdient, aber auch viel Nerven gelassen. Die Telekom hat sich dumm und dusselig an unseren Dauertelefonaten verdient. Die Firma des Kunden war heute mehr als einen halben Tag nicht sehr produktiv. Und man sollte nie Fremde unbeaufsichtigt in den Serverraum lassen.
Und Linux rulez!
Jan 092006