Kuva Kuva

Vikatilanneseloste 28-29.1. Käyttökatkoksesta

Keskustelufoorumiin, kuvagalleriaan ja muihin slck.net verkkopalvelujen käyttöön liittyviä tiedotteita ja käyttöohjeita. Tänne myös palautteet, toiveet ja pyynnöt käyttöoikeuksista jne.

Valvoja: Käyttäjä

Vastaa Viestiin
Avatar
Panu
Viestit: 507
Liittynyt: Ma Marras 01, 2004 9:49 am
Paikkakunta: Tampere
Viesti:

Vikatilanneseloste 28-29.1. Käyttökatkoksesta

Viesti Kirjoittaja Panu »

Datamappi tiedottaa:

VIKATILANNESELOSTE 28-29.1. KÄYTTÖKATKOKSESTA
DATAMAPPI WEBHOTELLIT


Vikatilanteen aiheuttaja:

Datamapin palveluihin 29.1. tiistaina kohdistunut vikatilanne
aiheuttajineen on selvitetty. Vian aiheuttajaksi ilmeni levypalvelimella
tapahtunut levyn fyysinen vaurioituminen. Levypalvelimen funktio on
toimia kaiken asiakasdatan säilytyspalvelimena, jolta muut palvelimet
(www, sähköposti, tietokanta) käyvät hakemassa dataa, vaikka
kirjautuminen esimerkiksi sähköposteihin tapahtuu fyysisesti toisen
palvelimen kautta. Palvelinarkkitehtuurin rakenteen takia, levypalvelin
on ainoa yksittäinen palvelin, joka pystyy aiheuttamaan tapahtuneen
laajan käyttökatkoksen Datamapin palveluihin.

Vikatilanne alkoi maanantaina 28.1. illalla noin kello 21-22 aikaan,
jolloin levypalvelimella havaittiin yhden levyn vaurioituminen.
Teknisesti havainto oli yhden kiintolevyn putoaminen RAID-peilatusta
levypakasta. Levypalvelin käyttää datan tallentamiseen 8 erillistä
kiintolevyä, eikä yhden kiintolevyn vaurioituminen aiheuta palvelimen
toimintaan häiriöitä. Huoltotyö vaurioituneen levyn korjaamiseksi
ajoitettiin seuraavalle aamulle. Yön aikana aiheutui kahden lisälevyn
vaurioituminen. Asiakkaan kannalta vaurioitumisen pystyi havaitsemaan
ensin tiedostojen katoamisena ja lopulta täydellisenä käyttökatkona.

Vikatilanteen jälkiselvityksessä havaittiin noin viikkoa aikaisemmin
tapahtuneen konesalin ilmastoinnin vikaantumisen vaurioittaineen
fyysisesti kiintolevyjä. Levyt on toimitettu valmistajan
tarkastettavaksi, mutta selvitystä ennen tiedotteen julkaisemista ei ole
valmistajalta saatu. Olemme ryhtyneet ennakoiviin toimenpiteisiin ja
vaihtaneet yksittäisiä levyjä muun muassa levypalvelimen levypakkaan ja
muille asiakaspalvelimillemme.


Vikatilanteen huollon eteneminen:

Vian korjaaminen aloitettiin aamulla noin kahdeksan aikaan paikallisesti
palvelinkeskuksessa. Noin kello 08:30 mennessä saimme tiedotteen
palvelukatkoksesta kotisivuillemme. Tiedotetta päivitettiin aina
iltapäivälle saakka, kunnes vikatilanne saatiin korjatuksi noin kello
16:30. Helpdesk-henkilökuntamme ei pystynyt antamaan tarkkoja tietoja
tilanteen etenemisestä. Asiakkaillamme oli käytännössä samanaikaisesti
tukihenkilökuntamme kanssa verkkosivujemme kautta luettavissa huollon
status, sekä mahdolliset uudet tiedot vian aiheuttajasta ja laajuudesta.
Palveluissa esiintyi hitautta vielä keskiviikon 30.1. puolelle, kun
asiakkaiden levyjen siltauksia ns. mountpointteja palautettiin
automaattisesti toimintaan.

Vikatilanteen huollon hitauden aiheutti datan hidas palauttaminen, jossa
data tarkastettiin virheiden varalta, kopioitiin fyysiseltä levyltä
toiselle ja eheytettiin näin levypakka uusille kiintolevyille vanhoilta,
yhä toimivilta levyiltä. Datan palautusta ei voitu kyseisessä
tapauksessa valitettavasti nopeuttaa huoltohenkilöstön toimenpiteillä.


Jatkotoimentpiteet:

Olemme tarkistaneet toimintamalliamme ja parannamme reaktionopeutta ja
varautumisastetta entisestään koskien kriittisten palvelimien fyysisiä
laiterikkoja. Niin ikään tehostamme tiedotusta yhdistämällä Datamapin ja
Louhen tekniset-tiedotteet -sivun. Lisäksi sisällytämme uuteen
asiakashallintajärjestelmäämme mahdollisuuden tiedottaa asiakkaitamme
myös sähköpostitse.
SLCK #30
Vastaa Viestiin