[SOLVED] BigDisk Degradation

 

English

Due to a planned power maintenance on one power leg that was performed around 8:30, three disks in our cluster were degraded. Our automated process kicked in to restore the health of the cluster, but was unable to do so automatically.

Around 1:39 PM our technical staff was informed that were several serious issues remaining, upon which we have executed additional restorative actions. Around 4PM, it became clear that this still didn't solve the problems for all customers. We then worked until we managed to get the cluster health to 100% at 9PM. Unfortunately, we weren't able to fully rule out partial data loss.
After the incident of 19-10, a few reports were created that customers got notifications about the filesystem consistency of their Big-Disk was not good.

Together with our technical staff we’ve suggested restorative actions for the customers. After these actions, we have done a post-mortem which lead to a few actions. We've decided to make configuration changes to increase the resilience of our platform.

 

Dutch

Door gepland onderhoud aan het stroomnetwerk die werd uitgevoerd rond 8:30, zijn drie schijven in ons cluster beschadigd geraakt. Ons geautomatiseerde process is daarom gestart om de staat van het cluster te herstellen, echter was deze niet in staat om dit te doen.

Rond 13:39 (1:39 PM) kreeg ons technisch team het bericht dat er nog een paar grote problemen in het cluster speelde en hebben hierop extra herstellende acties ondernomen. Rond 16:00 werd het duidelijk dat deze acties nog niet alles hadden opgelost en dat sommige klanten nog steeds last ondervonden van dit probleem. Er is tot 21:00 (9 PM) gewerkt om het cluster weer volledig in te herstellen. Helaas, hebben we data verlies niet kunnen uitsluiten. 
Na het incident van 19-10 is er door een aantal klanten een melding gemaakt dat het filesystem van de BigDisk niet goed was.

Samen met het technische team hebben we herstellende acties gesuggereerd aan deze klanten en is er hierna een post-mortem gehouden die een paar acties hebben geleid. Er is daarom besloten een aantal configuratie wijzigen door te voeren om de veerkrachtigheid van het systeem te verhogen.

Was this article helpful?
0 out of 0 found this helpful

Comments

0 comments

Please sign in to leave a comment.

Articles in this section