Kejadian di Data Center Delta Merupakan Peringatan bagi Esekutif IT dan CEO

Kasus padamnya listrik di data center Delta Airlanes bukanlah bencana DR pertama kali terjadi. Terkait serangan cyber ke infrastruktur data center dari sebuah organisasi terkenal semakin meningkat. Pencurian data juga meningkat, ini sebabnya Intel membeli perusahaan startup AI terbaru.

Masalah yang terjadi di data center Delta beberap waktu lalu dimulai dengan percikan api kecil dan pemadaman listrik. Api itu padam dengan cepat, tapi pada saat itu telah memicu reaksi berantai yang menyebabkan lebih dari 2.000 penerbangan dibatalkan, jutaan dolar yang hilang, reputasi ternoda dan menimbulkan banyak pertanyaan untuk profesional IT.

Selama pemadaman di data center Delta, sekitar 300 dari 7.000 server maskapai tidak terhubung ke sistem daya cadangan, kerentanan terjadi karena perusahaan belum menyadari kegunaan investasi ratusan juta dolar dalam upgrade teknologi untuk infrastruktur dan sistem, termasuk sistem cadangan, menurut CEO Delta Ed Bastian dalam pesan video.

Tidak jelas prioritas investasi kami telah berada di tempat yang tepat, tambah Bastian. Hal ini telah menyebabkan kita untuk mengajukan banyak pertanyaan yang terang dan kami tidak memiliki banyak jawaban.

Jika Anda seorang warga sipil IT seperti saya, pengakuan yang jujur dari CEO memunculkan simpati walaupun seharusnya tidak.

Pelajaran Yang Dapat Diambil dari Matinya Server Data Center Delta

Tidak memiliki server terhubung ke daya cadangan - itu merupakan masalah strategi IT yang serius,"kata ahli DR Michael Herrera, CEO dari MHA Consulting, sebuah perusahaan konsultan kelangsungan bisnis di Glendale, Ariz. Ketika Anda melakukan shutdown seluruh pusat data dan membangkitkan listrik cadangan untuk memastikan itu dapat menangani beban, ini adalah sesuatu yang anda dapat segera anda temukan. Menurut pendapat saya, ini seharusnya tidak terjadi pada tingkat organisasi sebesar perusahaan penerbangan Delta.

Mark Jaggers, analis data center recovery dan kelangsungan bisnis dari Gartner, juga berpikir Delta mungkin telah menjatuhkan bola pada pengujian konfigurasi sumber daya, tetapi melihat situasi maskapai tersebut terdapat indikasi dari masalah yang lebih besar yang menjadi malapetaka di departemen IT mereka, yakni kurangnya perencanaan pemulihan bencana dan pengujian.

Banyak orang melakukan pengujian pemulihan bencana dengan memindahkan beban kerja antara situs yang berbeda, tetapi setelah mereka melakukan itu, mereka pergi kembali dan mencari cacat pada desain sistem yang ada.

Efek Domino Pada Kejadian Outage di Data Center Delta

Kejadian padamnya listrik di data center maskapai penerbangan Delta merupakan contoh sempurna dari efek domino yang dihasilkan karena kurangnya pengujian DR, kata analis Forrester Research Stephanie Balaouras.

"Lingkungan IT telah menjadi begitu kompleks dengan saling ketergantungan yang rumit dan kejadian padamnya listrik seperti ini menjadi norma, karena kegagalan hanya membutuhkan satu komponen atau satu kesalahan manusia yang dapat menyebabkan efek pemadaman meluas," kata Balaouras.

Delta bukan satu-satunya maskapai penerbangan untuk mengalami efek Cascading ini. Bulan lalu, Southwest Airlines mengalami masalah komputer yang membatalkan ratusan penerbangan dan menyebabkan penundaan besar. Demikian pula, tahun lalu 5.000 pesawat United Airlines terkena dampak kesalahan komputer.

"Saya pikir kita melihat ini karena banyak penerbangan sekarang karena skala penerbangan yang terlalu banyak," kata Jaggers. "Setiap kali mereka memiliki kegagalan itu segera dapat mempengaruhi banyak orang dan kemudian karena cara maskapai penerbangan yang infrastrukturnya banyak, maka waktu pemulihan bisnis dibutuhkan cukup lama. Ini cenderung berdampak lebih dari sekedar enam jam downtime. Di Delta kejadian tersebut itu membutuhkan empat hari. "

Hal ini bisa terjadi pada perusahaan apapun

Apa lagi yang bisa dipelajari para eksekutif IT dari pemadaman Delta? Semuanya kembali ke dasar-dasar, kata Roberta Witty seorang analis Gartner yang berfokus pada manajemen kelangsungan bisnis.

"Fokus pada mission-critical dan pastikan semuanya dapat berjalan dan bekerja dengan baik walau terjadi kegagaln seperti yang disebabkan oleh : rusaknya salah satu komponen, putusnya aliran listrik, hilangnya jaringan dan hilangnya data sehingga setidaknya anda punya dasar yang kuat untuk layanan mission-critical IT. Dan kemudian beralih ke yang kurang mission-critical, "kata Witty.

"Anda ingin menempatkan investasi di mana memiliki arti paling penting bagi perusahaan - dan itu semua melalui penilaian risiko dan analisa dampak pada bisnis," katanya.

Tentu saja, hal itu lebih mudah diucapkan daripada dilakukan. Banyak perubahan terjadi hanya dalam satu tahun, jadi bisa dibayangkan perubahan organisasi melalui tiga, lima atau tujuh tahun, Witty mengatakan, menekankan tantangan untuk menjaga lingkungan pemulihan bencana anda up-to-date.

Walaupun Mahal, kewaspadaan tetap diperlukan.

Apa yang perusahaan perlu lakukan adalah terus merasionalisasi dan memodernisasi lingkungan IT mereka dan mempertahankan pemetaan ketergantungan terus menerus. Selain itu, setiap kali ada perubahan di lingkungan, semua rencana dan kebijakan harus diperbarui. Setiap kali ada perubahan substansial, ujian besar terhadap rencana Disaster Recovery wajib dilakukan. Ini merupakan salah satu daerah di mana hampir di khawatirkan oleh semua perusahaan.

Tempat terbaik untuk memiliki jenis proses pemeriksaan, adalah pada tahap awal dari siklus pengembangan sistem karena masalah dapat ditangkap sebelum sistem bahkan telah ditetapkan. Hal ini juga dapat menjadi jauh lebih mahal untuk melakukan pemulihan bencana setelah adanya kejadian outage atau downtime.

Tapi mungkin perubahan IT yang paling mendasar perlu membuat para eksekutif memahami kegunaan disaster recovery dalam sudut pandang mereka. Memang, menurut para ahli disaster recovery tingkat dunia pun menyatakan bahwa banyak kliennya yang tidak percaya bahwa suatu ketika dapat terjadi situasi seperti yang dialami oleh data center perusahaan maskapai penerbangan Delta.

Oleh karena itu, langkah awal pencegahan downtime adalah dengan memiliki persepsi bahwa hal terburuk dapat terjadi diluar dugaan anda selama ini. Sangat penting bagi perusahaan untuk memiliki pencadangan data center sebagai pusat pemulihan walaupun belum pernah terjadi downtime sama sekali. Karena yang dipertaruhkan cukup besar jika suatu saat downtime tersebut terjadi, baik dari segi keuangan, hingga reputasi bisnis anda di mata pelanggan.

Lebih mudah jika anda memilki pusat pemulihan bencana pada disaster recovery center yang berada tidak jauh dari lokasi anda (maksimal 50km) untuk meminimalkan network latency, baik saat proses backup rutin maupun saat terjadinya pengalihan data center saat terjadi outge di data center internal anda.

Cari Blog Ini

Data Center Tier III Jakarta - Indonesia