Amazon yang luas Pemadaman cloud Layanan Web yang dimulai Senin pagi menggambarkan rapuhnya saling ketergantungan web ketika system komunikasi, keuangan, layanan kesehatan, pendidikan, dan pemerintah utama di seluruh dunia mengalami gangguan. Seiring berlalunya waktu, AWS mendiagnosis dan mulai berupaya memperbaiki masalah tersebut, yang berasal dari wilayah kritis US-EAST- 1 perusahaan yang berbasis di Virginia utara. Namun rangkaian dampaknya membutuhkan waktu untuk diselesaikan sepenuhnya.
Para peneliti yang merenungkan insiden tersebut secara khusus menyoroti lamanya pemadaman, yang dimulai sekitar pukul 03 00 ET pada hari Senin, 20 Oktober. AWS mengatakan dalam pembaruan condition bahwa pada pukul 18 01 ET pada hari Senin “semua layanan AWS kembali beroperasi normal.” Pemadaman ini secara langsung berasal dari antarmuka pemrograman aplikasi data source DynamoDB Amazon dan, menurut perusahaan, “berdampak” pada 141 layanan AWS lainnya. Berbagai insinyur jaringan dan spesialis infrastruktur menekankan kepada WIRED bahwa kesalahan dapat dimengerti dan tidak dapat dihindari oleh apa yang disebut “hyperscaler” seperti AWS, Microsoft Azure, dan Google Cloud Platform, mengingat kompleksitas dan ukurannya. Namun mereka juga mencatat bahwa kenyataan ini tidak seharusnya membebaskan penyedia cloud ketika mereka mengalami downtime yang berkepanjangan.
“Kata melihat ke belakang adalah kuncinya. Sangat mudah untuk mengetahui apa yang salah setelah kejadian tersebut terjadi, namun keandalan AWS secara keseluruhan menunjukkan betapa sulitnya mencegah setiap kegagalan,” kata Individual retirement account Winkler, kepala petugas keamanan informasi di perusahaan keandalan dan keamanan siber CYE. “Idealnya, ini akan menjadi pembelajaran, dan Amazon akan menerapkan lebih banyak redundansi yang akan mencegah bencana seperti ini terjadi di masa depan– atau setidaknya mencegah mereka tetap tidak aktif selama hal tersebut terjadi.”
AWS tidak menanggapi pertanyaan dari WIRED tentang jangka panjang pemulihan bagi pelanggan. Juru bicara AWS mengatakan perusahaan berencana untuk mempublikasikan salah satu “ringkasan pasca-acara” tentang insiden tersebut.
“Saya tidak berpikir ini hanya ‘hal yang terjadi’. Saya mengharapkan remediasi penuh lebih cepat,” kata Jake Williams, wakil presiden penelitian dan pengembangan di Seeker Technique. “Sejujurnya, kegagalan beruntun bukanlah sesuatu yang sering mereka alami karena mereka tidak sering mengalami pemadaman listrik. Jadi itulah yang mereka hargai. Namun sangat mudah untuk masuk ke dalam pola pikir untuk memberikan izin kepada perusahaan-perusahaan ini, dan kita tidak boleh lupa bahwa mereka menciptakan situasi ini dengan secara aktif berusaha menarik lebih banyak pelanggan ke infrastruktur mereka. Klien tidak mengontrol apakah mereka terlalu memaksakan diri atau apa yang mungkin terjadi secara finansial.”
Insiden ini disebabkan oleh penyebab umum gangguan internet– masalah resolusi “sistem nama domain”. DNS pada dasarnya adalah mekanisme buku telepon internet untuk mengarahkan internet browser internet ke web server yang tepat. Akibatnya, masalah DNS adalah sumber gangguan yang umum, karena dapat menyebabkan permintaan gagal dan membuat konten tidak dapat dimuat.














