5 Tanda Peringatan Kegagalan Peralatan Penting

Video: 5 SUV terpakai untuk mengelakkan penghantaran yang buruk

Isi

Apa itu MTBF?
Rute
Switch
Daya Tangguh
Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda
Penyimpanan yang Dilindungi
Server
MTBF: Itu Bisa Gagal Juga

Bawa pulang:

Mengurangi downtime melalui perencanaan uang muka yang teliti dapat berarti perbedaan antara pertumbuhan dan penurunan bisnis. Di situlah waktu rata-rata antara kegagalan masuk.

Jangan meremehkan seberapa besar perusahaan saat ini mengandalkan sistem kritis setiap hari. Itulah sebabnya satu-satunya akal sehat bahwa perusahaan dapat mengukur risiko kegagalan peralatan. Tanpa jaminan kapan suatu peralatan mungkin gagal, setidaknya harus ada perkiraan yang akurat kapan itu tidak lagi dianggap dapat diandalkan.

Sepotong peralatan yang tidak terlihat mungkin tidak tampak penting untuk bisnis, tetapi ketika kipas pendingin gagal, menyebabkan generator melepaskan hantu, dan menyebabkan puluhan atau bahkan ratusan ribu pengguna masalah mahal untuk jangka waktu yang lama, Anda dapat lihatlah bahwa dapat memperkirakan komponen infrastruktur Anda yang mungkin gagal - dan kapan - sangat penting. Di situlah waktu rata-rata antara kegagalan (MTBF) masuk, metode yang diandalkan oleh profesional TI untuk memberikan yang akurat perkiraan tentang kapan peralatan kritis akan gagal. Di sini kita melihat apa yang akhirnya membunuh beberapa jenis peralatan kritis yang umum, dan bagaimana MTBF dapat membantu menyelamatkan hari.

Apa itu MTBF?

Setiap peralatan TI yang diproduksi memiliki nomor model unik. Mereka yang berperan dalam infrastruktur kritis dipasok ke pelanggan dengan estimasi MTBF. Perhitungan kompleks untuk menghitung MTBF untuk peralatan dilakukan selama fase pengujian yang panjang dalam penelitian dan pengembangan produk dan relatif spesifik untuk model tertentu.

Jika Anda mencari untuk menemukan MTBF untuk peralatan tertentu, Anda akan menemukannya di lembar spesifikasi terperinci yang disediakan oleh pabrikan. Anda juga dapat menghubungi pabrikan secara langsung.

Rute

Router kelas enterprise mencakup banyak bagian, beberapa bergerak dan lainnya statis. Unit catu daya (PSU) dan kipas pendingin keduanya memiliki bagian yang bergerak, dan elemen-elemennya yang cenderung menjadi titik kegagalan, terutama jika unit tersebut tidak ditempatkan di dalam pusat data yang relatif bebas debu. Untungnya, dengan beberapa input administrator, sebagian besar router akan melaporkan ke a SysLog fasilitas, sehingga setiap komponen yang gagal dapat ditandai.

Switch

Sepanjang nada yang sama, tingkat berikutnya dalam jaringan perusahaan adalah perangkat keras switching. Meskipun switch tingkat perusahaan juga cenderung mengandalkan kipas, biasanya ada lebih sedikit dari mereka yang ditemukan dalam sasis router. Jika mekanisme whirring kipas masih utuh, maka sakelar yang salah biasanya akan melakukan kesalahan pada tingkat peranti lunak, baik dengan menonaktifkan port sakelar secara tak terduga atau, lebih umum, menunjukkan perilaku yang tidak biasa seperti menjatuhkan paket, menyebabkan berbagai tingkat gangguan lalu lintas, atau mengubah secara tidak benar pengaturan yang ditentukan pengguna tanpa diminta untuk melakukannya.

Jaringan raksasa Cisco mengiklankan salah satu router-nya memiliki MTBF dari 188.574 jam untuk model Cisco Catalyst 3750G-24TS. Jika kita membaginya dengan 8.765.81277 (jumlah jam dalam setahun) maka kita melihat bahwa model ini memiliki perkiraan MTBF sekitar 21,5 tahun. Angka itu cukup meyakinkan ketika Anda menganggap bahwa peralatan ini harus berkinerja baik 24/7 tanpa kesalahan, meskipun tentu saja pada kenyataannya itu hanya indikasi keandalannya. Meski begitu, itu memberi pengguna perkiraan berpendidikan tentang berapa lama peralatan itu bisa diharapkan bertahan.

Daya Tangguh

Catu daya tak terputus (UPS) yang dihubungkan ke sejumlah besar baterai dapat menyediakan daya cadangan di dalam perusahaan selama mantra singkat sebelum generator berputar saat listrik padam. Kesalahan perangkat lunak spesifik tertentu dapat muncul dalam UPS, seperti halnya dengan peralatan apa pun, tetapi umumnya, baterai yang darinya mereka menggunakan daya biasanya akan paling memprihatinkan. Jika baterai UPS sering dimatikan dan diisi ulang, kapasitasnya akan berkurang lebih cepat dan waktu operasinya akan memendek secara dramatis. Tidak mengherankan, baterai UPS juga bisa rusak sepenuhnya. Suatu UPS dapat melaporkan melalui modem dan jaringan ketika kesalahan terjadi, tetapi lebih sering daripada tidak, UPS yang lebih tua akan memicu alarm yang dapat didengar ketika suatu masalah muncul pertama kali.

Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda

Anda tidak dapat meningkatkan keterampilan pemrograman Anda ketika tidak ada yang peduli dengan kualitas perangkat lunak.

Penyimpanan yang Dilindungi

Hard disk yang kita gunakan saat ini dan bergantung pada tingkat tinggi telah menjadi jauh lebih andal selama sepuluh tahun terakhir. Namun, mereka jauh dari sempurna dan, tergantung pada studi yang Anda yakini, mereka tampaknya berfungsi dengan benar untuk periode yang lebih lama tergantung pada sejumlah faktor. (Sepotong opini bagus tentang ini dapat ditemukan di sini di The Remarketer.) Jika pelaporan terperinci diaktifkan dan drive memberikan umpan balik tentang kesalahan, maka sektor yang korup dan kegagalan baca / tulis adalah kunci untuk melihat ketika disk di dalam array penyimpanan gagal. Masalah umum lain dalam server yang menggunakan beberapa disk yang terhubung ke pengontrol RAID adalah bahwa pengontrol itu sendiri akan gagal. Sayangnya, terkadang hard disk berhenti bekerja tanpa peringatan apa pun, suatu masalah yang sulit dijaga.

Server

Selain dari drive yang dibangun ke server dan bagian yang bergerak, seperti kipas pendingin dan PSU tersebut, sejumlah masalah juga dapat muncul dalam komponen perangkat keras server. Pelaporan pada tingkat perangkat lunak (yang biasanya mengacu pada BIOS atau diagnostik komponen perangkat keras tingkat rendah lainnya) adalah kunci untuk mengetahui ketika segala sesuatu telah gagal atau, yang lebih penting, menunjukkan tanda-tanda kegagalan. Satu masalah yang mungkin tidak segera jelas adalah yang mempengaruhi motherboard. Sangat masuk akal bahwa mesin tidak menyukai panas terlalu banyak. Tetapi bahkan hari ini, jika papan sirkuit modern mengalami kehilangan panas yang cepat - atau berubah dari menjalankan sangat panas menjadi tiba-tiba menjadi dingin - keretakan dapat muncul, menyebabkan papan gagal gagal. Ini masalah yang perlu diingat, terutama jika Anda memindahkan peralatan di antara gedung-gedung dalam kerangka waktu pemeliharaan yang tak kenal ampun.

MTBF: Itu Bisa Gagal Juga

Berguna seperti prediksi MTBF adalah penting untuk menghitung tingkat risiko yang dapat diterima dengan peralatan apa pun yang menjadi dasar bisnis. Sayangnya, bahkan dengan semua jaminan statistik yang disediakan oleh pabrikan, satu-satunya cara nyata untuk menjamin ketersediaan peralatan yang menjalankan sistem kritis adalah dengan menggandakannya untuk memungkinkan failout timeout.

Masing-masing dan setiap bagian perangkat keras yang digunakan dalam perusahaan terdiri dari banyak komponen yang berbeda, sehingga MTBF yang sebenarnya jauh dari perhitungan sepele. Jelas, sangat penting untuk tidak mengistirahatkan bisnis di masa depan pada pengukuran kemungkinan ini, tetapi sebaliknya menggunakannya sebagai tolok ukur untuk membuat keputusan berdasarkan informasi terkait dengan kelangsungan bisnis dan prosedur pemulihan bencana. Lagi pula, mengurangi waktu henti melalui perencanaan uang muka yang teliti dapat berarti perbedaan antara bisnis yang sukses dan kegagalan bisnis.