Ketika SQL Tidak Cukup: Kontrol untuk Pusat Data Baru Massive

Video: Oracle Database Actions (SQL Developer Web) Tour: 2021 Edition

Isi

Sistem File Google: Studi Kasus Besar
Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda
Pandangan tentang Teknologi Inti
Bagaimana Sistem Besar Lainnya Mencapai Ini?
Mempertahankan DFS

Bawa pulang:

Pengembang dan insinyur perlu terus bekerja untuk mempercepat dan meningkatkan layanan melalui platform yang telah berkembang jauh melampaui arketipe klasik era 1990-an mereka.

Dengan semua desas-desus tentang pusat data NSA yang sangat besar yang memegang banyak bit data tentang kehidupan pribadi kita, ada satu hal yang belum banyak dibicarakan, setidaknya di CNN. Ini melibatkan masalah teknik yang telah muncul bersama dengan teknologi cloud, data besar dan pusat penyimpanan data fisik yang mengesankan yang sekarang sedang dibangun di seluruh dunia. Jadi apa itu? Yah, tidak peduli siapa yang mengelola salah satu sistem TI raksasa yang menjalankan fasilitas ini, ada kebutuhan untuk sistem perangkat lunak yang membantu semua data masuk dan keluar dari pipa dengan cepat. Kebutuhan itu mewakili salah satu pertanyaan atau teka-teki TI paling menarik yang dihadapi para profesional saat ini.

Seperti yang ditunjukkan oleh banyak ahli, permintaan ekstrem saat ini untuk pemrosesan data jauh melampaui pendekatan tradisional. Sederhananya, menggunakan struktur database sederhana dan alat-alat seperti antarmuka query SQL tidak akan memberikan kekuatan pemrosesan yang cukup atau fungsionalitas untuk orang-orang seperti sistem berpemilik yang telah dikembangkan selama beberapa tahun terakhir. Arsip perusahaan teknologi besar saat ini membutuhkan teknologi yang sangat skalabel. Mereka membutuhkan alat pemrosesan data yang dapat menginput dan menghasilkan hasil dalam volume yang jauh lebih tinggi daripada yang dapat difasilitasi oleh satu server. Mereka membutuhkan solusi yang dapat dengan cepat ditingkatkan untuk pertumbuhan, solusi yang mencakup tingkat kecerdasan buatan yang kompleks, solusi yang dirancang untuk manajemen yang mudah oleh departemen TI.

Pertanyaannya adalah, bagaimana perusahaan dan lembaga pemerintah mengatasi keterbatasan jalur penanganan data tradisional? Di sini kita lihat satu pilihan yang sangat menjanjikan: Perangkat lunak yang menangani data besar dan administrasi beberapa pusat data.

Sistem File Google: Studi Kasus Besar

Teknologi eksklusif yang digunakan Google untuk mengakses pusat data adalah salah satu contoh terbaik dari model umum untuk penanganan data besar dan administrasi beberapa pusat data. Google File System (GFS), yang dikembangkan pada tahun 2003, dirancang untuk mendukung volume besar amandemen kecepatan tinggi untuk sistem data yang merupakan bagian dari mendapatkan begitu banyak informasi baru masuk dan keluar dari platform tunggal ketika jutaan pengguna mengklik pada waktu yang sama. Para ahli menyebut ini sebagai sistem file terdistribusi, dan menggunakan istilah "penyimpanan objek data" untuk menggambarkan teknik yang sangat kompleks ini. Namun pada kenyataannya, istilah-istilah ini bahkan tidak menggores permukaan dalam menggambarkan apa yang sedang bekerja.

Secara individual, fitur dan komponen yang membentuk sistem seperti GFS mungkin tidak lagi menjadi terobosan baru, tetapi kompleks. Banyak dari mereka telah dibahas di situs ini sebagai inovasi yang relatif baru yang merupakan bagian dari landasan untuk sistem TI global baru yang selalu terhubung dan selalu terhubung. Secara kolektif, sistem seperti GFS jauh lebih dari jumlah bagian-bagiannya: ini adalah jaringan yang sebagian besar tidak terlihat tetapi sangat rumit yang dipenuhi dengan potongan data individual yang dilemparkan dengan cara ini dan dalam proses yang akan, jika sepenuhnya dimodelkan secara visual, terlihat seperti kekacauan. Memahami ke mana semua data akan pergi membutuhkan banyak energi dan komitmen, karena mereka yang berjaga di stasiun pertempuran sistem ini akan dengan mudah mengakui.

"Ada terlalu banyak detail yang memiliki dampak mendalam pada bidang kegunaan - termasuk fragmentasi eksternal dan internal, pembaruan berbasis log vs in-place, dan tingkat konsistensi transaksi - untuk meringkas cara kerjanya dalam satu kalimat ringkas. , "kata Momchil Michailov, CEO dan salah satu pendiri Sanbolic.

"Sistem file terdistribusi adalah agregator terdistribusi ruang nama lokal dan ruang bebas dari node yang berpartisipasi, atau sistem file lokal yang berjalan pada beberapa node mengakses penyimpanan bersama dengan bantuan komponen manajer kunci terdistribusi," katanya.

Kerry Lebel adalah manajer produk senior di Automic, sebuah perusahaan yang dikenal dengan platform otomasi yang dapat diskalakan. Lebel mengatakan bahwa meskipun akurat untuk menggambarkan DFS sebagai sistem yang hanya menetapkan beban kerja ke server yang terpasang pada perangkat keras berbiaya rendah, itu tidak benar-benar menceritakan keseluruhan cerita.

Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda

Anda tidak dapat meningkatkan keterampilan pemrograman Anda ketika tidak ada yang peduli dengan kualitas perangkat lunak.

"Apa yang akhirnya Anda lewatkan adalah semua faktor kerennya bagaimana mereka melakukan apa yang mereka lakukan, "kata Lebel.

Ketika Anda menjauh dari detail teknis dan hanya memikirkan ide dasar di balik sistem file terdistribusi, "faktor keren" yang dibicarakan Lebel jelas. Sistem penanganan data besar ini menggantikan sistem file / folder lama dengan struktur yang tidak hanya melibatkan beberapa sistem pengiriman, tetapi pendekatan "berorientasi objek", di mana sejumlah besar unit bergegas di sana-sini untuk mencegah kemacetan.

Pikirkan, misalnya, tentang sistem jalan raya yang canggih, di mana ratusan ribu mobil tidak hanya disalurkan ke multilane langsung, tetapi digali menjadi daun semanggi kecil yang rapi atau anak sungai oxbow, yang berputar dan dikirim menuju tujuan mereka di berbagai jalan memutar. Dari langit, semuanya tampak seperti koreografi seperti arloji Swiss. Itulah jenis model visual yang dilihat oleh para insinyur ketika mereka memimpikan cara-cara baru untuk merutekan informasi di sekitar batasan dengan "menendang" ke berbagai tingkat skema penahanan data multi-tier. Mengesampingkan spesifikasi, ini adalah tujuan tingkat atas dari sistem penanganan: untuk menjaga objek mandiri dengan metadata tertanam mereka bergerak dengan kecepatan tinggi ke tempat mereka harus, untuk mencapai tujuan konsistensi, memuaskan pengguna akhir, atau bahkan untuk menginformasikan pengamatan atau analisis tingkat atas.

Pandangan tentang Teknologi Inti

Sebuah artikel oleh Sean Gallagher yang muncul di Ars Technica memecah desain GFS menjadi bagian-bagian yang agak lebih mudah dikelola, dan mengisyaratkan apa yang ada di bawah lembaran di Google.

GFS dimulai dengan model yang redundan dan toleran terhadap kesalahan untuk membaca dan menulis data. Idenya di sini adalah bahwa alih-alih menulis pembaruan spesifik ke satu drive, sistem baru menulis potongan data ke berbagai tujuan. Dengan begitu, jika satu tulisan gagal, yang lain akan tetap. Untuk mengakomodasi hal ini, satu komponen jaringan utama melakukan penanganan data ke unit bawahan lainnya, menggabungkan ulang data ketika klien "memanggil" untuk itu. Semua ini dimungkinkan oleh protokol metadata yang membantu mengidentifikasi di mana pembaruan dan hasil transmisi tertentu berada dalam sistem yang lebih besar.

Aspek lain yang sangat penting dari ini adalah bagaimana sistem duplikat-berat ini menegakkan konsistensi data. Seperti yang dicatat oleh Gallagher, desain GFS mengorbankan konsistensi sementara masih "menegakkan atomicity," atau melindungi prinsip bagaimana data diperbarui di beberapa unit penyimpanan agar sesuai dari waktu ke waktu. "Model konsistensi santai" Google tampaknya mengikuti teori esensial dari model BASE, yang memberikan lebih banyak fleksibilitas sebagai imbalan untuk kerangka waktu yang lebih lama untuk penegakan konsistensi.

Bagaimana Sistem Besar Lainnya Mencapai Ini?

"Ketika skala yang cukup besar tercapai, inkonsistensi atau korupsi pada data menjadi tak terhindarkan," kata Michailov. "Oleh karena itu, tujuan utama dari sistem file terdistribusi harus kemampuan untuk melakukan sebanyak mungkin operasi di hadapan korupsi, sambil memberikan metode yang efisien untuk menangani korupsi secara bersamaan." Michailov juga menyebutkan perlunya mempertahankan kinerja melalui implementasi redundansi yang cermat.

"Misalnya, membuat metadata (data tentang data) pada setiap disk memungkinkan disk itu untuk membangun kembali struktur data yang tepat jika salinan cerminnya rusak," kata Michailov. "Selain itu, level RAID dapat digunakan untuk memerangi kegagalan penyimpanan baik pada agregator sistem file atau level manajer volume bersama."

Dalam membahas model konsistensi lain, Lebel berfokus pada sistem yang disebut sistem file terdistribusi Hadoop (HDFS), yang ia sebut "standar de-facto industri."

Dalam HDFS, kata Lebel, setiap blok data direplikasi tiga kali pada node yang berbeda, dan pada dua rak yang berbeda. Data diperiksa dari ujung ke ujung. Kegagalan dilaporkan ke NameNode, penangan data yang menghilangkan blok yang rusak dan membuat yang baru.

Semua ini mendukung jenis "data bersih" yang sangat penting untuk integritas salah satu sistem data massal ini.

Mempertahankan DFS

Pandangan lain yang sangat berbeda pada GFS berasal dari artikel Oktober 2012 oleh penulis Wired Steven Levy. Jauh lebih singkat dalam mengkarakterisasi pendekatan perangkat lunak untuk penanganan jaringan top-down kolektif Google.

"Selama bertahun-tahun," tulis Levy, "Google juga telah membangun sebuah sistem perangkat lunak yang memungkinkannya untuk mengelola servernya yang tak terhitung jumlahnya seolah-olah mereka adalah satu entitas raksasa. Pengembang in-house-nya dapat bertindak seperti boneka, mengirim ribuan komputer untuk melakukan tugas semudah menjalankan satu mesin. "

Melakukan hal ini juga melibatkan berton-ton pemeliharaan berbasis dunia maya dan lingkungan, dari tim uji khusus yang mencoba untuk "memecahkan" sistem server, hingga suhu yang terkontrol secara hati-hati di seluruh ruang crypt data.

Levy juga menyebutkan teknologi tambahan untuk GFS, seperti MapReduce, alat aplikasi cloud, dan Hadoop, mesin analisis yang berbagi beberapa prinsip desain dengan GFS. Alat-alat ini memiliki dampaknya sendiri pada bagaimana sistem penanganan pusat data besar dirancang, dan apa yang kemungkinan akan muncul di masa depan. (Pelajari lebih lanjut tentang teknologi ini di The Evolution of Big Data.)

Michailov percaya bahwa MapReduce memiliki potensi untuk mendukung sistem pusat data yang semakin besar, dan berbicara tentang "implementasi tunggal" dari sistem file bersama dan teragregasi yang dapat "menjaga node nama dari sistem file teragregasi dalam cluster bersama dengan SSD untuk penyimpanan . "

Sementara itu, Lebel melihat perpindahan dari pemrosesan batch (metode yang didukung Hadoop) ke stream processing, yang akan membawa operasi data ini lebih dekat ke waktu nyata.

"Semakin cepat kita dapat memproses data dan membuatnya tersedia untuk pengambil keputusan bisnis atau untuk pelanggan kita, semakin banyak keunggulan kompetitif akan ada," kata Lebel, yang juga menyarankan mengganti terminologi pemrosesan di atas dengan istilah yang berfokus pada pengguna akhir. Dengan memikirkan aktivitas "sinkron", atau aktivitas yang disinkronkan dengan tindakan pengguna akhir, dan aktivitas "asinkron" yang lebih fleksibel dalam hal implementasi, Lebel mengatakan perusahaan dapat menggunakan SLA dan sumber daya lain untuk menentukan bagaimana sistem layanan yang akan bekerja .

Apa yang menjadi dasar dari semua ini adalah, dalam arti tertentu, adalah bahwa pengembang dan insinyur perlu terus bekerja untuk mempercepat dan meningkatkan layanan melalui platform yang telah berkembang jauh melampaui arketipe klasik era 1990-an mereka. Itu berarti melihat secara kritis pada alat-alat data dan menembus kemacetan dengan cara yang tidak hanya mendukung pertumbuhan populasi, tetapi juga perubahan eksponensial yang terjadi dengan kecepatan sangat tinggi yang oleh para pakar disebut "revolusi industri berikutnya." Sangat mungkin bahwa mereka yang paling berhasil di bidang ini akan berakhir mendominasi di pasar dan ekonomi masa depan.