Kudu: Game Changer di Ekosistem Hadoop?

Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Isi

Apa itu Kudu?
Apa Status Kudus Saat Ini?
Bagaimana Kudu Melengkapi HDFS / HBase?
Fitur Kerangka Kudu
Bagaimana Kudu Mengubah Ekosistem Hadoop?
Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda
Kesimpulan

Sumber: Agsandrew / Dreamstime.com

Bawa pulang:

Kudu adalah proyek sumber terbuka yang membantu mengelola penyimpanan lebih efisien.

Kudu adalah proyek open-source baru yang menyediakan penyimpanan yang dapat diperbarui. Ini adalah pelengkap HDFS / HBase, yang menyediakan penyimpanan berurutan dan hanya baca. Kudu lebih cocok untuk analitik cepat pada data cepat, yang saat ini menjadi permintaan bisnis. Jadi Kudu bukan hanya proyek ekosistem Hadoop, tetapi lebih berpotensi untuk mengubah pasar. (Untuk lebih lanjut tentang Hadoop, lihat 10 Ketentuan Hadoop Paling Penting yang Harus Anda Ketahui dan Pahami.)

Apa itu Kudu?

Kudu adalah jenis khusus sistem penyimpanan yang menyimpan data terstruktur dalam bentuk tabel. Setiap tabel memiliki jumlah kolom yang telah ditentukan sebelumnya. Setiap dari mereka memiliki kunci utama yang sebenarnya adalah sekelompok satu atau lebih kolom dari tabel itu. Kunci utama ini dibuat untuk menambah batasan dan mengamankan kolom, dan juga berfungsi sebagai indeks, yang memungkinkan pembaruan dan penghapusan yang mudah. Tabel ini adalah serangkaian himpunan bagian data yang disebut tablet.

Apa Status Kudus Saat Ini?

Kudu sangat berkembang dengan baik dan sudah ditambah dengan banyak fitur. Namun, masih perlu beberapa pemolesan, yang dapat dilakukan dengan lebih mudah jika pengguna menyarankan dan melakukan beberapa perubahan.

Kudu sepenuhnya open source dan memiliki Lisensi Perangkat Lunak Apache 2.0. Ini juga dimaksudkan untuk diserahkan ke Apache, sehingga dapat dikembangkan sebagai proyek Apache Incubator. Ini akan memungkinkan perkembangannya untuk berkembang lebih cepat dan semakin mengembangkan pemirsanya. Setelah waktu tertentu, pengembangan Kudu akan dilakukan secara publik dan transparan. Banyak perusahaan seperti AtScale, Xiaomi, Intel dan Splice Machine telah bergabung bersama untuk berkontribusi dalam pengembangan Kudu. Kudu juga memiliki komunitas besar, di mana sejumlah besar pemirsa sudah memberikan saran dan kontribusi mereka. Jadi, itu adalah orang-orang yang mendorong perkembangan Kudu ke depan.

Bagaimana Kudu Melengkapi HDFS / HBase?

Kudu tidak dimaksudkan sebagai pengganti HDFS / HBase. Ini sebenarnya dirancang untuk mendukung HBase dan HFDS dan berjalan bersama mereka untuk meningkatkan fitur mereka. Ini karena HBase dan HDFS masih memiliki banyak fitur yang membuatnya lebih kuat daripada Kudu pada mesin tertentu. Secara keseluruhan, mesin seperti itu akan mendapatkan lebih banyak manfaat dari sistem ini.

Fitur Kerangka Kudu

Fitur utama kerangka Kudu adalah sebagai berikut:

Pemindaian kolom tabel yang sangat cepat - Format data terbaik seperti Parket dan ORCFile membutuhkan prosedur pemindaian terbaik, yang ditangani dengan sempurna oleh Kudu. Format seperti itu membutuhkan pemindaian cepat yang hanya dapat terjadi ketika data kolom dikodekan dengan benar.
Keandalan kinerja - Kerangka kerja Kudu meningkatkan keandalan keseluruhan Hadoop dengan menutup banyak celah dan celah yang ada di Hadoop.
Integrasi yang mudah dengan Hadoop - Kudu dapat dengan mudah diintegrasikan dengan Hadoop dan komponennya yang berbeda untuk efisiensi yang lebih.
Open source sepenuhnya - Kudu adalah sistem open-source dengan lisensi Apache 2.0. Ini memiliki komunitas besar pengembang dari berbagai perusahaan dan latar belakang, yang memperbaruinya secara teratur dan memberikan saran untuk perubahan.

Bagaimana Kudu Mengubah Ekosistem Hadoop?

Kudu dibangun agar sesuai dengan ekosistem Hadoop dan meningkatkan fitur-fiturnya. Itu juga dapat berintegrasi dengan beberapa komponen utama Hadoop seperti MapReduce, HBase dan HDFS. Pekerjaan MapReduce dapat menyediakan data atau mengambil data dari tabel Kudu. Fitur-fitur ini dapat digunakan di Spark juga. Lapisan khusus membuat beberapa komponen Spark seperti Spark SQL dan DataFrame dapat diakses oleh Kudu. Meskipun Kudu belum banyak dikembangkan untuk menggantikan fitur-fitur ini, diperkirakan setelah beberapa tahun, itu akan cukup berkembang untuk melakukannya. Sampai saat itu, integrasi antara Hadoop dan Kudu benar-benar sangat berguna dan dapat mengisi celah utama ekosistem Hadoop. (Untuk mempelajari lebih lanjut tentang Apache Spark, lihat Bagaimana Apache Spark Membantu Pengembangan Aplikasi Cepat.)

Kudu dapat diimplementasikan di berbagai tempat. Beberapa contoh tempat-tempat tersebut diberikan di bawah ini:

Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda

Anda tidak dapat meningkatkan keterampilan pemrograman Anda ketika tidak ada yang peduli dengan kualitas perangkat lunak.

Streaming input dalam waktu dekat waktu nyata - Di tempat-tempat di mana input perlu diterima SECEPATNYA, Kudu dapat melakukan pekerjaan yang luar biasa. Contoh tempat seperti itu adalah dalam bisnis, di mana sejumlah besar data dinamis masuk dari berbagai sumber, dan perlu disediakan dengan cepat secara real time.
Aplikasi seri waktu dengan berbagai pola akses - Kudu sangat cocok untuk aplikasi berbasis seri waktu karena lebih mudah untuk mengatur tabel dan memindai mereka menggunakannya. Contoh penggunaan tersebut adalah di department store, di mana data lama harus ditemukan dengan cepat dan diproses untuk memprediksi popularitas produk di masa depan.
Sistem warisan - Banyak perusahaan yang mendapatkan data dari berbagai sumber dan menyimpannya di stasiun kerja yang berbeda akan merasa betah dengan Kudu. Kudu sangat cepat dan efektif dapat berintegrasi dengan Impala untuk memproses data pada semua mesin.
Pemodelan prediktif - Ilmuwan data yang menginginkan platform yang baik untuk pemodelan dapat menggunakan Kudu. Kudu dapat belajar dari setiap set data yang dimasukkan ke dalamnya. Ilmuwan dapat menjalankan dan menjalankan kembali model berulang kali untuk melihat apa yang terjadi.

Kesimpulan

Meskipun Kudu masih dalam tahap pengembangan, ia memiliki potensi yang cukup untuk menjadi tambahan yang baik untuk komponen Hadoop standar seperti HDFS dan HBase. Ini memiliki potensi yang cukup untuk sepenuhnya mengubah ekosistem Hadoop dengan mengisi semua celah dan juga menambahkan beberapa fitur lainnya. Ini juga sangat cepat dan kuat dan dapat membantu menganalisis dan menyimpan tabel data dalam jumlah besar dengan cepat. Namun, masih ada beberapa pekerjaan yang harus dilakukan agar dapat digunakan secara lebih efisien.