10 Istilah Hadoop Paling Penting yang Harus Anda Ketahui dan Pahami

Video: PENGENALAN KOMPUTER UNTUK PEMULA - BELAJAR KOMPUTER DASAR

Isi

Tapi Pertama, Lihatlah Cara Kerja Hadoop
Hadoop Common
Sistem File Terdistribusi Hadoop (HDFS)
MapReduce
HBase
Sarang lebah
Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda
Babi Apache
Apache Spark
Apache Cassandra
Yet Another Resource Negotiator (YARN)
Impala

Sumber: Trueffelpix / Dreamstime.com

Bawa pulang:

Untuk benar-benar memahami data besar, Anda perlu memahami sedikit tentang Hadoop dan bahasa di sekitarnya.

Data besar, nama yang mudah diingat untuk volume besar data terstruktur, tidak terstruktur atau semi-terstruktur, terkenal sulit untuk ditangkap, disimpan, dikelola, dibagikan, dianalisis, dan divisualisasikan, setidaknya menggunakan database tradisional dan aplikasi perangkat lunak. Itulah sebabnya teknologi big data memiliki potensi untuk mengelola dan memproses volume data yang sangat besar secara efektif dan efisien. Dan Apache Hadoop yang menyediakan kerangka kerja dan teknologi terkait untuk memproses set data besar di seluruh cluster komputer dengan cara terdistribusi. Jadi, untuk benar-benar memahami data besar, Anda perlu memahami sedikit tentang Hadoop. Di sini kita lihat istilah-istilah teratas yang akan Anda dengar sehubungan dengan Hadoop - dan apa artinya.

Tapi Pertama, Lihatlah Cara Kerja Hadoop

Sebelum masuk ke ekosistem Hadoop, Anda perlu memahami dua hal mendasar dengan jelas. Yang pertama adalah bagaimana file disimpan di Hadoop; yang kedua adalah bagaimana data yang disimpan diproses. Semua teknologi yang terkait dengan Hadoop terutama bekerja pada kedua bidang ini dan membuatnya lebih ramah pengguna. (Dapatkan dasar-dasar bagaimana Hadoop bekerja di Bagaimana Hadoop Membantu Memecahkan Masalah Data Besar.)

Sekarang, ke persyaratan.

Hadoop Common

Kerangka kerja Hadoop memiliki modul yang berbeda untuk fungsi yang berbeda dan modul ini dapat saling berinteraksi karena berbagai alasan. Hadoop Common dapat didefinisikan sebagai perpustakaan utilitas umum untuk mendukung modul-modul ini di Hadoop ekosistem. Utilitas ini pada dasarnya adalah file berbasis Java, diarsipkan (JAR). Utilitas ini terutama digunakan oleh programmer dan pengembang selama masa pengembangan.

Sistem File Terdistribusi Hadoop (HDFS)

Sistem File Terdistribusi Hadoop (HDFS) adalah sub-proyek dari Apache Hadoop di bawah Yayasan Perangkat Lunak Apache. Ini adalah tulang punggung penyimpanan dalam kerangka kerja Hadoop. Ini adalah sistem file terdistribusi, scalable dan toleran terhadap kesalahan yang membentang di beberapa perangkat keras komoditas yang dikenal sebagai cluster Hadoop. Tujuan HDFS adalah menyimpan sejumlah besar data dengan andal dengan akses throughput tinggi ke data aplikasi. HDFS mengikuti arsitektur master / slave, di mana master dikenal sebagai NameNode dan para budak dikenal sebagai DataNodes.

MapReduce

Hadoop MapReduce juga merupakan sub-proyek dari Apache Software Foundation. MapReduce sebenarnya adalah kerangka kerja perangkat lunak yang murni ditulis dalam Java. Tujuan utamanya adalah untuk memproses dataset besar pada lingkungan terdistribusi (terdiri dari perangkat keras komoditas) secara paralel seutuhnya. Kerangka kerja mengelola semua kegiatan seperti penjadwalan pekerjaan, pemantauan, pelaksanaan, dan pengerjaan ulang (dalam kasus tugas yang gagal).

HBase

Apache HBase dikenal sebagai basis data Hadoop. Ini adalah penyimpanan data besar yang berbentuk kolom, terdistribusi, dan dapat diskalakan. Ini juga dikenal sebagai jenis database NoSQL yang bukan sistem manajemen basis data relasional. Aplikasi HBase juga ditulis dalam Java, dibangun di atas Hadoop dan berjalan pada HDFS. HBase digunakan ketika Anda membutuhkan akses baca / tulis real-time dan acak ke data besar. HBase dimodelkan berdasarkan konsep Googles BigTable.

Sarang lebah

Apache Hive adalah sistem perangkat lunak gudang data sumber terbuka. Hive awalnya dikembangkan oleh sebelum datang di bawah Yayasan Perangkat Lunak Apache dan menjadi sumber terbuka. Ini memfasilitasi manajemen dan permintaan set data besar pada penyimpanan kompatibel Hadoop. Hive melakukan semua aktivitasnya dengan menggunakan bahasa seperti SQL yang dikenal sebagai HiveQL. (Pelajari lebih lanjut di Pengantar Singkat untuk Apache Hive dan Babi.)

Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda

Anda tidak dapat meningkatkan keterampilan pemrograman Anda ketika tidak ada yang peduli dengan kualitas perangkat lunak.

Babi Apache

Babi awalnya diprakarsai oleh Yahoo untuk mengembangkan dan melaksanakan pekerjaan MapReduce pada sejumlah besar data yang didistribusikan. Sekarang ini telah menjadi proyek sumber terbuka di bawah Yayasan Perangkat Lunak Apache. Apache Pig dapat didefinisikan sebagai platform untuk menganalisis set data yang sangat besar dengan cara yang efisien. Lapisan infrastruktur babi menghasilkan urutan pekerjaan MapReduce untuk melakukan pemrosesan aktual. Lapisan bahasa babi dikenal sebagai Pig Latin dan menyediakan fitur seperti SQL untuk melakukan kueri pada set data terdistribusi.

Apache Spark

Spark pada awalnya dikembangkan oleh AMPLab di UC Berkeley. Ini menjadi proyek tingkat atas Apache pada bulan Februari 2014. Apache Spark dapat didefinisikan sebagai kerangka kerja komputasi cluster open source, tujuan umum, yang membuat analisis data jauh lebih cepat. Itu dibangun di atas Sistem File Terdistribusi Hadoop tetapi tidak terkait dengan kerangka kerja MapReduce. Kinerja Sparks jauh lebih cepat dibandingkan dengan MapReduce. Ini menyediakan API tingkat tinggi dalam Scala, Python dan Java.

Apache Cassandra

Apache Cassandra adalah basis data open source NoSQL lainnya. Cassandra secara luas digunakan untuk mengelola volume besar data terstruktur, semi-terstruktur dan tidak terstruktur di beberapa pusat data dan penyimpanan cloud. Cassandra dirancang berdasarkan arsitektur "masterless", yang berarti tidak mendukung model master / slave. Dalam arsitektur ini, semua node adalah sama dan data didistribusikan secara otomatis dan merata di semua node. Fitur Cassandras yang paling penting adalah ketersediaan terus menerus, skalabilitas linier, replikasi bawaan / dapat disesuaikan, tidak ada titik kegagalan tunggal dan kesederhanaan operasional.

Yet Another Resource Negotiator (YARN)

Yet Another Resource Negotiator (YARN) juga dikenal sebagai MapReduce 2.0, tetapi sebenarnya berada di bawah Hadoop 2.0. YARN dapat didefinisikan sebagai penjadwalan pekerjaan dan kerangka kerja manajemen sumber daya. Ide dasar YARN adalah untuk menggantikan fungsi JobTracker dengan dua dasmon terpisah yang bertanggung jawab atas manajemen sumber daya dan penjadwalan / pemantauan. Dalam kerangka kerja baru ini, akan ada ResourceManager global (RM) dan master khusus aplikasi yang dikenal sebagai ApplicationMaster (AM). Global ResourceManager (RM) dan NodeManager (per node slave) membentuk kerangka kerja komputasi data aktual. Aplikasi MapReduce v1 yang ada juga dapat dijalankan pada YARN, tetapi aplikasi tersebut harus dikompilasi ulang dengan stoples Hadoop2.x.

Impala

Impala dapat didefinisikan sebagai mesin query SQL dengan kekuatan pemrosesan paralel besar-besaran (MPP). Ini berjalan secara native di framework Apache Hadoop. Impala dirancang sebagai bagian dari ekosistem Hadoop. Ini berbagi sistem file fleksibel (HDFS) yang sama, metadata, manajemen sumber daya dan kerangka kerja keamanan seperti yang digunakan oleh komponen ekosistem Hadoop lainnya. Poin paling penting adalah untuk mencatat bahwa Impala jauh lebih cepat dalam pemrosesan permintaan dibandingkan dengan Hive. Tetapi kita juga harus ingat bahwa Impala dimaksudkan untuk permintaan / analisis pada sekumpulan kecil data, dan terutama dirancang sebagai alat analisis yang bekerja pada data yang diproses dan terstruktur.

Hadoop adalah topik penting dalam TI, tetapi ada orang yang skeptis dengan kelangsungan jangka panjangnya. Baca lebih lanjut di What Is Hadoop? Teori Sinis.