7 Hal yang Perlu Diketahui Tentang Hadoop

Pengarang: Eugene Taylor
Tanggal Pembuatan: 8 Agustus 2021
Tanggal Pembaruan: 12 Boleh 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Isi


Sumber: Pressureua / Dreamstime.com

Bawa pulang:

Hadoop telah membantu menganalisis data selama bertahun-tahun sekarang, tetapi mungkin ada lebih dari beberapa hal yang tidak Anda ketahui tentangnya.

Apa itu Hadoop? Ini adalah mainan gajah berwarna kuning. Tidak apa yang Anda harapkan? Bagaimana dengan ini: Doug Cutting - co-pencipta proyek perangkat lunak sumber terbuka ini - meminjam nama dari putranya yang kebetulan menyebut mainannya gajah Hadoop. Singkatnya, Hadoop adalah kerangka kerja perangkat lunak yang dikembangkan oleh Apache Software Foundation yang digunakan untuk mengembangkan komputasi terdistribusi data-intensif. Dan itu merupakan komponen kunci dalam pembaca kata kunci lain yang sepertinya tidak pernah bisa mendapatkan cukup: data besar. Berikut adalah tujuh hal yang harus Anda ketahui tentang perangkat lunak unik dan berlisensi gratis ini.

Bagaimana Hadoop memulainya?

Dua belas tahun yang lalu, Google membangun sebuah platform untuk memanipulasi sejumlah besar data yang dikumpulkannya. Seperti yang sering dilakukan perusahaan, Google membuat desainnya tersedia untuk umum dalam bentuk dua makalah: Google File System dan MapReduce.

Pada saat yang sama, Doug Cutting dan Mike Cafarella sedang mengerjakan Nutch, mesin pencari baru. Keduanya juga berjuang dengan cara menangani data dalam jumlah besar. Kemudian kedua peneliti mendapat kabar dari makalah Google. Persimpangan yang beruntung itu mengubah segalanya dengan memperkenalkan Cutting dan Cafarella ke sistem file yang lebih baik dan cara untuk melacak data, akhirnya mengarah ke penciptaan Hadoop.

Apa yang begitu penting tentang Hadoop?

Saat ini, mengumpulkan data lebih mudah dari sebelumnya. Memiliki semua data ini menghadirkan banyak peluang, tetapi ada juga tantangan:

  • Jumlah besar data memerlukan metode pemrosesan baru.
  • Data yang diambil dalam format tidak terstruktur.
Untuk mengatasi tantangan memanipulasi sejumlah besar data tidak terstruktur, Cutting dan Cafarella datang dengan solusi dua bagian. Untuk mengatasi masalah kuantitas-data, Hadoop menggunakan lingkungan terdistribusi - jaringan server komoditas - menciptakan cluster pemrosesan paralel, yang membawa lebih banyak kekuatan pemrosesan untuk mendukung tugas yang ditugaskan.

Selanjutnya, mereka harus menangani data yang tidak terstruktur atau data dalam format yang tidak dapat ditangani oleh sistem basis data relasional standar. Cutting dan Cafarella merancang Hadoop untuk bekerja dengan semua jenis data: terstruktur, tidak terstruktur, gambar, file audio, bahkan. Buku putih Cloudera (Hadoop integrator) ini menjelaskan mengapa ini penting:

    "Dengan membuat semua data Anda dapat digunakan, bukan hanya apa yang ada di database Anda, Hadoop memungkinkan Anda mengungkap hubungan tersembunyi dan mengungkapkan jawaban yang selalu tidak terjangkau. Anda dapat mulai membuat lebih banyak keputusan berdasarkan data keras, alih-alih firasat, dan mencari pada set data lengkap, bukan hanya sampel dan ringkasan. "

Apakah Skema sedang dibaca?

Seperti yang disebutkan sebelumnya, salah satu kelebihan Hadoop adalah kemampuannya menangani data yang tidak terstruktur. Dalam arti tertentu, itu adalah "menendang kaleng di jalan." Akhirnya data membutuhkan semacam struktur untuk menganalisisnya.

Di situlah skema baca dibaca berperan. Skema saat dibaca adalah perpaduan dari format data apa, di mana menemukan data (ingat data tersebar di beberapa server), dan apa yang harus dilakukan terhadap data - bukan tugas yang sederhana. Dikatakan bahwa memanipulasi data dalam sistem Hadoop membutuhkan keterampilan seorang analis bisnis, ahli statistik dan seorang programmer Java. Sayangnya, tidak banyak orang dengan kualifikasi itu.

Apa itu Sarang?

Jika Hadoop akan berhasil, bekerja dengan data harus disederhanakan. Jadi, kerumunan open-source mulai bekerja dan menciptakan Hive:

    "Hive menyediakan mekanisme untuk memproyeksikan struktur ke data ini dan meminta data menggunakan bahasa seperti SQL yang disebut HiveQL. Pada saat yang sama bahasa ini juga memungkinkan peta tradisional / programer pengurangan untuk menyambungkan pembuat peta dan reduksi khusus mereka ketika tidak nyaman atau tidak efisien untuk mengekspresikan logika ini dalam HiveQL. "

Hive memungkinkan yang terbaik dari kedua dunia: personel basis data yang akrab dengan perintah SQL dapat memanipulasi data, dan pengembang yang akrab dengan skema proses baca masih dapat membuat kueri yang disesuaikan.

Jenis data apa yang dianalisis Hadoop?

Analisis Web adalah hal pertama yang terlintas dalam pikiran, menganalisis log Web dan lalu lintas Web untuk mengoptimalkan situs web. , misalnya, jelas ke dalam analisis Web, menggunakan Hadoop untuk memilah-milah terabyte data yang diakumulasi perusahaan.

Perusahaan menggunakan cluster Hadoop untuk melakukan analisis risiko, deteksi penipuan, dan segmentasi basis pelanggan. Perusahaan utilitas menggunakan Hadoop untuk menganalisis data sensor dari jaringan listrik mereka, memungkinkan mereka untuk mengoptimalkan produksi listrik. Perusahaan besar seperti Target, 3M, dan Medtronics menggunakan Hadoop untuk mengoptimalkan distribusi produk, penilaian risiko bisnis, dan segmentasi berdasarkan pelanggan.

Universitas juga berinvestasi di Hadoop. Brad Rubin, seorang associate professor di University of St. Thomas Program Pascasarjana dalam Perangkat Lunak, menyebutkan bahwa keahlian Hadoop membantu memilah-milah jumlah data yang dikumpulkan oleh kelompok-kelompok penelitian di universitas.

Bisakah Anda memberikan contoh dunia nyata Hadoop?

Salah satu contoh yang lebih dikenal adalah TimesMachine. The New York Times memiliki koleksi gambar TIFF surat kabar satu halaman penuh, metadata terkait, dan artikel dari tahun 1851 hingga 1922 yang berjumlah terabyte data. Derek Gottfrid NYT, menggunakan sistem EC2 / S3 / Hadoop dan kode khusus ,:

    "Mencerna 405.000 gambar TIFF yang sangat besar, 3,3 juta artikel dalam SGML dan 405.000 file xml memetakan artikel ke wilayah persegi panjang di TIFFs. Data ini dikonversi ke 810.000 gambar PNG yang lebih ramah web (gambar kecil dan gambar penuh) dan 405.000 file JavaScript. "

Menggunakan server di cloud Amazon Web Services, Gottfrid menyebutkan bahwa mereka dapat memproses semua data yang diperlukan untuk TimesMachine dalam waktu kurang dari 36 jam.

Apakah Hadoop sudah usang atau hanya berubah?

Hadoop telah ada selama lebih dari satu dekade sekarang. Banyak yang mengatakan itu sudah usang. Seorang ahli, Dr. David Rico, mengatakan bahwa "Produk IT berumur pendek. Pada tahun-tahun anjing, produk Googles adalah sekitar 70, sedangkan Hadoop adalah 56."

Mungkin ada kebenaran atas apa yang dikatakan Rico. Tampaknya Hadoop akan melalui perombakan besar. Untuk mempelajari lebih lanjut tentang hal itu, Rubin mengundang saya ke pertemuan Kelompok Pengguna Hadoop Kota Kembar, dan topik diskusi adalah Pengantar YARN:

    "Apache Hadoop 2 mencakup mesin MapReduce baru, yang memiliki sejumlah keunggulan dibandingkan implementasi sebelumnya, termasuk skalabilitas dan pemanfaatan sumber daya yang lebih baik. Implementasi baru ini dibangun di atas sistem manajemen sumber daya umum untuk menjalankan aplikasi terdistribusi yang disebut YARN."
Hadoop mendapatkan banyak buzz di lingkaran basis data dan manajemen konten, tetapi masih ada banyak pertanyaan di sekitarnya dan bagaimana cara terbaik untuk digunakan. Ini hanya beberapa. Jika Anda memiliki lebih banyak, mereka dengan cara kami. Baiklah jawab yang terbaik di Techopedia.com.