5 Wawasan Tentang Data Besar (Hadoop) sebagai Layanan

Isi

Rackspace
Gembira
Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda
Qubole
Elastis MapReduce
Mortir
Ringkasan

Sumber: Info40555 / Dreamstime.com

Bawa pulang:

Hadoop adalah cara terbaik untuk mendapatkan hasil maksimal dari data besar, tetapi ada banyak alat lain yang dapat bekerja dengan Hadoop untuk memberikan hasil yang lebih berguna.

Di dunia teknologi yang terus berubah saat ini, perangkat lunak sebagai layanan (SaaS) telah menjadi model umum. Layanan ini ditawarkan kepada pelanggan berdasarkan kebutuhan. Data besar juga mengikuti model layanan yang sama. Pada artikel ini, kita akan membahas model layanan yang diikuti dalam domain teknologi data besar.

Berikut adalah beberapa model layanan terkenal untuk data besar sebagai layanan (BDaaS):

Rackspace

Cluster Rackspace Hadoop dapat menjalankan Hadoop pada server khusus yang dikelola Rackspace, cloud publik atau cloud pribadi.

Satu model untuk data besar cloud disediakan oleh Rackspace untuk Apache Spark dan Hadoop. Ini menawarkan platform bare-metal yang sepenuhnya dikelola untuk pemrosesan dalam memori.

Rackspace menghilangkan masalah dengan mengelola dan memelihara data besar secara manual. Itu datang dengan fitur-fitur berikut:

Mengurangi beban operasi dengan menyediakan dukungan 24 × 7 × 365
Menyediakan akses toolset penuh Platform Data Hortonworks (HDP), termasuk Pig, Hive, HBase, Sqoop, Flume dan HCatalog
Desain jaringan fleksibel dengan jaringan tradisional hingga 10GB

Memilih cloud pribadi memberi Anda kekuatan dan efisiensi cloud publik, dengan keamanan dan kontrol yang ditingkatkan. Kerugian utama menggunakan cloud pribadi adalah sulitnya mengelola dan membutuhkan para ahli untuk memutakhirkan, menambal, dan memantau. Rackspace memberikan dukungan yang sangat baik di bidang ini, sehingga tidak perlu khawatir tentang manajemen cloud.

Gembira

Berbasiskan Apache Hadoop, Joyent adalah lingkungan hosting berbasis cloud untuk proyek data besar. Solusi ini dibangun menggunakan Platform Data Hortonworks. Ini adalah infrastruktur asli penampung berkinerja tinggi untuk kebutuhan aplikasi seluler saat ini dan Web waktu nyata. Ini memungkinkan pengoperasian Hadoop kelas perusahaan di cloud Joyent berkinerja tinggi.

Ini juga memiliki keuntungan sebagai berikut:

Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda

Anda tidak dapat meningkatkan keterampilan pemrograman Anda ketika tidak ada yang peduli dengan kualitas perangkat lunak.

Memotong dua pertiga dari biaya infrastruktur dengan solusi yang disediakan oleh Joyent dengan waktu respons yang sama
3x lebih cepat waktu respons I / O disk oleh cluster Hadoop di Joyent Cloud
Mempercepat waktu respons dari pemrosesan paralel dan paralel
Meningkatkan penskalaan cluster Hadoop yang menjalankan aplikasi analisis data intensif
Hasil lebih cepat dengan waktu respons yang lebih baik

Secara umum, aplikasi big data dianggap mahal dan sulit digunakan. Joyent berusaha mengubah ini dengan memberikan solusi yang lebih murah dan lebih cepat. Joyent menyediakan infrastruktur cloud publik dan hybrid untuk aplikasi web dan seluler real-time. Kliennya termasuk tokoh-tokoh seperti LinkedIn dan Voxer.

Qubole

Untuk proyek data besar, cluster Hadoop disediakan oleh Qubole dengan konektor data bawaan dan editor grafis. Ini memungkinkan pemanfaatan berbagai basis data seperti MySQL, MongoDB dan Oracle, dan menetapkan cluster Hadoop pada pilot otomatis. Ini menyediakan editor kueri untuk Hive, Pig, dan MapReduce.

Qubole menyediakan segalanya sebagai layanan, termasuk:

Editor kueri untuk Hive, Pig, dan MapReduce
Pengevaluasi ekspresi
Dasbor pemanfaatan
Extract transform load (ETL) dan pembangun jalur pipa data

Fitur-fiturnya meliputi:

Berjalan lebih cepat dari Amazon EMR
GUI yang mudah digunakan dengan konektor built-in dan infrastruktur cloud elastis yang mulus
Optimalisasi alokasi sumber daya dan manajemen dilakukan oleh mesin QDS Hadoop dengan menggunakan daemon, menyediakan mesin Hadoop canggih untuk kinerja yang lebih baik
Untuk pertanyaan yang lebih cepat, I / O dioptimalkan untuk penyimpanan S3. S3 aman dan dapat diandalkan. Layanan Data Qubole menawarkan eksekusi 5x lebih cepat terhadap data dalam S3.
Tidak perlu membayar untuk fitur dan aplikasi yang tidak digunakan
Integrasi cloud - Layanan Data Qubole tidak memerlukan perubahan pada infrastruktur Anda saat ini, artinya ia memiliki fleksibilitas untuk bekerja dengan platform apa pun. Konektor QDS mendukung impor dan ekspor database cloud MongoDB, Oracle, PostgresSQL, dan sumber daya seperti Google Analytics.
Manajemen Siklus Hidup Cluster dengan Layanan Data Qubole untuk menyediakan cluster dalam hitungan menit, menyesuaikannya dengan permintaan dan menjalankannya di lingkungan untuk memudahkan pengelolaan penilaian data besar

Elastis MapReduce

Amazon Elastic MapReduce (EMR) menyediakan kerangka kerja Hadoop yang dikelola untuk menyederhanakan pemrosesan data besar. Mudah dan hemat biaya untuk mendistribusikan dan memproses data dalam jumlah besar.

Kerangka kerja terdistribusi lainnya seperti Spark dan Presto juga dapat berjalan di Amazon EMR untuk berinteraksi dengan data di Amazon S3 dan DynamoDB. EMR menangani kasus penggunaan ini dengan keandalan:

Pengindeksan web
Pembelajaran mesin
Simulasi ilmiah
Pergudangan data
Analisis log
Bioinformatika

Kliennya termasuk Yelp, Nokia, Getty Images, Reddit dan lainnya. Beberapa fitur-fiturnya adalah:

Fleksibel untuk digunakan dengan akses root di setiap contoh, mendukung banyak distribusi dan aplikasi Hadoop. Sangat mudah untuk menyesuaikan setiap cluster dan menginstal aplikasi tambahan.
Sangat mudah untuk menginstal cluster EMR Amazon.
Cukup andal untuk menghabiskan lebih sedikit waktu memantau cluster Anda; mencoba lagi tugas yang gagal dan secara otomatis menggantikan instance yang berkinerja buruk.
Aman, karena secara otomatis mengkonfigurasi pengaturan firewall Amazon EC2 untuk mengontrol akses jaringan ke instance
Memproses data pada skala apa pun dengan Amazon EMR. Jumlah instance dapat dengan mudah ditingkatkan dan dikurangi.
Penentuan harga murah tanpa biaya tersembunyi; bayar setiap jam untuk setiap instance yang digunakan. Misalnya, meluncurkan 10-simpul Hadoop cluster dengan harga $ 0,15 per jam.

Ini digunakan untuk menganalisis data aliran klik untuk memahami preferensi pengguna. Pengiklan dapat menganalisis aliran klik dan log tayangan iklan.

Ini juga dapat digunakan untuk memproses sejumlah besar data genom dan set data besar secara efisien. Data genom yang diinangi pada AWS dapat diakses oleh peneliti secara gratis.

Amazon EMR dapat digunakan untuk pemrosesan log dan membantu mereka dalam mengubah petabyte data tidak terstruktur dan semi-terstruktur menjadi wawasan yang berguna.

Mortir

Mortar adalah platform untuk ilmu data skala tinggi dan dibangun di atas cloud Amazon Web Services. Itu dibangun di atas elastis MapReduce (EMR) untuk meluncurkan cluster Hadoop. Mortar diciptakan oleh K. Young, Jeremy Kam, dan Doug Daniels pada tahun 2011 dengan motif untuk menghilangkan tugas-tugas sulit yang memakan waktu. Ini dilakukan agar para ilmuwan dapat menghabiskan waktu mereka melakukan pekerjaan penting lainnya.

Ini berjalan di Java, Jython, Hadoop, dll. Untuk meminimalkan waktu yang diinvestasikan oleh pengguna dan membiarkan mereka fokus pada ilmu data.

Ini memiliki beberapa fitur berikut:

Ini membebaskan tim Anda dari instalasi dan pemeliharaan yang membosankan dan memakan waktu.
Menghemat waktu dengan memasukkan solusi ke dalam operasi dalam rentang waktu singkat.
Secara otomatis memperingatkan pengguna tentang segala gangguan dalam teknologi dan aplikasi untuk memastikan bahwa mereka mendapatkan informasi yang akurat dan real-time.

Aplikasi platform Mortar:

Untuk menggunakan mesin rekomendasi yang kuat dan dapat diskalakan, platform tercepat adalah Mortar.
Mortar sepenuhnya otomatis, karena menjalankan mesin rekomendasi dari ujung ke ujung hanya dengan satu perintah.
Ini menggunakan kontrol versi standar industri yang membantu dalam adaptasi dan penyesuaian yang mudah.
Untuk menganalisis, sambungkan dengan mudah beberapa sumber data ke gudang data.
Menghemat waktu kerja untuk tim Anda dengan menangani infrastruktur, penyebaran, dan operasi lainnya.
Prediksi analisis dengan menggunakan data yang sudah Anda miliki. Mortar mendukung pendekatan seperti regresi linier dan klasifikasi untuk analisis.
Mendukung teknologi pembelajaran mesin terkemuka seperti R, Pig, dan Python untuk menghadirkan paralelisasi yang mudah untuk pekerjaan yang kompleks.
Uptime 99,9% dan peringatan strategis memastikan kepercayaan pengguna dan pengiriman pipa analitik berulang kali.
Algoritma prediktif digunakan untuk menumbuhkan bisnis seperti memprediksi permintaan dan mengidentifikasi pelanggan bernilai tinggi.
Menganalisis volume besar mudah dilakukan, apakah itu tokenization, stemming, LDA atau n-gram.

Ringkasan

Ada banyak aplikasi data besar yang tersedia saat ini, dan di masa depan pasti akan ada solusi yang lebih cepat dan lebih murah tersedia bagi pengguna. Selain itu, penyedia layanan akan memberikan solusi yang lebih baik, membuat instalasi dan pemeliharaan tidak terlalu luas.