Isi
- Rackspace
- Gembira
- Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda
- Qubole
- Elastis MapReduce
- Mortir
- Ringkasan
Sumber: Info40555 / Dreamstime.com
Bawa pulang:
Hadoop adalah cara terbaik untuk mendapatkan hasil maksimal dari data besar, tetapi ada banyak alat lain yang dapat bekerja dengan Hadoop untuk memberikan hasil yang lebih berguna.
Di dunia teknologi yang terus berubah saat ini, perangkat lunak sebagai layanan (SaaS) telah menjadi model umum. Layanan ini ditawarkan kepada pelanggan berdasarkan kebutuhan. Data besar juga mengikuti model layanan yang sama. Pada artikel ini, kita akan membahas model layanan yang diikuti dalam domain teknologi data besar.
Berikut adalah beberapa model layanan terkenal untuk data besar sebagai layanan (BDaaS):
Rackspace
Cluster Rackspace Hadoop dapat menjalankan Hadoop pada server khusus yang dikelola Rackspace, cloud publik atau cloud pribadi.
Satu model untuk data besar cloud disediakan oleh Rackspace untuk Apache Spark dan Hadoop. Ini menawarkan platform bare-metal yang sepenuhnya dikelola untuk pemrosesan dalam memori.
Rackspace menghilangkan masalah dengan mengelola dan memelihara data besar secara manual. Itu datang dengan fitur-fitur berikut:
- Mengurangi beban operasi dengan menyediakan dukungan 24 × 7 × 365
- Menyediakan akses toolset penuh Platform Data Hortonworks (HDP), termasuk Pig, Hive, HBase, Sqoop, Flume dan HCatalog
- Desain jaringan fleksibel dengan jaringan tradisional hingga 10GB
Gembira
Berbasiskan Apache Hadoop, Joyent adalah lingkungan hosting berbasis cloud untuk proyek data besar. Solusi ini dibangun menggunakan Platform Data Hortonworks. Ini adalah infrastruktur asli penampung berkinerja tinggi untuk kebutuhan aplikasi seluler saat ini dan Web waktu nyata. Ini memungkinkan pengoperasian Hadoop kelas perusahaan di cloud Joyent berkinerja tinggi.
Ini juga memiliki keuntungan sebagai berikut:
Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda
Anda tidak dapat meningkatkan keterampilan pemrograman Anda ketika tidak ada yang peduli dengan kualitas perangkat lunak.
- Memotong dua pertiga dari biaya infrastruktur dengan solusi yang disediakan oleh Joyent dengan waktu respons yang sama
- 3x lebih cepat waktu respons I / O disk oleh cluster Hadoop di Joyent Cloud
- Mempercepat waktu respons dari pemrosesan paralel dan paralel
- Meningkatkan penskalaan cluster Hadoop yang menjalankan aplikasi analisis data intensif
- Hasil lebih cepat dengan waktu respons yang lebih baik
Qubole
Untuk proyek data besar, cluster Hadoop disediakan oleh Qubole dengan konektor data bawaan dan editor grafis. Ini memungkinkan pemanfaatan berbagai basis data seperti MySQL, MongoDB dan Oracle, dan menetapkan cluster Hadoop pada pilot otomatis. Ini menyediakan editor kueri untuk Hive, Pig, dan MapReduce.
Qubole menyediakan segalanya sebagai layanan, termasuk:
- Editor kueri untuk Hive, Pig, dan MapReduce
- Pengevaluasi ekspresi
- Dasbor pemanfaatan
- Extract transform load (ETL) dan pembangun jalur pipa data
- Berjalan lebih cepat dari Amazon EMR
- GUI yang mudah digunakan dengan konektor built-in dan infrastruktur cloud elastis yang mulus
- Optimalisasi alokasi sumber daya dan manajemen dilakukan oleh mesin QDS Hadoop dengan menggunakan daemon, menyediakan mesin Hadoop canggih untuk kinerja yang lebih baik
- Untuk pertanyaan yang lebih cepat, I / O dioptimalkan untuk penyimpanan S3. S3 aman dan dapat diandalkan. Layanan Data Qubole menawarkan eksekusi 5x lebih cepat terhadap data dalam S3.
- Tidak perlu membayar untuk fitur dan aplikasi yang tidak digunakan
- Integrasi cloud - Layanan Data Qubole tidak memerlukan perubahan pada infrastruktur Anda saat ini, artinya ia memiliki fleksibilitas untuk bekerja dengan platform apa pun. Konektor QDS mendukung impor dan ekspor database cloud MongoDB, Oracle, PostgresSQL, dan sumber daya seperti Google Analytics.
- Manajemen Siklus Hidup Cluster dengan Layanan Data Qubole untuk menyediakan cluster dalam hitungan menit, menyesuaikannya dengan permintaan dan menjalankannya di lingkungan untuk memudahkan pengelolaan penilaian data besar
Elastis MapReduce
Amazon Elastic MapReduce (EMR) menyediakan kerangka kerja Hadoop yang dikelola untuk menyederhanakan pemrosesan data besar. Mudah dan hemat biaya untuk mendistribusikan dan memproses data dalam jumlah besar.
Kerangka kerja terdistribusi lainnya seperti Spark dan Presto juga dapat berjalan di Amazon EMR untuk berinteraksi dengan data di Amazon S3 dan DynamoDB. EMR menangani kasus penggunaan ini dengan keandalan:
- Pengindeksan web
- Pembelajaran mesin
- Simulasi ilmiah
- Pergudangan data
- Analisis log
- Bioinformatika
- Fleksibel untuk digunakan dengan akses root di setiap contoh, mendukung banyak distribusi dan aplikasi Hadoop. Sangat mudah untuk menyesuaikan setiap cluster dan menginstal aplikasi tambahan.
- Sangat mudah untuk menginstal cluster EMR Amazon.
- Cukup andal untuk menghabiskan lebih sedikit waktu memantau cluster Anda; mencoba lagi tugas yang gagal dan secara otomatis menggantikan instance yang berkinerja buruk.
- Aman, karena secara otomatis mengkonfigurasi pengaturan firewall Amazon EC2 untuk mengontrol akses jaringan ke instance
- Memproses data pada skala apa pun dengan Amazon EMR. Jumlah instance dapat dengan mudah ditingkatkan dan dikurangi.
- Penentuan harga murah tanpa biaya tersembunyi; bayar setiap jam untuk setiap instance yang digunakan. Misalnya, meluncurkan 10-simpul Hadoop cluster dengan harga $ 0,15 per jam.
Ini juga dapat digunakan untuk memproses sejumlah besar data genom dan set data besar secara efisien. Data genom yang diinangi pada AWS dapat diakses oleh peneliti secara gratis.
Amazon EMR dapat digunakan untuk pemrosesan log dan membantu mereka dalam mengubah petabyte data tidak terstruktur dan semi-terstruktur menjadi wawasan yang berguna.
Mortir
Mortar adalah platform untuk ilmu data skala tinggi dan dibangun di atas cloud Amazon Web Services. Itu dibangun di atas elastis MapReduce (EMR) untuk meluncurkan cluster Hadoop. Mortar diciptakan oleh K. Young, Jeremy Kam, dan Doug Daniels pada tahun 2011 dengan motif untuk menghilangkan tugas-tugas sulit yang memakan waktu. Ini dilakukan agar para ilmuwan dapat menghabiskan waktu mereka melakukan pekerjaan penting lainnya.
Ini berjalan di Java, Jython, Hadoop, dll. Untuk meminimalkan waktu yang diinvestasikan oleh pengguna dan membiarkan mereka fokus pada ilmu data.
Ini memiliki beberapa fitur berikut:
- Ini membebaskan tim Anda dari instalasi dan pemeliharaan yang membosankan dan memakan waktu.
- Menghemat waktu dengan memasukkan solusi ke dalam operasi dalam rentang waktu singkat.
- Secara otomatis memperingatkan pengguna tentang segala gangguan dalam teknologi dan aplikasi untuk memastikan bahwa mereka mendapatkan informasi yang akurat dan real-time.
- Untuk menggunakan mesin rekomendasi yang kuat dan dapat diskalakan, platform tercepat adalah Mortar.
- Mortar sepenuhnya otomatis, karena menjalankan mesin rekomendasi dari ujung ke ujung hanya dengan satu perintah.
- Ini menggunakan kontrol versi standar industri yang membantu dalam adaptasi dan penyesuaian yang mudah.
- Untuk menganalisis, sambungkan dengan mudah beberapa sumber data ke gudang data.
- Menghemat waktu kerja untuk tim Anda dengan menangani infrastruktur, penyebaran, dan operasi lainnya.
- Prediksi analisis dengan menggunakan data yang sudah Anda miliki. Mortar mendukung pendekatan seperti regresi linier dan klasifikasi untuk analisis.
- Mendukung teknologi pembelajaran mesin terkemuka seperti R, Pig, dan Python untuk menghadirkan paralelisasi yang mudah untuk pekerjaan yang kompleks.
- Uptime 99,9% dan peringatan strategis memastikan kepercayaan pengguna dan pengiriman pipa analitik berulang kali.
- Algoritma prediktif digunakan untuk menumbuhkan bisnis seperti memprediksi permintaan dan mengidentifikasi pelanggan bernilai tinggi.
- Menganalisis volume besar mudah dilakukan, apakah itu tokenization, stemming, LDA atau n-gram.