Mengapa Hadoop Sangat Cocok untuk Sequencing Genom

Pengarang: Roger Morrison
Tanggal Pembuatan: 19 September 2021
Tanggal Pembaruan: 5 Boleh 2024
Anonim
Solving Real & Big (Data) Problems Using Hadoop • Eva Andreasson • GOTO 2013
Video: Solving Real & Big (Data) Problems Using Hadoop • Eva Andreasson • GOTO 2013

Isi


Sumber: A3701027 / Dreamstime.com

Bawa pulang:

Sekuensing genom membutuhkan alat teknologi yang kuat untuk menangani semua datanya, dan Hadoop siap untuk itu.

Genomik klinis adalah subjek yang menarik, di mana orang bekerja pada teknologi mutakhir untuk memproses hasil yang cepat dan akurat. Ada banyak sequencer genom yang tersedia di pasaran, dan mereka memproduksi petabytes data sekuens, dan pertumbuhan sekuensing akan menghasilkan exabytes data dalam waktu dekat. Di sini, Hadoop adalah platform yang sempurna untuk memproses alur kerja genomik yang kompleks. Hadoop dapat menyimpan dan mengurutkan sejumlah besar informasi dan juga dapat membuat analisis yang bermakna. (Untuk mendapatkan gambaran tentang seberapa banyak data ini benar-benar memerlukan, baca Memahami Bits, Bytes dan Multiples mereka.)

Masa Sekarang dan Masa Depan Genomik

Saat ini, pemetaan genom telah mencapai puncak perkembangannya. Banyak orang yang terkait dengan industri genom meledak dengan rasa ingin tahu, dan ketika peluang baru muncul, teknologi yang lebih baik adalah kebutuhan saat ini. Sekuensing genom adalah tugas yang sangat berulang dan membutuhkan banyak sumber daya. Pada 2013 saja, sekitar 15 petabyte data diproduksi, dan hanya oleh 2.000 sequencer. Jumlah rahang ini termasuk 300 KB data genom manusia berurutan. Pada tingkat produksi data ini, dapat diperkirakan bahwa pada tahun 2018, sekitar satu exabyte data akan diproduksi. Ini akan terjadi karena pertumbuhan sequencer, yang akan menghasilkan lebih banyak data per run. Alasan lain adalah munculnya mesin sekuensing genom yang sangat kuat dan murah. Sejak 2008, harga mesin-mesin ini terus menurun. Ini karena mesin generasi baru yang kuat yang telah merambah pasar.


Kebutuhan Industri Pemetaan Genom

Algoritma kompleks digunakan untuk memproses data yang dikumpulkan dari genom manusia. Kemudian, informasi ini perlu disimpan. Ini dapat ditinjau di masa depan untuk perbandingan dengan data asli. Tugas memproses dan menyimpan 100 GB data tidak terlalu sulit, terutama ketika Anda melakukannya dengan mesin yang kuat yang digunakan di pusat pengurutan. Studi menunjukkan bahwa jumlah data ini dapat diproses hanya dalam sekitar 1.000 jam CPU, sehingga sangat mudah. Pada tingkat kemajuan teknis ini, jelas bahwa industri genom akan segera memproses ribuan gigabytes hanya dalam beberapa detik.

Namun, manajemen data dan teknik penyimpanan tidak berkembang dengan cepat, yang karenanya, kehilangan data berharga yang besar dapat diharapkan. Ini benar-benar tidak diinginkan, karena akan secara serius menghambat kemajuan yang dibuat dalam genomika manusia. Jadi, kebutuhan akan teknik manajemen data yang efisien, yang dapat dengan mudah diperbarui, sangat tinggi. Ini bisa efektif terutama dalam waktu dekat, di mana pemetaan genom akan berpindah dari laboratorium besar dengan komputer kuat ke rumah sakit dan laboratorium kecil.


Apa yang Diharapkan dalam Solusi?

Kecepatan di mana teknik sekuensing genom baru sedang ditemukan dan dikembangkan sangat tinggi. Langkah ini bisa sangat bermanfaat bagi ilmu kedokteran dalam bentuk langkah kuat untuk memberantas penyakit utama. Namun, langkah ini juga bisa sangat menantang.

Tantangannya datang dalam bentuk mengelola sejumlah besar data yang dihasilkan oleh proyek sekuensing. Jadi, solusi yang efektif diperlukan yang akan membantu dengan penyimpanan dan pemrosesan data besar. Solusi ini harus murah dan cepat, sambil juga adaptif. Analisis yang diberikan oleh solusi ini juga harus tepat dan konstan. Jadi, apa solusi untuk masalah itu? Tidak diragukan lagi, itu adalah Hadoop. (Untuk info lebih lanjut tentang penggunaan Hadoop, lihat 5 Wawasan Tentang Data Besar (Hadoop) sebagai Layanan.)

Mengapa Hadoop Adalah Solusi Terbaik untuk Sequencing Genome

Apa yang dibutuhkan industri genomik adalah solusi unggul yang dapat membantu mereka mengelola data secara efektif, memprosesnya, dan menyimpannya untuk penggunaan di masa mendatang. Solusi ini tampaknya sangat cocok dengan perangkat lunak Hadoop. Jadi, Hadoop dapat dianggap sebagai perangkat lunak manajemen data besar yang sempurna yang dapat sangat meningkatkan teknik penyimpanan data saat ini dari industri genomik.

Kemampuan real-time Hadoop memungkinkan sequencer genom untuk menganalisis dan menyimpan sejumlah besar data sekaligus dalam waktu nyata. Ini juga memungkinkan penggunaan data di masa mendatang. Hadoop dapat mengalahkan banyak sistem warisan, karena jauh lebih cepat dan lebih dapat diandalkan daripada mereka.

Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda

Anda tidak dapat meningkatkan keterampilan pemrograman Anda ketika tidak ada yang peduli dengan kualitas perangkat lunak.

Apa Lagi yang Bisa Hadoop Lakukan?

Karena Hadoop, sejumlah besar kemungkinan dan peluang telah terbuka di bidang genomik dan sekuensing gen. Hadoop menawarkan opsi komputasi paralel yang memungkinkan pengurutan yang lebih cepat. Juga, menggunakan fungsi MapReduce dari Hadoop, sejumlah besar gen dapat dipetakan dengan sangat mudah. Karena itu, sequencing dengan Hadoop akan benar-benar menjadi "next-gen" dan akan jauh lebih rumit.

Peluang untuk Hadoop

Hadoop memiliki beberapa peluang dalam industri genom, tetapi yang terbaik berasal dari artikel Lynda Chin "Memahami data genom kanker," dalam jurnal Genes & Development. Dalam artikel ini, dia membahas bagaimana genomik modern telah membuka pintu baru, dan ini telah menghasilkan banyak hasil positif seperti penemuan informasi genomik tentang kanker. Karena ini, kami semakin dekat untuk menemukan obat kanker itu sendiri. Namun, ini membutuhkan sedikit lebih banyak perhatian dan aplikasi manajemen data yang kuat untuk kemampuan penelitian yang lebih baik di lapangan. Ini bisa menjadi peluang terbaik bagi Hadoop untuk membuktikan kecepatan, kekuatan, dan akurasinya.

Crossbow: Platform Manajemen Data Generasi Selanjutnya

Crossbow, yang merupakan saluran perangkat lunak yang dimaksudkan untuk analisis pengurutan ulang genom, adalah salah satu solusi terbaik. Itu adalah hasil integrasi dalam Hadoop antara algoritma cepat untuk menyelaraskan data yang diurutkan, yang disebut Bowtie, dan algoritma yang kuat yang membandingkan dan memeriksa data yang diurutkan, yaitu seorang genotipe bernama SoapSNP. Itu dibangun di atas Apache Hadoop dan didasarkan pada implementasi kerangka kerja MapReduce. Crossbow bersifat portable, scalable dan juga cocok sebagai alat cloud computing.

Dengan integrasi yang kuat ini, genom lengkap dapat diperiksa hanya dalam satu hari pada cluster lokal yang memiliki 10 node. Dengan kluster 40-simpul, prosesnya bahkan lebih cepat dan selesai hanya dalam tiga jam dengan total biaya kurang dari $ 100! Sebuah penelitian yang dilakukan untuk menguji akurasi Crossbow menunjukkan bahwa ia dapat membandingkan setiap genom dengan akurasi 99 persen. Fitur Crossbow yang bermanfaat lainnya adalah Crossbow berjalan di cloud. Dengan demikian, Crossbow akan memungkinkan ribuan pusat sekuensing di masa depan, seperti rumah sakit, untuk mengurutkan sejumlah besar data genom tanpa memerlukan komputer dan teknologi yang kuat dan mahal.

Perangkat Lunak Genomik Berbasis Hadoop Lainnya

Banyak perusahaan telah mengakui kekuatan Hadoop dalam mengubah dunia genomik. Mereka telah memodifikasi Hadoop untuk memanfaatkan potensinya untuk pengurutan genom tingkat lanjut. Beberapa contoh solusi sekuensing genom berbasis Hadoop yang terkenal diberikan di bawah ini:

  • Hadoop-BAM: Ini adalah alat manajemen data yang kuat yang memanfaatkan fungsi MapReduce dari Hadoop untuk berbagai kegiatan yang berkaitan dengan genomik, seperti genotipe. Ini berfungsi dalam format Alignment / Peta Biner.
  • Cloudburst: Solusi berbasis Hadoop ini dibuat pada tahun 2009. Solusi ini sangat efisien dalam membandingkan urutan genom dan memetakan masing-masing gen. Ini juga salah satu aplikasi berbasis Hadoop pertama yang dirancang untuk tujuan ini.

Kesimpulan

Integrasi antara big data dan industri genomik terbukti menjadi anugerah di zaman modern. Platform ini efektif dalam penemuan perawatan beberapa penyakit seperti kanker. Data yang ditemukan oleh pemetaan genom dapat digunakan untuk perumusan informasi pencegahan penyakit tersebut. Munculnya data besar dapat dianggap sebagai titik balik dalam dunia genomik, dan jika informasi tersebut digunakan secara bijak, maka mungkin juga dalam bidang perawatan kesehatan yang lebih luas. Satu-satunya cara bagi bidang ini untuk maju adalah penggunaan alat manajemen data yang tepat seperti Hadoop.