7 Langkah untuk Belajar Penambangan Data dan Ilmu Data

Pengarang: Eugene Taylor
Tanggal Pembuatan: 12 Agustus 2021
Tanggal Pembaruan: 22 Juni 2024
Anonim
Text Mining: Analisis Data Teks
Video: Text Mining: Analisis Data Teks

Isi


Sumber: Paul Fleet / Dreamstime.com

Bawa pulang:

Ilmu data paling baik dipelajari dengan melakukan, tetapi dasar statistik yang baik dan hal-hal pembelajaran mesin juga.

Saya sering ditanya bagaimana mempelajari data mining dan sains data. Ini ringkasan saya.

Anda dapat mempelajari penambangan data dan sains data dengan cara terbaik, jadi mulailah menganalisis data sesegera mungkin! Namun, jangan lupa untuk mempelajari teorinya, karena Anda membutuhkan landasan statistik dan pembelajaran mesin yang baik untuk memahami apa yang Anda lakukan dan untuk menemukan nugget nyata dalam kebisingan data besar.

Berikut adalah tujuh langkah untuk mempelajari data mining dan ilmu data. Meskipun mereka diberi nomor, Anda dapat melakukannya secara paralel atau dalam urutan yang berbeda.

  1. Bahasa: Pelajari R, Python dan SQL
  2. Alat: Pelajari cara menggunakan alat penambangan data dan visualisasi
  3. buku: Baca buku pengantar untuk memahami dasar-dasarnya
  4. Pendidikan: Tonton webinar, ambil kursus dan pertimbangkan sertifikat atau gelar dalam ilmu data (Baca lebih lanjut di Ben Loricas Cara Memelihara Ilmuwan Data.)
  5. Data: Periksa sumber daya data yang tersedia dan temukan sesuatu di sana
  6. Kompetisi: Berpartisipasi dalam kompetisi penambangan data
  7. Berinteraksi dengan ilmuwan data lain, melalui jejaring sosial, grup, dan pertemuan

Dalam artikel ini, saya menggunakan data mining dan ilmu data secara bergantian. Lihat presentasi saya, Tinjauan Industri Analytics, di mana saya melihat evolusi dan popularitas berbagai istilah seperti statistik, penemuan pengetahuan, penambangan data, analitik prediktif, ilmu data, dan data besar.


1. Belajar Bahasa

Polling KDnuggets baru-baru ini menemukan bahwa bahasa yang paling populer untuk penambangan data adalah R, Python, dan SQL. Ada banyak sumber untuk masing-masing, misalnya:

  • E-book gratis tentang Ilmu Data dengan R
  • Memulai Dengan Python Untuk Ilmu Data
  • Python untuk Analisis Data: Alat Agile untuk Data Dunia Nyata
  • Python yang sangat diperlukan: Sumber Data untuk Ilmu Data
  • Sekolah W3 Belajar SQL

2. Alat: Penambangan Data, Ilmu Data, dan Perangkat Lunak Visualisasi

Ada banyak alat penambangan data untuk tugas yang berbeda, tetapi yang terbaik adalah mempelajari cara menggunakan rangkaian penambangan data yang mendukung seluruh proses analisis data. Anda dapat mulai dengan alat sumber terbuka (gratis) seperti KNIME, RapidMiner dan Weka.

Namun, untuk banyak pekerjaan analitik, Anda perlu mengetahui SAS, yang merupakan alat komersial terkemuka dan banyak digunakan. Perangkat lunak analitik dan penambangan data populer lainnya termasuk MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler, dan Rattle.


Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda

Anda tidak dapat meningkatkan keterampilan pemrograman Anda ketika tidak ada yang peduli dengan kualitas perangkat lunak.

Visualisasi adalah bagian penting dari setiap analisis data. Pelajari cara menggunakan Microsoft Excel (baik untuk banyak tugas yang lebih sederhana), R grafik, (terutama ggplot2), dan juga Tableau - paket yang sangat baik untuk visualisasi. Alat visualisasi bagus lainnya termasuk TIBCO Spotfire dan Miner3D.

3. buku

Ada banyak data mining dan buku sains data yang tersedia, tetapi Anda dapat memeriksanya:

  • Penambangan dan Analisis Data: Konsep dan Algoritma Fundamental, unduh PDF gratis (draft), oleh Mohammed Zaki dan Wagner Meira Jr.
  • Penambangan Data: Alat dan Teknik Pembelajaran Mesin Praktis, oleh Ian Witten, Eibe Frank dan Mark Hall, dari penulis Weka, dan menggunakan Weka secara luas dalam contoh-contoh
  • Elemen Pembelajaran Statistik, Penambangan Data, Inferensi dan Prediksi, oleh Trevor Hastie, Robert Tibshirani, Jerome Friedman. Pengantar yang bagus untuk yang berorientasi matematis
  • LIONbook: Pembelajaran dan Optimalisasi Cerdas, oleh Roberto Battiti dan Mauro Brunato, tersedia secara gratis di Web, bab demi bab
  • Mining of Massive Datasets Book, oleh A. Rajaraman, J. Ullman
  • Buku Statisoft Statistik Elektronik (gratis), mencakup banyak topik penambangan data

4. Pendidikan: Webinar, Kursus, Sertifikat, dan Gelar

Anda dapat mulai dengan menonton beberapa webinar dan webcast gratis tentang topik-topik terbaru dalam analitik, big data, data mining, dan ilmu data.

Ada juga banyak kursus online, pendek dan panjang, banyak dari mereka gratis. (Lihat direktori pendidikan online KDnuggets.)

Lihat kursus-kursus ini secara khusus:

  • Machine Learning, di Coursera, diajarkan oleh Andrew Ng
  • Belajar dari Data di edX, diajarkan oleh profesor Caltech Yaser Abu-Mostafa
  • Buka Kursus Online dalam Ilmu Data Terapan, dari Syracuse iSchool
  • Penambangan Data dengan Weka, kursus online gratis
  • Periksa juga slide online gratis dari Kursus Penambangan Data saya, kursus pengantar selama satu semester di bidang penambangan data

Akhirnya, pertimbangkan untuk mendapatkan sertifikat dalam penambangan data, dan ilmu data atau gelar lanjutan, seperti gelar master dalam ilmu data.

5. Data

Anda akan membutuhkan data untuk dianalisis - lihat direktori KDnuggets dari Datasets untuk Penambangan Data, termasuk:

  • Situs dan portal data pemerintah, federal, negara bagian, kota, lokal dan publik
  • API data, hub, pasar, platform, portal, dan mesin pencari
  • Kumpulan data publik gratis

6. Kompetisi

Sekali lagi, Anda akan lebih baik belajar sambil melakukan, jadi ikut serta dalam kompetisi Kaggle. Mulailah dengan kompetisi pemula, seperti Memprediksi Kelangsungan Hidup Titanic Menggunakan Pembelajaran Mesin.

7. Berinteraksi: Rapat, Grup, dan Jejaring Sosial

Anda dapat bergabung dengan banyak grup sebaya. Lihat 30 Grup LinkedIn Teratas untuk Analisis, Big Data, Penambangan Data, dan Ilmu Data.

AnalyticBridge adalah komunitas aktif untuk analitik dan ilmu data.

Anda dapat menghadiri beberapa dari banyak Rapat dan Konferensi tentang Analytics, Big Data, Data Mining, Ilmu Data, & Penemuan Pengetahuan.

Juga, pertimbangkan untuk bergabung dengan ACM SIGKDD, yang menyelenggarakan konferensi KDD tahunan - konferensi penelitian terkemuka di lapangan.

Artikel ini buluh dari KDNuggets.com. Ini telah digunakan dengan izin dari penulis.