Bagaimana Analytics Meningkatkan Bisnis? - TechWise Episode 2 Transkrip

Pengarang: Eugene Taylor
Tanggal Pembuatan: 14 Agustus 2021
Tanggal Pembaruan: 15 Juni 2024
Anonim
Bagaimana Analytics Meningkatkan Bisnis? - TechWise Episode 2 Transkrip - Teknologi
Bagaimana Analytics Meningkatkan Bisnis? - TechWise Episode 2 Transkrip - Teknologi



Sumber: Flickr / James Royal-Lawson

Bawa pulang:

Tuan rumah Eric Kavanagh membahas penggunaan analitik dalam bisnis dengan para ilmuwan dan pemimpin data dalam industri ini.

Catatan Editor: Ini adalah transkrip dari salah satu webcast kami sebelumnya. Episode berikutnya akan datang dengan cepat, klik di sini untuk mendaftar.


Eric Kavanagh: Hadirin sekalian, halo dan selamat datang kembali ke Episode 2 TechWise. Ya, memang, saatnya untuk mendapatkan orang bijak! Saya memiliki banyak orang yang benar-benar pintar di telepon hari ini untuk membantu kami dalam upaya itu. Nama saya Eric Kavanagh, tentu saja. Saya akan menjadi tuan rumah Anda, moderator Anda, untuk sesi putaran kilat ini. Kami memiliki banyak konten di sini, teman-teman. Kami memiliki beberapa nama besar dalam bisnis ini, yang telah menjadi analis di ruang kami dan empat vendor paling menarik.Jadi hari ini kita akan melakukan banyak tindakan baik. Dan tentu saja, Anda yang hadir di luar sana memainkan peran penting dalam mengajukan pertanyaan.


Jadi sekali lagi, acaranya TechWise dan topik hari ini adalah "Bagaimana Analytics Meningkatkan Bisnis?" Jelas, ini adalah topik hangat di mana ia akan mencoba memahami berbagai jenis analitik yang dapat Anda lakukan dan bagaimana hal itu dapat meningkatkan operasi Anda karena itulah masalahnya pada akhir hari.

Jadi Anda bisa melihat diri saya di atas sana, itu milik Anda benar-benar. Kirk Borne, seorang teman baik dari Universitas George Mason. Dia adalah seorang ilmuwan data dengan jumlah pengalaman yang luar biasa, keahlian yang sangat mendalam dalam ruang ini dan data mining dan data besar dan semua hal menyenangkan lainnya. Dan, tentu saja, kami memiliki Dr. Robin Bloor, Kepala Analis kami di sini di Grup Bloor. Yang dilatih sebagai aktuaris bertahun-tahun yang lalu. Dan dia benar-benar fokus pada seluruh ruang data besar ini dan ruang analitik dengan cukup penuh perhatian selama setengah dekade terakhir. Sudah lima tahun hampir sejak kami meluncurkan Grup Bloor per se. Jadi waktu berlalu ketika Anda bersenang-senang.

Kami juga akan mendengar dari Will Gorman, Kepala Arsitek Pentaho; Steve Wilkes, CCO dari WebAction; Frank Sanders, Direktur Teknis di MarkLogic; dan Hannah Smalltree, Direktur di Treasure Data. Jadi seperti yang saya katakan, itu banyak konten.

Jadi, bagaimana analitik dapat membantu bisnis Anda? Nah, bagaimana ini bisa membantu bisnis Anda, terus terang? Ada berbagai cara analitik dapat digunakan untuk melakukan hal-hal yang meningkatkan organisasi Anda.

Jadi merampingkan operasi. Itu yang tidak Anda dengar sebanyak yang Anda lakukan tentang hal-hal seperti pemasaran atau meningkatkan pendapatan atau bahkan mengidentifikasi peluang. Tetapi merampingkan operasi Anda adalah hal yang benar-benar sangat kuat yang dapat Anda lakukan untuk organisasi Anda karena Anda dapat mengidentifikasi tempat-tempat di mana Anda dapat melakukan outsourcing sesuatu atau Anda dapat menambahkan data ke proses tertentu, misalnya. Dan itu dapat merampingkannya dengan tidak mengharuskan seseorang untuk mengangkat telepon untuk menelepon atau seseorang untuk melakukannya. Ada begitu banyak cara berbeda sehingga Anda dapat merampingkan operasi Anda. Dan semua itu benar-benar membantu menurunkan biaya Anda, bukan? Itulah kuncinya, itu menurunkan biaya. Tetapi juga memungkinkan Anda untuk melayani pelanggan dengan lebih baik.

Dan jika Anda berpikir tentang betapa tidak sabarnya orang-orang, dan saya melihat ini setiap hari dalam hal bagaimana orang berinteraksi secara online, bahkan dengan pertunjukan kami, penyedia layanan yang kami gunakan. Kesabaran yang dimiliki orang, rentang perhatian, semakin pendek dan pendek dari hari ke hari. Dan apa artinya itu adalah bahwa Anda perlu, sebagai organisasi, merespons dalam periode waktu yang lebih cepat dan lebih cepat untuk dapat memuaskan pelanggan Anda.

Jadi, misalnya, jika seseorang ada di situs webcast Anda atau menjelajahi sekitar untuk mencari sesuatu, jika mereka frustrasi dan mereka pergi, well, Anda mungkin baru saja kehilangan pelanggan. Dan tergantung pada seberapa banyak Anda mengenakan biaya untuk produk atau layanan Anda, dan mungkin itu masalah besar. Jadi intinya adalah merampingkan operasi, saya pikir, adalah salah satu ruang terpanas untuk menerapkan analitik. Dan Anda melakukannya dengan melihat angka-angkanya, dengan menghitung data, dengan mencari tahu, misalnya, "Hei, mengapa kita kehilangan begitu banyak orang di halaman situs web ini?" "Kenapa kita mendapatkan beberapa panggilan telepon ini sekarang?"

Dan semakin nyata Anda merespons hal-hal semacam itu, semakin besar peluang Anda untuk mengatasi situasi dan melakukan sesuatu sebelum terlambat. Karena ada waktu ketika seseorang marah tentang sesuatu, mereka tidak puas atau mereka berusaha menemukan sesuatu tetapi mereka frustrasi; Anda punya jendela peluang di sana untuk menjangkau mereka, untuk meraih mereka, untuk berinteraksi dengan pelanggan itu. Dan jika Anda melakukannya dengan cara yang benar dengan data yang tepat atau gambaran pelanggan yang baik - memahami siapa pelanggan ini, apa keuntungan mereka, apa preferensi mereka - jika Anda benar-benar dapat mengatasinya, Anda akan melakukannya pekerjaan yang bagus untuk mempertahankan pelanggan Anda dan mendapatkan pelanggan baru. Dan itulah masalahnya.

Jadi dengan itu, saya akan menyerahkannya, sebenarnya, kepada Kirk Borne, salah satu ilmuwan data kami yang dipanggil hari ini. Dan mereka cukup langka akhir-akhir ini, kawan. Kami punya dua dari mereka setidaknya di telepon sehingga itu masalah besar. Dengan itu, Kirk, saya akan menyerahkannya kepada Anda untuk berbicara tentang analitik dan bagaimana itu membantu bisnis. Lakukan untuk itu.

Kirk Borne: Baiklah, terima kasih banyak, Eric. Bisakah kamu mendengarku?

Eric: Tidak apa-apa, silakan.

Kirk: Oke, bagus. Saya hanya ingin berbagi jika saya berbicara selama lima menit, dan orang-orang melambaikan tangan kepada saya. Jadi, kata sambutannya, Eric, bahwa Anda benar-benar terikat dengan topik ini, saya akan membahas secara singkat dalam beberapa menit ke depan yaitu penggunaan data besar dan analitik untuk data untuk keputusan yang didukung, di sana. Komentar yang Anda buat tentang perampingan operasional, bagi saya, itu termasuk dalam konsep analitik operasional di mana Anda dapat melihat hampir di setiap aplikasi di dunia apakah itu aplikasi sains, bisnis, keamanan cyber dan penegakan hukum dan pemerintah, layanan kesehatan. Sejumlah tempat di mana kami memiliki aliran data dan kami membuat semacam respons atau keputusan sebagai reaksi terhadap peristiwa dan peringatan serta perilaku yang kami lihat dalam aliran data itu.

Dan salah satu hal yang ingin saya bicarakan hari ini adalah bagaimana Anda mengekstraksi pengetahuan dan wawasan dari data besar untuk sampai ke titik di mana kita dapat membuat keputusan untuk mengambil tindakan. Dan sering kali kita membicarakan hal ini di sebuah con otomatisasi. Dan hari ini saya ingin mencampur otomatisasi dengan analis manusia dalam lingkaran. Jadi yang saya maksudkan sementara analis bisnis memainkan peran penting di sini dalam hal bertaruh, kualifikasi, memvalidasi tindakan spesifik, atau aturan pembelajaran mesin yang kami ekstrak dari data. Tetapi jika kita sampai pada titik di mana kita cukup yakin dengan aturan bisnis yang telah kita ekstrak dan mekanisme untuk memberi tahu kita valid, maka kita dapat mengubah ini menjadi proses otomatis. Kami benar-benar melakukan perampingan operasional yang dibicarakan Eric.

Jadi saya punya sedikit permainan kata-kata di sini tapi saya harap, jika itu berhasil untuk Anda, saya berbicara tentang tantangan D2D. Dan D2D, bukan hanya data keputusan dalam semua kontra, kami melihat ini di bagian bawah slide ini mudah-mudahan Anda bisa melihatnya, membuat penemuan dan meningkatkan pendapatan dolar dari jaringan pipa analitik kami.

Jadi dalam hal ini, saya sebenarnya memiliki peran sebagai pemasar bagi diri saya di sini sekarang karena saya bekerja bersama dan itu adalah; hal pertama yang ingin Anda lakukan adalah mengkarakterisasi data Anda, mengekstrak fitur, mengekstrak karakteristik pelanggan Anda atau entitas apa pun yang Anda lacak di ruang Anda. Mungkin pasien dalam lingkungan analitik kesehatan. Mungkin itu adalah pengguna Web jika Anda melihat semacam masalah keamanan cyber. Tetapi ciri dan ekstrak karakteristik dan kemudian ekstrak beberapa con tentang individu itu, tentang entitas itu. Dan kemudian Anda mengumpulkan potongan-potongan yang baru saja Anda buat dan memasukkannya ke dalam semacam koleksi yang darinya Anda dapat menerapkan algoritma pembelajaran mesin.

Alasan saya mengatakannya seperti ini adalah, katakan saja, Anda memiliki kamera pengintai di bandara. Video itu sendiri sangat besar, volume yang besar dan juga sangat tidak terstruktur. Tetapi Anda dapat mengekstraksi dari pengawasan video, biometrik wajah dan mengidentifikasi orang-orang di kamera pengintai. Jadi misalnya di bandara, Anda dapat mengidentifikasi individu tertentu, Anda dapat melacak mereka melalui bandara dengan mengidentifikasi silang individu yang sama di beberapa kamera pengintai. Dengan demikian, fitur biometrik yang diekstraksi yang benar-benar Anda gali dan lacak bukanlah video terperinci yang sebenarnya. Tetapi begitu Anda memiliki ekstraksi tersebut maka Anda dapat menerapkan aturan pembelajaran mesin dan analitik untuk membuat keputusan apakah Anda perlu mengambil tindakan dalam kasus tertentu atau sesuatu terjadi secara tidak benar atau sesuatu yang Anda memiliki peluang untuk mengajukan penawaran. Jika Anda, misalnya, jika Anda memiliki toko di bandara dan Anda melihat pelanggan datang ke arah Anda dan Anda tahu dari informasi lain tentang pelanggan itu, bahwa mungkin dia benar-benar tertarik untuk membeli barang-barang di toko bebas bea atau sesuatu seperti itu, buat penawaran itu.

Jadi hal-hal apa yang akan saya maksud dengan karakterisasi dan potensiisasi? Dengan karakterisasi yang saya maksud, sekali lagi, mengekstraksi fitur dan karakteristik dalam data. Dan ini dapat berupa mesin, maka algoritmenya dapat mengekstraksi, misalnya, tanda tangan biometrik dari video atau analisis sentimen. Anda dapat mengekstraksi sentimen pelanggan melalui ulasan online atau media sosial. Beberapa dari hal ini mungkin dihasilkan oleh manusia, sehingga manusia, analis bisnis, dapat mengekstraksi fitur tambahan yang akan saya tunjukkan di slide berikutnya.

Beberapa di antaranya dapat di-crowdsourced. Dan dengan crowdsourced, ada banyak cara berbeda yang dapat Anda pikirkan tentang itu. Tetapi sangat sederhana, misalnya, pengguna Anda datang ke situs web Anda dan mereka memasukkan kata-kata pencarian, kata kunci, dan mereka berakhir pada halaman tertentu dan benar-benar menghabiskan waktu di sana pada halaman itu. Bahwa mereka sebenarnya, setidaknya, mengerti bahwa mereka melihat, menjelajah, mengklik hal-hal di halaman itu. Apa yang dikatakan kepada Anda adalah bahwa kata kunci yang mereka ketikkan di awal adalah deskriptor halaman tersebut karena kata kunci itu menempatkan pelanggan pada halaman yang mereka antisipasi. Jadi Anda dapat menambahkan informasi tambahan itu, yaitu pelanggan yang menggunakan kata kunci ini benar-benar mengidentifikasi halaman web ini dalam arsitektur informasi kami sebagai tempat konten yang cocok dengan kata kunci itu.

Jadi, crowdsourcing adalah aspek lain yang kadang-kadang orang lupa, semacam pelacakan remah roti pelanggan Anda, bisa dikatakan; bagaimana mereka bergerak melalui ruang mereka, apakah itu properti online atau properti nyata. Dan kemudian gunakan semacam jalur yang mereka, yang pelanggan ambil sebagai informasi tambahan tentang hal-hal yang kita lihat.

Jadi saya ingin mengatakan hal-hal yang dihasilkan manusia, atau mesin yang dihasilkan, akhirnya memiliki semacam con annotating atau menandai butiran atau entitas data tertentu. Apakah entitas tersebut adalah pasien di rumah sakit, pelanggan atau apa pun. Dan ada berbagai jenis penandaan dan anotasi. Beberapa di antaranya adalah tentang data itu sendiri. Itulah salah satu hal, jenis informasi apa, jenis informasi apa, apa saja fitur-fiturnya, bentuknya, mungkin ures dan polanya, anomali, perilaku non-anomali. Dan kemudian ekstrak beberapa semantik, yaitu, bagaimana hal ini berhubungan dengan hal-hal lain yang saya tahu, atau pelanggan ini adalah pelanggan elektronik. Pelanggan ini adalah pelanggan pakaian. Atau pelanggan ini suka membeli musik.

Jadi mengidentifikasi beberapa semantik tentang itu, pelanggan yang suka musik cenderung menyukai hiburan. Mungkin kita bisa menawarkan mereka beberapa properti hiburan lainnya. Jadi memahami semantik dan juga beberapa asalnya, yang pada dasarnya mengatakan: dari mana asalnya, siapa yang memberikan pernyataan ini, jam berapa, tanggal berapa, dalam keadaan apa?

Jadi, sekali Anda memiliki semua anotasi dan penokohan itu, tambahkan ke langkah selanjutnya, yaitu penipu, jenis siapa, apa, kapan, di mana, dan mengapa. Siapa pengguna itu? Saluran apa yang mereka tuju? Apa sumber informasinya? Jenis penggunaan kembali apa yang telah kita lihat dalam bagian informasi atau produk data ini? Dan apa, itu semacam, nilai dalam proses bisnis? Dan kemudian mengumpulkan hal-hal itu dan mengelolanya, dan benar-benar membantu membuat basis data, jika Anda ingin memikirkannya seperti itu. Buat mereka dapat dicari, digunakan kembali, oleh analis bisnis lain atau dengan proses otomatis yang akan, pada saat saya melihat set fitur ini, sistem dapat mengambil tindakan otomatis ini. Jadi kita mendapatkan efisiensi analitik operasional semacam itu, tetapi semakin kita mengumpulkan informasi yang berguna, komprehensif, dan kemudian mengkurasi untuk kasus penggunaan ini.

Kami turun ke bisnis. Kami melakukan analisis data. Kami mencari pola yang menarik, kejutan, outlier baru, anomali. Kami mencari kelas dan segmen baru dalam populasi. Kami mencari asosiasi dan korelasi serta tautan di antara berbagai entitas. Dan kemudian kita menggunakan semua itu untuk mendorong penemuan, keputusan, dan proses pembuatan dolar kita.

Jadi di sana lagi, di sini kita mendapatkan slide data terakhir yang saya miliki pada dasarnya meringkas, menjaga analis bisnis tetap dalam lingkaran, sekali lagi, Anda tidak mengekstraksi manusia itu dan itu semua penting untuk menjaga manusia itu di sana.

Jadi fitur-fitur ini, semuanya disediakan oleh mesin atau analis manusia atau bahkan crowdsourcing. Kami menerapkan kombinasi hal-hal tersebut untuk meningkatkan set pelatihan kami untuk model kami dan berakhir dengan model prediksi yang lebih akurat, lebih sedikit positif dan negatif palsu, perilaku yang lebih efisien, intervensi yang lebih efisien dengan pelanggan kami atau siapa pun.

Jadi, pada akhirnya, kami benar-benar hanya menggabungkan pembelajaran mesin dan data besar dengan kekuatan kognisi manusia ini, yang merupakan bagian dari pemberian anotasi penandaan semacam itu. Dan itu dapat mengarah melalui visualisasi dan tipe analitik visual. alat atau lingkungan data mendalam atau crowdsourcing. Dan, pada akhirnya, apa yang sebenarnya dilakukan adalah menghasilkan penemuan, wawasan, dan D2D kami. Dan itu adalah komentar saya, jadi terima kasih telah mendengarkan.

Eric: Hei itu kedengarannya bagus dan biarkan saya pergi ke depan dan menyerahkan kunci kepada Dr. Robin Bloor untuk memberikan perspektifnya juga. Ya, saya suka mendengar Anda berkomentar tentang perampingan konsep operasi itu dan Anda berbicara tentang analitik operasional. Saya pikir itu adalah area besar yang perlu dieksplorasi dengan seksama. Dan saya kira, sangat cepat sebelum Robin, saya akan membawa Anda kembali, Kirk. Itu mengharuskan Anda memiliki kolaborasi yang cukup signifikan di antara berbagai pemain di perusahaan, bukan? Anda harus berbicara dengan petugas operasi; Anda harus mendapatkan orang teknis Anda. Terkadang Anda mendapatkan orang-orang pemasaran Anda atau orang-orang antarmuka Web Anda. Ini biasanya kelompok yang berbeda. Apakah Anda memiliki praktik terbaik atau saran tentang cara membuat orang lain ikut bermain?

Kirk: Ya, saya pikir ini disertai dengan budaya kolaborasi bisnis. Sebenarnya, saya berbicara tentang tiga C dari jenis budaya analitik. Salah satunya adalah kreativitas; yang lain adalah rasa ingin tahu dan yang ketiga adalah kolaborasi. Jadi Anda ingin orang-orang yang kreatif dan serius, tetapi Anda juga harus membuat orang-orang ini berkolaborasi. Dan itu benar-benar dimulai dari atas, semacam membangun budaya itu dengan orang-orang yang harus secara terbuka berbagi dan bekerja sama menuju tujuan bersama bisnis.

Eric: Semuanya masuk akal. Dan Anda benar-benar harus mendapatkan kepemimpinan yang baik di atas untuk mewujudkannya. Jadi mari kita lanjutkan dan serahkan ke Dr. Bloor. Robin, lantai milikmu.

Robin Bloor: Oke. Terima kasih untuk intro itu, Eric. Oke, cara ini berhasil, ini menunjukkan, karena kami memiliki dua analis; Saya bisa melihat presentasi analis yang tidak dimiliki orang lain. Saya tahu apa yang akan dikatakan Kirk dan saya hanya mengambil sudut yang sama sekali berbeda sehingga kita tidak terlalu banyak tumpang tindih.

Jadi apa yang sebenarnya saya bicarakan atau ingin bicarakan di sini adalah peran analis data versus peran analis bisnis. Dan cara saya mengkarakterisasinya, yah, dalam bahasa tertentu, adalah jenis Jekyll dan Hyde. Perbedaannya secara khusus para ilmuwan data, setidaknya secara teori, tahu apa yang mereka lakukan. Sementara analis bisnis tidak begitu, oke dengan cara matematika bekerja, apa yang bisa dipercaya dan apa yang tidak bisa dipercaya.

Jadi mari kita turun ke alasan bahwa kita melakukan ini, alasan bahwa analisis data tiba-tiba menjadi masalah besar selain dari fakta bahwa kita benar-benar dapat menganalisis jumlah data yang sangat besar dan menarik data dari luar organisasi; apakah itu membayar? Cara saya melihat ini - dan saya pikir ini hanya menjadi kasus tetapi saya benar-benar berpikir itu adalah kasus - analisis data benar-benar bisnis R & D. Apa yang sebenarnya Anda lakukan dengan satu atau lain cara dengan analisis data adalah Anda melihat proses bisnis di satu jenis atau apakah itu interaksi dengan pelanggan, apakah itu dengan cara operasi ritel Anda, cara yang Anda gunakan toko Anda. Tidak masalah apa masalahnya. Anda sedang melihat proses bisnis yang diberikan dan Anda berusaha untuk memperbaikinya.

Hasil dari penelitian dan pengembangan yang sukses adalah proses perubahan. Dan Anda dapat menganggap manufaktur, jika Anda mau, sebagai contoh biasa dari ini. Karena di bidang manufaktur, orang mengumpulkan informasi tentang segala sesuatu untuk mencoba dan meningkatkan proses pembuatan. Tetapi saya pikir apa yang terjadi atau apa yang terjadi pada data besar adalah semua ini sekarang diterapkan pada semua bisnis dalam bentuk apa pun dengan cara apa pun yang dapat dipikirkan siapa pun. Jadi hampir semua proses bisnis siap untuk diperiksa jika Anda dapat mengumpulkan data tentang hal itu.

Jadi itu satu hal. Jika Anda suka, itu terjadi pada pertanyaan analisis data. Apa yang dapat dilakukan analitik data untuk bisnis? Ya, itu bisa mengubah bisnis sepenuhnya.

Diagram khusus ini yang tidak akan saya jelaskan secara mendalam, tetapi ini adalah diagram yang kami buat sebagai puncak dari proyek penelitian yang kami lakukan selama enam bulan pertama tahun ini. Ini adalah cara untuk mewakili arsitektur data besar. Dan sejumlah hal yang perlu ditunjukkan sebelum saya melanjutkan ke slide berikutnya. Ada dua aliran data di sini. Salah satunya adalah aliran data real-time, yang berjalan di bagian atas diagram. Yang lainnya adalah aliran data yang lebih lambat yang berjalan di sepanjang bagian bawah diagram.

Lihatlah bagian bawah diagram. Kami memiliki Hadoop sebagai reservoir data. Kami punya berbagai basis data. Kami memiliki seluruh data di sana dengan sejumlah aktivitas yang terjadi di sana, yang sebagian besar merupakan aktivitas analitis.

Poin yang saya buat di sini dan satu-satunya hal yang ingin saya sampaikan di sini adalah teknologinya sulit. Itu tidak sederhana. Ini tidak mudah. Ini bukan sesuatu yang bisa dilakukan siapa saja yang baru mengenal permainan. Ini cukup rumit. Dan jika Anda akan menginstruksikan bisnis untuk melakukan analisis yang dapat diandalkan di semua proses ini, maka itu bukan sesuatu yang akan terjadi secara khusus dengan cepat. Ini akan membutuhkan banyak teknologi untuk ditambahkan ke dalam campuran.

Baik. Pertanyaannya apa itu ilmuwan data, saya bisa mengklaim sebagai ilmuwan data karena saya benar-benar dilatih dalam statistik sebelum saya pernah dilatih dalam komputasi. Dan saya melakukan pekerjaan aktuaria untuk jangka waktu tertentu jadi saya tahu cara suatu bisnis mengatur, analisis statistik, juga untuk menjalankannya sendiri. Ini bukan hal sepele. Dan ada banyak praktik terbaik yang terlibat baik di sisi manusia maupun di sisi teknologi.

Jadi, dalam mengajukan pertanyaan "apa itu ilmuwan data," saya menempatkan gambar Frankenstein hanya karena itu adalah kombinasi dari hal-hal yang harus disatukan. Ada manajemen proyek yang terlibat. Ada pemahaman mendalam dalam statistik. Ada keahlian bisnis domain, yang lebih merupakan masalah seorang analis bisnis daripada ilmuwan data. Ada pengalaman atau kebutuhan untuk memahami arsitektur data dan untuk dapat membangun arsitek data dan ada rekayasa perangkat lunak yang terlibat. Dengan kata lain, itu mungkin tim. Itu mungkin bukan individu. Dan itu berarti bahwa itu mungkin departemen yang perlu dikelola dan organisasinya perlu dipikirkan secara luas.

Melemparkan ke dalam campuran fakta pembelajaran mesin. Kita tidak bisa melakukan, maksud saya, pembelajaran mesin bukanlah hal baru dalam arti bahwa sebagian besar teknik statistik yang digunakan dalam pembelajaran mesin telah diketahui selama beberapa dekade. Ada beberapa hal baru, maksud saya jaringan saraf relatif baru, saya pikir mereka baru berusia sekitar 20 tahun, jadi beberapa di antaranya relatif baru. Tetapi masalah dengan pembelajaran mesin adalah bahwa kami benar-benar tidak benar-benar memiliki kekuatan komputer untuk melakukannya. Dan apa yang terjadi, terlepas dari hal lain, adalah daya komputer sekarang ada di tempatnya. Dan itu berarti banyak sekali dari apa yang kita, katakan, para ilmuwan data telah lakukan sebelumnya dalam hal situasi pemodelan, pengambilan sampel data dan kemudian menyusunnya untuk menghasilkan analisis data yang lebih dalam. Sebenarnya, dalam beberapa kasus kita bisa menggunakan daya komputer. Pilih saja algoritma pembelajaran mesin, lemparkan ke data dan lihat apa yang keluar. Dan itu adalah sesuatu yang dapat dilakukan oleh analis bisnis, bukan? Tetapi analis bisnis perlu memahami apa yang mereka lakukan. Maksud saya, saya pikir itulah masalahnya, lebih dari segalanya.

Nah, ini hanya untuk mengetahui lebih banyak tentang bisnis dari datanya daripada dengan cara lain. Einstein tidak mengatakan itu, saya mengatakan itu. Saya hanya memasang fotonya untuk kredibilitas. Tetapi situasi yang sebenarnya mulai berkembang adalah di mana teknologi, jika digunakan dengan benar, dan matematika, jika digunakan dengan benar, akan dapat menjalankan bisnis sebagai individu. Kami telah menyaksikan ini dengan IBM. Pertama-tama, itu bisa mengalahkan orang-orang terbaik di catur, dan kemudian itu bisa mengalahkan orang-orang terbaik di Jeopardy; tapi akhirnya kita akan bisa mengalahkan orang-orang terbaik dalam menjalankan perusahaan. Statistik akhirnya akan menang. Dan sulit untuk melihat bagaimana hal itu tidak terjadi, itu belum terjadi.

Jadi apa yang saya katakan, dan ini adalah jenis lengkap dari presentasi saya, adalah dua masalah bisnis ini. Yang pertama adalah, bisakah Anda mendapatkan teknologinya dengan benar? Bisakah Anda membuat teknologi bekerja untuk tim yang sebenarnya akan mampu mengatasinya dan mendapatkan manfaat untuk bisnis? Dan yang kedua, bisakah Anda mendapatkan orang yang benar? Dan keduanya adalah masalah. Dan mereka adalah masalah yang, sampai saat ini, kata mereka, sudah diselesaikan.

Oke Eric, saya akan memberikannya kembali kepada Anda. Atau saya mungkin harus memberikannya kepada Will.

Eric: Sebenarnya, ya. Terima kasih, Will Gorman. Ya, ini dia, Will. Jadi mari kita lihat. Biarkan saya memberi Anda kunci ke WebEx. Jadi, apa yang terjadi? Pentaho, jelas, kalian sudah ada untuk sementara waktu dan open-source BI jenis di mana Anda mulai. Tapi Anda mendapat lebih banyak dari yang Anda miliki, jadi mari kita lihat apa yang Anda dapatkan hari ini untuk analitik.

Will Gorman: Tentu saja. Hai semuanya! Nama saya Will Gorman. Saya Kepala Arsitek di Pentaho. Bagi Anda yang belum pernah mendengar tentang kami, saya baru saja menyebut Pentaho adalah perusahaan analitik dan integrasi data besar. Kami sudah berkecimpung dalam bisnis ini selama sepuluh tahun. Produk kami telah berkembang berdampingan dengan komunitas big data, dimulai sebagai platform open-source untuk integrasi dan analitik data, berinovasi dengan teknologi seperti Hadoop dan NoSQL bahkan sebelum entitas komersial terbentuk di sekitar teknologi tersebut. Dan sekarang kami memiliki lebih dari 1500 pelanggan komersial dan lebih banyak lagi janji produksi sebagai hasil dari inovasi kami seputar open source.

Arsitektur kami sangat mudah dikembangkan dan dapat dikembangkan, dirancang khusus untuk menjadi fleksibel karena teknologi data besar khususnya berkembang dengan kecepatan yang sangat cepat. Pentaho menawarkan tiga bidang produk utama yang bekerja sama untuk mengatasi kasus penggunaan analitik data besar.

Produk pertama pada tingkat arsitektur kami adalah Integrasi Data Pentaho yang diarahkan pada teknologi data dan insinyur data. Produk ini menawarkan pengalaman visual, seret-dan-jatuhkan untuk menentukan jalur pipa dan proses data untuk mengatur data dalam lingkungan data besar dan lingkungan tradisional juga. Produk ini adalah platform integrasi data yang ringan, metadatabase, dibangun di Jawa dan dapat digunakan sebagai proses dalam MapReduce atau BENANG atau Badai dan banyak platform batch dan real-time lainnya.

Area produk kedua kami adalah seputar analitik visual. Dengan teknologi ini, organisasi dan OEM dapat menawarkan pengalaman visualisasi dan analisis drag-and-drop yang kaya untuk analis bisnis dan pengguna bisnis oleh browser dan tablet modern, memungkinkan pembuatan laporan dan dasbor ad hoc secara ad hoc. Serta presentasi dashboarding sempurna pixel dan laporan.

Area produk ketiga kami berfokus pada analitik prediktif yang ditargetkan untuk ilmuwan data, algoritma pembelajaran mesin. Seperti disebutkan sebelumnya, seperti jaringan saraf dan semacamnya, dapat dimasukkan ke dalam lingkungan transformasi data, yang memungkinkan para ilmuwan data beralih dari pemodelan ke lingkungan produksi, memberikan akses untuk memprediksi, dan yang dapat memengaruhi proses bisnis dengan segera, sangat cepat.

Semua produk ini terintegrasi erat ke dalam satu pengalaman lincah dan memberikan pelanggan perusahaan kami fleksibilitas yang mereka butuhkan untuk mengatasi masalah bisnis mereka. Kami melihat lanskap big data yang berkembang pesat dalam teknologi tradisional. Semua yang kami dengar dari beberapa perusahaan di ruang data besar bahwa EDW hampir berakhir. Kenyataannya, apa yang kita lihat pada pelanggan perusahaan kita adalah mereka perlu memperkenalkan data besar ke dalam proses bisnis dan TI yang ada dan tidak menggantikan proses itu.

Diagram sederhana ini menunjukkan titik dalam arsitektur yang sering kita lihat, yang merupakan jenis arsitektur penyebaran EDW dengan integrasi data dan kasus penggunaan BI. Sekarang diagram ini mirip dengan slide Robin pada arsitektur big data, ini menggabungkan data real-time dan historis. Ketika sumber data baru dan persyaratan waktu nyata muncul, kami melihat data besar sebagai bagian tambahan dari keseluruhan arsitektur TI. Sumber data baru ini meliputi data yang dihasilkan mesin, data tidak terstruktur, volume dan kecepatan standar, dan beragam persyaratan yang kami dengar dalam data besar; mereka tidak cocok dengan proses EDW tradisional. Pentaho bekerja sama dengan Hadoop dan NoSQL untuk menyederhanakan konsumsi, pemrosesan data dan visualisasi data ini serta memadukan data ini dengan sumber-sumber tradisional untuk memberikan pelanggan pandangan penuh ke lingkungan data mereka. Kami melakukan ini dengan cara yang diatur sehingga TI dapat menawarkan solusi analitik lengkap untuk lini bisnis mereka.

Sebagai penutup, saya ingin menyoroti filosofi kami seputar analitik dan integrasi data besar; kami percaya bahwa teknologi ini lebih baik bersama-sama bekerja dengan satu arsitektur tunggal, memungkinkan sejumlah kasus penggunaan yang tidak mungkin dilakukan. Lingkungan data pelanggan kami lebih dari sekadar data besar, Hadoop dan NoSQL. Data apa pun adalah permainan yang adil. Dan sumber big data perlu tersedia dan bekerja bersama untuk memengaruhi nilai bisnis.

Akhirnya, kami percaya bahwa untuk menyelesaikan masalah-masalah bisnis ini di perusahaan-perusahaan dengan sangat efektif melalui data, TI dan lini-lini bisnis perlu bekerja bersama dalam suatu pendekatan yang terkendali dan terpadu untuk analitik data besar. Terima kasih banyak karena telah memberi kami waktu untuk berbicara, Eric.

Eric: Anda bertaruh. Tidak, itu bagus. Saya ingin kembali ke sisi arsitektur Anda ketika kita sampai pada Tanya Jawab. Jadi mari kita lanjutkan dengan sisa presentasi dan terima kasih banyak untuk itu. Kalian pasti telah bergerak cepat dalam beberapa tahun terakhir, saya harus mengatakan itu dengan pasti.

Jadi Steve, izinkan saya maju dan menyerahkannya kepada Anda. Dan cukup klik di sana pada panah ke bawah dan pergi untuk itu. Jadi Steve, saya memberi Anda kuncinya. Steve Wilkes, klik saja panah terjauh yang ada di keyboard Anda.

Steve Wilkes: Ini dia.

Eric: Ini dia.

Steve: Tapi itu intro yang hebat yang Anda berikan kepada saya.

Eric: Ya.

Steve: Jadi saya Steve Wilkes. Saya CCO di WebAction. Kami hanya ada selama beberapa tahun terakhir dan kami pasti sudah bergerak cepat juga, sejak saat itu. WebAction adalah platform analitik data besar real-time. Eric menyebutkan sebelumnya, semacam, seberapa penting real time dan seberapa real time aplikasi Anda. Platform kami dirancang untuk membangun aplikasi waktu nyata. Dan untuk memungkinkan generasi berikutnya aplikasi berbasis data yang dapat dibangun secara bertahap dan untuk memungkinkan orang membangun dasbor dari data yang dihasilkan dari aplikasi tersebut, tetapi berfokus pada waktu nyata.

Platform kami sebenarnya adalah platform ujung ke ujung, melakukan segalanya mulai dari akuisisi data, pemrosesan data, hingga visualisasi data. Dan memungkinkan berbagai jenis orang di perusahaan kami untuk bekerja bersama untuk membuat aplikasi real-time yang sebenarnya, memberi mereka wawasan tentang hal-hal yang terjadi di perusahaan mereka saat itu terjadi.

Dan ini sedikit berbeda dari apa yang dilihat kebanyakan orang dalam data besar, sehingga pendekatan tradisional - yah, tradisional beberapa tahun terakhir - pendekatan dengan data besar adalah untuk menangkapnya dari sejumlah besar sumber yang berbeda dan kemudian menumpuknya ke dalam reservoir besar atau danau atau apa pun yang Anda ingin menyebutnya. Dan kemudian proses itu ketika Anda perlu menjalankan kueri di atasnya; untuk menjalankan analisis historis skala besar atau bahkan hanya permintaan ad hoc dari sejumlah besar data. Sekarang berfungsi untuk kasus penggunaan tertentu. Tetapi jika Anda ingin menjadi proaktif dalam perusahaan Anda, jika Anda ingin benar-benar diberi tahu apa yang sedang terjadi daripada mencari tahu ketika ada yang salah pada akhir hari atau akhir minggu, maka Anda benar-benar harus pindah ke waktu nyata.

Dan itu sedikit mengubah segalanya. Ini memindahkan pemrosesan ke tengah. Jadi, secara efektif Anda mengambil aliran data dalam jumlah besar yang dihasilkan terus-menerus dalam perusahaan dan Anda memprosesnya saat Anda mendapatkannya. Dan karena Anda memprosesnya saat mendapatkannya, Anda tidak perlu menyimpan semuanya. Anda bisa menyimpan informasi penting atau hal-hal yang perlu Anda ingat yang sebenarnya terjadi. Jadi, jika Anda melacak lokasi GPS kendaraan yang bergerak di jalan, Anda tidak peduli di mana mereka berada setiap detik, Anda tidak perlu menyimpan di mana mereka berada setiap detik. Anda hanya perlu peduli, apakah mereka meninggalkan tempat ini? Sudahkah mereka tiba di tempat ini? Sudahkah mereka menyetir, atau tidak, jalan bebas hambatan?

Jadi sangat penting untuk mempertimbangkan bahwa semakin banyak data yang dihasilkan, maka ketiga V tersebut. Velocity pada dasarnya menentukan berapa banyak data yang dihasilkan setiap hari. Semakin banyak data yang dihasilkan, semakin banyak Anda harus menyimpan. Dan semakin banyak Anda harus menyimpan, semakin lama waktu yang dibutuhkan untuk memproses. Tetapi jika Anda dapat memprosesnya saat mendapatkannya, maka Anda mendapatkan manfaat yang sangat besar dan Anda dapat bereaksi terhadapnya. Anda dapat diberi tahu bahwa banyak hal terjadi daripada harus mencarinya nanti.

Jadi platform kami dirancang agar sangat terukur. Ini memiliki tiga bagian utama - bagian akuisisi, bagian pemrosesan dan kemudian bagian visualisasi pengiriman platform. Di sisi akuisisi, kami tidak hanya melihat data log yang dibuat mesin seperti log Web atau aplikasi yang memiliki semua log lain yang sedang dibuat. Kami juga bisa masuk dan melakukan perubahan pengambilan data dari database. Sehingga pada dasarnya memungkinkan kami untuk, kami telah melihat sisi ETL yang akan disajikan dan ETL tradisional Anda harus menjalankan kueri terhadap basis data. Kita dapat mengetahui kapan hal-hal terjadi dalam basis data. Kami mengubahnya dan kami menangkapnya dan menerima peristiwa itu. Dan jelas ada umpan sosial dan data perangkat langsung yang dipompa kepada Anda melalui soket TCP atau ACDP.

Ada banyak cara berbeda untuk mendapatkan data. Dan berbicara tentang volume dan kecepatan, kita melihat volume yang milyaran peristiwa per hari, kan? Jadi itu sangat besar, sejumlah besar data yang masuk dan perlu diproses.

Itu diproses oleh sekelompok server kami. Semua server memiliki arsitektur yang sama dan semuanya mampu melakukan hal yang sama. Tetapi Anda dapat mengkonfigurasinya untuk, semacam, melakukan hal yang berbeda. Dan di dalam server kami memiliki lapisan pemrosesan kueri berkecepatan tinggi yang memungkinkan Anda untuk melakukan analisis waktu nyata pada data, melakukan pengayaan data, melakukan korelasi peristiwa, melacak hal-hal yang terjadi dalam jendela waktu, melakukan prediksi analitik berdasarkan pola yang sedang dilihat dalam data. Dan data itu kemudian dapat disimpan di berbagai tempat - RDBMS tradisional, gudang data perusahaan, Hadoop, infrastruktur big data.

Dan data langsung yang sama juga dapat digunakan untuk memberi daya pada aplikasi berbasis data waktu nyata. Aplikasi tersebut dapat memiliki tampilan waktu nyata tentang apa yang sedang terjadi dan orang-orang juga dapat diperingatkan ketika hal-hal penting terjadi. Jadi, daripada harus masuk pada akhir hari dan mencari tahu bahwa sesuatu yang buruk benar-benar terjadi sebelumnya pada hari itu, Anda bisa diberitahu tentang hal itu begitu kita menemukannya dan langsung ke halaman menarik untuk mencari tahu apa sedang terjadi.

Jadi itu mengubah paradigma sepenuhnya dari harus menganalisis data setelah fakta menjadi diberitahu ketika hal-hal menarik terjadi. Dan platform kami kemudian dapat digunakan untuk membangun aplikasi berbasis data. Dan ini benar-benar tempat kami fokus, sedang membangun aplikasi ini. Untuk pelanggan, dengan pelanggan, dengan berbagai mitra yang berbeda untuk menunjukkan nilai sebenarnya dalam analisis data waktu nyata. Sehingga memungkinkan orang yang, atau perusahaan yang melakukan aplikasi situs, misalnya, untuk dapat melacak penggunaan pelanggan dari waktu ke waktu dan memastikan bahwa kualitas layanan terpenuhi, untuk menemukan penipuan waktu nyata atau pencucian uang, untuk menemukan beberapa login atau upaya hack dan peristiwa keamanan semacam itu, untuk mengelola hal-hal seperti set-top box atau perangkat lain, mesin ATM untuk memonitor mereka secara real time untuk kesalahan, kegagalan yang telah terjadi, dapat terjadi, akan terjadi di masa depan berdasarkan analisis prediksi. Dan itu kembali ke titik perampingan operasi yang disebutkan Eric sebelumnya, untuk dapat mengetahui kapan sesuatu akan terjadi dan mengatur bisnis Anda untuk memperbaiki hal-hal itu daripada harus memanggil seseorang untuk benar-benar melakukan sesuatu setelah fakta, yaitu jauh lebih mahal.

Analitik konsumen adalah bagian lain untuk mengetahui kapan pelanggan melakukan sesuatu sementara mereka masih ada di toko Anda. Data yang dikirim ke manajemen untuk dapat secara real time memantau penggunaan sumber daya dan mengubah di mana hal-hal berjalan dan untuk dapat mengetahui kapan hal-hal akan gagal secara jauh lebih tepat waktu.

Jadi, produk kami singkatnya dan saya yakin kami akan kembali ke beberapa hal ini dalam sesi tanya jawab. Terima kasih.

Eric: Ya, tentu saja. Kerja bagus. Oke bagus. Dan sekarang berhenti berikutnya di babak kilat kami, kami mendapat Frank Sanders menelepon dari MarkLogic. Saya sudah tahu tentang orang-orang ini selama beberapa tahun, teknologi basis data yang sangat, sangat menarik. Jadi Frank, aku menyerahkannya padamu. Cukup klik di mana saja dalam hal itu. Gunakan panah bawah pada keyboard Anda dan Anda akan pergi ke balapan. Ini dia.

Frank Sanders: Terima kasih banyak, Eric. Jadi seperti yang disebutkan Eric, saya dengan perusahaan bernama MarkLogic. Dan yang dilakukan MarkLogic adalah kami menyediakan basis data perusahaan NoSQL. Dan mungkin, kemampuan paling penting yang kami bawa ke meja sehubungan dengan itu adalah kemampuan untuk benar-benar menyatukan semua sumber informasi yang berbeda ini untuk menganalisis, mencari, dan memanfaatkan informasi itu dalam sistem yang serupa dengan apa yang Anda terbiasa dengan sistem relasional tradisional, kan?

Dan beberapa fitur utama yang kami bawa ke meja dalam hal itu adalah semua fitur perusahaan yang Anda harapkan dari sistem manajemen basis data tradisional, keamanan Anda, HA Anda, DR Anda, cadangan Anda ada di toko, aset Anda transaksi. Serta desain yang memungkinkan Anda untuk meningkatkan skala baik di cloud atau di perangkat keras komoditas sehingga Anda dapat menangani volume dan kecepatan informasi yang harus Anda tangani untuk membangun dan menganalisis jenis ini. informasi.

Dan mungkin, kemampuan yang paling penting adalah fakta bahwa kami adalah agnostik. Apa artinya itu, secara praktis, adalah bahwa Anda tidak harus memutuskan seperti apa data Anda saat mulai membangun aplikasi atau ketika Anda mulai mengumpulkan informasi itu. Namun seiring waktu, Anda dapat memasukkan sumber data baru, menarik informasi tambahan dan kemudian menggunakan leverage dan permintaan dan menganalisis informasi itu seperti yang Anda lakukan dengan apa pun yang ada di sana sejak saat Anda memulai desain. Baik?

Jadi bagaimana kita melakukannya? Bagaimana kami benar-benar memungkinkan Anda untuk memuat berbagai jenis informasi, apakah itu, RDF tiga kali lipat, data geospasial, data temporal, data dan nilai terstruktur, atau binari. Dan jawabannya adalah bahwa kami telah benar-benar membangun server kami dari bawah ke atas untuk menggabungkan teknologi pencarian yang memungkinkan Anda untuk memasukkan informasi dan informasi itu menjelaskan dan memungkinkan Anda untuk meminta, mengambil, dan mencari informasi tersebut terlepas dari sumber atau formatnya. .

Dan apa artinya secara praktis adalah bahwa - dan mengapa ini penting ketika Anda melakukan analisis - adalah bahwa analitik dan informasi adalah yang paling penting ketika benar dikonseptualisasikan dan ditargetkan, bukan? Jadi bagian kunci yang sangat penting dari segala jenis analitik adalah pencarian, dan bagian kuncinya adalah analitik pencarian. Anda benar-benar tidak dapat memiliki satu tanpa yang lain dan berhasil mencapai apa yang ingin Anda capai. Baik?

Dan saya akan berbicara secara singkat tentang tiga setengah kasus penggunaan berbeda dari pelanggan yang kami miliki di produksi yang menggunakan MarkLogic untuk mendukung analitik semacam ini. Baik. Jadi pelanggan pertama adalah Fairfax County. Dan Fairfax County sebenarnya telah membangun dua aplikasi terpisah. Satu didasarkan pada perizinan dan manajemen properti. Dan yang lainnya, yang mungkin sedikit lebih menarik, adalah aplikasi acara kepolisian Fairfax County. Apa yang sebenarnya dilakukan oleh aplikasi acara kepolisian adalah mengumpulkan informasi seperti laporan polisi, laporan warga dan keluhan, Tweet, informasi lain yang mereka miliki seperti pelanggar seks dan informasi apa pun yang mereka akses dari agen dan sumber lain. Kemudian mereka memungkinkan mereka untuk memvisualisasikan itu dan menyajikan ini kepada warga sehingga mereka dapat melakukan pencarian dan melihat berbagai kegiatan kejahatan, aktivitas polisi, semua melalui satu indeks geospasial yang disatukan, kan? Jadi, Anda dapat mengajukan pertanyaan seperti, "berapa tingkat kejahatan dalam lima mil" atau "kejahatan apa yang terjadi dalam jarak lima mil dari lokasi saya?" Baik.

Pengguna lain yang kami dapatkan, pelanggan lain yang kami miliki adalah OECD. Mengapa OECD penting untuk percakapan ini adalah karena selain semua yang kami telah diaktifkan untuk Fairfax County dalam hal mengumpulkan informasi, benar; semua informasi yang akan Anda dapatkan dari semua berbagai negara yang merupakan anggota OECD yang mereka laporkan dari perspektif ekonomi. Kami benar-benar melakukan target latihan, benar. Jadi Anda dapat melihat di sisi kiri kami mengambil pemandangan Denmark secara khusus dan Anda dapat melihat kelopak bunga di atasnya yang memberikan nilai pada kapak yang berbeda. Baik? Dan itu semua baik dan bagus. Tetapi apa yang telah dilakukan OECD adalah mereka telah melangkah lebih jauh.

Selain visualisasi yang indah ini dan menggabungkan semua informasi ini, mereka sebenarnya memungkinkan Anda secara real time untuk membuat indeks kehidupan Anda sendiri yang lebih baik, benar, yang dapat Anda lihat di sisi kanan. Jadi apa yang Anda miliki di sana adalah Anda memiliki satu set slider yang benar-benar memungkinkan Anda untuk melakukan hal-hal seperti peringkat seberapa penting perumahan bagi Anda atau pendapatan, pekerjaan, komunitas, pendidikan, lingkungan, keterlibatan sipil, kesehatan, kepuasan hidup, keselamatan dan pekerjaan Anda Keseimbangan hidup. Dan secara dinamis didasarkan pada bagaimana Anda benar-benar memasukkan informasi itu dan menimbang hal-hal itu, MarkLogic menggunakan kemampuan pengindeksan real-time dan kemampuan kueri untuk benar-benar kemudian mengubah bagaimana masing-masing negara diberi peringkat untuk memberi Anda gambaran seberapa baik Anda negara atau peta gaya hidup Anda melalui negara tertentu. Baik?

Dan contoh terakhir yang akan saya bagikan adalah MarkMail. Dan yang benar-benar coba ditunjukkan oleh MarkMail adalah bahwa kami dapat memberikan kemampuan ini dan Anda dapat melakukan semacam analisis tidak hanya pada informasi terstruktur atau informasi yang masuk dalam angka itu tetapi sebenarnya pada informasi terstruktur yang lebih longgar, tidak terstruktur, kan? Hal-hal seperti s. Dan apa yang kami lihat di sini adalah kami benar-benar menarik informasi seperti geolokasi, er, perusahaan, tumpukan dan konsep seperti Hadoop yang disebutkan dalam con dan kemudian memvisualisasikannya di peta serta melihat siapa orang-orang itu dan apa daftar itu, yang dikirim dan tanggal. Ini tempat Anda melihat hal-hal yang secara tradisional tidak terstruktur, yang mungkin terstruktur secara longgar, tetapi masih dapat memperoleh beberapa analisis terstruktur dari informasi itu tanpa harus bersusah payah untuk benar-benar mencoba dan menyusunnya atau memprosesnya di sebuah waktu. Dan itu dia.

Eric: Hei, oke bagus. Dan kami punya satu lagi. Kami mendapat Hannah Smalltree dari Treasure Data, perusahaan yang sangat menarik. Dan ini banyak konten hebat, kawan. Terima kasih banyak untuk Anda semua karena membawa slide yang begitu bagus dan detail yang begitu baik. Jadi Hannah, saya baru saja memberikan kunci kepada Anda, klik di mana saja dan gunakan panah bawah pada keyboard Anda. Kamu mendapatkannya. Bawa pergi.

Hannah Smalltree: Terima kasih banyak, Eric. Ini Hannah Smalltree dari Treasure Data. Saya seorang direktur dengan Data Harta tetapi saya memiliki masa lalu sebagai jurnalis teknologi, yang berarti saya menghargai dua hal. Pertama-tama, ini bisa lama untuk duduk melalui banyak deskripsi teknologi yang berbeda, dan semuanya bisa terdengar seperti berjalan bersama-sama jadi saya benar-benar ingin fokus pada pembeda kami. Dan aplikasi dunia nyata sangat penting sehingga saya menghargai bahwa semua rekan saya hebat dalam menyediakannya.

Treasure Data adalah jenis baru layanan data besar. Kami dikirim sepenuhnya di cloud dalam perangkat lunak sebagai layanan atau model layanan terkelola. Jadi pada poin Dr. Bloor sebelumnya, teknologi ini bisa sangat sulit dan bisa sangat memakan waktu untuk bangun dan berjalan. Dengan Treasure Data, Anda bisa mendapatkan semua kemampuan ini yang mungkin Anda dapatkan di lingkungan Hadoop atau lingkungan on-premise yang rumit di cloud dengan sangat cepat, yang sangat membantu untuk inisiatif data besar baru ini.

Sekarang kita berbicara tentang layanan kita dalam beberapa fase berbeda. Kami menawarkan beberapa kemampuan pengumpulan yang sangat unik untuk mengumpulkan data streaming sehingga terutama data acara, jenis lain dari data waktu nyata. Kami akan berbicara sedikit lebih banyak tentang tipe data tersebut. Itu adalah pembeda besar untuk layanan kami. Ketika Anda masuk ke data besar atau jika Anda sudah di dalamnya maka Anda tahu bahwa mengumpulkan data ini tidak sepele. Ketika Anda berpikir tentang mobil dengan 100 sensor data setiap menit, bahkan 100 sensor itu data setiap sepuluh menit, itu bertambah sangat cepat ketika Anda mulai melipatgandakan jumlah produk yang Anda miliki dengan sensor dan dengan cepat menjadi sangat sulit dikelola. Jadi kami berbicara dengan pelanggan yang memiliki jutaan, kami memiliki pelanggan yang memiliki miliaran baris data sehari yang mereka hubungi kami. Dan mereka melakukan itu sebagai alternatif untuk mencoba dan mengelolanya sendiri dalam infrastruktur Amazon yang rumit atau bahkan mencoba membawanya ke lingkungan mereka sendiri.

Kami memiliki lingkungan penyimpanan cloud kami sendiri. Kami mengelolanya. Kami memantaunya. Kami memiliki tim orang yang melakukan semua penyetelan itu untuk Anda. Dan begitu data mengalir, ia masuk ke lingkungan penyimpanan terkelola kami.

Lalu, kami telah menyematkan mesin kueri sehingga analis Anda dapat masuk dan menjalankan kueri serta melakukan beberapa penemuan data awal dan eksplorasi terhadap data tersebut. Kami memiliki beberapa mesin permintaan yang berbeda untuk saat ini. Anda dapat menggunakan sintaks SQL, yang mungkin diketahui dan dicintai analis Anda, untuk melakukan beberapa penemuan data dasar, untuk melakukan beberapa analisis yang lebih kompleks yang merupakan fungsi yang ditentukan pengguna atau bahkan untuk melakukan hal-hal sesederhana mengumpulkan data dan membuatnya lebih kecil sehingga Anda bisa membawanya ke lingkungan data warehouse yang ada.

Anda juga dapat menghubungkan alat BI Anda yang ada, Tableau Anda, adalah mitra besar kami; tetapi sesungguhnya sebagian besar BI, alat visualisasi atau analitik dapat terhubung melalui driver JDBC dan ODBC standar industri kami. Jadi itu memberi Anda set lengkap kemampuan data besar ini. Anda diizinkan untuk mengekspor hasil kueri atau set data kapan saja secara gratis, sehingga Anda dapat dengan mudah mengintegrasikan data itu. Perlakukan ini sebagai pengilangan data. Saya lebih suka menganggapnya sebagai kilang daripada danau karena Anda benar-benar dapat melakukan hal-hal dengannya. Anda dapat melihat, menemukan informasi yang berharga dan kemudian membawanya ke dalam proses perusahaan Anda.

Slide berikutnya, kita berbicara tentang tiga Vs data besar - beberapa orang mengatakan empat atau lima. Pelanggan kami cenderung kesulitan dengan volume dan kecepatan data yang datang kepada mereka. Jadi untuk mendapatkan spesifik tentang tipe data - Clickstream, log akses Web, data seluler adalah area besar bagi kami, log aplikasi seluler, log aplikasi dari aplikasi Web khusus atau aplikasi lain, log peristiwa. Dan semakin banyak, kami memiliki banyak pelanggan yang berurusan dengan data sensor, jadi dari perangkat yang dapat dipakai, dari produk, dari otomotif, dan jenis data mesin lainnya. Jadi ketika saya mengatakan data besar, itu adalah tipe data besar yang saya bicarakan.

Sekarang, beberapa kasus penggunaan dalam perspektif untuk Anda - kami bekerja dengan pengecer, pengecer besar. Mereka sangat terkenal di Asia. Mereka berkembang di sini di AS. Anda akan mulai melihat toko; mereka sering disebut IKEA Asia, jadi, desainnya sederhana. Mereka memiliki aplikasi loyalitas dan situs web. Dan faktanya, menggunakan Treasure Data, mereka dapat menyebarkan aplikasi loyalitas itu dengan sangat cepat. Pelanggan kami bangun dan berjalan dalam beberapa hari atau minggu karena perangkat lunak kami dan arsitektur layanan kami dan karena kami memiliki semua orang yang melakukan semua kerja keras di belakang layar untuk memberi Anda semua kemampuan itu sebagai layanan.

Jadi mereka menggunakan layanan kami untuk analitik aplikasi seluler untuk melihat perilaku, apa yang diklik orang dalam aplikasi loyalitas seluler mereka. Mereka melihat klik situs web dan menggabungkannya dengan e-commerce dan data POS kami untuk merancang promosi yang lebih efisien. Mereka sebenarnya ingin mendorong orang ke toko-toko karena mereka menemukan bahwa orang-orang, ketika mereka pergi ke toko-toko menghabiskan lebih banyak uang dan saya suka itu; untuk mengambil barang, Anda menghabiskan lebih banyak uang.

Kasus penggunaan lain yang kami lihat di permainan video digital, ketangkasan yang luar biasa. Mereka ingin melihat dengan tepat apa yang terjadi dalam game mereka, dan membuat perubahan pada game itu bahkan dalam beberapa jam setelah dirilis. Jadi bagi mereka, pandangan waktu nyata itu sangat penting. Kami baru saja merilis game tetapi kami perhatikan pada jam pertama bahwa semua orang mengantar di Level 2; bagaimana kita akan mengubahnya? Mereka mungkin mengubahnya di hari yang sama. Jadi waktu nyata sangat penting. Mereka memberi kami miliaran log peristiwa per hari. Tapi itu bisa berupa aplikasi seluler apa pun di mana Anda menginginkan semacam tampilan waktu nyata tentang bagaimana seseorang menggunakannya.

Dan akhirnya, area besar bagi kami adalah perilaku produk dan analitik sensor kami. Jadi dengan data sensor yang ada di mobil, yang ada di jenis mesin lain, utilitas, itu area lain bagi kami, di perangkat yang dapat dipakai. Kami memiliki tim penelitian dan pengembangan yang ingin segera mengetahui apa dampak perubahan terhadap suatu produk atau orang yang tertarik pada perilaku orang berinteraksi dengan produk tersebut. Dan kami memiliki lebih banyak kasus penggunaan yang, tentu saja, kami senang berbagi dengan Anda.

Dan akhirnya, hanya menunjukkan kepada Anda bagaimana ini bisa cocok dengan lingkungan Anda, kami menawarkan lagi kemampuan untuk mengumpulkan data itu. Kami memiliki teknologi koleksi yang sangat unik. Jadi sekali lagi, jika pengumpulan waktu nyata adalah sesuatu yang Anda perjuangkan atau Anda antisipasi dengan kesulitannya, silakan lihat layanan Treasure Data. Kami benar-benar membuat kemampuan untuk mengumpulkan data streaming. Anda juga dapat secara massal memuat data Anda, menyimpannya, menganalisisnya dengan mesin kueri tertanam kami dan kemudian, seperti yang saya sebutkan, Anda dapat mengekspornya langsung ke gudang data Anda. Saya pikir Will menyebutkan perlunya memperkenalkan big data ke dalam proses yang ada. Jadi jangan berkeliling atau membuat silo baru, tetapi bagaimana Anda membuat data itu lebih kecil dan kemudian memindahkannya ke gudang data Anda dan Anda dapat terhubung ke BI Anda, visualisasi dan alat analisis canggih.

Tapi mungkin, poin utama yang ingin saya sampaikan kepada Anda adalah bahwa kami adalah layanan yang dikelola, yaitu perangkat lunak sebagai layanan; ini sangat hemat biaya. Layanan berlangganan bulanan mulai dari beberapa ribu dolar sebulan dan kami akan membuat Anda bangun dan beroperasi dalam hitungan hari atau minggu. Jadi bandingkan dengan biaya berbulan-bulan untuk membangun infrastruktur Anda sendiri dan mempekerjakan orang-orang itu dan menemukannya serta menghabiskan semua waktu itu untuk infrastruktur. Jika Anda bereksperimen atau jika Anda memerlukan sesuatu kemarin, Anda bisa bangun dan berjalan sangat cepat dengan Data Harta.

Dan saya hanya mengarahkan Anda ke situs web kami dan ke layanan pemula kami. Jika Anda adalah orang yang suka bermain langsung, silakan periksa layanan pemula kami. Anda bisa naik, tidak perlu kartu kredit, cukup nama dan, dan Anda bisa bermain dengan data sampel kami, memuat data Anda sendiri dan benar-benar memahami apa yang kami bicarakan. Terima kasih banyak. Juga, periksa situs web kami. Kami dinamai Vendor Keren Gartner di Big Data tahun ini, sangat bangga akan hal itu. Dan Anda juga bisa mendapatkan salinan laporan itu secara gratis di situs web kami dan juga banyak laporan resmi analis lainnya. Terima kasih banyak.

Eric: Oke, terima kasih banyak. Kami punya waktu untuk pertanyaan di sini, teman-teman. Kami akan sedikit lama juga karena kami masih memiliki banyak orang di telepon. Dan saya tahu saya punya beberapa pertanyaan sendiri, jadi izinkan saya maju dan mengambil kendali kembali dan kemudian saya akan mengajukan beberapa pertanyaan. Robin dan Kirk, silakan menyelam sesuai keinginan Anda.

Jadi izinkan saya untuk terus maju dan melompat langsung ke salah satu slide pertama yang saya periksa dari Pentaho. Jadi di sini, saya suka arsitektur big data yang terus berkembang ini, dapatkah Anda berbicara tentang bagaimana jenis ini cocok di sebuah perusahaan? Karena jelas, Anda masuk ke organisasi yang cukup besar, bahkan perusahaan menengah, dan Anda akan memiliki beberapa orang yang sudah memiliki beberapa barang ini; bagaimana Anda menyatukan semua ini? Seperti apa tampilan aplikasi itu yang membantu Anda menyatukan semua hal ini dan kemudian seperti apa antarmuka itu?

Will: Pertanyaan bagus. Antarmuka bervariasi tergantung pada kepribadian yang terlibat. Tetapi sebagai contoh, kami ingin menceritakan kisah - salah satu panelis menyebutkan kasus penggunaan kilang data - kami melihat bahwa banyak pelanggan.

Salah satu contoh pelanggan kami yang kami bicarakan adalah Paytronix, di mana mereka memiliki lingkungan data mart EDW tradisional. Mereka juga memperkenalkan Hadoop, Cloudera khususnya, dan dengan berbagai pengalaman pengguna di dalamnya. Jadi pertama-tama ada pengalaman teknik, jadi bagaimana Anda menghubungkan semua hal ini bersama-sama? Bagaimana Anda membuat lem antara lingkungan Hadoop dan EDW?

Dan kemudian Anda memiliki pengalaman pengguna bisnis yang kami bicarakan, sejumlah alat BI di luar sana, bukan? Pentaho memiliki alat BI BI yang lebih dapat disematkan tetapi ada yang hebat di luar sana seperti Tableau dan Excel, misalnya, di mana orang ingin menjelajahi data. Tapi biasanya, kami ingin memastikan bahwa data diatur, kan? Salah satu pertanyaan dalam diskusi, bagaimana dengan pengalaman versi tunggal, bagaimana Anda mengelolanya, dan tanpa teknologi seperti integrasi data Pentaho untuk memadukan data tersebut bersama-sama bukan pada kaca tetapi dalam lingkungan TI. Jadi itu benar-benar melindungi dan mengatur data dan memungkinkan untuk pengalaman tunggal bagi analis bisnis dan pengguna bisnis.

Eric: Oke, bagus. Itu jawaban yang bagus untuk pertanyaan yang sulit, terus terang. Dan izinkan saya mengajukan pertanyaan kepada masing-masing presenter dan kemudian mungkin Robin dan Kirk jika Anda ingin ikut serta. Jadi saya ingin terus maju dan mendorong slide ini untuk WebAction yang menurut saya benar-benar perusahaan yang sangat menarik. Sebenarnya, saya kenal Sami Akbay yang merupakan salah satu pendiri, juga. Saya ingat berbicara dengannya beberapa tahun yang lalu dan berkata, "Hai, apa yang kamu lakukan? Apa yang kamu lakukan? Aku tahu kamu harus mengerjakan sesuatu." Dan tentu saja dia. Dia sedang mengerjakan WebAction, di bawah selimut di sini.

Sebuah pertanyaan muncul untuk Anda, Steve, jadi saya akan memberikannya kepada Anda, tentang pembersihan data, bukan? Bisakah Anda berbicara tentang komponen-komponen dari kemampuan real-time ini? Bagaimana Anda menangani masalah seperti pembersihan data atau kualitas data atau bagaimana cara kerjanya?

Steve: Jadi itu benar-benar tergantung dari mana Anda mendapatkan umpan. Biasanya, jika Anda mendapatkan umpan dari basis data saat Anda mengubah pengambilan data, sekali lagi, itu tergantung pada bagaimana data dimasukkan. Pembersihan data benar-benar menjadi masalah ketika Anda mendapatkan data Anda dari berbagai sumber atau orang memasukkannya secara manual atau Anda memiliki jenis arbitrer yang harus Anda coba dan tarik keluar. Dan itu tentu saja bisa menjadi bagian dari proses, meskipun jenis itu tidak cocok dengan pemrosesan real-time berkecepatan tinggi yang benar, semacam itu. Pembersihan data, biasanya, adalah proses yang mahal.

Jadi mungkin saja itu bisa dilakukan setelah fakta di situs toko. Tetapi hal lain yang benar-benar baik di platform adalah korelasi, sehingga dalam korelasi dan pengayaan data. Anda dapat, secara real time, mengkorelasikan data yang masuk dan memeriksa untuk melihat apakah itu cocok dengan pola tertentu atau cocok dengan data yang diambil dari database atau Hadoop atau toko lain. Jadi Anda bisa menghubungkannya dengan data historis, adalah satu hal yang bisa Anda lakukan.

Hal lain yang dapat Anda lakukan pada dasarnya adalah melakukan analisis pada data itu dan melihat apakah itu cocok dengan pola-pola tertentu yang diperlukan. Dan itu adalah sesuatu yang juga dapat Anda lakukan dalam waktu nyata. Tetapi jenis tradisional pembersihan data, di mana Anda mengoreksi nama perusahaan atau Anda mengoreksi alamat dan semua jenis hal itu, itu mungkin harus dilakukan dalam sumber atau jenis setelah fakta, yang sangat mahal dan Anda berdoa bahwa mereka tidak akan melakukan itu secara real time.

Eric: Ya. Dan kalian benar-benar mencoba untuk mengatasi, tentu saja, sifat real-time tetapi juga membuat orang-orang tepat waktu. Dan kami berbicara tentang, benar, saya sebutkan di bagian atas jam ini, seluruh jendela kesempatan ini dan Anda benar-benar menargetkan aplikasi spesifik di perusahaan tempat Anda dapat mengumpulkan data tidak melalui rute yang biasa, menggunakan rute alternatif ini dan melakukannya dalam latensi rendah sehingga Anda dapat mempertahankan pelanggan. Sebagai contoh, Anda dapat membuat orang puas dan menarik, ketika saya berbicara panjang lebar dengan Sami tentang apa yang Anda lakukan, dia membuat poin yang sangat bagus. Dia mengatakan, jika Anda melihat banyak aplikasi berbasis web baru; mari kita lihat hal-hal seperti, Bitly atau beberapa aplikasi lain ini; mereka sangat berbeda dari aplikasi lama yang kami lihat dari, katakanlah, Microsoft menyukai Microsoft Word.

Saya sering menggunakan Microsoft sebagai semacam pencambuk dan khususnya Word untuk berbicara tentang evolusi perangkat lunak. Karena Microsoft Word dimulai sebagai, tentu saja, program pengolah kata. Saya salah satu dari orang-orang yang ingat Word Perfect. Saya senang bisa melakukan kunci pengungkapan atau kode pengungkapan, pada dasarnya, di mana Anda dapat melihat kode aktual di sana. Anda dapat membersihkan sesuatu jika daftar berpoin Anda salah, Anda dapat membersihkannya. Yah, Word tidak membiarkan Anda melakukan itu. Dan saya dapat memberi tahu Anda bahwa Word menyematkan segunung kode di dalam setiap halaman yang Anda lakukan. Jika ada yang tidak percaya padaku, pergi ke Microsoft Word, ketik "Hello World" dan kemudian lakukan "Ekspor sebagai" atau "Simpan sebagai" .html. Kemudian buka dokumen itu di editor dan panjang kode sekitar empat halaman hanya untuk dua kata.

Jadi kalian, saya pikir itu sangat menarik dan sudah saatnya kita membicarakannya. Dan di situlah kalian fokus, kan, mengidentifikasi apa yang Anda sebut peluang lintas-platform atau lintas-perusahaan atau lintas-domain untuk mengumpulkan data dalam waktu cepat sehingga Anda dapat mengubah permainan, bukan?

Steve: Ya, tentu saja. Dan salah satu kunci yang, menurut saya, Anda lakukan untuk menghindari, adalah, Anda benar-benar ingin tahu tentang hal-hal yang terjadi sebelum pelanggan Anda lakukan atau sebelum mereka benar-benar, benar-benar menjadi masalah. Sebagai contoh adalah kotak set-top. Kotak kabel, mereka memancarkan telemetri sepanjang waktu, banyak dan banyak telemetri. Dan bukan hanya jenis kesehatan kotak tetapi itu yang Anda tonton dan semua hal semacam itu, bukan? Pola tipikal adalah Anda menunggu sampai kotak gagal dan kemudian Anda memanggil penyedia kabel Anda dan mereka akan berkata, "Ya, kami akan menghubungi Anda antara jam 6 pagi dan 11 malam di seluruh bulan November." Itu bukan pengalaman pelanggan yang benar-benar bagus.

Tetapi jika mereka dapat menganalisis telemetri itu secara real time maka mereka dapat mulai melakukan hal-hal seperti yang kita tahu kotak-kotak ini kemungkinan akan gagal di minggu depan berdasarkan pola sejarah. Oleh karena itu kami akan menjadwalkan orang perbaikan kabel kami untuk muncul di rumah orang ini sebelum gagal. Dan kita akan melakukan itu dengan cara yang cocok untuk kita daripada harus dari dia dari Santa Cruz hingga Sunnyvale. Kami akan menjadwalkan semuanya dalam urutan yang baik, pola penjual keliling, dll., Sehingga kami dapat mengoptimalkan bisnis kami. Dan pelanggan senang karena mereka tidak memiliki kotak kabel yang rusak. Dan penyedia kabel senang karena mereka baru saja merampingkan hal-hal dan mereka tidak harus orang di semua tempat. Itu hanya contoh yang sangat cepat.Tetapi ada berton-ton contoh di mana mengetahui tentang hal-hal yang terjadi, sebelum terjadi, dapat menyelamatkan banyak perusahaan dan benar-benar, benar-benar meningkatkan hubungan pelanggan mereka.

Eric: Ya, benar. Tidak diragukan lagi. Ayo maju dan langsung ke MarkLogic. Seperti yang saya sebutkan sebelumnya, saya sudah tahu tentang orang-orang ini untuk beberapa waktu dan saya akan membawa Anda ke sini, Frank. Kalian jauh di depan dari seluruh pergerakan data besar dalam hal membangun aplikasi Anda, itu benar-benar basis data. Tetapi membangunnya dan Anda berbicara tentang pentingnya pencarian.

Jadi banyak orang yang mengikuti ruang tahu bahwa banyak alat NoSQL di luar sana sekarang berlari pada kemampuan pencarian apakah melalui pihak ketiga atau mereka mencoba untuk melakukan sendiri. Tetapi untuk memiliki pencarian yang sudah tertanam di dalamnya, dipanggang jadi untuk berbicara, benar-benar adalah masalah besar. Karena jika Anda memikirkannya, jika Anda tidak memiliki SQL, lalu bagaimana Anda masuk dan mencari data? Bagaimana Anda menarik dari sumber data itu? Dan jawabannya adalah menggunakan pencarian untuk mendapatkan data yang Anda cari, bukan?

Jadi saya pikir itu adalah salah satu pembeda utama bagi kalian selain dapat menarik data dari semua sumber yang berbeda ini dan menyimpan data itu dan benar-benar memfasilitasi lingkungan hybrid semacam ini. Saya berpikir bahwa kemampuan pencarian adalah masalah besar bagi Anda, bukan?

Frank: Ya, tentu saja. Faktanya, itu satu-satunya cara untuk menyelesaikan masalah secara konsisten ketika Anda tidak tahu seperti apa semua data itu, bukan? Jika Anda tidak dapat membayangkan semua kemungkinan maka satu-satunya cara untuk memastikan bahwa Anda dapat menemukan semua informasi yang Anda inginkan, bahwa Anda dapat menemukannya secara konsisten dan Anda dapat menemukannya terlepas dari bagaimana Anda mengembangkan model data Anda dan kumpulan data Anda adalah untuk memastikan Anda memberi orang-orang alat umum yang memungkinkan mereka untuk menginterogasi data itu. Dan cara termudah, paling intuitif untuk melakukannya adalah melalui paradigma pencarian, bukan? Dan melalui pendekatan yang sama dalam pencarian mengambil tempat kami membuat indeks terbalik. Anda memiliki entri di mana Anda dapat benar-benar melihat ke dalamnya dan kemudian menemukan catatan dan dokumen serta baris yang benar-benar berisi informasi yang Anda cari untuk kemudian mengembalikannya kepada pelanggan dan memungkinkan mereka untuk memprosesnya sesuai keinginan mereka.

Eric: Ya dan kami sering membicarakan hal ini, tetapi Anda memberi saya kesempatan yang sangat baik untuk menggali - seluruh sisi pencarian dan penemuan dari persamaan ini. Tapi pertama-tama, ini sangat menyenangkan. Bagi siapa pun yang suka hal itu, ini bagian yang menyenangkan, bukan? Tetapi sisi lain dari persamaan atau sisi lain dari koin, saya harus mengatakan, adalah bahwa itu benar-benar merupakan proses berulang. Dan Anda harus bisa - di sini saya akan menggunakan beberapa bahasa pemasaran - melakukan percakapan dengan data, kan? Dengan kata lain, Anda harus dapat menguji hipotesis, bermain-main dengannya dan melihat cara kerjanya. Mungkin itu tidak ada di sana, uji sesuatu yang lain dan terus-menerus mengubah hal-hal dan beralih dan mencari dan meneliti dan hanya memikirkan hal-hal. Dan itu sebuah proses. Dan jika Anda memiliki rintangan besar, yang berarti latensi panjang atau antarmuka pengguna yang sulit atau Anda harus bertanya kepada TI; yang hanya membunuh seluruh pengalaman analitis, kan?

Jadi, penting untuk memiliki fleksibilitas semacam ini dan dapat menggunakan pencarian. Dan saya suka cara Anda menggambarkannya di sini karena jika kami melihat mencari di sekitar konsep, atau konsep yang berbeda, jika Anda mau, nilai-nilai kunci dan mereka dimensi yang berbeda. Anda ingin dapat mencampur dan mencocokkan hal-hal itu untuk memungkinkan analis Anda menemukan hal-hal yang berguna, bukan?

Frank: Ya, tentu saja. Maksud saya, hierarki adalah hal yang penting juga, bukan? Sehingga saat Anda memasukkan sesuatu seperti judul, kanan, atau istilah atau nilai tertentu, Anda dapat benar-benar menunjuk ke yang benar. Jadi jika Anda mencari judul artikel, Anda tidak mendapatkan judul buku, kan? Atau Anda tidak mendapatkan judul posting blog. Kemampuan untuk membedakan antara mereka dan melalui hirarki informasi juga penting.

Anda menunjukkan sebelumnya pengembangan, benar, kan? Kemampuan bagi pelanggan kami untuk benar-benar menarik sumber data baru dalam hitungan jam, mulai bekerja dengan mereka, mengevaluasi apakah mereka berguna dan kemudian terus mengintegrasikannya atau meninggalkannya di sisi lain sangat berharga. Ketika Anda membandingkannya dengan pendekatan pengembangan aplikasi yang lebih tradisional di mana apa yang akhirnya Anda lakukan adalah Anda harus mencari tahu data apa yang ingin Anda konsumsi, sumber data, mencari tahu bagaimana Anda akan cocok dalam model data yang ada atau model itu, ubah model data itu untuk memasukkannya dan kemudian benar-benar memulai pengembangan, kan? Di mana kami membalikkan itu di kepala kami dan mengatakan hanya membawanya kepada kami, memungkinkan Anda untuk mulai melakukan pengembangan dengannya dan kemudian memutuskan nanti apakah Anda ingin menyimpannya atau hampir segera apakah itu bernilai atau tidak.

Eric: Ya, itu poin yang sangat bagus. Itu poin yang bagus. Jadi izinkan saya maju dan membawa presenter keempat kami di sini, Treasure Data. Saya suka orang-orang ini. Saya tidak tahu banyak tentang mereka, jadi saya agak menendang diri sendiri. Dan kemudian Hannah mendatangi kami dan memberi tahu kami apa yang mereka lakukan. Dan Hannah menyebutkan, dia adalah orang media dan dia pergi ke sisi gelap.

Hannah: Ya, saya membelot.

Eric: Tidak apa-apa, karena Anda tahu apa yang kami sukai di dunia media. Jadi selalu menyenangkan ketika orang media pergi ke sisi vendor karena Anda mengerti, hei, hal ini tidak mudah diartikulasikan dan sulit untuk memastikan dari situs web persis apa yang dilakukan produk ini dibandingkan dengan apa yang dilakukan produk itu. Dan apa yang kalian bicarakan benar-benar sangat menarik. Sekarang, Anda adalah layanan yang dikelola cloud. Jadi, setiap data yang seseorang ingin gunakan, mereka unggah ke cloud Anda, apakah itu benar? Dan kemudian Anda akan ETL atau CDC, data tambahan hingga cloud, apakah itu cara kerjanya?

Hannah: Ya, ya. Jadi izinkan saya membuat perbedaan penting. Sebagian besar data, data besar, yang diberikan pelanggan kami sudah berada di luar firewall - data seluler, data sensor yang ada dalam produk. Jadi kami sering digunakan sebagai area pementasan sementara. Jadi data tidak sering datang dari perusahaan seseorang ke dalam layanan kami sebanyak itu mengalir dari situs web, aplikasi seluler, produk dengan banyak sensor di dalamnya - ke lingkungan cloud kami.

Sekarang jika Anda ingin memperkaya data besar itu di lingkungan kami, Anda pasti dapat mengunggah sebagian data aplikasi atau beberapa data pelanggan untuk memperkaya hal itu dan melakukan lebih banyak analitik langsung di cloud. Tetapi banyak dari nilai kami adalah sekitar mengumpulkan data yang sudah ada di luar firewall, menyatukan ke satu tempat. Jadi, bahkan jika Anda berniat untuk mengangkat ini di belakang firewall Anda dan melakukan lebih banyak analisis lanjutan Anda atau membawanya ke lingkungan BI atau analitik yang ada, itu adalah titik pentas yang sangat bagus. Karena Anda tidak ingin membawa satu miliar baris hari ke dalam gudang data Anda, itu tidak hemat biaya. Bahkan sulit jika Anda berencana untuk menyimpannya di suatu tempat dan kemudian mengunggah secara berkelompok.

Jadi, kita sering menjadi titik pertama di mana data dikumpulkan yang sudah di luar firewall.

Eric: Ya, itu poin yang sangat bagus juga. Karena banyak perusahaan akan gugup mengambil data pelanggan milik mereka, meletakkannya di cloud dan untuk mengelola seluruh proses.

Hannah: Ya.

Eric: Dan apa yang Anda bicarakan adalah membuat orang menjadi sumber daya untuk menghitung angka tugas berat itu, seperti yang Anda sarankan, data pihak ketiga seperti data seluler dan data sosial dan semua hal menyenangkan semacam itu. Itu sangat menarik.

Hannah: Ya, tentu saja. Dan mungkin mereka gugup tentang produk karena data sudah di luar. Dan jadi ya, sebelum membawanya, dan saya sangat suka istilah kilang, seperti yang saya sebutkan, versus danau. Jadi bisakah Anda melakukan beberapa kilang dasar? Keluarkan barang-barang bagus dan bawa di balik firewall ke sistem dan proses Anda yang lain untuk analisis yang lebih mendalam. Jadi benar-benar semua yang dapat dilakukan oleh para ilmuwan data, eksplorasi data real-time dari data besar baru ini yang mengalir masuk.

Eric: Ya, itu benar. Baiklah, izinkan saya maju dan membawa analis kami dan kami akan kembali dengan urutan terbalik. Saya akan mulai dengan Anda, Robin, sehubungan dengan Data Harta dan kemudian kita akan pergi ke Kirk untuk beberapa yang lain. Dan kemudian kembali ke Robin dan kembali ke Kirk hanya untuk mendapatkan penilaian lebih lanjut tentang ini.

Dan Anda tahu kilang data, Robin, yang Hannah bicarakan di sini. Saya suka konsep itu. Saya hanya mendengar beberapa orang membicarakannya seperti itu, tetapi saya pikir Anda memang pernah mengatakan itu sebelumnya. Dan itu benar-benar berbicara dengan apa yang sebenarnya terjadi pada data Anda. Karena, tentu saja, kilang, pada dasarnya menyaring barang-barang sampai ke tingkat akarnya, jika Anda berpikir tentang kilang minyak. Saya sebenarnya mempelajari ini untuk sementara waktu dan itu cukup mendasar, tetapi teknik yang masuk ke dalamnya harus benar atau Anda tidak mendapatkan barang yang Anda inginkan. Jadi saya pikir ini analogi yang bagus. Apa pendapat Anda tentang seluruh konsep Layanan Cloud Data Treasure ini yang membantu Anda menangani beberapa kebutuhan analitis yang sangat spesifik tanpa harus membawa barang sendiri?

Robin: Ya, maksud saya, jelas tergantung pada keadaan bagaimana nyamannya itu. Tapi siapa pun yang benar-benar sudah membuat proses sudah akan membuat Anda unggul dari permainan jika Anda belum mendapatkannya sendiri. Ini adalah takeaway pertama untuk sesuatu seperti itu. Jika seseorang mengumpulkan sesuatu, mereka telah melakukannya, itu sudah terbukti di pasar dan karena itu ada semacam nilai yang berlaku, yah, pekerjaan itu sudah masuk ke dalamnya. Dan ada juga fakta yang sangat umum bahwa pemurnian data akan menjadi masalah yang jauh lebih besar daripada sebelumnya. Maksud saya, itu tidak dibicarakan, menurut pendapat saya, itu tidak dibicarakan sebanyak yang seharusnya. Terlepas dari kenyataan bahwa ukuran data telah tumbuh dan jumlah sumber dan variasi sumber-sumber tersebut telah tumbuh cukup besar. Dan keandalan data dalam hal apakah itu bersih, mereka perlu menyatukan data, semua jenis masalah yang muncul hanya dalam hal tata kelola data.

Jadi sebelum Anda benar-benar bisa melakukan analisis yang andal, Anda tahu, jika data Anda kotor, maka hasil Anda akan condong dengan cara tertentu. Jadi itu adalah sesuatu yang harus dibenahi, yang harus diketahui. Dan triangulator menyediakan, sejauh yang saya bisa lihat, layanan yang sangat layak untuk membantu dalam hal itu.

Eric: Ya, tentu saja. Baiklah, izinkan saya maju dan membawa Kirk kembali ke persamaan di sini dengan sangat cepat. Saya ingin melihat salah satu slide ini dan hanya mendapatkan kesan Anda tentang hal-hal, Kirk. Jadi mungkin mari kita kembali ke slide MarkLogic ini. Ngomong-ngomong, Kirk menyediakan tautan, jika Anda tidak melihatnya, untuk beberapa slide penemuan kelasnya karena itu konsep yang sangat menarik. Dan saya pikir ini semacam menyeduh di belakang pikiran saya, Kirk, karena saya berbicara tentang ini beberapa saat yang lalu. Seluruh pertanyaan yang diajukan oleh salah satu peserta tentang bagaimana Anda mencari kelas baru. Saya suka topik ini karena ini memang berbicara pada jenis, sisi sulit mengkategorikan hal-hal karena saya selalu kesulitan mengategorikan hal-hal. Saya suka, "Ya Tuhan, saya bisa muat dalam lima kategori, di mana saya meletakkannya?" Jadi saya tidak ingin mengkategorikan apa pun, bukan?

Dan itulah mengapa saya menyukai pencarian, karena Anda tidak harus mengategorikannya, Anda tidak harus memasukkannya ke dalam folder. Cukup cari dan Anda akan menemukannya jika Anda tahu cara mencari. Tetapi jika Anda sedang dalam proses mencoba melakukan segmentasi, karena pada dasarnya itulah kategorisasi itu, itu adalah segmentasi; menemukan kelas baru, semacam itu hal yang menarik. Bisakah Anda berbicara tentang kekuatan pencarian dan semantik dan hierarki, misalnya, ketika Frank berbicara mengenai MarkLogic dan peran yang berperan dalam menemukan kelas baru, apa pendapat Anda tentang itu?

Kirk: Ya, pertama-tama, saya katakan Anda membaca pikiran saya. Karena itulah yang saya pikirkan tentang pertanyaan bahkan sebelum Anda berbicara, seluruh bagian semantik di sini yang disajikan oleh MarkLogic. Dan jika Anda kembali ke slide saya, Anda tidak perlu melakukan ini, tetapi kembali pada slide lima pada apa yang saya sajikan sore ini; Saya berbicara tentang semantik ini bahwa data perlu ditangkap.

Jadi seluruh ide pencarian ini, ini dia. Saya sangat meyakini hal itu dan saya selalu meyakini hal itu dengan data besar, semacam analogi Internet, maksud saya, hanya Web, maksud saya memiliki pengetahuan dan informasi dunia dan data di browser Web adalah satu hal. Tetapi untuk membuatnya dapat dicari dan diambil secara efisien sebagai salah satu perusahaan mesin pencari besar menyediakan bagi kita, maka di situlah kekuatan penemuan yang sebenarnya. Karena menghubungkan istilah pencarian, mengurutkan area minat pengguna ke granul data tertentu, halaman web tertentu, jika Anda ingin memikirkan contoh Web atau dokumen tertentu jika Anda berbicara tentang pustaka dokumen. Atau jenis segmen pelanggan tertentu jika itu adalah ruang Anda.

Dan semantik memberi Anda semacam lapisan pengetahuan di atas hanya pencarian kata. Jika Anda mencari jenis hal tertentu, memahami bahwa anggota kelas hal-hal tersebut dapat memiliki hubungan tertentu dengan hal-hal lain. Bahkan termasuk informasi hubungan semacam itu dan itu adalah informasi hierarki kelas untuk menemukan hal-hal yang mirip dengan apa yang Anda cari. Atau kadang-kadang bahkan kebalikan dari apa yang Anda cari, karena hal itu memberi Anda semacam inti pemahaman tambahan. Yah, mungkin sesuatu yang bertentangan dengan ini.

Eric: Ya.

Kirk: Jadi sebenarnya pahami ini. Saya bisa melihat sesuatu yang berlawanan dari ini. Dan lapisan semantik adalah komponen berharga yang sering hilang dan menarik sekarang bahwa ini akan muncul di sini di con ini. Karena saya telah mengajar kursus pascasarjana di bidang basis data, penambangan data, belajar dari data, ilmu data, apa pun yang Anda ingin menyebutnya selama lebih dari satu dekade; dan salah satu unit saya dalam kursus semester ini adalah semantik dan ontologi. Dan seringkali murid-murid saya akan melihat saya seperti apa hubungannya dengan apa yang kita bicarakan? Dan tentu saja pada akhirnya, saya pikir kita mengerti bahwa menempatkan data itu dalam semacam kerangka pengetahuan. Jadi, misalnya, saya mencari informasi tentang perilaku pelanggan tertentu, memahami bahwa perilaku itu terjadi, itulah yang dibeli orang di acara olahraga. Produk apa yang saya tawarkan kepada pelanggan saya ketika saya perhatikan di media sosial mereka - pada atau - bahwa mereka mengatakan akan pergi ke acara olahraga seperti sepak bola, baseball, hoki, Piala Dunia, apa pun itu.

Oke, acara olah raga. Jadi mereka bilang akan, misalnya, pertandingan baseball. Oke, saya mengerti bahwa baseball adalah acara olahraga. Saya mengerti itu biasanya sosial dan Anda pergi dengan orang-orang. Saya mengerti bahwa biasanya di ruang terbuka. Maksud saya, memahami semua fitur yang ada, itu memungkinkan semacam, lebih kuat, semacam, segmentasi pelanggan yang terlibat dan jenis personalisasi Anda dari pengalaman yang Anda berikan kepada mereka, misalnya, mereka berinteraksi dengan Anda ruang melalui aplikasi seluler saat mereka sedang duduk di stadion.

Jadi semua hal semacam itu hanya membawa jauh lebih banyak kekuatan dan potensi penemuan ke dalam data dalam jenis pengindeksan indeks butiran data oleh tempat semantik mereka dan ruang pengetahuan benar-benar cukup signifikan. Dan saya benar-benar terkesan yang keluar hari ini. Saya pikir ini adalah hal yang mendasar untuk dibicarakan.

Eric: Ya, tentu saja. Sangat penting dalam proses penemuan, sangat penting dalam proses klasifikasi. Dan jika Anda memikirkannya, Java bekerja di kelas. Ini berorientasi objek, saya kira, kurang lebih, Anda bisa mengatakan bentuk pemrograman dan Java berfungsi di kelas. Jadi, jika Anda benar-benar merancang perangkat lunak, seluruh konsep mencoba mencari kelas baru ini sebenarnya sangat penting dalam hal fungsi yang Anda coba sampaikan. Karena terutama di dunia baru ini, data besar yang sangat lebat dan liar di mana Anda memiliki begitu banyak Java di luar sana menjalankan begitu banyak aplikasi yang berbeda ini, Anda tahu ada 87.000 cara atau lebih untuk menyelesaikan sesuatu dengan komputer, untuk mendapatkan segala jenis bit fungsionalitas dilakukan.

Salah satu lelucon saya saat orang berkata, "Oh, Anda bisa membangun data warehouse menggunakan NoSQL." Saya suka, "yah, Anda bisa, ya, itu benar. Anda juga bisa membangun data warehouse menggunakan Microsoft Word." Itu bukan ide terbaik, itu tidak akan berkinerja sangat baik tetapi Anda benar-benar dapat melakukannya. Jadi kuncinya adalah Anda harus menemukan cara terbaik untuk melakukan sesuatu.

Lanjutkan.

Kirk: Biarkan saya menanggapi itu. Sangat menarik Anda menyebutkan contoh kelas Java yang tidak muncul di benak saya sampai Anda mengatakannya. Salah satu aspek dari Java dan kelas-kelas dan orientasi objek semacam itu adalah bahwa ada metode yang mengikat kelas-kelas tertentu. Dan ini benar-benar jenis yang saya coba dalam presentasi saya dan sekali Anda memahami beberapa butiran data ini - nugget pengetahuan ini, tag ini, anotasi dan label semantik ini - maka Anda dapat mengikat metode untuk itu. Mereka pada dasarnya memiliki reaksi atau respons ini dan meminta sistem Anda untuk memberikan respons otomatis dan proaktif untuk hal ini di lain waktu saat kami melihatnya dalam aliran data.

Sehingga konsep tindakan dan metode yang mengikat untuk kelas tertentu benar-benar merupakan salah satu kekuatan analitik waktu-nyata otomatis. Dan saya pikir Anda semacam memukul sesuatu.

Eric: Bagus, bagus, bagus. Nah, ini barang bagus. Jadi mari kita lihat, Will, saya ingin mengembalikannya kepada Anda dan benar-benar mengajukan pertanyaan kepada Anda dari audiens. Kami punya beberapa di sini juga. Dan teman-teman, kita akan lama karena kita ingin mendapatkan beberapa konsep hebat ini dalam pertanyaan-pertanyaan bagus ini.

Jadi, izinkan saya mengajukan pertanyaan kepada Anda dari salah satu nomor audiensi yang mengatakan, "Saya tidak benar-benar melihat bagaimana intelijen bisnis membedakan sebab dan akibat." Dengan kata lain, karena sistem membuat keputusan berdasarkan informasi yang dapat diamati, bagaimana mereka mengembangkan model baru untuk belajar lebih banyak tentang dunia? Ini adalah hal yang menarik jadi saya mendengar korelasi sebab-akibat di sini, analisis akar penyebab, dan itu adalah beberapa hal yang lebih canggih dalam analitik yang kalian bicarakan sebagai lawan dari BI tradisional, yang sebenarnya hanya semacam pelaporan dan jenis pemahaman apa yang terjadi. Dan tentu saja, seluruh arahan Anda, hanya dengan melihat slide Anda di sini, bergerak ke arah kemampuan prediksi untuk membuat keputusan itu atau setidaknya membuat rekomendasi itu, bukan? Jadi idenya adalah bahwa kalian mencoba untuk melayani seluruh jajaran dari apa yang terjadi dan Anda memahami bahwa kuncinya, sihir yang sebenarnya, ada dalam komponen sasaran analitis di sana di sebelah kanan.

Will: Tentu saja.Saya pikir pertanyaan itu agak mengintip ke masa depan, dalam arti bahwa ilmu data, seperti yang saya sebutkan sebelumnya, kami melihat slide dengan persyaratan ilmuwan data; ini adalah peran yang cukup menantang bagi seseorang untuk terlibat. Mereka harus memiliki pengetahuan statistik dan sains yang kaya. Anda harus memiliki pengetahuan domain untuk menerapkan pengetahuan matematika Anda ke domain. Jadi apa yang kita lihat hari ini adalah tidak ada alat prediktif out-of-the-box bahwa pengguna bisnis, seperti, dapat menarik di Excel dan secara otomatis memprediksi masa depan mereka, kan?

Memang membutuhkan pengetahuan canggih dalam teknologi pada tahap ini. Sekarang suatu hari nanti di masa depan, mungkin beberapa dari sistem ini, sistem skala-keluar ini menjadi hidup dan mulai melakukan beberapa hal liar. Tetapi saya akan mengatakan pada tahap ini, Anda masih harus memiliki ilmuwan data di tengah untuk terus membangun model, bukan model ini. Model-model prediktif di sekitar penambangan data dan semacamnya sangat disesuaikan dan dibangun oleh ilmuwan data. Mereka tidak dihasilkan sendiri, jika Anda tahu apa yang saya maksud.

Eric: Ya, persis. Itu benar sekali. Dan salah satu kalimat saya adalah "Mesin tidak berbohong, setidaknya belum."

Will: Belum, tepatnya.

Eric: Saya memang membaca sebuah artikel - saya harus menulis sesuatu tentang ini - tentang beberapa percobaan yang dilakukan di sebuah universitas di mana mereka mengatakan bahwa program komputer ini belajar berbohong, tetapi saya harus memberi tahu Anda, saya tidak benar-benar percaya itu . Kami akan melakukan riset tentang itu, teman-teman.

Dan untuk komentar terakhir, jadi Robin saya akan membawa Anda kembali untuk melihat platform WebAction ini, karena ini sangat menarik. Inilah yang saya sukai dari seluruh ruang adalah Anda mendapatkan perspektif dan sudut pandang berbeda yang diambil oleh berbagai vendor untuk melayani kebutuhan yang sangat spesifik. Dan saya suka format ini untuk pertunjukan kami karena kami mendapat empat vendor yang benar-benar menarik, sejujurnya, tidak benar-benar menginjak kaki satu sama lain. Karena kita semua melakukan sedikit berbeda dari kebutuhan keseluruhan yang sama yaitu menggunakan analitik, untuk menyelesaikan pekerjaan.

Tapi saya hanya ingin mendapatkan perspektif Anda tentang platform khusus ini dan arsitekturnya. Bagaimana mereka akan melakukan sesuatu. Saya merasa cukup menarik. Bagaimana menurut anda?

Robin: Ya, maksud saya, ini menunjuk pada hasil yang sangat cepat dari streaming data dan sebagai pencarian, Anda harus arsitek untuk itu. Maksud saya, Anda tidak akan lolos dari melakukan apa pun, amatir, karena kami mendapatkan semua itu. Saya mendengar ini sangat menarik dan saya pikir salah satu hal yang kita saksikan di masa lalu; Maksudku, saya pikir Anda dan saya, rahang kita telah semakin menurun selama beberapa tahun terakhir ketika kita melihat semakin banyak hal muncul yang seperti sangat cepat, sangat cerdas dan cukup banyak yang belum pernah terjadi sebelumnya.

Ini jelas, WebAction, ini bukan rodeo pertamanya. Sebenarnya sudah ada di luar sana mengambil nama sampai batas tertentu. Jadi saya tidak melihat tetapi seharusnya kita harus terkejut bahwa arsitekturnya cukup diaktifkan tetapi memang benar.

Eric: Baiklah, saya akan memberi tahu Anda apa, kawan. Kami terbakar selama 82 menit di sini. Maksud saya, terima kasih kepada semua orang yang telah mendengarkan sepanjang waktu. Jika Anda memiliki pertanyaan yang tidak dijawab, jangan malu-malu, dan jawablah untuk Anda. Kita harus memiliki dari saya berbaring di suatu tempat. Dan terima kasih yang sebesar-besarnya untuk presenter kami hari ini, untuk Dr. Kirk Borne dan Dr. Robin Bloor.

Kirk, saya ingin menjelajahi lebih jauh beberapa hal semantik itu bersama Anda, mungkin di webcast mendatang. Karena saya pikir kita sedang berada di tahap yang sangat baru dan menarik sekarang. Apa yang kita dapat dapat memanfaatkan banyak ide yang dimiliki orang-orang dan membuat mereka terjadi lebih mudah karena, coba tebak, perangkat lunak semakin murah, saya harus mengatakan. Itu semakin bermanfaat dan kami hanya mendapatkan semua data ini dari semua sumber yang berbeda ini. Dan saya pikir itu akan menjadi perjalanan yang sangat menarik dan menakjubkan selama beberapa tahun ke depan karena kami benar-benar menggali apa yang dapat dilakukan hal ini dan bagaimana hal itu dapat meningkatkan bisnis kami.

Terima kasih banyak untuk Techopedia juga dan, tentu saja, kepada para sponsor kami - Pentaho, WebAction, MarkLogic dan Data Harta. Dan teman-teman, wow, dengan itu kami akan menyimpulkan, tapi terima kasih banyak atas waktu dan perhatian Anda. Kami akan menangkap Anda dalam waktu sekitar satu setengah bulan untuk pertunjukan berikutnya. Dan tentu saja, ruang briefing terus berjalan; radio terus berjalan; semua seri webcast kami yang lain terus bergoyang dan berputar, kawan. Terima kasih banyak. Kami akan menangkap Anda lain kali. Sampai jumpa.