Kunci untuk Analisis Big Data Berkualitas: Memahami Berbeda - Transkrip Episode 4 TechWise - Teknologi

Isi

Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda

Sumber: Jakub Jirsak / Dreamstime.com

Bawa pulang:

Tuan rumah Eric Kavanagh membahas analisis data besar dengan pakar industri.

Eric: Hadirin sekalian, ini adalah akhir tahun 2014 - setidaknya, hampir. Ini siaran web terakhir kami tahun ini, semuanya! Selamat Datang di TechWise! Ya memang! Nama saya Eric Kavanagh. Saya akan menjadi moderator Anda untuk siaran web yang luar biasa, kawan. Saya sangat, sangat bersemangat. Kami memiliki dua analis hebat yang daring, dan dua perusahaan besar - inovator nyata dalam keseluruhan ekosistem data besar ini. Dan kita akan berbicara tentang kunci analitik data besar adalah memahami perbedaan. Jadi, ayo maju dan menyelam langsung, teman-teman.

Kami memiliki beberapa presenter. Seperti yang Anda lihat, ada milik Anda benar-benar di atas. Mike Ferguson menelepon jauh-jauh dari Inggris, di mana ia harus mendapatkan hak istimewa untuk tinggal di gedung kantornya selarut ini. Itulah terlambat baginya. Kami menemukan Dr. Robin Bloor, Kepala Analis kami sendiri di sini di Grup Bloor. Dan kita akan memiliki George Corugedo, CEO dan salah satu pendiri RedPoint Global, dan Keith Renison, Arsitek Solusi Senior dari SAS Institute. Ini adalah perusahaan yang fantastis, kawan. Ini adalah perusahaan yang benar-benar berinovasi. Dan kami akan menggali beberapa hal baik dari apa yang terjadi di sana saat ini di seluruh dunia data besar. Dan hadapi saja, data kecil belum hilang. Dan untuk itu, izinkan saya memberikan ringkasan eksekutif saya di sini.

Jadi, ada ungkapan Prancis kuno: "Semakin banyak hal berubah, semakin mereka tetap sama." Dan mari kita hadapi beberapa fakta di sini - data besar tidak akan menyelesaikan masalah data kecil. Data kecil perusahaan masih ada di luar sana. Masih di mana-mana. Ini adalah bahan bakar operasi untuk ekonomi informasi saat ini. Dan big data menawarkan pujian untuk apa yang disebut data perusahaan kecil, tetapi itu tidak menggantikan data kecil. Masih akan ada. Saya suka banyak hal tentang data besar, terutama hal-hal seperti data yang dihasilkan mesin.

Dan hari ini, kita mungkin akan berbicara sedikit tentang data media sosial, yang juga merupakan hal yang sangat kuat. Dan jika Anda berpikir tentang, misalnya, bagaimana sosial telah mengubah bisnis, baiklah pikirkan tiga situs web cepat di sini:, LinkedIn dan. Pikirkan fakta bahwa lima tahun yang lalu, tidak ada yang melakukan hal semacam itu. adalah raksasa mutlak hari ini. tentu saja sangat besar. Itu raksasa. Dan kemudian, LinkedIn adalah standar de-facto untuk jaringan dan komunikasi perusahaan. Situs-situs ini sangat besar, dan untuk dapat memanfaatkan data yang ada di dalamnya, itu akan menghidupkan kembali beberapa fungsi yang mengubah permainan. Ini benar-benar akan memberikan banyak manfaat bagi banyak organisasi - setidaknya yang memanfaatkannya.

Tanpa Bug, Tanpa Stres - Panduan Langkah Demi Langkah Anda untuk Membuat Perangkat Lunak yang Mengubah Hidup Tanpa Menghancurkan Kehidupan Anda

Anda tidak dapat meningkatkan keterampilan pemrograman Anda ketika tidak ada yang peduli dengan kualitas perangkat lunak.

Jadi, tata kelola - tata kelola masih penting. Sekali lagi, big data tidak membatalkan kebutuhan tata kelola. Sejujurnya, ada kebutuhan yang sama sekali baru untuk fokus pada bagaimana mengatur dunia big data. Bagaimana Anda memastikan bahwa Anda memiliki prosedur dan kebijakan yang berlaku; bahwa orang yang tepat mendapatkan akses ke data yang benar; bahwa Anda memiliki kontak, Anda memiliki garis keturunan yang terlibat di sini? Anda benar-benar tahu dari mana data berasal, apa yang terjadi padanya. Dan itu semua berubah.

Terus terang saya benar-benar terkesan dengan apa yang saya lihat di sana di seluruh dunia baru ini memanfaatkan ekosistem Hadoop, yang, tentu saja, lebih dari sekadar penyimpanan dalam hal fungsi. Hadoop adalah mesin komputasi juga. Dan perusahaan harus mencari tahu bagaimana memanfaatkan kekuatan komputasi itu, kemampuan pemrosesan paralel itu. Mereka akan melakukan hal-hal yang sangat, sangat keren. Kami akan belajar tentang itu hari ini.

Hal lain lagi, ini adalah sesuatu yang Dr. Bloor telah bicarakan di masa lalu, adalah bahwa gelombang inovasi belum berakhir. Jadi, kami telah melihat banyak, tentu saja, perhatian di sekitar Hadoop. Kami telah melihat perusahaan seperti Cloudera dan Hortonworks, Anda tahu, benar-benar membuat beberapa gelombang. Dan mereka mengembangkan kemitraan dengan, yah, perusahaan-perusahaan yang dipanggil hari ini, cukup jujur. Dan mereka mengembangkan kemitraan dengan banyak orang. Namun gelombang inovasi belum berakhir. Ada lebih banyak proyek yang keluar dari Yayasan Apache yang berubah tidak hanya titik akhirnya, jika Anda mau - aplikasi yang digunakan orang - tetapi infrastruktur itu sendiri.

Jadi, seluruh pengembangan YARN ini - lagi negosiator sumber daya lainnya - benar-benar seperti sistem operasi untuk data besar. Dan itu masalah besar. Jadi, kita akan belajar bagaimana hal itu mengubah banyak hal juga. Jadi, hanya sedikit nasihat yang jelas di sini, waspadai kontrak panjang ke depan, Anda tahu, lima, kontrak sepuluh tahun akan menjadi gelombang, jalan yang menurut saya. Anda ingin menghindari penguncian dengan cara apa pun. Kami akan mempelajari semua itu hari ini.

Jadi, analis pertama kami yang berbicara hari ini - pembicara pertama kami dari seluruh program adalah Mike Ferguson, menelepon dari Inggris. Dengan itu, saya akan memberi Anda kunci, Mike, dan membiarkan Anda mengambilnya. Mike Ferguson, lantai adalah milikmu.

Mike, kamu di sana? Anda mungkin bisu. Saya tidak mendengarnya. Kita mungkin harus memanggilnya kembali. Dan kami akan langsung melompat ke slide Robin Bloor. Robin, saya akan menarik Mike Ferguson yang malang di sini. Saya akan pergi sebentar.

Apakah itu kamu, Mike? Bisakah kamu mendengar kami? Tidak Saya pikir kita harus pergi dulu dan pergi bersama Robin dulu. Jadi, tunggu sebentar, teman. Saya akan menarik beberapa tautan ke slide di sini dalam beberapa menit juga. Maka dengan itu, izinkan saya menyerahkan kunci kepada Robin Bloor. Robin, Anda bisa pergi dulu, bukan Mike, dan saya akan menelepon Mike sebentar lagi.

Robin: Oke.

Eric: Tunggu, Rob. Biarkan saya pergi ke depan dan mendapatkan slide Anda di sini, Rob. Ini akan memakan waktu sebentar.

Robin: Oke.

Eric: Ya. Anda dapat berbicara tentang apa yang kami hadapi, di sini dalam hal tata kelola. Saya tahu Anda akan berbicara tentang tata kelola. Itu biasanya dipikirkan dalam con data perusahaan kecil. Jadi sekarang, saya punya slide, Robin. Jangan memindahkan apa pun. Dan ini dia. Lantai adalah milikmu. Bawa pergi.

Robin: Oke. Ya. Maksudku, yah, kita agak mengatur sebelumnya, Mike akan berbicara tentang sisi analitis, dan saya akan berbicara tentang sisi tata kelola. Hingga taraf tertentu, tata kelola mengikuti analitik dalam arti bahwa itu adalah alasan Anda melakukan hal-hal big data, dan alasan Anda mengumpulkan semua perangkat lunak untuk melakukan analitik adalah, di situlah nilainya.

Ada masalah. Dan masalahnya adalah, Anda tahu, data harus diperjelas. Data harus disusun. Data harus disatukan dan dikelola sedemikian rupa sehingga memungkinkan analitik berlangsung dengan penuh keyakinan - saya kira, itulah kata. Jadi, saya pikir yang saya bicarakan adalah sisi tata kelola persamaan. Saya kira, hal untuk dikatakan, sungguh, adalah bahwa, Anda tahu, pemerintahan sudah menjadi masalah. Tata kelola sudah menjadi masalah, dan mulai menjadi masalah di seluruh permainan data warehouse.

Apa yang sebenarnya terjadi adalah ini berubah menjadi masalah yang jauh lebih besar. Dan alasan itu berubah menjadi masalah yang jauh lebih besar serta lebih banyak data, tapi maksud saya, inilah alasannya, sungguh. Jumlah sumber data telah berkembang secara dramatis. Sebelumnya, sumber data yang kita miliki pada umumnya ditentukan oleh apa pun yang memberi makan gudang data. Gudang data biasanya akan dimasukkan oleh sistem RTP. Mungkin sedikit data eksternal, tidak banyak.

Sekarang, kita telah pergi ke dunia di mana, Anda tahu, pasar data muncul sekarang, dan oleh karena itu, akan ada perdagangan data. Anda sudah mendapatkan banyak dan banyak sumber streaming data yang benar-benar dapat Anda bawa ke organisasi. Kami punya data media sosial yang telah mengambilnya, diambil dari akunnya sendiri, untuk berbicara. Maksudku, banyak sekali, nilai di situs media sosial sebenarnya adalah informasi yang mereka himpun dan karena itu dapat tersedia untuk orang.

Kami juga mendapatkan penemuan, Anda tahu, sepertinya mereka sudah ada. Kami sudah memiliki file-file log, Anda tahu, dalam munculnya Splunk. Dan segera, menjadi jelas bahwa ada nilai dalam file log. Jadi, ada data di dalam organisasi yang - yang bisa kita sebut sumber data baru serta sumber eksternal. Jadi, itu satu hal. Dan itu benar-benar berarti bahwa, Anda tahu, aturan apa pun dari manajemen data yang kami miliki sebelumnya, mereka harus, dengan satu atau lain cara diperluas, dan akan terus perlu diperluas untuk benar-benar mengatur data. Tetapi kami sekarang mulai berkumpul dengan satu atau lain cara.

Dan turun daftar ini kami memiliki streaming dan kecepatan kedatangan data. Salah satu, saya pikir, alasan popularitas Hadoop adalah dapat digunakan untuk menangkap banyak data. Itu juga dapat mencerna kecepatan data, bahwa jika Anda tidak benar-benar perlu menggunakannya segera, itu adalah lingkungan paralel yang sangat bagus dan paralel. Tapi Anda juga mendapatkan fakta bahwa ada cukup banyak analisis streaming yang sedang berlangsung sekarang. Dulu hanya sektor perbankan yang tertarik dalam streaming aplikasi, tapi sekarang sudah agak global. Dan semua orang melihat aplikasi streaming dengan satu atau lain cara, cara potensial untuk memperoleh nilai dari data dan melakukan analisis untuk organisasi.

Kami mendapatkan data yang tidak terstruktur. Statistik, biasanya bagian dari hanya 10% dari data dunia dalam database relasional. Sekarang, salah satu alasan utama untuk sebagian besar itu sebenarnya tidak terstruktur, dan itu - banyak di luar sana di Web, tetapi cukup banyak bertebaran tentang berbagai situs web. Data itu terbukti juga dapat dianalisis, juga dapat digunakan. Dan dengan munculnya teknologi Symantec yang secara bertahap merayap ke dalam situasi, semakin menjadi lebih dan lebih lagi.Jadi, ada kebutuhan untuk benar-benar mengumpulkan dan mengelola data yang tidak terstruktur, dan itu berarti jauh lebih besar dari sebelumnya. Kami punya data sosial yang sudah saya sebutkan, tapi intinya, poin utama tentang itu, mungkin perlu dibersihkan.

Kami punya data Internet of Things. Itu semacam situasi yang berbeda. Mungkin ada banyak hal seperti itu, tetapi banyak yang harus tetap didistribusikan di suatu tempat dekat tempat ia beroperasi. Tetapi Anda juga akan ingin, dengan satu atau lain cara, menariknya untuk melakukan analisis dalam organisasi pada data. Jadi, itu menambahkan faktor lain lagi. Dan data itu akan terstruktur dengan cara yang berbeda, karena kemungkinan akan - mungkin akan diformat dalam JSON atau dalam XML, sehingga menyatakan sendiri. Dan tidak hanya, dengan satu atau lain cara, kita benar-benar menarik data dan dapat melakukan semacam skema baca pada potongan data tertentu.

Kami memiliki masalah sumber, dan ini adalah masalah analitik. Hasil dalam analisis apa pun yang Anda lakukan data benar-benar tidak dapat - jika Anda suka - disetujui, dianggap sah, kecuali Anda tahu asal datanya. Maksud saya, itu hanya profesionalisme dalam hal aktivitas para ilmuwan data. Tapi tahukah Anda, agar memiliki sumber data, itu berarti bahwa kami benar-benar harus mengatur data dan mencatat garis keturunannya.

Kami memiliki masalah daya komputer dan paralel dan apa yang dilakukan adalah membuat semuanya berjalan lebih cepat. Masalahnya adalah, tentu saja, proses tertentu yang kami miliki mungkin terlalu lambat untuk yang lainnya. Jadi, mungkin ada ketidakcocokan dalam hal kecepatan.

Kami mendapat kemajuan pembelajaran mesin. Pembelajaran mesin memiliki efek, membuat analitik permainan yang berbeda dari sebelumnya. Tetapi Anda hanya dapat benar-benar menggunakannya jika Anda memiliki kekuatan.

Kami mendapatkan fakta tentang beban kerja analitik yang baru. Kami memiliki dunia paralel dan beberapa algoritma analitis perlu dijalankan secara paralel untuk efek maksimum. Dan karena itu masalahnya sebenarnya adalah mengatur bagaimana Anda sebenarnya, dengan satu atau lain cara, mendorong data di sekitar, membuat data jika tersedia. Dan di mana Anda benar-benar menjalankan beban kerja analitis, karena Anda mungkin melakukan itu di dalam basis data. Jadi, Anda mungkin melakukannya dalam aplikasi analitis.

Jadi, ada serangkaian tantangan tata kelola. Apa yang kami lakukan tahun ini - penelitian yang kami lakukan tahun ini benar-benar seputar arsitektur data besar. Dan ketika kami benar-benar mencoba untuk menggeneralisasikannya, kesimpulan yang kami dapatkan - diagram yang kami buat tampak sangat mirip.

Saya tidak akan membahas ini, terutama karena Mike akan melakukan cukup banyak pada arsitektur data untuk analitik. Tapi yang sebenarnya saya suka orang-orang hanya fokuskan adalah area bawah di mana kita, dalam satu dan lain hal, mengumpulkan data. Kami memiliki sesuatu yang ingin saya rujuk adalah kilang data atau hub pemrosesan data. Dan di situlah tata kelola berlangsung. Jadi, Anda tahu, jika kita fokus, sepertinya itu. Anda tahu, itu diumpankan oleh data dari sumber internal dan eksternal. Hub harus, secara teori, mengambil semua data yang dihasilkan. Itu harus dialirkan dan dikelola seperti yang dialirkan jika Anda perlu melakukan analisis dan streaming data, dan kemudian diteruskan ke hub. Atau yang lain, semuanya datang ke hub. Dan ada beberapa hal yang terjadi - yang terjadi di hub. Dan Anda tidak dapat memiliki sejumlah analitik dan SQL tertentu di hub. Tetapi Anda juga perlu virtualisasi data di setiap sel untuk mendorong data ke area lain. Tetapi sebelum hal itu terjadi, Anda sebenarnya perlu, dengan satu atau lain cara, untuk melakukan penyempurnaan persiapan data. Anda bisa menyebutnya persiapan data. Jauh lebih besar dari itu. Ini adalah hal-hal yang saya pikir termasuk di dalamnya.

Kami memiliki manajemen sistem dan manajemen layanan, dalam arti, bahwa ini adalah bagian utama dari lapisan data, maka kami benar-benar harus menerapkan semua sistem yang mengelola upaya manajemen sistem operasional yang secara tradisional telah kami lakukan pada hampir semua sistem operasional. Tetapi kita juga perlu, dalam satu atau lain cara, untuk memantau hal-hal lain yang terjadi untuk memastikan berbagai tingkat layanan ini terpenuhi, karena ada pasti akan didefinisikan tingkat layanan atau segala jenis analitik yang sedang ditindaklanjuti, atau data BI adalah ditindaklanjuti.

Kami membutuhkan pemantauan dan manajemen kinerja. Jika ada yang lain, kita perlu itu untuk mengetahui sumber daya komputer apa lagi yang mungkin perlu kita alokasikan pada berbagai titik waktu. Tetapi juga, banyak sekali beban kerja di sini pada kenyataannya, cukup rumit dan saling bersaing untuk sumber daya. Ada sesuatu yang cukup canggih yang perlu dilakukan di daerah itu.

Kami sekarang memiliki siklus hidup data dengan cara yang belum pernah kami miliki sebelumnya. Kesepakatan di sini benar-benar di atas dan di luar hal lain, bahwa kami tidak mengumpulkan data dan membuangnya sebelumnya. Kami cenderung mengumpulkan data yang kami butuhkan dan mungkin menyimpannya, lalu mengarsipkannya. Tapi banyak hal buruk yang akan kita lakukan mulai dari sini adalah mengeksplorasi data. Dan jika Anda tidak ingin datanya, biarkan menguburnya. Jadi, siklus hidup data adalah hal yang berbeda tergantung pada situasinya, tetapi juga akan lebih banyak agregasi data. Karena itu, Anda tahu, mengetahui dari mana suatu agregat berasal dari apa ... apa sumber agregasi itu, dan seterusnya dan seterusnya. Itu semua perlu.

Silsilah data dipinjamkan secara alami. Tanpa itu, Anda harus tahu masalahnya, jadi datanya ... Kita harus tahu datanya valid, tetapi dengan seberapa andal itu sebenarnya.

Kami juga punya pemetaan data, karena banyak data yang sebenarnya akan, dalam satu atau lain cara. Dan ini, jika Anda suka, ini berhubungan sampai batas tertentu di MDM. Hanya saja, ini jauh lebih rumit sekarang, karena ketika Anda memiliki banyak sekali data yang ditentukan oleh JSON atau berdasarkan skema XML kami saat dibaca, maka Anda harus, dengan satu atau lain cara, sangat aktif aktivitas pemetaan data berlangsung.

Ada situasi manajemen metadata yang lebih dari MDM, karena ada kebutuhan, dalam satu atau lain cara, untuk membangun apa yang ingin saya pikirkan sekarang sebagai semacam gudang metadata dari segala sesuatu yang Anda minati. Ada metadata penemuan, karena beberapa data belum tentu menyatakan metadata-nya, dan kami ingin segera menggunakannya. Dan kemudian, ada pembersihan data, yang merupakan hal besar seperti bagaimana serangkaian hal yang dapat dilakukan di sana. Dan ada keamanan data juga. Semua data ini harus diamankan ke tingkat yang dapat diterima, dan itu mungkin berarti dalam kasus tertentu - misalnya, mengenkripsi banyak nilai.

Jadi, semua beban kerja ini sebenarnya adalah kerajaan pemerintahan. Semua ini, dengan satu atau lain cara, harus dilakukan pada saat yang sama atau sebelumnya, semua aktivitas analitis kami. Ini adalah sejumlah besar aplikasi terkoordinasi. Ini adalah sistem dengan sendirinya. Dan kemudian, mereka yang tidak melakukannya di berbagai titik waktu akan menderita kekurangan saat mereka maju, karena banyak dari hal-hal ini tidak benar-benar opsional. Anda berakhir dengan peningkatan entropi jika Anda tidak melakukannya.

Jadi, dalam hal analitik data dan tata kelola, hal yang saya katakan adalah, sungguh, satu tangan mencuci tangan lainnya. Tanpa tata kelola, analitik, dan BI tidak akan gagal dalam waktu. Dan tanpa analitik dan BI, tidak akan ada banyak kebutuhan untuk mengatur data. Jadi, dua hal itu benar-benar berjalan beriringan. Seperti yang mereka katakan di Timur Tengah, "Satu tangan mencuci tangan yang lain." Dan hanya itu yang harus saya katakan. Saya harap - semoga, sekarang kita mendapatkan Mike kembali.

Eric: Ya. Mike, saya kira Anda ada di sana. Saya akan mendorong slide Anda ke atas.

Mike: Saya. Oke, bisakah kamu mendengarku?

Eric: Ya, saya bisa mendengarmu. Kamu terdengar luar biasa. Jadi, izinkan saya memperkenalkan ... Ini dia. Dan Anda sekarang adalah presenter. Bawa pergi.

Mike: Baiklah, terima kasih! Selamat pagi, selamat sore, selamat malam untuk kalian semua di luar sana. Maafkan cegukan di awal. Untuk beberapa alasan, saya menjadi bisu dan dapat melihat semua orang tetapi mereka tidak dapat mendengar saya.

Baik. Jadi, yang ingin saya lakukan dengan cepat adalah berbicara tentang, Anda tahu, ekosistem analitik data besar. Jika Anda ingin bertanya kepada saya, saya akan mengatakan, di sesi ini atau nanti, Anda dapat menghubungi saya di detail kontak saya di sini. Seperti yang saya katakan, di tengah malam di sini di Inggris.

Baiklah, biarkan saya mencapai apa yang ingin saya bicarakan. Jelas, selama beberapa tahun terakhir, kami telah melihat munculnya semua jenis data yang baru ditemukan yang ingin dianalisis oleh bisnis - mulai dari data clickstream hingga memahami perilaku online, data media sosial yang Eric bicarakan di mulai dari program di sini. Saya pikir Robin menyebutkan JSON, BSON, XML - jadi, data semi-terstruktur yang menggambarkan diri sendiri. Tentu saja, kami juga memiliki banyak hal lainnya - semuanya dari data yang tidak terstruktur, log infrastruktur TI, data sensor. Semua sumber data yang relatif baru yang menjadi perhatian bisnis karena mengandung wawasan berharga yang berpotensi memperdalam apa yang kita ketahui.

Jadi, itu pada dasarnya berarti lanskap analitik telah bergerak melampaui pergudangan data tradisional. Kami masih menyusun data ke dalam dunia kombinasi dari data terstruktur dan multi-terstruktur, di mana data multi-terstruktur dapat berasal dari dalam atau dari luar perusahaan dalam banyak kasus. Dan sebagai hasil dari tipe data baru ini dan kebutuhan baru untuk dianalisis, kami telah melihat munculnya beban kerja analitis baru - mulai dari menganalisis data yang bergerak, yang mengubah arsitektur pergudangan data tradisional di kepalanya, agak, di mana kami , dalam lingkaran tradisional, mengintegrasikan data, membersihkannya, mengubahnya, menyimpannya dan menganalisisnya. Tetapi menganalisis data dalam gerakan, kami menangkap data, mengintegrasikannya, menyiapkannya dengan menganalisisnya, lalu menyimpannya. Jadi, ada analisis yang terjadi pada data sebelum disimpan di mana saja.

Kami analisis kompleks data terstruktur, mungkin untuk pengembangan model, statistik dan pengembangan model prediktif, itu bukan hal baru bagi sebagian orang di ruang penyimpanan data tradisional. Kami memiliki analisis eksplorasi data pada model. Itulah jumlah data terstruktur di sana. Kami mendapat beban kerja baru dalam bentuk analisis grafik yang untuk klien saya di bidang jasa keuangan mencakup hal-hal seperti penipuan. Ini juga termasuk keamanan cyber. Ini termasuk jejaring sosial, tentu saja, memahami influencer dan hal-hal seperti itu di sana. Saya bahkan menguasainya dalam manajemen, memiliki beberapa tahun analisis grafik.

Kami mendapatkan optimasi data warehouse atau pembongkaran pemrosesan ETL, yang lebih merupakan semacam kasus penggunaan TI, CIO mungkin mendanai itu. Dan bahkan pengarsipan data dan gudang data untuk tetap online dalam hal-hal seperti Hadoop. Jadi, semua beban kerja analitis baru ini telah menambahkan platform baru, platform penyimpanan baru, ke lanskap analitik. Jadi, alih-alih hanya memiliki gudang data tradisional, data mart, yang sekarang kita dapatkan adalah Hadoop. Kami memiliki basis data NoSQL seperti basis data grafik yang sering digunakan untuk beban kerja analitis. Tentu saja, kita dapat melakukan analisis grafik sekarang di Hadoop itu sendiri maupun dalam DBMS grafik NoSQL. Kami memiliki analitik streaming yang disebutkan Robin. Dan kami punya - jika Anda suka - membangun model, mungkin pada peralatan gudang data analitik juga. Tetapi semua itu telah memperumit lanskap analitis, kini banyak platform dibutuhkan. Dan saya kira tantangan dari, untuk bisnis apa pun dengan kantor depan atau kantor belakang, atau keuangan, pengadaan, SDM, dan beberapa jenis operasi, adalah untuk mencari tahu proyek analitis mana yang terkait dengan adegan pergudangan data tradisional. Dan begitu Anda tahu proyek analitis terkait dengan platform big data baru ini dan ke mana harus menjalankannya, Anda tahu, beban kerja analitis apa, tetapi tidak melupakan bisnis dalam arti itu - Anda sekarang akan melihatnya sebagai kombinasi dari big proyek analitik data dan proyek pergudangan big data tradisional yang bersama-sama diperlukan untuk memperkuat di dalam sekitar pelanggan atau di sekitar operasi, di sekitar risiko, atau keuangan atau keberlanjutan. Dan oleh karena itu, kami ingin semua ini selaras dengan prioritas bisnis strategis kami, yang kami ikuti, Anda tahu, mendorong jarum yang perlu didorong, Anda tahu, untuk meningkatkan kinerja bisnis, untuk mengurangi biaya, untuk mengurangi risiko, dll., Anda tahu, bagi perusahaan kami secara keseluruhan. Jadi, bukan yang satu menggantikan yang lain di sini dengan data besar dan tradisional. Keduanya digunakan bersama. Dan itu secara dramatis mengubah arsitektur, Anda tahu.

Jadi, yang saya miliki di sini adalah arsitektur yang relatif baru yang akan saya gunakan dengan klien saya. Jadi, seperti yang Anda lihat sekarang di bagian bawah, sejumlah besar sumber data, bukan hanya terstruktur lagi. Beberapa di antaranya adalah streaming data langsung seperti sensor, seperti data pasar, hal semacam itu. Bahkan bisa berupa data clickstream langsung. Itu bisa berupa data streaming video langsung. Jadi itu tidak harus terstruktur. Jadi, kita dapat melakukan pemrosesan aliran pada data tersebut untuk mengambil tindakan otomatis dalam waktu nyata, dan data apa pun yang menarik dapat disaring dan diteruskan ke alat manajemen informasi perusahaan yang dapat digunakan untuk mengisi penyimpanan data analitis. Kecuali jika Anda dapat melihat dalam campuran di sini, sekarang kami memiliki gudang data tradisional, basis data Hadoop dan NoSQL. Kami juga memiliki manajemen data master dalam campuran. Dan itu memberi lebih banyak tekanan pada seluruh rangkaian alat manajemen data, tidak hanya untuk mengisi penyimpanan data ini tetapi juga untuk memindahkan data di antara mereka.

Selain itu, kita harus menyederhanakan alat akses. Kami tidak bisa hanya berpaling kepada pengguna dan berkata, "dapatkan semua penyimpanan data ini, tahan API ini - masalah Anda." Yang harus Anda lakukan adalah menyederhanakan akses. Jadi, seperti di garis putus-putus di sana, Anda akan melihat virtualisasi data dan pengoptimalan adalah semacam menyembunyikan kompleksitas penyimpanan data ganda, coba dan buat lebih mudah bagi pengguna akhir untuk mengakses ini. Dan tentu saja, ada berbagai alat di atas, Anda tahu - semuanya dari alat BI tradisional yang telah dimulai di bagian atas pergudangan data, secara bertahap bergerak ke kiri bagan Anda untuk jenis terhubung ke Hadoops dan kemudian basis data NoSQL di dunia.

Kami mendapat penelusuran yang mendapatkan masa sewa baru untuk hidup terutama di sekitar data terstruktur dan tidak terstruktur yang sering disimpan di Hadoop. Kami punya aplikasi analitik khusus untuk dilakukan pada platform Hadoop dengan MapReduce, jadi kerangka kerja Spark, misalnya. Kami punya alat analisis grafik untuk, Anda tahu, fokus pada beban kerja yang sangat spesifik di sana. Jadi, berbagai alat dan aliran data juga lebih kompleks. Itu tidak lagi hanya jalan satu arah di gudang data. Sekarang data master, tentu saja.

Kami memiliki sumber data baru yang masuk, baik ditangkap di NoSQL, Anda tahu, menyimpan data seperti MongoDB, seperti Cassandra, seperti HBase. Kami mendapatkan data yang dibawa langsung ke Hadoop untuk analisis dan persiapan data di sana. Kami mendapat wawasan baru dari Hadoop dan gudang data. Kami punya arsip yang keluar dari gudang data ke Hadoop. Sekarang kita mendapat umpan data, Anda tahu, semua basis data NoSQL dan data mart juga. Jadi, yang dapat Anda lihat di sini adalah, ada jauh lebih banyak kegiatan yang terjadi dalam pengelolaan data. Dan itu berarti menempatkan perangkat lunak manajemen data di bawah tekanan yang cukup besar. Itu tidak lagi hanya jalan satu arah. Ini perpindahan data dua arah. Ini lebih banyak aktivitas yang terjadi, dan oleh karena itu, skalabilitas penting di bagian depan alat manajemen data maupun pada sumber data.

Jadi, bagan ini kembali ke arsitektur yang saya sebutkan tadi. Ini menunjukkan kepada Anda berbagai beban kerja analitis yang berjalan di berbagai bagian arsitektur ini. Semacam di bagian kiri bawah sana, Anda punya streaming waktu-nyata, pemrosesan aliran terjadi pada data yang keluar, Anda tahu, segala jenis penyimpanan data langsung. Kami mendapatkan analisis kelas yang terjadi pada basis data grafik NoSQL. Itu juga bisa terjadi pada Hadoop. Dengan kerangka kerja Spark, misalnya, dan GraphX di sana, kami mendapatkan analisis investigasi dan kilang data yang dibicarakan Robin tentang terjadi di Hadoop. Kami memiliki beban kerja tradisional yang masih berlangsung dan pergudangan data, Anda tahu, pengguna listrik membangun model statistik dan prediksi, mungkin pada peralatan gudang data. Dan kami masih berusaha menyederhanakan akses ke semua ini untuk memudahkan pengguna akhir.

Jadi, kesuksesan di seluruh pengaturan ini lebih dari sekedar sisi analitis. Anda tahu, kami bisa meletakkan platform analitik, tetapi jika kami tidak bisa menangkap dan mencerna, Anda tahu, kecepatan tinggi dan data volume tinggi, pada skala, tidak ada gunanya. Anda tahu, saya tidak punya apa-apa untuk dianalisis. Jadi, kesuksesan analitik data besar memang membutuhkan sistem operasional untuk ditingkatkan. Itu berarti, untuk dapat mendukung transaksi baru, Anda tahu, puncak. Anda tahu, setiap data non-transaksional yang ditangkap mungkin ada, Anda tahu, tingkat kedatangan baru sangat, tingkat kedatangan sangat tinggi pada data kecepatan tinggi seperti sensor atau konsumsi apa pun. Kita harus dapat memenuhi semua itu - untuk dapat menangkap data semacam ini dan membawanya untuk dianalisis. Kami juga harus mengukur analitiknya sendiri, menyederhanakan akses ke data yang sudah saya sebutkan. Dan kemudian, ikat itu. Anda tahu, kami harus dapat memperbaiki kembali ke dalam sistem operasional untuk memberikannya loop tertutup.

Jadi, menskalakan sisi operasional rumah untuk mengambil data, Anda tahu, memasukkan ke dalam dunia basis data NoSQL. Maksud saya, di sini Anda melihat lima kategori basis data NoSQL. Kategori ini akan dimodelkan hanya sebagai kombinasi dari empat lainnya di atas. Secara umum, Anda tahu, nilai-nilai kuncinya, dokumen tersimpan, dan basis data keluarga kolom - tiga yang pertama di sana - yang merupakan jenis yang digunakan untuk jenis data transaksional dan non-transaksional.

Beberapa dari database tersebut mendukung sebagai properti; beberapa dari mereka tidak. Namun demikian, Anda tahu, kami melihat pengenalan mereka untuk meningkatkan aplikasi semacam itu. Jadi, misalnya, ketika kami telah beralih dari hanya karyawan yang melakukan transaksi di keyboard ke sekarang pelanggan dan massa menggunakan perangkat baru untuk dapat melakukan itu. Kami telah melihat peningkatan luar biasa dalam jumlah transaksi yang dimasukkan ke perusahaan. Jadi, kita perlu mengukur aplikasi transaksional untuk melakukan itu.

Sekarang, secara umum, itu dapat dilakukan pada database NewSQL sebagai database relasional seperti NuoDB dan VoltDB yang ditunjukkan di sini. Atau beberapa basis data NoSQL yang mungkin mendukung properti ACID yang dapat menjamin pemrosesan transaksi mungkin sedang berjalan. Ini juga berlaku untuk data non-transaksional seperti data keranjang belanja sebelum transaksi, Anda tahu, sebelum orang membeli barang, data sensor, Anda tahu, karena saya kehilangan pembacaan sensor di antara ratusan juta pembacaan sensor. Itu bukan masalah besar. Klik, Anda tahu, di dunia clickstream - jika saya menggunakan klik, itu bukan masalah besar.Jadi, Anda tahu, kami tidak perlu harus memiliki properti ACID di sana, dan sering kali di mana basis data NoSQL ikut berperan, ia ada di sana - kemampuan untuk melakukan pemrosesan yang sangat tinggi dan tepat pada skala untuk menangkap jenis data baru ini.

Pada saat yang sama, kami ingin skala analitik. Jadi, menarik data dari penyimpanan data ke platform analitis tidak lagi akan meretasnya karena datanya terlalu besar. Apa yang benar-benar kita inginkan adalah mendorong analitik dengan cara lain, turun ke gudang data perusahaan ke Hadoop, ke pemrosesan aliran untuk dapat mendorong analitik ke data. Namun, hanya karena seseorang mengatakan itu dalam analisis basis data atau dalam analisis Hadoop tidak berarti analitik berjalan secara paralel. Dan sejujurnya, jika Anda akan berinvestasi dalam teknologi skalabilitas paralel baru yang masif ini seperti Hadoop, seperti peralatan gudang data dan yang lainnya, seperti mesin pengolah aliran berkerumun, kami memerlukan analitik untuk berjalan secara paralel.

Jadi, itu hanya check out. Anda tahu, jika kami memiliki analitik untuk membantu memprediksi berbagai hal untuk pelanggan, untuk operasi, untuk risiko, dll., Kami ingin mereka berjalan secara paralel, bukan hanya berjalan di platform. Kami menginginkan keduanya. Dan itu karena, Anda tahu, teknologi seperti alat penemuan visual baru seperti SAS juga. Ini sebenarnya salah satu sponsor kami di sini.

Satu hal yang orang inginkan adalah setidaknya untuk mengeksploitasi mereka yang ada di Hadoop dan kemudian dalam analisis database. Dan kami ingin mereka berjalan secara paralel agar dapat memberikan kinerja yang dibutuhkan pada volume data yang tinggi. Pada saat yang sama, kami mencoba menyederhanakan akses ke semua ini. Jadi, SQL sekarang kembali ke agenda. Anda tahu, SQL adalah - SQL on Hadoop sedang panas saat ini. Saya melacaknya di 19 inisiatif SQL dan Hadoop sekarang. Plus, Anda bisa lihat, kita bisa mendapatkan data ini, Anda tahu, dalam sejumlah cara sehingga secara langsung mengakses SQL pada Hadoop itu sendiri, kita bisa masuk SQL ke indeks pencarian. Dengan cara seperti, Anda tahu, beberapa vendor pencarian di ruang itu, kita dapat memiliki akses SQL ke database relasional analitis yang memiliki tabel Excel ke Hadoop.

Kita sekarang dapat memiliki akses SQL ke server virtualisasi data yang kemudian dapat dihubungkan ke gudang data di Hadoop. Saya bahkan sekarang mulai melihat munculnya akses SQL ke data streaming langsung. Jadi, akses SQL untuk semua ini berkembang pesat. Dan bagian dari tantangannya adalah, hanya karena akses SQL sedang dipasarkan di luar sana. Pertanyaannya adalah, bisakah SQL menangani data yang kompleks? Dan itu belum tentu mudah. Ada semua jenis komplikasi di sini, termasuk fakta bahwa data JSON dapat disarangkan. Kita dapat memiliki catatan varian skema. Jadi, catatan pertama telah mendapat satu skema. Rekor kedua telah mendapat skema yang berbeda. Hal-hal ini sangat berbeda dari apa yang terjadi di dunia relasional.

Jadi, kita perlu mengajukan pertanyaan tentang jenis data apa yang ingin kita analisis, dan seperti apa karakteristik analitiknya. Apakah itu, Anda tahu, panel yang ingin Anda lakukan? Apakah ini pembelajaran mesin? Apakah ini analisis grafik? Bisakah Anda melakukannya dari SQL? Anda tahu, apakah itu tidak dapat dibatalkan dari SQL? Berapa banyak pengguna bersamaan yang telah kami lakukan ini? Anda tahu, kami memiliki ratusan pengguna secara bersamaan. Apakah itu mungkin pada data yang kompleks? Anda tahu, semua hal ini adalah pertanyaan kunci. Jadi, saya membuat beberapa daftar di sini yang saya pikir harus Anda pertimbangkan. Anda tahu, format file seperti apa? Jenis data apa yang sedang kita bicarakan? Fungsi analitis seperti apa yang dapat kita gunakan dari SQL untuk mendapatkan data yang kompleks? Dan jenis fungsi berjalan secara paralel. Maksud saya, mereka harus berjalan secara paralel jika kita harus dapat mengukur ini. Dan bisakah saya bergabung dengan data di Hadoop hari ini di luarnya, Anda tahu, atau itu tidak bisa dilakukan? Dan apa yang akan saya lakukan dengan semua jenis beban kerja permintaan ini?

Dan seperti yang akan kita lihat, Anda tahu, dari apa yang saya lihat, ada banyak perbedaan di distribusi SQL dan Hadoop. Ini semua yang saya lacak. Omong-omong, itu SQL murni di Hadoop. Itu bahkan tidak termasuk virtualisasi data pada titik ini. Jadi, banyak di luar sana dan banyak ruang untuk konsolidasi, yang saya pikir akan terjadi pada tahun depan, delapan belas bulan atau lebih. Tapi itu juga membuka satu hal lagi, yaitu saya dapat berpotensi beberapa mesin SQL pada data yang sama di Hadoop. Dan itu sesuatu yang tidak bisa Anda lakukan dalam hubungan.

Tentu saja, itu berarti Anda harus tahu, tahu, seperti apa beban kerja kueri yang saya jalankan? Haruskah saya menjalankannya dalam batch pada inisiatif SQL on Hadoop tertentu? Haruskah saya menjalankan beban kerja kueri interaktif melalui inisiatif SQL on Hadoop lain, dll., Sehingga saya tahu yang mana yang harus disambungkan? Idealnya, tentu saja, kita tidak boleh melakukan itu. Kita seharusnya, mengajukan pertanyaan tentang itu. Anda tahu, beberapa angka optimizer merupakan cara terbaik untuk melakukannya. Tapi saya belum sepenuhnya di sana, menurut saya.

Namun demikian, juga virtualisasi data, yang saya sebutkan sebelumnya memiliki peran yang sangat penting untuk menyederhanakan akses ke beberapa penyimpanan data. Dan jika kita memang menciptakan wawasan baru tentang Hadoop, tentu masuk akal bagi kita untuk bergabung dengan data-ke-data dan gudang data tradisional melalui virtualisasi data, misalnya, tanpa harus memindahkan data dari Hadoop ke gudang data tradisional. Tentu saja, Anda bisa melakukannya juga. Juga masuk akal jika saya mengarsipkan data dari gudang data tradisional ke Hadoop. Saya masih bisa mendapatkannya dan bergabung kembali ke hal-hal yang ada di gudang data kami ke virtualisasi data. Jadi, bagi saya, saya pikir virtualisasi data telah mendapatkan masa depan yang besar dalam arsitektur keseluruhan ini dan menyederhanakan akses ke semua penyimpanan data ini.

Dan jangan lupa bahwa ketika kita membuat wawasan baru ini, apakah itu pada sistem relasional atau NoSQL, kami masih ingin mengarahkan wawasan tersebut ke dalam operasi kami, sehingga kami dapat memaksimalkan nilai dari apa yang kami temukan, sehingga kami dapat memanfaatkan itu untuk keputusan yang lebih efektif, lebih tepat waktu di lingkungan itu untuk mengoptimalkan bisnis kami.

Jadi, untuk menyelesaikannya, apa yang saya lihat, maka, adalah kita perlu, Anda tahu, sumber data baru muncul. Kami punya platform baru dengan arsitektur yang lebih rumit, jika Anda mau, untuk mengatasinya. Dan Hadoop menjadi sangat, sangat penting, cukup untuk persiapan data untuk kotak pasir cair kami, untuk permintaan arsip, arsip dari gudang data, manajemen data melebarkan sayapnya untuk melampaui penyimpanan data menjadi pengelolaan data di semua platform ini, dan alat baru untuk menjadi mampu menganalisis dan mengakses data dalam lingkungan ini, untuk dapat memiliki teknologi yang dapat diskalakan untuk melakukan lebih baik dalam mencerna data, dan meningkatkan analitik dengan mendorongnya ke dalam platform untuk membuatnya lebih paralel. Dan kemudian, semoga, juga untuk menyederhanakan akses ke semua itu melalui SQL yang muncul yang datang dari atas. Jadi, ini memberi Anda gambaran tentang ke mana tujuan kami. Jadi, dengan itu, saya akan meneruskan, saya kira, Eric sekarang, kan?

Eric: Oke, itu luar biasa. Dan harus saya katakan, antara apa yang baru saja Anda dapatkan dari Robin dan Mike, ini mungkin tentang yang komprehensif dan ringkas dalam tinjauan seluruh lanskap dari melihat ketika Anda akan menemukan di mana saja. Biarkan saya pergi dulu dan mengantri George Corugedo pertama. Dan itu dia. Biarkan saya mengambil ini sebentar. Baiklah, George, saya akan menyerahkan kunci kepada Anda, dan mengambilnya. Lantai adalah milikmu.

George: Hebat! Terima kasih banyak, Eric, dan terima kasih, Rob dan Mike. Itu informasi hebat dan banyak yang kami setujui. Jadi, kembali ke diskusi Robin, karena, Anda tahu, itu bukan kebetulan bahwa RedPoint ada di sini dan SAS ada di sini. Karena RedPoint, kami benar-benar fokus pada sisi data tentang tata kelola, pada pemrosesan data dan persiapan untuk digunakan dalam analitik. Jadi, biarkan saya menerobos dua slide ini. Dan benar-benar berbicara tentang dan memahami poin Robin tentang MDM dan betapa pentingnya, dan betapa bermanfaatnya, saya pikir - dan kami pikir - Hadoop dapat berada di dunia MDM dan kualitas data.

Anda tahu, Robin berbicara sedikit tentang, Anda tahu, bagaimana ini terkait dengan dunia data warehouse perusahaan dan saya datang - Anda tahu, saya telah menghabiskan beberapa tahun di Accenture. Dan yang menarik adalah berapa kali kami harus masuk ke perusahaan dan mencoba mencari tahu apa yang harus dilakukan dengan data warehouse yang pada dasarnya telah ditinggalkan. Dan banyak dari itu terjadi karena tim data warehouse tidak benar-benar menyelaraskan bangunan mereka dengan pengguna bisnis atau konsumen data. Atau, hanya butuh waktu sangat lama sehingga pada saat mereka membangunnya, penggunaan bisnis atau alasan bisnis untuk itu telah berkembang.

Dan salah satu hal yang saya pikir adalah, saya sangat bersemangat, gagasan menggunakan Hadoop untuk manajemen data master, untuk kualitas data dan untuk persiapan data, adalah kenyataan bahwa Anda selalu dapat kembali ke data atom dalam Danau data Hadoop atau reservoir data, atau penyimpanan data, atau hub, atau apa pun bentuk buzz yang ingin Anda gunakan. Tetapi karena Anda selalu menyimpan data atom itu, maka Anda selalu memiliki kesempatan untuk menyelaraskan kembali dengan pengguna bisnis. Karena, sebagai seorang analis - karena saya benar-benar memulai karir saya sebagai ahli statistik - Anda tahu, tidak ada yang lebih buruk daripada, Anda tahu, gudang data perusahaan sangat bagus untuk mengarahkan laporan, tetapi jika Anda ingin melakukan analisis yang benar-benar prediktif, mereka benar-benar tidak berguna, karena apa yang Anda inginkan adalah data perilaku granular yang entah bagaimana diringkas dan dikumpulkan dalam data warehouse. Jadi, saya pikir itu benar-benar fitur penting, dan itu satu hal yang saya pikir mungkin saya tidak setuju dengan Robin adalah bahwa saya pribadi akan meninggalkan data di danau data atau hub data selama mungkin, karena selama data ada dan bersih, Anda dapat melihatnya dari satu arah, arah lain. Anda dapat menggabungkannya dengan data lain. Anda selalu memiliki kesempatan untuk kembali ke sana dan merestrukturisasi, dan kemudian menyelaraskan diri Anda dengan unit bisnis dan kebutuhan yang mungkin dimiliki unit ini.

Salah satu hal menarik lainnya adalah karena ini adalah platform komputasi yang sangat kuat, banyak dari beban kerja yang telah kita bicarakan, kita melihat semuanya datang langsung ke Hadoop. Dan sementara, saya pikir, Mike berbicara tentang semua teknologi berbeda yang ada di dunia - dalam tipe ekosistem data besar ini, kami berpikir bahwa Hadoop benar-benar pekerja keras untuk melakukan skala besar dalam pemrosesan intensif komputer yang data master dan kualitas data memerlukan. Karena jika Anda bisa melakukannya di sana, Anda tahu, hanya ekonomi semata-mata memindahkan data dari database mahal Anda ke dalam database ekonomis, ini benar-benar mendorong begitu banyak pengambilan sekarang di perusahaan besar.

Sekarang, tentu saja, ada beberapa tantangan, bukan? Ada tantangan di sekitar teknologi. Banyak dari mereka sangat tidak dewasa. Saya katakan, Anda tahu, saya tidak tahu berapa banyak, tetapi sejumlah teknologi yang disebutkan Mike masih dalam rilis zero-point-something, kan? Jadi, teknologi ini sangat muda, sangat tidak matang, masih berbasis kode. Dan itu benar-benar menciptakan tantangan bagi perusahaan. Dan kami benar-benar fokus untuk menyelesaikan masalah di tingkat perusahaan. Jadi, kami pikir harus ada cara yang berbeda, dan itulah yang kami usulkan adalah cara yang berbeda untuk melakukan beberapa hal dalam menggunakan beberapa teknologi yang sangat baru ini.

Jadi, dan kemudian masalah menarik lainnya di sini, yang telah disebutkan sebelumnya yaitu, ketika Anda memiliki data yang Anda tangkap di lingkungan Hadoop dari jenis apa pun, Anda tahu, biasanya skema skema baca daripada skema penulisan dengan beberapa pengecualian. Dan bacaan itu, banyak yang sedang dilakukan oleh ahli statistik. Jadi, para ahli statistik harus memiliki alat yang memungkinkan mereka menyusun data dengan tepat untuk tujuan analitik, karena pada akhirnya, untuk membuat data bermanfaat, data harus disusun dalam beberapa bentuk untuk melihat beberapa atau menjawab pertanyaan atau sebuah bisnis, beberapa jenis bisnis, menciptakan nilai bisnis.

Jadi, di mana kita masuk, adalah bahwa kita memiliki EPL yang sangat luas dan matang, kunci utama kualitas data ELT dan aplikasi manajemen. Sudah di pasar selama bertahun-tahun. Dan ia memiliki semua fungsionalitas atau banyak fungsi yang didaftar Robin dalam grafik melingkar itu - mulai dari penangkapan data mentah murni dalam berbagai format dan struktur XML dan whatnots, hingga kemampuan untuk melakukan semua pembersihan, penyelesaian data, koreksi data, bit inti geospasial data. Itu sesuatu yang menjadi semakin penting hari ini dengan Internet of Things. Anda tahu, ada geografi yang terkait dengan banyak hal yang kami lakukan atau banyak dari data itu. Jadi, semua penguraian, tokenization, pembersihan, koreksi, pemformatan, penataan, dll., Semua itu dilakukan di platform kami.

Dan kemudian, dan mungkin, kita berpikir yang paling penting adalah gagasan deduplikasi. Anda tahu, pada intinya, jika Anda melihat definisi manajemen data master, intinya adalah deduplikasi. Itu dapat mengidentifikasi entitas di berbagai sumber data, dan kemudian membuat catatan master untuk entitas itu. Dan entitas itu bisa menjadi seseorang. Entitas dapat menjadi bagian dari pesawat terbang, misalnya. Entitas tersebut dapat berupa makanan seperti yang telah kami lakukan untuk salah satu klien klub kesehatan kami. Kami telah membuat basis data makanan utama untuk mereka. Jadi, apa pun entitas yang kita kerjakan - dan tentu saja, semakin banyak, ada orang dan proksi untuk identitas mereka yang merupakan hal-hal seperti pegangan atau akun sosial, perangkat apa pun yang terkait dengan orang, beberapa hal seperti mobil dan telepon, dan apa pun yang Anda bayangkan.

Anda tahu, kami bekerja dengan klien yang memasukkan segala macam sensor ke dalam pakaian olahraga. Jadi, datanya datang dari segala arah. Dan dalam satu atau lain cara, itu adalah refleksi atau representasi entitas inti. Dan semakin banyak, itulah orang-orang dan kemampuan untuk mengidentifikasi hubungan antara semua sumber data ini dan bagaimana mereka berhubungan dengan entitas inti tersebut, dan kemudian dapat melacak entitas inti tersebut dari waktu ke waktu sehingga Anda dapat menganalisis dan memahami perubahan antara entitas itu. dan semua elemen lain yang ada dalam representasi entitas itu, yang sangat penting untuk analisis jangka panjang dan longitudinal orang, misalnya. Dan itu benar-benar salah satu manfaat yang sangat penting yang, saya pikir, data besar dapat membawa kita adalah pemahaman yang jauh lebih baik tentang orang, dan dalam jangka panjang, dan memahami con dan bagaimana orang berperilaku ketika mereka berperilaku melalui perangkat apa, dll. .

Jadi, izinkan saya pindah ke sini dengan cepat. Eric menyebut BENANG. Anda tahu, saya membuang ini hanya sebentar, karena sementara BENANG - orang berbicara tentang BENANG. Masih ada banyak ketidaktahuan, saya pikir, tentang BENANG. Dan tidak banyak orang yang benar-benar - masih ada banyak kesalahpahaman tentang BENANG. Dan faktanya adalah jika aplikasi Anda dirancang dengan cara yang benar, dan Anda memiliki level atau paralelisasi yang tepat dalam arsitektur aplikasi Anda, maka Anda dapat memanfaatkan YARN untuk menggunakan Hadoop sebagai platform penskalaan Anda. Dan itulah yang kami lakukan.

Anda tahu, sekali lagi, hanya untuk menunjukkan beberapa definisi di sekitar BENANG. Bagi kami, benar-benar apa YARN telah memungkinkan kami untuk diri kami sendiri dan organisasi lain menjadi rekan untuk MapReduce dan Spark, dan semua alat lain yang ada di luar sana. Tetapi kenyataannya adalah bahwa aplikasi kami mendorong kode yang dioptimalkan langsung ke BENANG ke Hadoop. Dan ada komentar yang sangat menarik yang disebutkan Mike, karena, Anda tahu, pertanyaan tentang analytics dan analytics kami, hanya karena mereka ada di cluster, apakah mereka benar-benar berjalan secara paralel? Anda dapat mengajukan pertanyaan yang sama tentang banyak alat kualitas data yang ada di luar sana.

Sebagian besar hari, alat-alat berkualitas yang ada di luar sana baik harus mengeluarkan data atau mereka mendorong kode. Dan dalam banyak kasus, itu adalah aliran data tunggal yang sedang diproses karena cara Anda harus membandingkan catatan, kadang-kadang dalam jenis kegiatan kualitas data. Dan faktanya adalah karena kami memanfaatkan YARN, kami dapat benar-benar memanfaatkan paralelisasi.

Dan hanya untuk memberi Anda gambaran singkat, karena komentar lain dibuat tentang pentingnya dapat memperluas basis data tradisional, basis data baru, dll., Kami menerapkan atau kami menginstal di luar cluster. Dan kami mendorong binari kami langsung ke manajer sumber daya, BENANG. Dan itu, dan kemudian BENANG mendistribusikannya di node dalam cluster. Dan apa yang dilakukan adalah, BENANG itu - kami mengizinkan BENANG untuk mengelola dan melakukan tugasnya, yaitu untuk mencari tahu di mana data itu berada dan membawa pekerjaan ke data, kode ke data, dan tidak memindahkan data ke sekitarnya. Ketika Anda mendengar alat kualitas data dan mereka memberi tahu Anda praktik terbaik adalah memindahkan data keluar dari Hadoop, jalankan seumur hidup Anda, karena itu bukan seperti itu adanya. Anda ingin mengambil pekerjaan ke data. Dan itulah yang BENAR lakukan pertama kali. Membawa binari kita ke node tempat data berada.

Dan juga karena kita berada di luar cluster, kita juga dapat mengakses semua database tradisional dan relasional sehingga kita dapat memiliki pekerjaan yang 100% server klien pada basis data tradisional, 100% Hadoop atau pekerjaan hibrid yang melintasi server klien Hadoop , Oracle, Teradata - apa pun yang Anda inginkan dan semuanya dalam pekerjaan yang sama, karena satu implementasi dapat mengakses kedua sisi dunia.

Dan kemudian, kembali ke seluruh gagasan tentang perlunya alat, Anda lihat di sini, ini hanya representasi sederhana. Dan apa yang kami coba lakukan adalah menyederhanakan dunia. Dan cara kami melakukannya adalah dengan menghadirkan serangkaian fungsionalitas yang sangat luas di sekitar HDFS untuk membuatnya ... Dan itu bukan karena kami mencoba menghilangkan semua teknologi inovatif di luar sana. Hanya perusahaan yang membutuhkan stabilitas, dan mereka tidak menyukai solusi berbasis kode. Jadi, yang kami coba lakukan adalah memberi perusahaan lingkungan aplikasi yang akrab, dapat diulang, dan konsisten yang memberi mereka kemampuan untuk membangun dan memproses data dengan cara yang sangat mudah diprediksi.

Dengan cepat, ini adalah jenis dampak yang kita dapatkan dengan aplikasi kita. Anda melihat MapReduce vs. Pig vs. RedPoint - tidak ada baris kode di RedPoint. Enam jam pengembangan di MapReduce, tiga jam pengembangan di Babi, dan 15 menit pengembangan di RedPoint. Dan di situlah kita benar-benar memiliki dampak yang sangat besar. Waktu pemrosesan juga lebih cepat, tetapi waktu orang, waktu produktivitas orang, meningkat secara signifikan.

Dan slide terakhir saya di sini, saya ingin kembali ke ide ini, karena ini adalah cara kami menggunakan danau data atau hub data, atau kilang data sebagai titik pusat konsumsi. Tidak bisa lebih setuju dengan gagasan itu. Dan saat ini kami sedang dalam diskusi dengan banyak kepala petugas data dari bank global utama, dan ini adalah arsitektur pilihan.Pengambilan data dari semua sumber melakukan pemrosesan kualitas data dan manajemen data master di dalam danau data, dan kemudian, mendorong data ke mana harus pergi untuk mendukung aplikasi, untuk mendukung BI, apa pun itu. Dan kemudian, jika Anda memiliki analitik di BI, mereka dapat berjalan langsung di dalam danau data, di mana semuanya menjadi lebih baik, yang dapat segera dimulai. Tapi sangat setuju dengan ide ini. Topologi ini di sini adalah salah satunya - yang kami temukan mendapatkan banyak daya tarik dari pasar. Dan itu saja.

Eric: Oke, bagus. Mari kita bergerak ke sini. Saya akan pergi ke depan dan menyerahkannya ke Keith. Dan, Keith, Anda punya sekitar 10, 12 menit untuk mengguncang rumah di sini. Kami butuh waktu agak lama dalam pertunjukan ini. Dan kami mengiklankan 70 menit untuk ini. Jadi, silakan saja dan klik di mana saja pada slide itu dan gunakan panah bawah dan bawa pergi.

Keith: Tentu. Tidak masalah, Eric. Saya menghargainya. Saya akan pergi ke depan dan membahas beberapa hal tentang SAS, lalu saya akan pindah ke, langsung ke arsitektur teknologi di mana SAS bersinggungan dengan dunia data besar. Ada banyak hal untuk dijelaskan dalam semua hal ini. Kita bisa menghabiskan waktu berjam-jam untuk membahasnya dengan sangat terperinci, tetapi sepuluh menit - Anda harus bisa pergi hanya dengan pemahaman singkat tentang di mana SAS telah mengambil analisis, manajemen data, dan teknologi intelijen bisnis ke dalam dunia data besar ini.

Pertama, hanya sedikit tentang SAS. Jika Anda tidak terbiasa dengan organisasi ini, kami telah, selama 38 tahun terakhir, telah melakukan analisis, intelijen bisnis, dan manajemen data canggih dengan tidak hanya data besar, tetapi juga data kecil dan kekayaan data selama 38 tahun terakhir. Kami memiliki pelanggan yang sangat besar, sekitar 75.000 situs di seluruh dunia, bekerja dengan beberapa organisasi terkemuka di luar sana. Kami adalah organisasi swasta dengan sekitar 13.000 karyawan dan pendapatan $ 3 miliar. Dan benar-benar, saya kira, bagian yang penting adalah kita secara tradisional memiliki sejarah lama menginvestasikan kembali sejumlah besar pendapatan kita kembali ke organisasi R&D kita, yang benar-benar membawa banyak teknologi dan platform luar biasa ini kepada Anda. akan melihat hari ini.

Jadi, saya akan langsung beralih ke diagram arsitektur yang sangat menakutkan ini. Kami akan bekerja dari kiri ke kanan di slide saya. Jadi, ada hal-hal umum yang akan Anda lihat di dalam platform ini. Di sisi kiri, semua sumber data yang sedang kita bicarakan menelan ke dalam platform data besar ini. Dan kemudian, Anda memiliki platform data besar ini.

Saya belum menempatkan kata Hadoop di bagian atas, karena pada akhirnya, contoh-contoh yang akan saya berikan hari ini secara khusus seputar semua teknologi tempat kami bersinggungan dengan platform big data ini. Hadoop kebetulan menjadi salah satu di mana kami memiliki beberapa opsi penyebaran yang paling kuat, tetapi kami juga cukup banyak bersinggungan dan telah mengembangkan banyak teknologi ini untuk beberapa waktu dengan beberapa mitra gudang data perusahaan kami lainnya seperti Teradata, Oracle, Pivotal dan sejenisnya. Jadi, saya tidak dapat menjelaskan secara rinci tentang semua teknologi berbeda yang didukung pada platform mana, tetapi yakinlah bahwa semua yang saya jelaskan hari ini sebagian besar adalah Hadoop dan sebagian besar dari mereka bersinggungan dengan mitra teknologi lain yang kita punya. Jadi, kita punya platform sebesar itu di sana.

Yang berikutnya tepat di sebelah kanan, kami memiliki SAS LASR Analytic Server kami. Sekarang, itu pada dasarnya, adalah paralel besar dalam server aplikasi memori analitik. Kami akan jelas bahwa ini bukan basis data dalam memori. Ini benar-benar dirancang dari bawah ke atas. Ini bukan mesin kueri, tetapi dirancang untuk melayani permintaan analitik dalam skala besar secara paralel secara masif. Jadi, itulah aplikasi kunci layanan yang Anda lihat di sana di sebelah kanan.

Kami akan membahas sedikit tentang, Anda tahu, bagaimana orang menyebarkan hal-hal ini. Tetapi pada dasarnya, aplikasi - yang Anda lihat di sana - yang pertama, adalah analitik kinerja tinggi SAS kami. Itu akan menjadi - Saya menggunakan banyak teknologi dan platform kami yang ada seperti Enterprise Miner atau hanya SAS, dan tidak hanya melakukan multithreading dengan beberapa algoritma yang telah kami buat ke dalam alat-alat yang telah kami lakukan untuk tahun, tetapi juga secara paralel paralel dengan mereka. Jadi, untuk memindahkan data dari platform data besar ke ruang memori ke LASR Analytic Server, sehingga kita dapat menjalankan algoritma analitik - Anda tahu, banyak pembelajaran mesin baru, jaring saraf, regresi hutan acak, jenis-jenis hal - lagi, data duduk di memori. Jadi, menyingkirkan hambatan paradigma MapReduce tertentu tempat kami didaftarkan ke platform itu, itu bukan cara Anda ingin melakukan pekerjaan analitik. Jadi, kami ingin dapat mengangkat data satu kali ke ruang memori dan mengulanginya, Anda tahu, kadang-kadang ribuan kali. Jadi, itulah konsep menggunakan Server LASR Analytic berkinerja tinggi itu.

Kami juga - aplikasi lain di bawahnya, analitik visual, yang memungkinkan kami untuk mempertahankan data dalam memori dan melayani populasi yang lebih besar pada data yang sama. Jadi, memungkinkan orang untuk melakukan eksplorasi data besar. Jadi, sebelum melakukan pengembangan model kami bekerja, kami mengeksplorasi data, memahaminya, menjalankan korelasi, melakukan peramalan atau tren pohon keputusan - hal-hal semacam itu - tetapi dengan cara yang sangat visual, interaktif pada data yang tersimpan dalam memori peron. Itu juga melayani komunitas BI kami sejauh memiliki basis pengguna yang sangat luas yang dapat mencapai platform itu untuk melakukan jenis rekaman standar yang Anda lihat - yang mana hampir semuanya, Anda tahu, vendor BI di luar sana.

Langkah selanjutnya, kita pindah ke layanan. Dan untuk membantu ahli statistik kami dan orang-orang analitik kami untuk dapat melakukan pemodelan ad-hoc semacam itu dengan data yang tersimpan dalam memori, dihapus dari analisis visual dan eksplorasi ke dalam aplikasi statistik visual kami. Ini adalah kesempatan bagi orang untuk mengambil, untuk tidak menjalankan statistik dalam batch yang digunakan untuk melakukan iterasi, menjalankan model, melihat hasilnya. Jadi, yang bisa menjalankan model, lihat hasilnya. Ini untuk menarik dan melepas secara visual ke dalam pemodelan statistik interaktif. Jadi, ini melayani ahli statistik dan ilmuwan data kami untuk melakukan banyak pekerjaan statistik visual eksplorasi awal.

Dan kemudian, kami tidak melupakan coders kami - orang-orang yang benar-benar ingin memilikinya, dapat mengupas lapisan antarmuka yang berlawanan, adalah menulis aplikasi, dan menulis basis kode mereka sendiri di SAS. Dan itulah statistik di dalam memori kami untuk Hadoop. Dan itu adalah - pada dasarnya lapisan kode yang memungkinkan kita untuk berinteraksi dengan Server LASR Analitik itu untuk mengeluarkan perintah secara langsung dan menyesuaikan aplikasi tersebut berdasarkan permintaan kita. Itu bagian analitik.

Bagaimana hal-hal ini diatur ... Ups, saya minta maaf kawan. Itu dia.

Jadi, sebenarnya ada beberapa cara di mana kita melakukan ini. Salah satunya adalah melakukannya dengan data besar - dalam hal ini, dengan Hadoop. Dan di situlah kami memiliki SAS LASR Analytic Server yang berjalan di sekelompok mesin terpisah yang dioptimalkan untuk analitik hardcore. Ini terletak bagus dan dekat dengan platform big data, memungkinkan kami untuk mengukurnya secara terpisah dari platform big data. Jadi, kami melihat orang-orang melakukan ini ketika mereka tidak ingin memiliki semacam apa yang saya cirikan seperti perangkat lunak vampir menggerogoti setiap node di cluster Hadoop mereka. Dan mereka tidak perlu mengukur platform data besar yang sesuai untuk melakukan analitik berat dalam memori. Jadi, Anda mungkin memiliki 120 node cluster Hadoop mereka, tetapi mereka mungkin memiliki 16 node server analitik yang dirancang untuk melakukan pekerjaan semacam itu.

Kami masih diizinkan untuk mempertahankan paralelisme dari platform big data untuk menarik data ke dalam memori. Jadi, ini adalah SAS yang menggunakan platform Hadoop. Maka model perjanjian yang berbeda adalah mengatakan, kita dapat menggunakan platform komoditas itu dan mendorongnya - pada dasarnya menjalankan Server LASR Analitik pada platform Hadoop. Jadi, di situlah kami ... Anda beroperasi di dalam platform data besar. Itu juga beberapa vendor alat kami yang lain. Jadi, itu memungkinkan kami untuk menggunakan platform komoditas itu untuk melakukan pekerjaan itu.

Kami melihat bahwa lebih sering dengan hal-hal seperti analitik kinerja tinggi di mana itu adalah jenis analitik satu-melayani atau penggunaan-tunggal, lebih banyak jenis berorientasi batch di mana Anda - Anda tidak ingin selalu mengkonsumsi ruang memori di Hadoop peron. Kami sangat fleksibel dalam model penyebaran seperti ini, pasti dalam kerja sama kami dengan YARN dalam banyak kasus ini untuk memastikan bahwa kami bermain dalam kelompok yang baik.

Oke, jadi itu dunia analitik, hanya untuk menjadi jelas di sana dengan aplikasi analitik. Tetapi saya menyebutkan bahwa SAS pada awalnya juga merupakan platform manajemen data. Dan ada hal-hal yang sesuai untuk mendorong logika ke platform itu jika perlu. Jadi, ada beberapa cara di mana kita melakukan itu. Salah satunya ada di dunia integrasi data, melakukan transformasi data bekerja pada data mungkin tidak masuk akal untuk menariknya keluar seperti yang kita dengar sebelumnya, menjalankan rutinitas kualitas data yang besar. Kami ingin mendorong hal-hal seperti rutinitas kualitas data ke dalam platform itu. Dan kemudian, hal-hal seperti mencetak model. Jadi, saya membuat model saya dikembangkan. Saya tidak ingin menulis ulang hal itu di MapReduce dan menyulitkan dan menyita waktu bagi saya untuk mengulangi pekerjaan itu di platform basis data asli.

Jadi, jika Anda melihat, misalnya, akselerator skor kami untuk Hadoop, yang memungkinkan kami untuk secara esensial mengambil model dan mendorong logika matematika SAS ke dalam platform Hadoop dan menjalankannya di sana, menggunakan paralelisme yang ada di dalam platform data besar itu. Kami kemudian memiliki akselerator kode kami untuk berbagai platform termasuk Hadoop, dan itu memungkinkan kami untuk secara esensial menjalankan kode langkah data SAS di dalam platform secara paralel secara masif - jadi, melakukan transformasi data jenis pekerjaan di platform. Dan kemudian akselerator kualitas data SAS kami yang memungkinkan kami untuk memiliki basis pengetahuan berkualitas yang dapat melakukan hal-hal seperti pencocokan gender, kode pencocokan standardisasi - semua hal kualitas data yang berbeda yang telah Anda dengar hari ini.

Dan kemudian, bagian terakhir, ada Loader Data. Kami tahu pengguna bisnis kami harus dapat tidak harus menulis kode, melakukan transformasi data bekerja di platform data besar ini. Data Loader adalah GUI WYSIWYG yang bagus yang memungkinkan kita untuk menggabungkan teknologi-teknologi lain tersebut menjadi satu. Ini seperti panduan walk-through untuk, katakanlah, menjalankan kueri Hive atau menjalankan rutinitas kualitas data dan tidak harus menulis kode dalam kasus itu.

Hal terakhir yang saya sebutkan adalah bagian depan ini. Kami telah - seperti yang saya sebutkan sebelumnya - kaki SAS besar di dunia. Dan ini, kita tidak bisa serta merta melakukan semua platform yang ada di luar sana untuk segera berada di ruang ini. Jadi, kami pasti memiliki kaki pengguna yang ada yang perlu mendapatkan data di platform data besar ini, seperti mengeluarkan data dari Teradata dan memasukkannya kembali ke Hadoop, dan sebaliknya. Menjalankan model saya sudah tahu cara menjalankan di server SAS saya, tetapi saya perlu mendapatkan data yang sekarang ditempatkan di platform Hadoop. Jadi, ada ikon kecil lain di sana yang disebut "dari," dan itu memungkinkan kita untuk terhubung menggunakan mesin akses SAS kami - mesin akses ke Hadoop ke Cloudera di Pola, ke Teradata, ke Greenplum ke ... Dan daftarnya berlanjut. Hal ini memungkinkan kami untuk menggunakan platform SAS dewasa kami yang sudah ada yang sudah ada untuk mendapatkan data dari platform ini, melakukan pekerjaan yang perlu dilakukan, mendorong hasil kembali ke area ini.

Hal terakhir yang akan saya sebutkan adalah bahwa semua teknologi yang Anda lihat semuanya diatur oleh metadata umum standar yang sama. Jadi, kita berbicara tentang bagaimana mendapatkan pekerjaan transformasi, aturan kualitas data di tempat kerja, memindahkannya ke memori untuk dapat melakukan analitik, pengembangan model dalam penilaian. Kami telah sampai di sana seluruh gaya hidup analitik, siklus hidup diatur oleh metadata umum, oleh tata kelola, oleh keamanan, oleh semua hal yang kita bicarakan sebelumnya hari ini.

Jadi, hanya rekap, benar-benar ada tiga hal besar untuk dibawa ke sana. Pertama, kita bisa memperlakukan platform data sama seperti sumber data lainnya, menarik dari mereka, mendorong mereka ketika itu sesuai dan nyaman. Kita dapat bekerja dengan platform big data tersebut, mendaftarkan data ke dalam analitik canggih dalam platform memori yang dibangun khusus. Jadi, itulah server LASR.

Dan kemudian, terakhir, kita dapat bekerja secara langsung di platform big data tersebut, meningkatkan kemampuan pemrosesan distributif mereka tanpa memindahkan data.

Eric: Ya, itu hal-hal yang fantastis, kawan. Ya, ini luar biasa! Jadi, mari selami beberapa pertanyaan. Kami biasanya berjalan sekitar 70 menit atau sedikit lebih lama di acara ini. Jadi, saya melihat kita masih memiliki banyak pendengar yang duduk di sana. George, saya kira saya akan memberikan pertanyaan pertama kami kepada Anda. Jika Anda berbicara tentang mendorong suara biner Anda ke Hadoop, saya pikir itu terdengar seperti Anda benar-benar telah mengoptimalkan alur kerja komputasi. Dan itulah kunci utama untuk dapat melakukan tata kelola data waktu-nyata semacam ini, pencapaian gaya kualitas data, karena itulah nilai yang ingin Anda peroleh, bukan? Jika Anda tidak ingin kembali ke dunia lama MDM di mana itu sangat merepotkan dan sangat menyita waktu, dan Anda benar-benar harus memaksa orang untuk bertindak dengan cara tertentu, yang hampir tidak pernah berhasil. Jadi, apa yang Anda lakukan adalah, Anda menyingkat siklus dari apa yang sebelumnya. Sebut saja berhari-hari, berminggu-minggu, kadang-kadang bahkan berbulan-bulan, kan? Apa itu yang terjadi?

George: Itu benar sekali, karena skala yang kami dapatkan dan kinerja yang kami dapatkan dari sebuah cluster benar-benar mengejutkan dalam hal, hanya, Anda tahu, saya selalu sedikit ragu tentang tolok ukur. Tetapi hanya untuk urutan besarnya, ketika kita akan menjalankan satu miliar, 1,2 miliar catatan dan melakukan standarisasi alamat lengkap - saya katakan mesin HP mid-range - itu akan, seperti, Anda tahu, delapan mesin prosesor, Anda tahu , 2 gigs RAM per core, Anda tahu, itu akan memakan waktu 20 jam untuk berjalan. Kita dapat melakukannya dalam sekitar delapan menit sekarang pada, Anda tahu, 12-node cluster. Jadi, skala pemrosesan yang dapat kita lakukan sekarang sangat berbeda sehingga - dan itu berjalan sangat baik dengan gagasan bahwa Anda memiliki semua data ini yang Anda inginkan. Jadi, tidak berisiko melakukan pemrosesan. Jika Anda salah melakukannya, Anda bisa mengulanginya. Anda punya waktu, Anda tahu. Itu benar-benar mengubah skala di mana, Anda tahu, jenis-jenis risiko itu benar-benar menjadi masalah bisnis nyata bagi orang-orang ketika mereka mencoba untuk mengoperasikan solusi MDM. Anda harus memiliki 30 orang di luar negeri melakukan tata kelola data dan segalanya. Jadi, Anda masih harus memilikinya, tetapi kecepatan dan skala di mana Anda dapat memprosesnya sekarang, benar-benar memberi Anda lebih banyak ruang bernapas.

Eric: Ya, itu poin yang sangat, sangat bagus. Saya suka komentar itu. Jadi, Anda punya waktu untuk mengulanginya lagi. Itu luar biasa.

George: Ya.

Eric: Ya, itu mengubah dinamika, kan? Ini mengubah cara Anda berpikir tentang apa yang akan Anda coba. Maksudku, aku ingat ini 18 tahun yang lalu di industri melakukan efek khusus, karena aku punya klien yang ada di ruang itu. Dan Anda akan menekan tombol untuk merendernya dan Anda akan pulang. Dan Anda akan kembali, mungkin pada Sabtu sore, untuk melihat bagaimana keadaannya. Tetapi jika Anda salah, itu sangat, sangat, sangat menyakitkan. Dan sekarang, ini hampir tidak - bahkan tidak terlalu menyakitkan sehingga Anda memiliki kesempatan untuk mencoba lebih banyak barang. Saya harus mengatakan, saya pikir itu poin yang sangat, sangat bagus.

George: Benar sekali. Ya, dan Anda meledakkan kaki ekstra Anda. Anda tahu, Anda mendapatkan pekerjaan setengah jalan di masa lalu dan gagal, Anda telah menghancurkan SOS Anda. Itu dia.

Eric: Benar. Dan Anda dalam masalah besar, ya. Tepat sekali.

George: Itu benar. Tepat sekali.

Eric: Keith, izinkan saya melemparkan satu untuk Anda. Saya ingat melakukan wawancara dengan CIL Anda, Keith Collins, saya percaya, kembali, saya pikir, 2011 mungkin. Dan dia berbicara banyak tentang arah SAS mengambil khusus sehubungan dengan bekerja dengan pelanggan untuk menanamkan analitik yang diturunkan dari SAS ke dalam sistem operasional. Dan tentu saja, kami mendengar Mike Ferguson berbicara tentang pentingnya mengingat. Seluruh ide di sini adalah Anda ingin dapat mengikat hal ini ke dalam operasi Anda. Anda tidak ingin analisis dalam ruang hampa, terputus dari perusahaan. Sama sekali tidak ada nilainya.

Jika Anda menginginkan analisis yang dapat berdampak langsung dan mengoptimalkan operasi. Dan jika saya melihat ke belakang - dan saya harus mengatakan, saya pikir itu ide yang bagus saat itu - sepertinya ide yang sangat, sangat cerdas dalam retrospeksi. Dan saya kira, itu keuntungan nyata yang Anda miliki. Dan tentu saja, warisan yang hebat ini, basis pemasangan yang sangat besar ini, dan fakta bahwa Anda telah berfokus untuk menanamkan analitik ini dalam sistem operasional, yang berarti sekarang - dan memang, itu akan membutuhkan kerja - saya yakin Anda Saya sudah bekerja sangat keras. Tetapi sekarang, Anda dapat memanfaatkan semua inovasi baru ini dan benar-benar mampu untuk mengoperasionalkan semua hal dengan pelanggan Anda. Apakah itu penilaian yang adil?

Keith: Ya, tentu saja. Konsepnya adalah, Anda mendapatkan gagasan tentang desain keputusan atau ilmu keputusan yang, Anda tahu, sampai taraf tertentu adalah hal yang bersifat eksploratif dan sains. Kecuali jika Anda dapat melakukan rekayasa pada proses untuk benar-benar ... Jika Anda berpikir tentang mengembangkan mobil, Anda memiliki desainer yang membuat mobil yang indah ini, tetapi itu tidak sampai para insinyur meletakkan rencana itu di tempat dan membuat produk yang nyata sebelum Anda dapat benar-benar meletakkan segala sesuatunya pada tempatnya, dan pada dasarnya itulah yang telah dilakukan SAS. Ini telah menggabungkan keputusan - proses perancangan keputusan dengan proses rekayasa keputusan secara bersamaan, sehingga ketika Anda berbicara tentang akselerator, akselerator penskoran khusus, Anda tahu, jika Anda mengambil model yang Anda kembangkan dan dapat mendorongnya keluar ke Teradata, atau dorong ke Oracle atau ke Hadoop, dengan nol downtime untuk pengembangan model, untuk memodelkan penyebaran. Itu kunci, karena model menurunkan dari waktu ke waktu, keakuratan model-model itu. Jadi, semakin lama waktu Anda untuk mengambilnya dan memproduksinya, itu kehilangan akurasi model.

Dan kemudian, bagian lainnya adalah, Anda ingin dapat memantau dan mengelola proses itu dari waktu ke waktu. Anda ingin mencabut model saat model menjadi tua dan tidak akurat. Anda ingin melihatnya, memeriksa keakuratannya dari waktu ke waktu dan membangunnya kembali. Jadi, kami memiliki alat manajemen model yang juga menjadi bagian dari itu, yang benar-benar melacak metadata di sekitar proses pemodelan. Dan orang-orang mengatakan bahwa pemodelan, Anda tahu, konsep semacam itu seperti pabrik model, atau apa pun yang Anda ingin menyebutnya. Masalahnya, ini menempatkan metadata dan manajemen dalam proses dan di situlah tiga hal besar yang kita tekan - kita membantu orang menghasilkan uang, menghemat uang, dan menjaga mereka keluar dari penjara.

Eric: Yang terakhir itu juga cukup besar. Saya ingin menghindari semua itu. Jadi, mari kita bicara tentang ...Saya memberikan satu pertanyaan terakhir, mungkin Anda masing-masing dapat melompati masalah ini. Heterogenitas dunia kita hanya akan meningkat, menurut saya. Saya pikir kita pasti akan melihat beberapa kristalisasi di sekitar lingkungan cloud hybrid. Namun demikian, Anda akan melihat banyak pemain besar bertahan. IBM tidak ke mana-mana. Oracle tidak ke mana-mana. SAP tidak ke mana-mana. Dan ada begitu banyak vendor lain yang terlibat dalam game ini.

Juga, di sisi operasional, di mana Anda mendapatkan ribuan dan ribuan jenis aplikasi. Dan saya mendengar - sebagian besar dari Anda membicarakan hal ini, tetapi saya pikir Anda berdua akan setuju dengan apa yang saya katakan. Kami telah melihat tren ini sekarang dalam hal kekuatan komputasi hanya dalam mesin analitis, arsitektur. Perusahaan telah berbicara selama bertahun-tahun tentang kemampuan untuk memanfaatkan mesin lain di luar sana dan melayani semacam titik orkestrasi. Dan saya kira, George, saya akan melemparkannya kepada Anda terlebih dahulu. Menurut saya itu adalah sesuatu yang tidak akan berubah. Kami akan memiliki lingkungan yang heterogen ini yang berarti ada hal-hal seperti CRM waktu nyata dan kualitas data serta tata kelola data. Sebagai vendor, Anda perlu berinteraksi dengan semua alat yang berbeda itu. Dan itulah yang diinginkan pelanggan. Mereka tidak akan menginginkan sesuatu yang melakukannya baik-baik saja dengan alat-alat ini dan tidak begitu baik dengan alat-alat itu. Mereka akan menginginkan Swiss MDM dan CRM, kan?

George: Itu benar. Dan itu menarik, karena kami sangat memeluknya. Sebagian darinya adalah sejarah yang kita miliki di ruang angkasa. Dan jelas, kami sudah mengerjakan semua database lain, Teradatas dan bagian dunia. Dan kemudian, membuat - dalam proses implementasi, khususnya seperti yang kami lakukan, hanya agar - Anda memiliki rentang tersebut di semua berbagai database ini. Salah satu hal yang saya temukan menarik adalah bahwa, kami memiliki beberapa klien yang hanya ingin menghilangkan semua database relasional. Dan itu menarik. Anda tahu, maksud saya, tidak apa-apa. Ini menarik. Tapi saya tidak melihatnya benar-benar terjadi pada skala perusahaan besar. Saya tidak melihatnya terjadi untuk waktu yang lama. Jadi, saya pikir hybrid ada di sini untuk waktu yang lama dan di sisi lain aplikasi kami di mana kami memiliki platform perpesanan kami di platform manajemen kampanye kami. Kami sebenarnya telah merancangnya secara khusus. Sekarang, kami telah merilis versi yang melakukan itu dan yang dapat terhubung sekarang ke lingkungan data hibrid dan permintaan Hadoop, atau permintaan basis data apa pun, basis data analitik apa pun. Jadi, saya pikir itu hanya gelombang masa depan. Dan saya setuju bahwa virtualisasi pasti akan memainkan peran besar dalam hal ini, tetapi kami baru saja - kami akan langsung melihat data pada semua aplikasi kami.

Eric: Oke, bagus. Dan, Keith, saya akan memberikannya kepada Anda. Apa yang Anda pikirkan tentang dunia heterogen yang kita hadapi dalam bertindak sebagai semacam kaki?

Keith: Ya, ini sangat menarik. Saya pikir, apa yang kami temukan lebih banyak - tidak hanya di sisi manajemen data - tetapi yang benar-benar menarik saat ini adalah sifat open-source dari basis analitik. Jadi, kami melihat organisasi seperti, atau teknologi seperti Spark hadir, dan orang-orang menggunakan Python dan R dan semua teknologi open-source lainnya. Saya pikir itu bisa ditafsirkan sebagai semacam konflik atau ancaman sampai batas tertentu. Tetapi kenyataannya adalah, kami memiliki beberapa pujian yang sangat bagus dengan semua teknologi open-source itu. Maksud saya, misalnya, kami beroperasi di atas platform sumber terbuka, demi Tuhan.

Tetapi juga, seperti dapat mengintegrasikan, misalnya, model R ke dalam paradigma SAS memungkinkan Anda untuk menggunakan yang terbaik dari kedua dunia, bukan? Seperti, jadi kami tahu bahwa beberapa hal eksperimental di dunia akademik dan beberapa pekerjaan pengembangan model luar biasa dan sangat membantu dalam proses pengembangan model. Tetapi juga, jika Anda dapat memasangkannya dengan alat kelas produksi, alat ini melakukan banyak pembersihan dan kualitas serta memeriksa dan memastikan data yang diberikan kepada model tersebut, telah disiapkan dengan benar sehingga tidak gagal. pada eksekusi. Dan kemudian, mampu melakukan hal-hal seperti model penantang juara dengan model open-source. Itulah hal-hal yang ingin kami aktifkan, dan sebagai bagian dari ekosistem yang sangat heterogen dari semua teknologi ini. Ya, jadi ini lebih - bagi kami, ini lebih tentang merangkul teknologi itu dan mencari pujian.

Eric: Ya, ini hal-hal yang fantastis, kawan. Kami pergi agak lama di sini, tetapi kami ingin mendapatkan sebanyak mungkin pertanyaan. Kami akan meneruskan file T&J ke presenter kami hari ini. Jadi, jika pertanyaan yang Anda ajukan tidak dijawab, kami akan memastikan bahwa itu dijawab. Dan teman-teman, ini membungkusnya untuk 2014. Anda benar-benar di Radio DM besok dan minggu depan, dan kemudian semuanya selesai dan ini adalah liburan.

Terima kasih banyak untuk Anda semua atas waktu dan perhatian Anda, karena telah menembus semua webcast yang indah ini. Kami memiliki tahun yang luar biasa untuk tahun 2015. Dan kami akan segera berbicara dengan Anda, kawan. Terima kasih lagi. Kami akan berhati-hati. Sampai jumpa.