
Panel Daya Data: Bagaimana rumah danau bertujuan untuk menjadi platform analisis data modern
Generasi baru data lake berbasis toko objek semakin terkenal, didorong oleh perpindahan ke komputasi awan dan investasi modal ventura yang memecahkan rekor pada tahun 2021. Kenaikan tersebut ditandai dengan munculnya tiga tren.
Yang pertama adalah kombinasi dari data lake dan data warehouse menjadi sebuah lakehouse. Kategori baru ini menghubungkan beban kerja rekayasa data, ilmu data, dan gudang data pada satu platform data bersama dan merupakan pesaing potensial untuk platform data masa depan, menurut tim analis theCUBE.
Yang kedua adalah bahwa mesin kueri dan platform virtualisasi struktur data yang lebih luas menggunakan data lake modern sebagai platform untuk beban kerja intelijen bisnis yang berpusat pada SQL. Ini mengurangi atau berpotensi menghilangkan kebutuhan akan gudang data yang terpisah.
Tren ketiga adalah peningkatan popularitas arsitektur data fabric atau data mesh. Hal ini didorong oleh perusahaan yang telah mengadopsi data lake sebagai dasar strategi data mereka, tetapi juga mempertahankan kawasan gudang data tradisional mereka.
Tren ini dan opsi strategi data lain yang muncul serta pengorbanan terkaitnya adalah subjek dari panel daya data baru-baru ini tentang “Bagaimana Lakehouses Bertujuan menjadi Platform Analisis Data Modern,” siaran eksklusif di CUBE, studio streaming langsung SiliconANGLE Media.
“Sebuah pertempuran royale sedang terjadi antara gudang data cloud dan cloud lakehouses,” kata analis industri theCUBE, Dave Vellante saat dia memulai diskusi panel yang mendalam. “Apakah mungkin untuk melakukan semuanya dengan satu platform data analitik pusat cloud?”
Bergabung dengan Vellante adalah pakar data independen Sanjeev Mohan (foto, kiri), kepala sekolah di SanjMo; Tony Baer (foto, tengah), kepala sekolah di dbInsight LLC; dan Doug Henschen (foto, kanan), wakil presiden dan analis utama di Constellation Research Inc.
Evolusi rumah danau
Konsep platform tunggal untuk menangani intelijen bisnis, ilmu data dan rekayasa data kembali ke 2012, ketika Cloudera Inc. memperkenalkan database Apache Impala di atas Hadoop, menurut Henschen.
“Kemudian dalam dekade itu dengan pergeseran ke cloud dan penyimpanan objek, Anda melihat vendor beralih ke seluruh ide penyimpanan cloud dan objek ini,” katanya.
Sementara istilah itu menjadi terkenal melalui blog teknik 2020 yang diterbitkan oleh Databricks Inc., “konsep rumah danau sudah ada sejak lama, jauh sebelum istilah itu ditemukan,” menurut Mohan, yang memberi contoh Uber Inc. mencoba untuk mendapatkan kemampuan transaksional yang tidak dimiliki oleh kerangka Hadoop yang ada dengan menambahkan ekstensi SQL.
“Mereka tidak menyebutnya rumah danau. Mereka menggunakan banyak teknologi, tetapi sekarang mereka dapat meruntuhkannya menjadi satu penyimpanan data yang kami sebut rumah danau,” kata Mohan. “Data lake sangat baik dalam memproses data dalam jumlah besar secara batch, tetapi mereka tidak memiliki kemampuan waktu nyata seperti mengubah pengambilan data, melakukan penyisipan, dan pembaruan. Jadi inilah mengapa rumah danau menjadi sangat penting — karena mereka memberi kami kemampuan transaksional ini.”
Evolusi rumah danau data adalah rangkaian platform yang secara bertahap menyatu satu sama lain, jelas Baer. Alih-alih momen penentu satu kali, itu dimulai dengan SQL di Hadoop, kemudian gudang data menjangkau Hadoop Distributed File System, dan kemudian silo mogok lebih jauh dengan cloud dan cloud-native.
Tetapi premis dasarnya adalah “sebuah upaya oleh orang-orang data lake untuk membuat wilayah data lake lebih ramah bagi orang-orang SQL, dan juga untuk masuk ke wilayah yang bersahabat. [for] semua pengelola data yang pada dasarnya prihatin dengan penyebaran dan kurangnya kontrol dalam tata kelola di danau data, ”tambah Baer.
Mengapa rumah danau perlu mencapai kedewasaan
Masuk lebih dalam ke konsep rumah danau, apakah istilah itu sebagian besar merupakan hype pemasaran atau apakah contoh praktis dunia nyata saat ini mendorong hasil bisnis? Dengan kata lain: Apakah rumah danau merupakan konsep yang matang?
Tanggapan dari para analis Power Panel adalah tidak.
“Meskipun ide untuk memadukan platform telah berlangsung selama lebih dari satu dekade, saya akan mengatakan bahwa iterasi saat ini masih belum matang,” kata Baer. “Kami masih sangat awal dalam hal kematangan data rumah danau.”
Contoh utama adalah Databricks Inc., yang ingin pelanggan percaya bahwa platform rumah danaunya adalah perpanjangan alami dari data lak, menurut Baer.
“Databricks harus keluar dari teknologi inti Spark untuk membuat rumah danau menjadi mungkin,” katanya. Databricks SQL bukan Spark SQL, tambah Baer. Sebaliknya, SQL-lah yang telah diadaptasi untuk berjalan di lingkungan Spark, dengan mesin yang mendasarinya berdasarkan C++.
Ada dua masalah: Rumah danau kesulitan menangani metadata dan kurangnya standarisasi dan interoperabilitas antar solusi, menurut Henschen.
“Semua vendor open-source ini, mereka menjalankan apa yang saya sebut proyek ego,” katanya, menjelaskan bagaimana dia melihat pertempuran yang terjadi di media sosial. Namun, pengguna akhir hanya ingin masalah mereka diselesaikan dengan apa pun yang berhasil.
“Mereka ingin menggunakan Trino, Dremio, Spark di EMR, Databricks, Ahana, DaaS, Flink, Athena,” kata Henschen, menyebutkan berbagai macam daftar yang mencakup proyek analitik sumber terbuka, vendor rumah danau, dan solusi data.
Apa yang ada di depan untuk pasar analisis data?
Tujuan akhir dari setiap platform analitik data adalah untuk memberikan konsistensi dan skalabilitas, dengan pengguna akhir menginginkan standar kinerja terbuka, menurut Henschen. Tetapi pasar harus menemukan solusi yang memenuhi kebutuhan basis data SQL tradisional dan pendukung data lake. Ini bukan masalah yang mudah untuk dipecahkan.
“Orang-orang SQL berasal dari Venus, dan para ilmuwan data berasal dari Mars. Itu benar-benar bermuara pada jenis persepsi itu, ”kata Baer.
Cara pasar akan menuju dibahas oleh para analis secara rinci. Topik meliputi pengembangan lapisan semantik untuk menghubungkan dua dunia, kemungkinan kontroversial pengambilalihan data mesh, dan pemeriksaan prospek jangka panjang untuk proyek sumber terbuka, seperti Apache Iceberg dan Hudi. Sepanjang seluruh percakapan, para analis memberikan contoh vendor dan produk untuk mengilustrasikan poin mereka. Kami “menamai nama,” kata Velante.
“Masalah di ruang kami adalah terlalu banyak perusahaan, terlalu banyak kebisingan. Kami mengharapkan pengguna akhir untuk menguraikannya atau kami mengharapkan perusahaan analis untuk mempersempitnya, ”kata Mohan. “Pada akhirnya, pengguna akhir akan memutuskan platform apa yang tepat, tetapi kami akan memiliki banyak format yang tinggal bersama kami untuk waktu yang lama.”
Berikut percakapan lengkap Data Power Panel:
Foto: SiliconANGLE
Tunjukkan dukungan Anda untuk misi kami dengan bergabung dengan Cube Club dan Komunitas Pakar Acara Cube kami. Bergabunglah dengan komunitas yang mencakup Amazon Web Services dan CEO Amazon.com Andy Jassy, pendiri dan CEO Dell Technologies Michael Dell, CEO Intel Pat Gelsinger dan banyak lagi tokoh dan pakar.
Artikel ini telah tayang pertama kali di situs siliconangle.com