World

Databricks menambahkan fitur silsilah data ke katalognya dengan dukungan untuk penggunaan nontradisional



Databricks Inc. hari ini menambahkan fitur silsilah data ke platform tata kelola Katalog Unity, sebuah langkah yang dikatakan secara signifikan memperluas kemampuan tata kelola data pada gudang data hibrida atau danau data yang disebutnya rumah danau.

Garis keturunan data menjelaskan bagaimana data mengalir di seluruh organisasi, memberi pelanggan kemampuan untuk melihat dari mana data rumah danau berasal, siapa yang membuatnya dan kapan, bagaimana data itu dimodifikasi dari waktu ke waktu dan bagaimana data itu digunakan saat ini, di antara fitur-fitur lainnya. Fitur ini sekarang tersedia untuk pratinjau di Amazon Web Services Inc. dan Microsoft Corp. Azure cloud.

Fitur ini membantu organisasi mengatasi peningkatan volume dan variasi data yang datang dari berbagai sumber, bagaimana data bergerak dan berubah, siapa yang memiliki akses ke data tersebut, dan bagaimana data tersebut digunakan. Databricks mengatakan itu membawa pendekatan yang diperbarui untuk proses dan menambahkan fitur yang diperlukan untuk memodifikasi mesin database inti untuk mengakomodasi kasus penggunaan yang tidak standar seperti model pembelajaran mesin.

“Memahami bagaimana data mengalir melalui organisasi sangat penting untuk dapat memercayai data Anda,” kata Joel Minnick, wakil presiden pemasaran Databricks. “Kami akan kembali ke prinsip inti Katalog Unity, yang tidak hanya mencoba mengatur tabel dan file, tetapi juga aset modern seperti dasbor, notebook, dan model.”

Tampilan siklus hidup

Garis keturunan data memungkinkan tim manajemen data untuk melihat semua fungsi hilir yang terpengaruh oleh perubahan data — termasuk aplikasi, dasbor, model pembelajaran mesin, dan kumpulan data — dan memahami tingkat keparahan dampaknya sehingga pemangku kepentingan dapat diberi tahu. “Data menit masuk ke rumah danau, kami mulai melacaknya,” kata Minnick. Metadata yang berjalan dengan elemen data seperti penulis dan tanggal pembuatan juga diimpor.

Fitur ini juga membantu organisasi memenuhi aturan kepatuhan dengan lebih baik karena keterlacakan yang lebih baik, kata Databricks. “Kami menangkap semua data yang dapat kami lihat pada tingkat detail yang sangat halus: siapa yang membuatnya, perubahan apa yang dibuat, kapan diubah, jalur pipa apa yang digunakan dan siapa yang memiliki akses ke sana,” kata Minnick. “Pada akhirnya, jika Anda membagikan data itu, kami juga dapat melihat dengan siapa data itu dibagikan.”

Garis keturunan data memungkinkan konsumen data seperti ilmuwan data, insinyur data, dan analis data untuk melakukan analisis kontekstual. Penatalayan data dapat melihat kumpulan data mana yang tidak lagi diakses atau sudah usang sehingga data yang basi atau tidak perlu dapat dihapus untuk meningkatkan kualitas data secara keseluruhan.

Fitur utama Katalog Persatuan mencakup silsilah run-time otomatis untuk menangkap semua silsilah yang dihasilkan di Databricks, yang memberikan lebih banyak akurasi dan efisiensi dibandingkan dengan penandaan manual. Informasi diambil untuk tabel, tampilan, dan kolom untuk memberikan gambaran terperinci tentang aliran data hulu dan hilir. Selain itu, silsilah berfungsi di semua bahasa yang didukung oleh Databricks — termasuk SQL, Python, R, dan Scala – serta buku catatan, alur kerja, dan dasbor.

Databricks bertujuan untuk membuat kemampuan tersedia di semua platform cloud yang didukungnya, kata Minnick.

Foto: Robert Hof/SiliconANGLE

Tunjukkan dukungan Anda untuk misi kami dengan bergabung dengan Cube Club dan Komunitas Pakar Acara Cube kami. Bergabunglah dengan komunitas yang mencakup Amazon Web Services dan CEO Amazon.com Andy Jassy, ​​pendiri dan CEO Dell Technologies Michael Dell, CEO Intel Pat Gelsinger dan banyak lagi tokoh dan pakar.

Artikel ini telah tayang pertama kali di situs siliconangle.com

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button