Bagaimana memastikan kualitas data di era Big Data – TechCrunch

0
51


Sedikit di atas satu dekade telah berlalu sejak itu The Economist memperingatkan kita bahwa kita akan segera tenggelam dalam data. Tumpukan data modern telah muncul sebagai pelampung yang diusulkan untuk banjir data ini – dipelopori oleh perusahaan rintisan Silicon Valley seperti Snowflake, Databricks dan Confluent.

Saat ini, setiap pengusaha dapat mendaftar ke BigQuery atau Snowflake dan memiliki solusi data yang dapat menyesuaikan skala bisnis mereka dalam hitungan jam. Munculnya solusi penyimpanan data yang murah, fleksibel, dan dapat diskalakan sebagian besar merupakan respons terhadap perubahan kebutuhan yang dipicu oleh ledakan data besar-besaran.

Saat ini, dunia memproduksi 2,5 triliun byte data setiap hari (ada 18 nol dalam satu triliun). Ledakan data terus berlanjut di tahun 20-an, baik dalam hal pembangkitan dan penyimpanan – jumlah data yang disimpan diperkirakan akan terus meningkat dua kali lipat setidaknya setiap empat tahun. Namun, satu bagian integral dari infrastruktur data modern masih kekurangan solusi yang sesuai untuk era Big Data dan tantangannya: Pemantauan kualitas data dan validasi data.

Biarkan saya menjelaskan bagaimana kita sampai di sini dan tantangan ke depan untuk kualitas data.

Nilai vs. dilema volume Big Data

Pada tahun 2005, Tim O’Reilly menerbitkan artikel terobosannya “What is Web 2.0?”, Yang benar-benar memicu perlombaan Big Data. Pada tahun yang sama, Roger Mougalas dari O’Reilly memperkenalkan istilah “Big Data” dalam konteks modernnya – mengacu pada sekumpulan besar data yang hampir tidak mungkin untuk dikelola dan diproses menggunakan alat BI tradisional.

Pada tahun 2005, salah satu tantangan terbesar dengan data adalah mengelola data dalam jumlah besar, karena alat infrastruktur data mahal dan tidak fleksibel, dan pasar cloud masih dalam tahap awal (AWS tidak diluncurkan secara publik hingga tahun 2006). Yang lainnya adalah kecepatan: Sebagai Tristan Handy dari Fishtown Analytics (perusahaan di belakang dbt) catatan, sebelum Redshift diluncurkan pada tahun 2012, melakukan analisis yang relatif langsung bisa sangat memakan waktu bahkan dengan kumpulan data berukuran sedang. Seluruh ekosistem perkakas data telah dibuat untuk mengurangi dua masalah ini.

Munculnya tumpukan data modern (contoh logo & kategori)

Munculnya tumpukan data modern (contoh logo dan kategori). Kredit Gambar: Sah

Penskalaan database relasional dan peralatan gudang data dulunya merupakan tantangan nyata. Hanya 10 tahun yang lalu, sebuah perusahaan yang ingin memahami perilaku pelanggan harus membeli dan menyimpan server sebelum para insinyur dan ilmuwan datanya dapat bekerja untuk menghasilkan wawasan. Data dan infrastruktur di sekitarnya mahal, jadi hanya perusahaan terbesar yang mampu melakukan penyerapan dan penyimpanan data dalam skala besar.

Tantangan di hadapan kami adalah memastikan bahwa Big Data dalam jumlah besar memiliki kualitas yang cukup tinggi sebelum digunakan.

Kemudian tibalah giliran (Merah). Pada bulan Oktober 2012, AWS mempresentasikan solusi pertama yang layak untuk tantangan skala dengan Redshift – database pemrosesan paralel masif (MPP) asli cloud yang dapat digunakan siapa saja dengan harga bulanan sepasang sepatu kets ($ 100) – sekitar 1.000x lebih murah daripada penyiapan “server lokal” sebelumnya. Dengan penurunan harga sebesar ini, pintu air dibuka dan setiap perusahaan, besar atau kecil, sekarang dapat menyimpan dan memproses data dalam jumlah besar dan membuka peluang baru.

Sebagai Jamin Ball dari Altimeter Capital merangkum, Redshift adalah masalah besar karena ini adalah gudang OLAP cloud-native pertama dan mengurangi biaya untuk memiliki database OLAP berdasarkan urutan besarnya. Kecepatan pemrosesan kueri analitik juga meningkat secara dramatis. Dan kemudian (Snowflake memelopori ini), mereka memisahkan komputasi dan penyimpanan, yang, dalam istilah yang terlalu disederhanakan, berarti pelanggan dapat mengukur penyimpanan dan sumber daya komputasi mereka secara mandiri.

Apa maksud semua ini? Ledakan pengumpulan dan penyimpanan data.



Sumber

LEAVE A REPLY

Please enter your comment!
Please enter your name here