Apa itu Extract, Load, Transform (ELT)?

ELT (Extract, Load, Transform) adalah proses integrasi data untuk memindahkan raw data dari server sumber ke sistem data (seperti data warehouse atau data lake) di server target, kemudian mempersiapkan informasi untuk penggunaan lebih lanjut.

ELT terdiri dari sebuah pipeline data yang melibatkan tiga langkah berbeda yang diterapkan pada data:

Langkah pertama adalah Extract data. Extracting data adalah proses untuk mengidentifikasi dan membaca data dari satu atau lebih sistem sumber, yang bisa berupa database, file, arsip, ERP, CRM, atau sumber data lain yang relevan.

Langkah kedua dalam ELT adalah Load data yang telah diekstrak. Loading adalah proses untuk menambahkan data yang diekstrak ke dalam database target.

Langkah ketiga adalah Transform data. Data transformation adalah proses mengonversi data dari format asalnya ke format yang diperlukan untuk analisis. Transformasi ini biasanya berbasis pada aturan yang mendefinisikan bagaimana data harus diubah untuk digunakan dan dianalisis di penyimpanan data target. Meskipun proses transformasi data bisa berbeda-beda, seringkali melibatkan pengubahan data yang terkodekan menjadi data yang dapat digunakan menggunakan kode dan tabel pencarian.

Contoh transformasi meliputi:

  • Penggantian kode dengan nilai yang sesuai
  • Agregasi jumlah numerik
  • Penerapan fungsi matematika
  • Konversi tipe data
  • Modifikasi string teks
  • Penggabungan data dari berbagai tabel dan database

Bagaimana ELT Bekerja

ELT merupakan varian dari proses Extract, Transform, Load (ETL), di mana transformasi dilakukan di server perantara sebelum data dimuat ke target. Berbeda dengan ETL, ELT memungkinkan raw data dimuat langsung ke target dan transformasi dilakukan di sana.

Dengan pendekatan ELT, sebuah alat ekstraksi data digunakan untuk mendapatkan data dari sumber atau beberapa sumber, dan data yang diekstrak disimpan di area staging atau database. Aturan bisnis yang diperlukan dan pemeriksaan integritas data dapat dilakukan di area staging sebelum data dimuat ke dalam data warehouse. Semua transformasi data dilakukan di data warehouse setelah data dimuat.

ELT vs. ETL

Perbedaan antara ELT dan proses ETL tradisional lebih signifikan daripada sekadar menukar posisi L dan T. Faktor yang paling menentukan adalah bagaimana, kapan, dan di mana transformasi data dilakukan.

Dengan ETL, raw data tidak tersedia di data warehouse karena sudah ditransformasikan sebelum dimuat. Sementara dengan ELT, raw data dimuat ke dalam data warehouse (atau data lake) dan transformasi dilakukan pada data yang sudah tersimpan.

Area staging digunakan baik di ELT maupun ETL, namun pada ETL, area staging dibangun dalam alat ETL yang digunakan. Sedangkan pada ELT, area staging berada di dalam database yang digunakan untuk data warehouse.

ELT sangat berguna untuk memproses kumpulan data besar yang dibutuhkan dalam business intelligence (BI) dan big data analytics. Data non-relasional dan tidak terstruktur lebih cocok untuk pendekatan ELT karena data tersebut dipindahkan “apa adanya” dari sumber. Penerapan analitik pada data tidak terstruktur biasanya menggunakan pendekatan “schema on read” alih-alih “schema on write” yang digunakan oleh relational databases.

Memuat data tanpa terlebih dahulu mentransformasikannya bisa menjadi masalah jika Anda memindahkan data dari sumber non-relasional ke target relasional, karena data harus disesuaikan dengan skema relasional. Ini berarti perlu ada identifikasi dan penyesuaian data untuk mendukung tipe data yang tersedia di database target.

Konversi tipe data mungkin perlu dilakukan sebagai bagian dari proses loading jika sumber dan target data store tidak mendukung semua tipe data yang sama. Masalah serupa juga bisa terjadi ketika memindahkan data dari satu sistem manajemen database relasional (DBMS) ke DBMS lain, misalnya dari Oracle ke Db2, karena tipe data yang didukung berbeda antara DBMS satu dengan yang lainnya.

ETL sebaiknya dipilih jika ada kebutuhan untuk pembersihan data secara ekstensif sebelum data dimuat ke sistem target, jika ada perhitungan kompleks yang diperlukan pada data numerik, dan ketika semua data sumber berasal dari sistem relasional.

Berikut adalah perbandingan antara ELT dan ETL berdasarkan berbagai aspek:

 ELTETL
Urutan ProsesExtract
Load
Transform
Extract
Transform
Load
FleksibilitasKarena transformasi tidak bergantung pada ekstraksi, ELT lebih fleksibel daripada ETL dalam menambahkan data yang diekstraksi di masa depan.Perencanaan yang lebih awal diperlukan untuk memastikan semua data relevan telah diintegrasikan.
AdministrasiLebih banyak administrasi yang diperlukan karena beberapa alat mungkin perlu digunakan.Biasanya, satu alat digunakan untuk ketiga tahap, yang mungkin menyederhanakan usaha administrasi.
Waktu PengembanganDengan pendekatan yang lebih fleksibel, waktu pengembangan bisa lebih lama tergantung pada kebutuhan dan pendekatannya.ETL memerlukan perencanaan desain di awal, yang bisa mengurangi beban dan waktu pengembangan karena hanya data yang relevan yang diproses.
Pengguna AkhirData scientist dan analis tingkat lanjutPengguna yang membaca laporan dan pengkode SQL
Kompleksitas TransformasiTransformasi dikodekan oleh programmer (misalnya, menggunakan Java) dan harus dipelihara seperti program lainnya.Transformasi dikodekan dalam alat ETL oleh profesional integrasi data yang berpengalaman dengan alat tersebut.
Persyaratan Perangkat KerasAlat ELT biasanya tidak memerlukan perangkat keras tambahan, melainkan memanfaatkan kekuatan komputasi yang ada untuk transformasi.Alat ETL biasanya memerlukan perangkat keras khusus dengan mesin mereka sendiri untuk melakukan transformasi.
KeterampilanELT bergantung pada fungsionalitas native DBMS, sehingga keterampilan yang ada dapat digunakan dalam sebagian besar kasus.ETL memerlukan pelatihan tambahan dan keterampilan untuk mempelajari set alat yang menggerakkan ekstraksi, transformasi, dan loading.
KematanganELT adalah praktik yang relatif baru, dan karena itu ada sedikit keahlian dan praktik terbaik yang tersedia.ETL adalah praktik yang matang yang sudah ada sejak 1990-an. Banyak teknisi terampil, praktik terbaik tersedia, dan banyak alat ETL berguna tersedia di pasar.
Data StoresKebanyakan Hadoop, mungkin NoSQL database. Jarang database relasional.Hampir sepenuhnya database relasional.
Kasus PenggunaanTerbaik untuk data tidak terstruktur dan data non-relasional. Ideal untuk data lakes. Bisa juga digunakan untuk data relasional yang homogen. Sangat cocok untuk jumlah data yang sangat besar.Terbaik untuk data relasional dan terstruktur. Lebih baik untuk jumlah data kecil hingga menengah.

Manfaat ELT

Salah satu keuntungan utama dari ELT adalah pengurangan waktu loading dibandingkan dengan model ETL. Memanfaatkan kemampuan pemrosesan yang sudah ada di infrastruktur data warehouse mengurangi waktu yang diperlukan untuk data transit dan biasanya lebih efisien secara biaya. ELT bisa lebih efisien dengan memanfaatkan kekuatan komputasi dari sistem penyimpanan data modern.

Dengan ELT, seluruh dataset dipindahkan sebagaimana adanya dari sistem sumber ke target. Artinya, raw data tersedia di data warehouse, berbeda dengan pendekatan ETL yang mentransformasi data sebelum dimuat ke data warehouse. Fleksibilitas ini dapat meningkatkan analisis data, memungkinkan lebih banyak analitik dilakukan langsung dalam data warehouse tanpa harus mengakses sistem sumber untuk data yang belum ditransformasikan.

Menggunakan ELT bisa sangat masuk akal ketika mengadopsi inisiatif big data untuk analitik. Big data sering bergantung pada jumlah besar data serta variasi data yang lebih cocok dengan ELT.

Penggunaan ELT

ELT sering digunakan pada kasus berikut:

  • Ketika data terstruktur, namun sumber dan target database adalah jenis yang sama (misalnya, sumber dan target Oracle);
  • Ketika data tidak terstruktur dan besar, seperti memproses dan mengorelasi data dari file log dan sensor;
  • Ketika data relatif sederhana, namun jumlahnya besar;
  • Ketika ada rencana untuk menggunakan machine learning untuk memproses data, bukan menggunakan query SQL tradisional;
  • Schema on read.

Alat dan Software ELT

Meskipun ELT bisa dilakukan menggunakan alat terpisah untuk ekstraksi, loading, dan transformasi data, ada juga alat yang mengintegrasikan ketiga proses ELT. Saat mencari alat ELT, pengguna sebaiknya mencari kemampuan untuk membaca data dari berbagai sumber, khususnya sumber yang lebih beragam atau lebih besar dari data sumber relasional, dan kemampuan untuk mengubah atau mentransformasi data saat dimuat.

Alat populer untuk ELT antara lain:

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *