Apa itu validation set dalam machine learning?
Validation set adalah sekumpulan data yang digunakan dalam pelatihan kecerdasan buatan (AI) dengan tujuan menemukan dan mengoptimalkan model terbaik untuk menyelesaikan suatu permasalahan. Validation set juga dikenal dengan istilah dev set.
Supervised learning dan model machine learning dilatih menggunakan dataset berlabel yang sangat besar, di mana validation set memiliki peran penting dalam proses pembuatannya.
Proses training, tuning, pemilihan model, dan testing dilakukan dengan tiga set data yang berbeda: train, test, dan validation. Validation set digunakan untuk memilih serta melakukan tuning pada model AI.
Validation set menggunakan sampel data yang dipisahkan dari training. Data tersebut kemudian digunakan untuk mengevaluasi error yang muncul. Engineer machine learning kemudian dapat melakukan tuning pada hyperparameter model — yaitu parameter yang dapat diatur untuk mengontrol perilaku model. Proses ini berfungsi sebagai dataset independen untuk membandingkan performa model.
Apa perbedaan antara train, validation, dan test set?
Validation set adalah bagian penting dalam AI, machine learning, dan deep learning, bersama dengan training dan test set. Ketiga dataset ini digunakan untuk mengidentifikasi serta belajar dari data, misalnya teks dan gambar. Setelah training selesai, model bisa diaplikasikan ke berbagai bidang seperti text/image generation, natural language understanding, atau bahkan di bidang medis. Training, validation, dan testing digunakan untuk mempersiapkan model sebelum digunakan, namun masing-masing memiliki peran di tahap yang berbeda dalam pengembangan:

- Training set adalah bagian data yang digunakan untuk melatih model. Model belajar dari dataset ini. Dalam proses training, model menyesuaikan parameter melalui mekanisme yang dikenal sebagai penyesuaian bobot (adjusting weights). Training biasanya mencakup porsi terbesar dari dataset.
- Testing set hanya digunakan ketika model sudah selesai dilatih. Dataset ini berisi data ideal yang merepresentasikan berbagai skenario nyata yang mungkin dihadapi model saat digunakan. Testing set digunakan untuk mengevaluasi hasil akhir dan mengukur performa model.
- Validation set menggunakan subset dari data training untuk memberikan evaluasi tidak bias terhadap model. Validation berbeda dengan training maupun testing karena berfungsi sebagai tahap perantara untuk memilih model terbaik dan mengoptimalkannya. Pada tahap inilah dilakukan hyperparameter tuning. Validation juga digunakan untuk mendeteksi dan mencegah overfitting, yaitu kondisi di mana model terlalu menyesuaikan diri dengan dataset tertentu sehingga gagal melakukan generalisasi pada data baru.
Pembagian training, validation, dan test set harus disesuaikan dengan jumlah sampel data serta jenis model yang dilatih. Beberapa model membutuhkan data jauh lebih banyak dibanding yang lain. Semakin banyak hyperparameter yang dimiliki, semakin besar pula porsi data yang perlu dialokasikan untuk validation. Selain itu, umumnya tidak disarankan melakukan penyesuaian lebih lanjut setelah tahap testing, karena optimasi di luar fase validation justru dapat meningkatkan risiko overfitting.