Apa itu histogram?

Histogram adalah jenis chart yang menampilkan distribusi frekuensi dari data point dalam sebuah rentang nilai numerik yang kontinu. Nilai-nilai ini dikelompokkan ke dalam bin atau bucket yang disusun berurutan sepanjang sumbu x (horizontal) di bagian bawah chart. Setiap bin direpresentasikan dengan sebuah bar vertikal yang berdiri di atas sumbu x dan memanjang ke atas untuk menunjukkan jumlah data point dalam bin tersebut.

Bin memberikan struktur sederhana untuk memetakan distribusi data point dalam suatu rentang nilai. Data point di sini artinya satu nilai yang termasuk dalam rentang tersebut. Rentang ini — yang sering disebut sebagai independent variable — bisa berupa usia orang, tinggi pohon, nilai ujian, berat hewan, harga saham, atau tipe nilai numerik lainnya. Data point diplot pada sumbu y (vertikal) dan disebut sebagai frekuensi, yaitu jumlah kemunculan data dalam distribusi tersebut.

Contoh histogram

Gambar 1 menunjukkan histogram nilai ujian dari 200 siswa. Nilai ujian dikelompokkan ke dalam enam bin berurutan, dengan tiap bin direpresentasikan oleh bar vertikal dengan warna berbeda. Bin pada histogram bisa dibuat merata atau disesuaikan untuk kondisi tertentu, misalnya ketika ada outlier. Pada contoh ini, bin pertama berisi nilai dari 0 sampai 50, sementara bin berikutnya dibagi rata per 10 poin. Bin kedua berisi nilai lebih dari 50 hingga 60, bin ketiga untuk nilai lebih dari 60 hingga 70, dan seterusnya.

example of a histogram
Figure 1. Contoh histogram nilai ujian 200 siswa

Dalam kasus ini, data point adalah nilai ujian siswa. Tinggi tiap bin diukur dari sumbu y, menunjukkan jumlah siswa yang nilainya masuk dalam rentang bin tersebut. Misalnya, histogram menunjukkan bahwa 40 dari 200 siswa mendapatkan nilai lebih dari 90 (maksimal 100). Di sisi lain, ada 3 siswa yang nilainya ≤ 50, dan 47 siswa yang nilainya > 70 sampai 80.

Pada histogram ini, frekuensi = jumlah nilai siswa per bin. Tapi secara umum, frekuensi bisa dipakai untuk tipe data lain, misalnya umur, berat, atau tinggi seekor Labrador retriever. Kadang histogram juga bisa ditampilkan dengan independent variable di sumbu y dan frekuensi di sumbu x, tapi format ini jauh lebih jarang. Biasanya, independent variable selalu diletakkan di sumbu x.

Bagaimana histogram digunakan?

Histogram sering dipakai di statistik untuk visualisasi bentuk distribusi data dalam suatu rentang nilai. Contoh histogram di atas bisa membantu analis memahami efektivitas kelas, instruktur, atau bahkan kualitas soal ujian. Hasilnya bisa dibandingkan dengan kelas lain — baik yang diajar instruktur sama pada waktu berbeda, atau oleh instruktur berbeda dengan soal serupa. Dari perbandingan ini, analis bisa menemukan potensi masalah atau minimal punya starting point untuk analisis lebih lanjut.

Analis biasanya melihat pola bar pada histogram untuk mendapatkan insight cepat dari sebuah dataset, meskipun interpretasi hanya valid jika mempertimbangkan konteks data tersebut. Misalnya, Gambar 2 menunjukkan tiga pola histogram: simetris, right-skewed, dan left-skewed.

diagram of three histogram patterns
Figure 2. Tiga pola histogram: simetris, right-skewed, dan left-skewed

Orang yang menganalisis histogram nilai ujian tadi mungkin berharap polanya left-skewed, artinya sebagian besar siswa mendapat nilai di atas rata-rata. Kalau distribusinya malah right-skewed atau simetris, bisa jadi ada masalah pada soal, kelas, instruktur, atau faktor lain. Histogram juga bisa menghasilkan pola lain, yang masing-masing punya arti penting sesuai konteks data.

Histogram sekilas mirip bar chart, tapi ada perbedaan penting. Histogram digunakan untuk memvisualisasikan distribusi data point dalam rentang numerik kontinu — seperti pada contoh nilai ujian tadi. Data dipisahkan ke dalam bin berdasarkan range nilai.

Sebaliknya, bar chart dipakai untuk membandingkan kategori data berdasarkan ukuran numerik tertentu. Misalnya, perusahaan retail bisa pakai bar chart untuk menampilkan jumlah penjualan tiap kategori produk dalam setahun, atau rumah sakit bisa menampilkan jumlah pasien dengan berbagai jenis perawatan dalam periode lima tahun.

Lihat juga perbedaan antara mean, median, mode, dan range dalam statistik, serta delapan langkah meningkatkan literasi data visualization.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *