Apa itu mean, median, mode, dan range dalam statistik?
Mean, median, mode, dan range adalah istilah penting dalam statistik yang menggambarkan karakteristik dari distribusi data. Dalam statistik, distribusi adalah kumpulan nilai-nilai yang merepresentasikan kejadian-kejadian tertentu. Ketika nilai-nilai tersebut dianggap sebagai variabel, maka disebut variabel acak (random variable).
Secara umum, ada dua jenis utama distribusi statistik:
- Distribusi dengan variabel acak diskrit, di mana setiap nilai memiliki angka yang pasti dan terpisah.
- Distribusi dengan variabel acak kontinu, yang memungkinkan nilai-nilainya berada dalam rentang tak terbatas. Variabel seperti ini sering digambarkan melalui probability density function.
Bagi profesional IT, pemahaman tentang mean, median, mode, dan range sangat penting dalam perencanaan kapasitas dan distribusi beban, pengelolaan sistem, maintenance, hingga troubleshooting. Selain itu, istilah-istilah ini juga sangat relevan dalam bidang data science yang terus berkembang pesat.
Penerapan mean, median, mode, dan range di data center
Di dunia manajemen data center, pemahaman terhadap konsep-konsep statistik ini sangat berguna. Admin seringkali harus menghitung mean, median, mode, atau range (atau kombinasi dari semuanya) untuk mengetahui tren, deviasi, atau nilai rata-rata yang representatif dari data yang besar.
Konsep ini dikenal sebagai central tendency, yang menggambarkan nilai “tengah” dari sebuah data.
- Mean diperoleh dengan menjumlahkan seluruh data dan membaginya dengan jumlah data.
- Median adalah nilai yang ada di tengah setelah data diurutkan.
- Mode adalah nilai yang paling sering muncul.
Range adalah selisih antara nilai tertinggi dan terendah, berguna untuk menunjukkan seberapa tersebar data tersebut.
Mean
Untuk distribusi dengan variabel acak diskrit, mean biasanya dihitung sebagai rata-rata dari semua nilai: jumlah semua nilai dibagi banyaknya data. Kalau variabelnya kontinu, mean disebut juga sebagai *expected value*. Nilai ini diperoleh dari hasil integrasi antara nilai variabel dengan peluangnya, dan biasanya dilambangkan dengan huruf Yunani kecil µ (mu).
Median
Untuk variabel acak diskrit: – Jika jumlah data ganjil, maka median adalah nilai yang tepat di tengah. – Jika genap, median diambil dari rata-rata dua nilai tengah.
Untuk variabel kontinu, median adalah nilai m di mana peluang sebuah titik acak berada di bawah atau di atas m masing-masing minimal 50%.
Mode
Mode adalah nilai yang paling sering muncul. Bisa saja suatu data memiliki lebih dari satu mode: – **Bimodal**: dua nilai terbanyak – **Trimodal**: tiga nilai terbanyak – Untuk data kontinu, mode adalah titik maksimum dari fungsi distribusinya.
Range
Range menunjukkan seberapa besar penyebaran nilai dalam dataset. – Untuk variabel diskrit: nilai maksimum dikurangi nilai minimum. – Untuk variabel kontinu: selisih antara dua titik ekstrem di kurva distribusi, di mana nilai fungsinya menjadi nol.
Menggunakan mean untuk menghitung konsumsi daya
Contoh kasus: satu rak di data center memiliki lima server dengan konsumsi daya masing-masing 100 W, 98 W, 105 W, 90 W, dan 102 W. Rata-rata (mean) konsumsi daya = (100 + 98 + 105 + 90 + 102) / 5 = **99 W per server**. Nilai ini bisa digunakan oleh PDU pintar untuk melaporkan penggunaan daya ke sistem manajemen.
Menggunakan median untuk perencanaan kapasitas
Untuk melihat tren jangka panjang, kita juga bisa gunakan median. Data tadi (90, 98, 100, 102, 105) setelah diurutkan, nilai tengahnya adalah **100 W**. Kalau jumlah server genap, misalnya ditambah server ke-6 dengan konsumsi 110 W, maka mediannya adalah rata-rata dari dua nilai tengah: (100 + 102) / 2 = **101 W**.
Menggunakan mode untuk menemukan pola umum
Dalam contoh sebelumnya, tidak ada mode karena semua nilai berbeda. Tapi misalnya pada data pusat operasi jaringan (NOC): 90, 104, 98, 98, 105, 92, 102, 100, 110, 98, 210, dan 115 W. Nilai **98 W** muncul paling sering → itulah mode-nya. Mode bisa digunakan untuk mengetahui pola paling umum dalam penggunaan daya.
Menggunakan range untuk mendeteksi outlier
Range dari enam server dengan konsumsi: 90, 98, 100, 102, 105, 110 W adalah: 110 – 90 = **20 W**. Range berguna untuk melihat apakah ada nilai ekstrim (outlier) yang perlu diperhatikan. Kalau nilai berada di luar range operasional, bisa jadi akan menyebabkan peringatan sistem.
Kalau mau lebih detail, kita juga bisa hitung variance dan standard deviation:
Mean: 99
Selisih kuadrat dari tiap nilai ke mean:
(100-99)² = 1
(98-99)² = 1
(105-99)² = 36
(90-99)² = 81
(102-99)² = 9
Jumlahkan: 1 + 1 + 36 + 81 + 9 = 128
Variance = 128 / 5 = 25.6
Standard deviation = √25.6 ≈ 5.1
Untuk mengabaikan outlier, kita bisa pakai interquartile range (IQR):
Dari data: 90, 98, 100, 102, 105, 110 → bagi jadi dua grup:
Grup bawah: 90, 98, 100 → median = 98
Grup atas: 102, 105, 110 → median = 105
Maka IQR = 105 – 98 = 7 W.