Materi 21 - Programming dan Data Science

Statistik untuk Data Science

Pondasi yang sering dilewati. Descriptive, inferential, hypothesis testing.

Durasi 28 Menit Level intermediate Kurikulum 30 Materi

1. Descriptive Statistics

Mean, median, mode (central tendency). Variance, standard deviation (spread). Quartile, percentile (posisi). Wajib pahami distribusi sebelum modeling.

2. Distribusi Probabilitas

Normal (bell curve). Uniform (semua sama). Binomial (binary outcome). Poisson (count of events). Mengenali distribusi membantu pilih analytics tepat.

3. Hypothesis Testing

Null hypothesis (H0) vs alternative (H1). p-value untuk decide reject atau tidak. Significance level alpha biasanya 0.05. Type I error (false positive) vs Type II (false negative).

4. Confidence Interval

Range yang kemungkinan mengandung nilai population sebenarnya. Lebih informatif dari point estimate tunggal. 95 persen confidence umum dipakai.

5. Common Pitfalls

p-hacking (test banyak sampai ada yang significant). Korelasi vs kausalitas. Sample size kecil. Cherry-picking data. Simpsons paradox. Kenali sebelum buat decision dari data.

Tugas Praktik

  1. Hitung descriptive stats di dataset
  2. Plot distribusi dan identifikasi tipenya
  3. Lakukan t-test antara 2 grup
  4. Hitung confidence interval sample mean
  5. Identifikasi 3 statistical fallacy di artikel atau berita

Rangkuman