SIMULASI REGRESI LOGISTIK (PENGAYAAN KKA)

REGRESI LOGISTIK 

Regresi Logistik adalah teknik statistik yang digunakan untuk memodelkan hubungan antara satu atau lebih variabel independen (prediktor) dan sebuah variabel dependen yang bersifat biner (hanya memiliki dua kemungkinan nilai, biasanya 0 dan 1). Tujuan utamanya adalah untuk memprediksi probabilitas atau kemungkinan suatu peristiwa terjadi (Y=1) berdasarkan nilai-nilai variabel input.


Berbeda dengan Regresi Linier yang memprediksi nilai kontinu, Regresi Logistik memprediksi probabilitas yang selalu berada antara 0 dan 1. Ini menjadikannya sangat cocok untuk masalah klasifikasi biner, seperti:

  • Memprediksi apakah seorang pelanggan akan membeli produk (Ya/Tidak)

  • Mendiagnosis penyakit berdasarkan gejala (Positif/Negatif)

  • Menilai risiko kredit (Lancar/Macet) 

Bagaimana Cara Kerja Regresi Logistik?

Fungsi Linier (Logit): Pertama, model menghitung kombinasi linier dari variabel input (X1, X2, X3) yang diberi bobot (koefisien) serta sebuah nilai konstanta (intercept).

Y = b0 + b1*X1 + b2*X2 + b3*X3

  • b0: Intercept (konstanta)

  • b1, b2, b3: Koefisien untuk masing-masing variabel X1, X2, X3. Nilai ini menunjukkan seberapa besar pengaruh setiap variabel terhadap log-odds dari hasil.

Fungsi Sigmoid: Hasil dari fungsi linier (z) kemudian dimasukkan ke dalam fungsi Sigmoid (juga disebut fungsi logistik). Fungsi ini memetakan nilai z yang bisa berkisar dari minus tak hingga hingga plus tak hingga menjadi nilai probabilitas antara 0 dan 1.

p = 1 / (1 + e^(-z))

  • p: Probabilitas prediksi bahwa Y=1.

  • e: Bilangan Euler (sekitar 2.718).

Interpretasi Output:
    • Jika p mendekati 1, model sangat yakin bahwa hasilnya adalah Y=1.

    • Jika p mendekati 0, model sangat yakin bahwa hasilnya adalah Y=0.

    • Untuk membuat klasifikasi biner, biasanya digunakan ambang batas (threshold) 0.5:

      • Jika p >= 0.5, prediksi kelas adalah 1.

      • Jika p < 0.5, prediksi kelas adalah 0.


Perbedaan Utama Jenis-Jenis Regresi Logistik

Regresi Logistik digunakan untuk memodelkan probabilitas suatu peristiwa terjadi berdasarkan variabel input. Pemilihan jenis regresi logistik tergantung pada sifat dari variabel target (dependen).
Aspek Perbandingan Regresi Logistik Biner Regresi Logistik Multinomial Regresi Logistik Ordinal
Deskripsi Bentuk paling dasar dari regresi logistik Untuk variabel dependen dengan lebih dari dua kategori yang tidak berurutan Untuk variabel dependen dengan lebih dari dua kategori yang berurutan
Jumlah Kelas/Kategori 2 kelas 3 atau lebih kelas 3 atau lebih kelas
Sifat Kelas Tidak berurutan (Nominal) Tidak berurutan (Nominal) Berurutan (Ordinal)
Contoh Variabel Target
Ya/Tidak
Lulus/Gagal
Sakit/Sehat
Transportasi: Mobil, Bus, Sepeda
Cuaca: Cerah, Berawan, Hujan
Merek: A, B, C
Kepuasan: Tidak Puas, Netral, Puas
Pendidikan: SMA, Sarjana, Magister
Risiko: Rendah, Sedang, Tinggi
Model Dasar 1 persamaan logit K-1 persamaan logit (K = jumlah kelas) 1 persamaan logit dengan asumsi proporsional odds
Output Probabilitas untuk 2 kelas (p dan 1-p) Probabilitas untuk setiap kelas (jumlah = 1) Probabilitas untuk setiap tingkat ordinal (jumlah = 1)
Asumsi Utama Hubungan linier antara prediktor dan log-odds Tidak ada asumsi urutan antar kelas Asumsi proporsional odds (jarak antar kelas sama)
Link Function Logit Multinomial Logit Proportional Odds (Logit)
Kompleksitas Model Rendah Sedang Sedang-Tinggi
Interpretasi Koefisien Log-odds ratio untuk satu kelas vs yang lain Log-odds ratio untuk setiap kelas vs kelas referensi Log-odds ratio untuk berpindah ke kategori yang lebih tinggi
  • Biner: Paling sederhana, cocok untuk masalah klasifikasi dua kelas seperti email spam/ham.
  • Multinomial: Digunakan ketika kelas tidak memiliki urutan alami, seperti memilih antara berbagai merek produk.
  • Ordinal: Digunakan ketika kelas memiliki urutan alami, seperti tingkat kepuasan pelanggan atau tingkat kesulitan tugas.
Pemilihan jenis regresi logistik sangat penting karena mempengaruhi cara model dibangun, diinterpretasikan, dan digunakan untuk prediksi. Kesalahan dalam memilih jenis dapat menghasilkan model yang tidak akurat.
Regresi Logistik (3 Variabel)

Regresi Logistik: Hubungan X1, X2, X3, dan Y (0/1)

Input Manual

Paste dari Excel

Upload File (CSV/Excel)

``` Regresi Logistik Multinomial (3 Variabel)

Regresi Logistik Multinomial: X1, X2, X3 → Y (Multi Kelas)

Info: Regresi Logistik Multinomial digunakan untuk memprediksi probabilitas kelas target (Y) yang memiliki lebih dari 2 kategori. Masukkan nilai Y sebagai angka bulat (0, 1, 2, dst.).

Input Manual

Paste dari Excel

Format: Tab-separated values (TSV) - Gunakan Tab untuk memisahkan kolom

Input Data CSV (Dipisah Koma)

Format: Comma-separated values (CSV) - Gunakan koma (,) untuk memisahkan kolom

Upload File (CSV/Excel)