PANDAS, DATA ANALISIS DAN CSV

PANDAS, DATA ANALISIS DAN CSV.

Pandas adalah salah satu library paling populer dalam ekosistem Python untuk analisis data. Dengan Pandas, data dapat dikelola dalam struktur Series (satu dimensi) dan DataFrame (dua dimensi, mirip tabel di Excel). Keunggulan utama Pandas adalah kemampuannya dalam membaca berbagai format data seperti CSV, Excel, JSON, SQL, hingga data dari API, serta menyediakan fungsi-fungsi yang efisien untuk eksplorasi, pembersihan, transformasi, dan manipulasi data. Hal ini membuat Pandas menjadi pondasi utama dalam proses data wrangling sebelum data dianalisis lebih lanjut atau digunakan dalam pemodelan. 

Selain itu, Pandas juga mendukung analisis statistik dasar, agregasi, dan pengelompokan data (grouping), sehingga memungkinkan pengguna memperoleh insight dengan cepat. Library ini terintegrasi erat dengan library lain seperti NumPy, Matplotlib, Seaborn, dan Scikit-Learn, sehingga memudahkan alur kerja analisis data dari tahap awal hingga visualisasi dan pemodelan. Oleh karena fleksibilitas dan performanya yang tinggi, Pandas digunakan secara luas di bidang akademik, riset, maupun industri untuk mendukung pengambilan keputusan berbasis data (data-driven decision making).

Olah data dengan Pandas dari file url

Olah Data CSV dengan Pandas


import pandas as pd   # import pandas

# 1. Membaca dataset dari URL
url = "https://raw.githubusercontent.com/Alam-A99/Case-Study/refs/heads/main/Data_Regresi.csv"
df = pd.read_csv(url)

2. Melihat 5 baris pertama
print("=== 5 baris pertama ===")
print(df.head())

3. Melihat 5 baris terakhir
print("=== 5 baris terakhir ===")
print(df.tail())

4. Melihat dimensi (jumlah baris x kolom)
print("=== Dimensi DataFrame (baris, kolom) ===")
print(df.shape)

5. Melihat nama kolom
print("=== Nama kolom ===")
print(df.columns)

6. Ringkasan info tipe data
print("=== Info DataFrame ===")
print(df.info())

7. Statistik deskriptif
print("=== Statistik Deskriptif ===")
print(df.describe())

8. Melihat 10 data unik dari kolom tertentu
print("=== 10 nilai unik kolom 'Y' ===")
print(df['Y'].unique()[:10])   # ambil maksimal 10

9. Jumlah nilai unik kolom
print("=== Jumlah nilai unik kolom 'Y' ===")
print(df['Y'].nunique())

10. Jumlah data kosong per kolom
print("=== Jumlah data kosong per kolom ===")
print(df.isnull().sum())

11. Melihat semua tipe data per kolom
print("=== Tipe data tiap kolom ===")
print(df.dtypes)

Selengkapnya view Modul Pandas

Daftar Dataset