PANDAS, DATA ANALISIS DAN CSV.
Pandas adalah salah satu library paling populer dalam ekosistem Python untuk analisis data. Dengan Pandas, data dapat dikelola dalam struktur Series (satu dimensi) dan DataFrame (dua dimensi, mirip tabel di Excel). Keunggulan utama Pandas adalah kemampuannya dalam membaca berbagai format data seperti CSV, Excel, JSON, SQL, hingga data dari API, serta menyediakan fungsi-fungsi yang efisien untuk eksplorasi, pembersihan, transformasi, dan manipulasi data. Hal ini membuat Pandas menjadi pondasi utama dalam proses data wrangling sebelum data dianalisis lebih lanjut atau digunakan dalam pemodelan.
Selain itu, Pandas juga mendukung analisis statistik dasar, agregasi, dan pengelompokan data (grouping), sehingga memungkinkan pengguna memperoleh insight dengan cepat. Library ini terintegrasi erat dengan library lain seperti NumPy, Matplotlib, Seaborn, dan Scikit-Learn, sehingga memudahkan alur kerja analisis data dari tahap awal hingga visualisasi dan pemodelan. Oleh karena fleksibilitas dan performanya yang tinggi, Pandas digunakan secara luas di bidang akademik, riset, maupun industri untuk mendukung pengambilan keputusan berbasis data (data-driven decision making).
Olah Data CSV dengan Pandas
import pandas as pd # import pandas # 1. Membaca dataset dari URL url = "https://raw.githubusercontent.com/Alam-A99/Case-Study/refs/heads/main/Data_Regresi.csv" df = pd.read_csv(url) 2. Melihat 5 baris pertama print("=== 5 baris pertama ===") print(df.head()) 3. Melihat 5 baris terakhir print("=== 5 baris terakhir ===") print(df.tail()) 4. Melihat dimensi (jumlah baris x kolom) print("=== Dimensi DataFrame (baris, kolom) ===") print(df.shape) 5. Melihat nama kolom print("=== Nama kolom ===") print(df.columns) 6. Ringkasan info tipe data print("=== Info DataFrame ===") print(df.info()) 7. Statistik deskriptif print("=== Statistik Deskriptif ===") print(df.describe()) 8. Melihat 10 data unik dari kolom tertentu print("=== 10 nilai unik kolom 'Y' ===") print(df['Y'].unique()[:10]) # ambil maksimal 10 9. Jumlah nilai unik kolom print("=== Jumlah nilai unik kolom 'Y' ===") print(df['Y'].nunique()) 10. Jumlah data kosong per kolom print("=== Jumlah data kosong per kolom ===") print(df.isnull().sum()) 11. Melihat semua tipe data per kolom print("=== Tipe data tiap kolom ===") print(df.dtypes)
Selengkapnya view Modul Pandas
Daftar Dataset
- 1. Data Penjualan
- 2. Data Regresi Berganda
- 3. Data Penjualan dan Data Kategori
- 4. BTC-USDT 2010-2019
- 5. BTC-USDT 2018-2023