Python Series

PySpark in Google Colab

A Tutorial in Bahasa

1 min readJul 14, 2021

Suatu ketika, pernah stuck sama analisis dataset berukuran sangat besar. Sudah mencoba menggunakan pandas chunk tapi memory-nya masih gak muat dan dask tapi ternyata gak bisa di-install di Colab. Pilihan terakhir akhirnya jatuh pada PySpark karena bisa di-running di Colab.

Kenapa sih, mesti banget pake Colab? Hehehe. Pernah punya pengalaman laptop hangus waktu lagi run pake software lokal, jadi mending pake cloud aja buat run segala macam analisis.

Seru banget pake PySpark ini dan masih harus banyak eksplore lagi. Code-nya dapat ditemukan disini.

Berikut adalah keseluruhan code untuk set up PySpark:

Notes: Sesuaikan versi spark dan hadoop pada laman berikut. Silakan ganti dengan versi terbaru saat itu.

Sementara itu, proses analisis data di PySpark hampir mirip dengan Pandas namun ada sedikit perbedaan. Berikut ini adalah basic code untuk data eksplorasi menggunakan PySpark. Disini, saya menggunakan dataset NewYork CitiBike yang diunduh dari BigQuery (sudah saya bahas cara import datasetnya di artikel berikut dan kemudian di-upload ke local drive).

dataset yang berupa rar di unboxing terlebih dahulu

data kemudian dibaca

menggabungkan seluruh data

memperlihatkan detail kolom

menampilkan baris

menampilkan jumlah baris

menampilkan kolom tertentu

menghitung statistik setiap kolom

menampilkan nilai unik dari kolom tertentu

melakukan agregasi pada kolom tertentu

menghitung dan menghilangkan nilai null

mengganti nilai null dengan 0

menghilangkan nilai null

Masih banyak lagi manual code untuk PySpark dan perlu ditelusuri lagi. Artikel ini masih menuliskan sebagiannya saja sebagai materi dasar sebagai pengingat untuk penulis.

Python Series

PySpark in Google Colab

A Tutorial in Bahasa

Written by Pratiwi Eka Puspita

No responses yet