Python Series

PySpark in Google Colab

A Tutorial in Bahasa

Pratiwi Eka Puspita
1 min readJul 14, 2021
Photo by Kevin Canlas on Unsplash

Suatu ketika, pernah stuck sama analisis dataset berukuran sangat besar. Sudah mencoba menggunakan pandas chunk tapi memory-nya masih gak muat dan dask tapi ternyata gak bisa di-install di Colab. Pilihan terakhir akhirnya jatuh pada PySpark karena bisa di-running di Colab.

Kenapa sih, mesti banget pake Colab? Hehehe. Pernah punya pengalaman laptop hangus waktu lagi run pake software lokal, jadi mending pake cloud aja buat run segala macam analisis.

Seru banget pake PySpark ini dan masih harus banyak eksplore lagi. Code-nya dapat ditemukan disini.

Berikut adalah keseluruhan code untuk set up PySpark:

Notes: Sesuaikan versi spark dan hadoop pada laman berikut. Silakan ganti dengan versi terbaru saat itu.

Sementara itu, proses analisis data di PySpark hampir mirip dengan Pandas namun ada sedikit perbedaan. Berikut ini adalah basic code untuk data eksplorasi menggunakan PySpark. Disini, saya menggunakan dataset NewYork CitiBike yang diunduh dari BigQuery (sudah saya bahas cara import datasetnya di artikel berikut dan kemudian di-upload ke local drive).

dataset yang berupa rar di unboxing terlebih dahulu
data kemudian dibaca
menggabungkan seluruh data
memperlihatkan detail kolom
menampilkan baris
menampilkan jumlah baris
menampilkan kolom tertentu
menghitung statistik setiap kolom
menampilkan nilai unik dari kolom tertentu
melakukan agregasi pada kolom tertentu
menghitung dan menghilangkan nilai null
mengganti nilai null dengan 0
menghilangkan nilai null

Masih banyak lagi manual code untuk PySpark dan perlu ditelusuri lagi. Artikel ini masih menuliskan sebagiannya saja sebagai materi dasar sebagai pengingat untuk penulis.

--

--

No responses yet