Python Series
PySpark in Google Colab
A Tutorial in Bahasa
Suatu ketika, pernah stuck sama analisis dataset berukuran sangat besar. Sudah mencoba menggunakan pandas chunk tapi memory-nya masih gak muat dan dask tapi ternyata gak bisa di-install di Colab. Pilihan terakhir akhirnya jatuh pada PySpark karena bisa di-running di Colab.
Kenapa sih, mesti banget pake Colab? Hehehe. Pernah punya pengalaman laptop hangus waktu lagi run pake software lokal, jadi mending pake cloud aja buat run segala macam analisis.
Seru banget pake PySpark ini dan masih harus banyak eksplore lagi. Code-nya dapat ditemukan disini.
Berikut adalah keseluruhan code untuk set up PySpark:
Notes: Sesuaikan versi spark dan hadoop pada laman berikut. Silakan ganti dengan versi terbaru saat itu.
Sementara itu, proses analisis data di PySpark hampir mirip dengan Pandas namun ada sedikit perbedaan. Berikut ini adalah basic code untuk data eksplorasi menggunakan PySpark. Disini, saya menggunakan dataset NewYork CitiBike yang diunduh dari BigQuery (sudah saya bahas cara import datasetnya di artikel berikut dan kemudian di-upload ke local drive).
Masih banyak lagi manual code untuk PySpark dan perlu ditelusuri lagi. Artikel ini masih menuliskan sebagiannya saja sebagai materi dasar sebagai pengingat untuk penulis.