Hai Sobat SIDK! Selamat datang kembali di sesi Ngulik Komputer Santai, Paham Maksimal.
Ingin bermain-main dengan Big Data? Jika Anda serius mendalami Data Science atau Engineering, Anda pasti tahu bahwa Apache Spark adalah mesin yang wajib dikuasai karena kecepatannya dalam memproses data skala besar.
Seringkali, panduan instalasi Spark terlihat rumit, apalagi jika harus dijalankan di Windows dan bukan Linux. Jangan khawatir! Artikel ini adalah blueprint lengkap yang Anda butuhkan. Kita akan memandu Anda secara tuntas, mulai dari memastikan prerequisite seperti Java (JDK) sudah terpasang, mengatur variabel lingkungan (Environment Variables), hingga memastikan Spark shell berjalan mulus di Windows 10 atau 11 Anda. Mari kita nyalakan mesin Big Data di PC lokal Anda sekarang juga!
Mengunduh dan Menginstal Apache Spark di Windows
Apache Spark merupakan mesin analitik terpadu yang dirancang untuk pemrosesan data dalam skala besar. Platform ini menyediakan API tingkat tinggi untuk berbagai bahasa pemrograman seperti Java, Python, dan Scala. Untuk mulai menggunakan Spark di sistem operasi Windows, langkah pertama yang perlu dilakukan adalah mengunduh dan menginstal paket biner Spark yang sesuai. Bagian ini akan memberikan panduan rinci dan sistematis mengenai proses instalasi Apache Spark di Windows.
Prasyarat
Sebelum memulai instalasi, pastikan bahwa Java Development Kit (JDK) versi 8 atau yang lebih baru telah terpasang di sistem Anda. Karena Spark bergantung pada Java untuk menjalankan prosesnya, ketersediaan JDK yang kompatibel menjadi hal yang sangat penting. Anda dapat memperoleh installer JDK dari situs resmi Oracle atau memilih distribusi alternatif berbasis open-source seperti OpenJDK.
Setelah JDK berhasil diinstal, langkah berikutnya adalah mengatur variabel lingkungan JAVA_HOME agar mengarah ke lokasi instalasi JDK. Selain itu, tambahkan direktori bin dari JDK ke dalam variabel lingkungan PATH sistem. Pengaturan ini memastikan bahwa sistem dapat mengenali dan mengeksekusi perintah Java yang dibutuhkan oleh Spark.
Sebelum mengunduh Apache Spark, penting untuk memastikan bahwa Java telah terinstal dan dikonfigurasi dengan benar dalam variabel lingkungan. Jika konfigurasi tidak dilakukan dengan tepat, kesalahan dapat terjadi saat menjalankan perintah Spark. Untuk memverifikasi apakah Java telah terinstal dengan benar, buka Command Prompt dan ketik perintah berikut:
java –version
Jika Java telah terinstal dan dikonfigurasi dengan benar, Command Prompt akan menampilkan informasi mengenai versi Java yang tersedia di sistem Anda.
Langkah 1: Mengunduh Paket Biner Apache Spark
Untuk mendapatkan paket biner Apache Spark, buka peramban web dan kunjungi situs resmi Apache Spark pada halaman unduhan.
Di halaman tersebut, tersedia menu tarik-turun yang menampilkan berbagai versi Spark yang dapat diunduh. Pilih versi Spark yang sesuai dengan kebutuhan Anda. Dalam panduan ini, kami menggunakan Spark 3.5.5, yang merupakan versi terbaru pada saat penulisan. Namun, Anda dapat memilih versi lain sesuai dengan kebutuhan proyek dan kompatibilitas sistem Anda.
Setelah memilih versi Spark yang diinginkan, temukan bagian "Pre-built for Apache Hadoop". Pada bagian ini, tersedia paket yang telah dikonfigurasi dengan versi Hadoop tertentu. Pilih versi Hadoop yang sesuai dengan kebutuhan sistem Anda atau pilih opsi "Hadoop free" jika tidak memerlukan integrasi dengan Hadoop. Dalam panduan ini, kita akan menggunakan opsi "Pre-built for Apache Hadoop 3.3 dan yang lebih baru" sebagai contoh.
Selanjutnya, klik tautan unduhan yang sesuai dengan versi Spark, distribusi Hadoop, dan format paket yang telah dipilih. Proses ini akan memulai pengunduhan paket biner Spark ke komputer Anda.
Langkah 2: Mengekstrak Paket Biner Spark
Setelah proses pengunduhan paket biner Spark selesai, langkah berikutnya adalah mengekstrak file tersebut ke lokasi yang diinginkan di sistem Windows Anda. Buka File Explorer dan arahkan ke direktori tempat file Spark tersimpan.
Klik kanan pada file yang telah diunduh, lalu pilih opsi "Extract All" atau "Extract Here" dari menu konteks. Proses ini akan memulai ekstraksi file Spark.
Sebuah kotak dialog akan muncul untuk meminta Anda menentukan folder tujuan ekstraksi. Pilih direktori yang sesuai di sistem Anda sebagai lokasi instalasi Spark. Untuk menjaga struktur yang rapi, disarankan membuat folder khusus, seperti "spark" di dalam drive C:\nama_file_aplikasi, guna mempermudah pengelolaan dan akses terhadap file Spark.
Setelah menentukan folder tujuan, klik tombol "Ekstrak" untuk memulai proses ekstraksi. Durasi ekstraksi bergantung pada spesifikasi sistem dan ukuran arsip yang diunduh. Jika arsip berukuran besar atau sistem memiliki performa yang lebih rendah, proses ini mungkin memerlukan waktu lebih lama.
Langkah 3: Mengonfigurasi Variabel Lingkungan
Mengatur variabel lingkungan dengan benar sangat penting agar sistem Windows dapat mengenali dan menggunakan instalasi Spark dengan optimal.
Untuk memulai, buka pengaturan variabel lingkungan dengan mencarinya melalui Menu Start.
Di jendela System Properties, buka tab "Advanced" dan klik tombol "Environment Variables" yang terletak di bagian bawah. Tindakan ini akan membuka jendela "Environment Variables", yang memungkinkan Anda mengelola variabel sistem dan pengguna:
Pada jendela "Environment Variables", cari bagian "System Variables", lalu klik tombol "New" untuk membuat variabel sistem baru:
Setelah itu, di jendela “Edit Environment Variables”, klik tombol “New” , tambahkan jalur berikut: %SPARK_HOME%\bin. Pengaturan ini memastikan bahwa sistem dapat menemukan dan menjalankan file eksekusi Spark:
Klik "OK" pada semua jendela yang terbuka untuk menyimpan perubahan. Jika Anda menutup jendela tanpa menyimpan, semua modifikasi yang telah dilakukan akan hilang.
Langkah 4: Memverifikasi Instalasi Apache Spark
Sebelum menginstal Apache Spark di Windows, pastikan Java telah terinstal dan dikonfigurasi dengan benar dalam variabel lingkungan. Jika tidak, kesalahan mungkin terjadi saat menjalankan perintah Spark:
spark-shell --version
Jika semua langkah instalasi telah dilakukan dengan benar, termasuk konfigurasi Java dan variabel lingkungan, Anda dapat menjalankan Spark di Windows dengan membuka Command Prompt dan mengetik perintah spark-shell. Jika instalasi berhasil, sistem akan menampilkan versi Spark yang telah diinstal, menandakan bahwa sistem mengenali perintah tersebut.
Kesimpulan
Menginstal Apache Spark di Windows memerlukan pendekatan yang sistematis agar proses penyiapan berjalan dengan lancar. Langkah-langkahnya dimulai dengan mengunduh paket biner Spark dari situs web resmi, memilih jenis paket yang sesuai, dan mengekstrak file ke direktori yang telah ditentukan. Selanjutnya, pengaturan variabel lingkungan menjadi bagian penting dalam konfigurasi Spark, termasuk memperbarui jalur sistem agar Spark dapat dikenali oleh Windows.
Dengan mengikuti tahapan ini, pengguna dapat menginstal Apache Spark dengan sukses di Windows. Beberapa poin utama yang perlu diperhatikan dalam proses ini meliputi pemilihan versi Spark yang sesuai, memastikan ruang penyimpanan cukup untuk ekstraksi file, mengonfigurasi variabel lingkungan dengan benar, serta memverifikasi instalasi Java. Dengan langkah-langkah ini, pengguna dapat memastikan proses instalasi berjalan tanpa kendala dan mulai mengeksplorasi fitur serta kapabilitas Apache Spark.
Untuk lebih jelasnya simak video berikut ini:








