Apache Spark adalah framework cluster-computing free dan open-source yang digunakan untuk analitik, machine learning, dan pemrosesan grafik pada volume data yang besar. Spark hadir dengan 80+ operator tingkat tinggi yang memungkinkan Anda membangun aplikasi paralel dan menggunakannya secara interaktif dari shell Scala, Python, R, dan SQL.

Spark adalah mesin pengolah data yang cepat dan cepat dalam memori yang dirancang khusus untuk ilmu data. Spark menyediakan serangkaian fitur yang kaya termasuk, Kecepatan, Toleransi kesalahan, pemrosesan streams secara real time, komputasi dalam memori, analitik Lanjutan dan banyak lagi.

Dalam tutorial ini, kami akan menunjukkan kepada Anda bagaimana menginstal Apache Spark di Debian 10 server.

Prasyarat

  • Sistem yang menjalankan sistem Debian 10 dengan RAM 2GB.
  • Masuk sebagai user non-root dengan hak sudo.

Sebelum Mulai

Perbarui paket sistem operasi Anda (software). Ini adalah langkah pertama yang penting karena memastikan Anda memiliki pembaruan terbaru dan perbaikan keamanan untuk paket perangkat lunak default sistem operasi Anda:

sudo apt update && sudo apt upgrade -y

Setelah server diperbarui, restart sistem Anda untuk menerapkan semua perubahan

Install Java

Apache Spark ditulis dalam bahasa Java. Jadi Anda perlu menginstal Java di sistem. Secara default, versi terbaru Java tersedia di repositori default Debian 10. Anda dapat menginstalnya menggunakan perintah berikut:

apt-get install default-jdk -y

Setelah menginstal Java, verifikasi versi Java yang diinstal menggunakan perintah berikut:

java --version

Anda akan mendapatkan output kurang lebih seperti berikut:

openjdk 11.0.5 2019-10-15
OpenJDK Runtime Environment (build 11.0.5+10-post-Debian-1deb10u1)
OpenJDK 64-Bit Server VM (build 11.0.5+10-post-Debian-1deb10u1, mixed mode, sharing)

Download Apache Spark

Pertama, Download versi terbaru dari Apache Spark dari situs resminya. Pada saat menulis artikel ini, versi terbaru dari Apache Spark adalah 3.0. Pertama ubah direktori ke direktori /opt dan download Apache Spark menggunakan perintah wget:

cd /opt
 wget http://apachemirror.wuchna.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz

Setelah download selesai, ekstrak file yang diunduh menggunakan perintah berikut:

tar -xvzf spark-3.0.0-preview2-bin-hadoop2.7.tgz

Selanjutnya, ganti nama direktori yang telah di extract dengan perintah mv menjadi spark seperti yang ditunjukkan di bawah ini:

mv spark-3.0.0-preview2-bin-hadoop2.7 spark

Selanjutnya, Anda perlu mengatur environment untuk Spark. Anda dapat melakukannya dengan mengedit file ~/.bashrc

nano ~/.bashrc

Tambahkan baris berikut di akhir file:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Simpan dan tutup file setelah Anda selesai. Kemudian, aktifkan environment dengan perintah source:

source ~/.bashrc

Start Master Server

Anda sekarang dapat memulai Master server menggunakan perintah berikut:

start-master.sh

output kurang lebih seperti berikut

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian10.out

Secara default, Apache Spark listen pada port 8080. Kita dapat memverifikasinya dengan perintah berikut:

netstat -ant | grep 8080

Output:

tcp6       0      0 :::8080                 :::*                    LISTEN

Sekarang, buka web browser dan ketik URL http://server-ip:8080. Anda akan melihat halaman berikut

Cara Install dan Konfigurasi Apache Spark di Debian 10

Harap catat Spark URL “spark://debian10:7077” dari gambar di atas. Ini akan digunakan untuk memulai proses untuk Spark worker.

Mulai Spark worker.

Untuk dapat memulai proses Spark worker, jalankan perintah berikut:

start-slave.sh spark://debian10:7077

output kurang lebih seperti berikut:

starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-debian10.out

Akses Spark Shell

Spark Shell adalah lingkungan interaktif yang menyediakan cara sederhana untuk mempelajari API dan menganalisis data secara interaktif. Anda dapat mengakses Spark shell dengan perintah berikut:

spark-shell

output :

WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/opt/spark/jars/spark-unsafe_2.12-3.0.0-preview2.jar) to constructor java.nio.DirectByteBuffer(long,int)
WARNING: Please consider reporting this to the maintainers of org.apache.spark.unsafe.Platform
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
19/12/29 15:53:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://debian10:4040
Spark context available as 'sc' (master = local[*], app id = local-1577634806690).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.0-preview2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.5)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 

Dari sini, Anda dapat mempelajari cara memanfaatkan Apache Spark secara cepat dan mudah.

Jika ingin menghentikan Spark Master dan server Slave, jalankan perintah berikut:

stop-slave.sh
 stop-master.sh

Untuk saat ini, Anda telah berhasil menginstal Apache Spark di server Debian 10. Untuk informasi lebih lanjut, Anda dapat merujuk dokumentasi resmi Spark di Spark Doc.