PySpark in einer kostenfreien AWS EC2-Instanz einrichten

PySpark in einer kostenfreien AWS EC2-Instanz einrichten

PySpark in einer kostenfreien AWS EC2-Instanz einrichten

Die Analyse von Daten ist ein bedeutendes Thema im 21 Jahrhundert, wie unter anderem im medizinischen Bereich, in der Industrie oder in der Modellierung von Finanzprozessen. Durch die dabei anfallenden, gigantischen Datenmengen kann es trotz moderner Hochleistungsrechner erforderlich sein, die Daten mittels Rechnernetzwerken (Clustern) zu verarbeiten. Was PySpark damit zu tun hat, zeigen wir dir hier.

Das manuelle Aufsetzen von Clustern zur parallelen Bearbeitung großer Datenmengen ist mühsam. Hier hilft Apache Spark (mit der Python-Schnittstelle PySpark), mit dem solche Cluster einfach konfiguriert werden können. Ein enormer Vorteil von Spark bei dem parallelen Arbeiten mehrerer Rechner auf einem gemeinsamen Datensatz sind robuste Methoden zur Vermeidung von Datenausfällen und -integritätsproblemen.

Sympathischerweise kann Apache Spark auf EC2-Instanzen der Amazon Web Services kostenfrei eingerichtet werden, wodurch einfach damit experimentiert werden kann.

Zuerst ist es erforderlich, eine EC2-Instanz auf AWS einzurichten. Bitte befolge dazu alle Schritte bis zum Abschnitt “Verschlüsseltes Passwort erzeugen” im Tutorial Jupyter Notebook auf einer kostenfreien AWS-Instanz remote ausführen.

Scala Installation

In obig verlinktem Tutorial zur Einrichtung einer AWS-Instanz hast du einen ssh-Befehl erzeugt, mit dem du dich auf deiner Instanz einloggen kannst. Dieser sieht in etwa so aus:

ssh -i "AWS_EC2_Key.pem” ubuntu@ec2-3-22-100-119.us-east-2.compute.amazonaws.com

Dabei muss allerdings die DNS hinter “ubuntu@” der DNS deiner Instanz entsprechen, wie im Tutorial gezeigt.

Logge dich jetzt in deiner Instanz ein und führe anschliessend folgende Befehle aus:

sudo apt-get update && sudo apt install scala -y

Py4j Installation

Das Python-Modul Py4j stellt Java-Bindings zur Verfügung, die von Spark benötigt werden. Mit folgender Eingabe erfolgt die Installation:

conda activate && pip install py4j

Spark Installation

Nun kannst du die eigentliche Installation von Apache Spark ausführen. Gib dazu ein

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgzsudo tar xf spark-3.0.1-bin-hadoop2.7.tgz
mv spark-3.0.1-bin-hadoop2.7 /home/ubuntu/

Jetzt müssen noch die Umgebungsvariablen gesetzt werden:

export SPARK_HOME=/home/ubuntu/spark-3.0.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH

PySpark Test

Jetzt kannst du testen, ob die Installation von PySpark erfolgreich war. Starte PySpark durch die Eingabe von

pyspark

Jetzt sollte sich die PySpark-Konsole öffnen, wie in der folgenden Abbildung gezeigt:

PySpark Konsole im Night Modus

Wenn du zusätzlich Jupyter einrichtest, wie im am Anfang verlinkten Tutorial gezeigt, kannst du ausserdem ein remote Jupyter Notebook starten und in diesem mit PySpark experimentieren!

Weitere Schritte

Eine spannende Einführung zum Thema Datenanalyse mit PySpark findest du hier:

https://www.guru99.com/pyspark-tutorial.html#8

Statt dessen kannst du auch an unserem umfangreichen und gut verständlichen Onlinekurs zum Thema Spark und Python für Big Data teilnehmen:

> Zu unserem Onlinekurs für Spark Kurs


Wir haben regelmäßig neue Blogbeiträge auf Medium für dich. Schau doch mal vorbei. >>zu unserem Blog auf Medium

Trotz Blog und Kurs nicht verstanden? Kein Problem. Wir haben auch Coding Coaching für dich! >>zum individuellen Coding Coaching

Sieh dir an was wir noch machen.  >> Zurück zur Startseite

Deutsch