PySpark in einer kostenfreien AWS EC2-Instanz einrichten
Die Analyse von Daten ist ein bedeutendes Thema im 21 Jahrhundert, wie unter anderem im medizinischen Bereich, in der Industrie oder in der Modellierung von Finanzprozessen. Durch die dabei anfallenden, gigantischen Datenmengen kann es trotz moderner Hochleistungsrechner erforderlich sein, die Daten mittels Rechnernetzwerken (Clustern) zu verarbeiten. Was PySpark damit zu tun hat, zeigen wir dir hier.
Das manuelle Aufsetzen von Clustern zur parallelen Bearbeitung großer Datenmengen ist mühsam. Hier hilft Apache Spark (mit der Python-Schnittstelle PySpark), mit dem solche Cluster einfach konfiguriert werden können. Ein enormer Vorteil von Spark bei dem parallelen Arbeiten mehrerer Rechner auf einem gemeinsamen Datensatz sind robuste Methoden zur Vermeidung von Datenausfällen und -integritätsproblemen.
Sympathischerweise kann Apache Spark auf EC2-Instanzen der Amazon Web Services kostenfrei eingerichtet werden, wodurch einfach damit experimentiert werden kann.
Zuerst ist es erforderlich, eine EC2-Instanz auf AWS einzurichten. Bitte befolge dazu alle Schritte bis zum Abschnitt “Verschlüsseltes Passwort erzeugen” im Tutorial Jupyter Notebook auf einer kostenfreien AWS-Instanz remote ausführen.
Scala Installation
In obig verlinktem Tutorial zur Einrichtung einer AWS-Instanz hast du einen ssh-Befehl erzeugt, mit dem du dich auf deiner Instanz einloggen kannst. Dieser sieht in etwa so aus:
ssh -i "AWS_EC2_Key.pem” ubuntu@ec2-3-22-100-119.us-east-2.compute.amazonaws.com
Dabei muss allerdings die DNS hinter “ubuntu@” der DNS deiner Instanz entsprechen, wie im Tutorial gezeigt.
Logge dich jetzt in deiner Instanz ein und führe anschliessend folgende Befehle aus:
sudo apt-get update && sudo apt install scala -y
Py4j Installation
Das Python-Modul Py4j stellt Java-Bindings zur Verfügung, die von Spark benötigt werden. Mit folgender Eingabe erfolgt die Installation:
conda activate && pip install py4j
Spark Installation
Nun kannst du die eigentliche Installation von Apache Spark ausführen. Gib dazu ein
wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgzsudo tar xf spark-3.0.1-bin-hadoop2.7.tgz
mv spark-3.0.1-bin-hadoop2.7 /home/ubuntu/
Jetzt müssen noch die Umgebungsvariablen gesetzt werden:
export SPARK_HOME=/home/ubuntu/spark-3.0.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
PySpark Test
Jetzt kannst du testen, ob die Installation von PySpark erfolgreich war. Starte PySpark durch die Eingabe von
pyspark
Jetzt sollte sich die PySpark-Konsole öffnen, wie in der folgenden Abbildung gezeigt:
Wenn du zusätzlich Jupyter einrichtest, wie im am Anfang verlinkten Tutorial gezeigt, kannst du ausserdem ein remote Jupyter Notebook starten und in diesem mit PySpark experimentieren!
Weitere Schritte
Eine spannende Einführung zum Thema Datenanalyse mit PySpark findest du hier:
https://www.guru99.com/pyspark-tutorial.html#8
Statt dessen kannst du auch an unserem umfangreichen und gut verständlichen Onlinekurs zum Thema Spark und Python für Big Data teilnehmen:
> Zu unserem Onlinekurs für Spark Kurs
Wir haben regelmäßig neue Blogbeiträge auf Medium für dich. Schau doch mal vorbei. >>zu unserem Blog auf Medium
Trotz Blog und Kurs nicht verstanden? Kein Problem. Wir haben auch Coding Coaching für dich! >>zum individuellen Coding Coaching
Sieh dir an was wir noch machen. >> Zurück zur Startseite