Die Datenvisualisierung ist genauso wichtig, wie das vorherige Zurchtstutzen von Big Data. Erst durch die Visualiserung machen viele Daten einen Sinn, Lies in diesem Blogbeitrag, warum das so ist. Hauptsächlich liegt das am Menschen. Selten an der Machine selbst.

Was ist Datenvisualisierung und was macht Sinn? Eine kurze Einführung.

Die Nachfrage nach Daten und Analysen ist so groß wie nie zuvor. Eine Studie hat beispielsweise ergeben, dass 80 % der Führungskräfte IT-Daten als die vertrauenswürdigsten Datenquellen in Unternehmen einstufen. In diesen Zeiten nimmt das Thema weiter an Fahrt auf:

„Die Auswirkungen der globalen Pandemie auf die Wirtschaft haben den Unternehmen klar gemacht, dass sie das Datenzeitalter nutzen müssen, um zu überleben“.

Es gibt jedoch einen großen Unterschied zwischen dem Sammeln von Daten und der effektiven Nutzung. Um zum Beispiel Gewinne zu steigern und das Business zu optimieren. Daten müssen vorbereitet, verarbeitet und organisiert werden, um genutzt werden zu können. Ein wichtiger Teil des Prozesses besteht darin, Daten für Mitarbeiter leicht zugänglich und verständlich zu machen.

Aus diesem Grund wird die Datenvisualisierung, der Prozess der grafischen Darstellung von Datensätzen, in vielen Unternehmen immer wichtiger. Gerade der Bereich der Berichterstattung kommt selten ohne die grafische Aufarbeitung komplexer Datenstrukturen aus.

Warum ist Datenvisualisierung notwendig?

Für die meisten Menschen ist es viel einfacher, ein mehrfarbiges, gut organisiertes Diagramm zu lesen, als Daten in einer Excel-Tabelle oder einem Bericht zu durchforsten.

Schließlich muss das Gehirn Informationen speichern, um sie zu verarbeiten. Indem Daten visualisiert werden — d. h. sauber und organisiert dargestellt und damit leicht zu lesen — ist es für die meisten von uns viel einfacher, sie auf einen Blick zu verstehen. Tatsächlich haben Wissenschaftler herausgefunden, dass das menschliche Gehirn visuelle Informationen 60.000 Mal schneller verarbeitet als reinen Text. Bildliche Darstellungen bringen Menschen zudem überhaupt erst dazu, Zusammenhänge wahrzunehmen. Menschen, die Informationen nur lesen erinnern sich außerdem nach drei Tagen nur noch an rund 10% der Inhalte. Mit visuelle Darstellungen bleiben jedoch 65% der Botschaft hängen.

Auswählen der richtigen Visualisierungen

Wir bewegen uns über das Tabellenzeitalter hinaus ins digitale Zeitalter. Die Verbreitung moderner Plattformen und Software, wie Tableau oder PowerBI haben es einfacher gemacht, Daten visuell für Endbenutzer darzustellen. Zudem sind sie viel “spannender” als Tabellenkalkulationen.

Visualisierungen können je nach Typ der Datenkategorie, mit der du arbeitest, variieren. Wenn es darauf hinausläuft, gibt es eine scheinbar unendliche Anzahl von Möglichkeiten Daten darzustellen. Bevor du anfängst, wird es helfen, ein klares Verständnis dessen zu haben, was du rüber bringen möchtest. Auf diese Weise kannst du mit deinen Daten eine überzeugende Geschichte erzählen.

Hier haben wir einige Kategorien für dich zusammengestellt, um Daten sinnvoll zu visualisieren.

Visualisierungen im Überblick © Datamics GmbH

Verteilung

Wenn du mehrere Verteilungen numerischer Daten vergleichen möchtest, kann entweder ein Histogramm, ein 3D-Flächenchart, ein Punktediagramm oder ein Boxplot helfen.

Im Allgemeinen sollten aber Histogramme verwendet werden, wenn es eine ähnliche Stichprobengröße gibt und nur wenige verschiedene Vergleiche anzustellen sind. Andernfalls erscheint das Diagramm möglicherweise übermäßig voll und wird schwer zu lesen. Auf der anderen Seite kannst du mit einem Boxplot sehen, ob das Dataset symmetrisch oder verzerrt ist. Auch interessant!

Datenvergleiche

Vergleiche zeigen Unterschiede zwischen Werten an. Ob es sich um unterschiedliche Datenmerkmale oder Zeitpunkte handelt, entscheidet manchmal auch, welche Visualisierung gewählt werden kann.

Um mehrere Elemente zu vergleichen, kannst du die Daten mithilfe von Säulen- oder Balkendiagrammen darstellen. Auch Tabellen mit eingebetteten Charts können interessant sein, wenn die Daten dies zulassen. Du kannst auch einen Zeitverlauf abbilden. Hierfür eigenen sich besonders Linien- oder Säulendiagrammen, aber auch Radiardiagrammen, wenn die Daten sich zyklisch verhalten.

Beziehungen

Beziehungen beschreiben Datenverbindungen in verschiedenen Tabellen. Um Korrelationen zu visualisieren, verwendest du entweder ein Streudiagramm (auch Punktdiagramm genannt), ein Blasendiagramm oder eine Heatmap.

Beziehungen und besondere Verbindungen können auch mithilfe von Bogendiagrammen, Netzwerkdiagrammen und Baumdiagrammen demonstriert werden. Auch Heatmaps und Marimekko-Diagramme können verwendet werden.

Hier kommt es immer auf die Komplexität der Daten an. Um eine sinnvolle, verständliche Visualisierung zu wählen, sollte man sich langsam an die Daten annähern und ein bisschen ausprobieren. Nur Mut!

Kompositionen

Datenzusammensetzungen oder part-to-whole-Beziehungen können auf viele verschiedene Arten visualisiert werden.

Um die Auswahl einzugrenzen, solltest du zunächst ermitteln, ob die Daten dynamisch (über einen Zeitraum) oder statisch sind. Dynamische Daten können beispielsweise mithilfe von gestapelten Säulen oder Flächendiagrammen visualisiert werden. Statische Daten werden am besten mithilfe von Kreisdiagrammen, Wasserfallldiagrammen, Tree Maps oder auch gestapelten Balkendiagrammen organisiert.

Kartografien

Wenn du Standortdaten hast — ob Postleitzahlen, Bundesländer, Ländernamen oder deine eigene benutzerdefinierte Geokodierung— dann möchtest du deine Daten am liebsten auf einer Karten angezeigt bekommen. Genauso wie man sein Navi benutzt, wenn man sich in einer Stadt nicht auskennt. Man möchte eine informative Ansicht der Daten haben, um sich zurecht zu finden. Die Ortsdiagrammkarte kombiniert außerdem die Visualisierung einer Komposition im Kreisdiagramm mit der Lage auf der Geokarte. So hat man einen schnellen Überblick.

Wie du siehst, gibt es unzählige Arten von Visualisierungsmöglichkeiten. Dies sind nur einige Beispiele, die dir helfen sollen, das Richtige für deine Daten auszuwählen. Versuch es ruhig mit verschiedenen Visualisierungen. Mit der Zeit bekommst du ein Gespür dafür, wie du deine Daten auf die effektivste Weise präsentieren kannst.

Herausforderungen der Datenvisualisierung

Die Datenvisualisierung kann mit einem kleinen Datenset sehr einfach sein. Wenn nicht, kann es extrem kompliziert werden. Es hängt weitgehend davon ab, was man analysieren und kommunizieren möchte.

In diesem Sinne sollten wir einige häufige Herausforderungen im Zusammenhang mit der Datenvisualisierung untersuchen.

Steigende Komplexität

Geschäftsdaten werden mit jedem Jahr immer komplexer. Heutzutage ziehen Unternehmen Daten aus Quellen wie IoT-Geräten, Sensoren und Apps, von Webseiten und Data Warehouses —zwischen denen oft keine Verbindung besteht.

Aus diesem Grund müssen Unternehmen sehr vorsichtig sein, wie sie große und komplexe Datasets annähern. Es ist wichtig, ein gründliches Verständnis jeder einzelnen Datenstruktur zu haben, um die richtige Visualisierung zu wählen.

Übersimplifizierung

Ein Teil der Herausforderung, Big Data zu visualisieren, besteht darin, sie so weit zu vereinfachen, dass sie verarbeitbar und überzeugend ist — ohne es zu einfach zu machen. Wenn du beispielsweise mit Millionen von Datenpunkten arbeitest, ist es einfach, Schlussfolgerungen zu ziehen, während Feinheiten und Muster übersehen werden.

Mit neuer Software zur Datenverarbeitung auf dem Markt, steigt auch die Zahl der Mitarbeiter in Unternehmen, die sich mit der Analyse von Daten beschäftigen sollen. Oft fehlen hier aber auch fundierte technische Kenntnisse. Während dies mit den richtigen Instrumenten zwar erleichtert werden kann, ist trotzdem Vorsicht geboten. Ohne geeignete Instrumente sollten die Daten geschulten Experten überlassen werden, um falsche Schlüsse zu vermeiden.

Hier findest du unseren Tableau Kurs — wenn du ein geschulter Experte werden möchtest.

Sharing and Caring

Das Akzeptieren und Annehmen von Fehlern ist ein grundlegender Bestandteil des Datenanalyse- und Visualisierungsprozesses. Dies kann natürlich frustrierend sein — vor allem, wenn man Daten allein analysieren soll. Abgeschnitten von anderen Informationen des Unternehmens. Aus diesem Grund beginnen viele Firmen, Plattformen zu nutzen, die Unternehmensdaten aus mehreren Quellen abrufen. So wird eine einfache Zusammenarbeit und gemeinsame Nutzung im gesamten Unternehmen ermöglicht.

Abteilungen müssen also in Zukunft zusammenarbeiten, um einzigartige Trends zu entdecken. Indem sie bereits an den Datenquellen zusammenarbeiten und Wissen im gesamten Unternehmen vernetzen.

Dieser Artikel ist auch auf unserem Medium Blog erschienen. Folge uns für weitere Blog Posts und spannende Infos. Bleibe informiert.

<<< zum Medium Artikel

<<< zum Medium Blog

Für weitere Informationen geht's hier direkt weiter:

<<< zurück zur Homepage

<<< direkt zu unserem Tableau Kurs

<<< direkt zu unseren Kursen auf Udemy

Aktualisierte Installation von Python mit Anaconda unter Windows. Python ist eine sehr beliebte Programmiersprache und wird, unter anderem aufgrund der einfachen Syntax, gerne im wissenschaftlichen Programmieren und in der Datenanalyse eingesetzt.

Besonders beliebt im Bereich Datascience mit Python ist Anaconda. Anaconda ist eine Plattform, mit dem das Management von Python-Zusatzmodulen stark vereinfacht wird. Zusätzlich beinhaltet Anaconda eben Python wichtige Module für die Bearbeitung und Analyse von Daten, beispielsweise NumPy, SciPy und Pandas.

In diesem Artikel lernst du, wie du die neueste Version von Anaconda auf Windows 10 installierst.

Anaconda Installation

Öffne in deinem Browser diesen Link zur Website von Anaconda. Scrolle auf dieser ein wenig nach unten, bis der “Download”-Button sichtbar ist:

Image for post

Nach einem Klick auf dem Button gelangst du zur Versionsauswahl. Wähle hier den “64 Bit Graphical Installer” links unter “Windows” und klicke auf den Link:

Image for post

Öffne nach dem Download das Downloadverzeichnis und starte die Installation mit einem Rechtsklick auf den Installer, woraufhin sich das Kontextmenü öffnet. Starte die Installation mit einem Linksklick auf den Kontextmenüeintrag “Run as Administrator”.

Bestätige jetzt die Lizenzbedingungen von Anaconda:

Image for post

Der Installer startet jetzt. Bestätige jede Abfrage des Installers, die Standardeinstellungen sind für so gut wie jedes System geeignet.

War die Installation erfolgreich, so gelangst du zu folgender Anzeige:

Image for post

Anaconda Test

An dieser Stelle ist es sinnvoll, den Installationserfolg zu überprüfen. Öffne im Startmenü “Anaconda3”, dann “Anaconda Navigator”:

Image for post

Jetzt öffnet sich die Übersicht der graphischen Benutzeroberfläche von Anaconda:

Image for post

Nach einem Klick auf den “Launch”-Button von “CMD.exe Prompt” erscheint ein Terminal:

Image for post

Gib im Terminal folgendes ein:

python -c "print('Hallo Welt!')"

Erscheint im Terminal als Ausgabe “Hallo Welt”, so hast du Anaconda und Python erfolgreich installiert!

Weitere Schritte

In der offiziellen Dokumentation von Anaconda gibt es eine gute Einführung zum Anaconda Navigator:

Anaconds - Getting Started

Abonniere auch unseren Python Newsletter um noch schneller Python zu lernen.

Das Ganze als Video

Die ganze Anleitung findest du auch als Video in unserem YouTube Kanal: >>> Anaconda Installation unter Windows oder direkt hier:


Diesen Blog Artikel findest du auch auf unserer Medium Seite: >>> hier

Für eine tiefergehende Einführung in Python und Datenanalyse mit Anaconda empfehlen wir zudem unsere Onlinekurse: >>>Kursübersicht

Zur Sartseite: >>>Home

Python ist bereits über 30 Jahre alt. Was 1989 als Hobby begann, hat sich laut Stack Overflow und GitHub zu einer der beliebtesten Programmiersprachen entwickelt. Auch TIOBE hat Python aktuell auf Platz 1 der beliebtesten Programmiersprachen gewählt. Trotz ihres Alters ist Python beliebter denn je. Wir haben für dich die 7 besten Gründe zusammengestellt!

Python automatisiert einfachste Aufgaben

Mit der Entstehung neuer Anwendungsfelder wie Data Science und Machine Learning ist Python auf dem Vormarsch. Das Schreiben von Skripten war bereits in der ersten Spitzenphase der 90er Jahre der klassische Anwendungsfall für Python. Kleinste Aufgaben, die aber viel Zeit fressen, können mit Python einfach automatisiert werden. Das spart Zeit und Nerven.

Schnellstart und einfache Syntax

Pythons Syntax ähnelt der englischen Sprache. Die Programmiersprache ist relativ einfach zu erlernen, auch für jemanden, der neu auf dem Gebiet ist. Die eingängige Syntax macht es einem leicht, den Python-Code zu lesen.

Und: Mit einem Grundverständnis kann man schon viel erreichen. Wer bereits andere Programmiersprachen beherrscht, wird sich vergleichsweise schnell einarbeiten können. Du kannst geeignete Tutorials zum Beispiel auf Udemy finden.

Zum Vergleich:

Um ein simples “Hello!” mit Java auszugeben, brauchst du folgendes:

public static void main(String[] args) {

System.out.println(“Hello!”);


}

In Python reicht:

print (“Hello!”)

Noch Fragen?

Data Science

Einer der wichtigsten Gründe, warum du Python lernen solltest, ist Data Science. Data Scientists sind gefragt, werden gut bezahlt und arbeiten in super spannenden Jobs. Datenvisualisierung, vorausschauende Modellierung, Programmierkenntnisse, irgendjemand? Das Berufsfeld ist sehr vielfältig und innovativ. Vor allem für Wissenschaftler mit statistischem Interesse und Wissen bietet es tolle Chancen.

Maschine Learning

Das gleiche gilt für maschinelles Lernen. Das Interess an ML nimmt seit einigen Jahren stetig zu, und Python ist DIE Programmiersprache für das Schreiben von Algorithmen für künstliche Intelligenz.

Python Bibliotheken

Python verfügt über eine umfassende Standardbibliothek und fast endlos viele andere Bibliotheken. Aufgrund der großen Benutzerzahl und des Alters der Programmiersprache gibt es viele Ressourcen, die dir helfen, deine Aufgaben zu lösen.

Über 125.000 externe Bibliotheken sind genug Gründe, warum Python in Bereichen wie KI (künstliche Intelligenz), maschinelles Lernen, Spieleentwicklung oder Cloud-Konfiguration unverzichtbar geworden ist.

Zum Beispiel NumPy für Data Science, Astropy für Weltraumforschung, Tensorflow für maschinelles Lernen oder PyGame für die Spieleentwicklung. Auch in der Web-Entwicklung spielt die Sprache trotz der etwas ruckeligen Kompatibilität mit mobilen Geräten eine wichtige Rolle — und es ist das Backend von YouTube, Instagram und Reddit.

Python-Community

Die große Community ist ein weiterer Grund, warum du Python verwenden solltest. Python ist Open Source, was bedeutet, dass du theoretisch auf alles kostenlos zugreifen kannst. Die große und lebendige Community bedeutet, dass du für fast alle Fragen jemanden findest der dir helfen kann!

Gehalt und Zukunftsaussichten

Mit Python kannst du außerdem aus einfachen Skripts komplexe Anwendungen bauen. In vielen Fällen funktioniert das Ganze relativ schnell, sicher und oft mit weniger Codezeilen als in anderen Programmiersprachen.

Der einfache Stil und die damit verbundene schnelle Einarbeitung machen die Entwicklung vergleichsweise einfach und effizient. Und es eröffnet faszinierende neue Tätigkeitsfelder. Python-Entwickler sind aktuell unter den bestbezahlten Entwickler, insbesondere aufgrund seiner Verwendung in Data Science, Machine Learning und Web-Entwicklung. Im Durchschnitt reicht das Gehalt von 50.000 Euro bis 130.000 Euro je nach Erfahrung, Standort und Domain.

Genug Gründe?  Wenn du also bereit bist Python zu lernen, dann schau dir unseren Einstiegskurs auf Udemy an. Mit vielen HD-Video-Lektionen, verschiedenen Merkblättern einer ausführlichen Dokumentation auf deutsch und tollen Übungen! Auch unser Coding Coach kann dich deinem Ziel näher bringen.

Mach 2021 zu deinem Python-Jahr! Gerade Programmieren geht super von zuhause aus. In Zeiten wie diesen sollte man sich danach orientieren, was zu einem passt und was der momentanen persönlichen Situation gerecht wird. Home-Office ist da sicher nur ein weiterer guter Grund um Python zu lernen.

Guten Start ins neue Jahr!

Diesen Blogbeitrag findest du auch auf unserem Medium Blog: >>> hier

Zurück zur Homepage

Zu unserer Kursübersicht

Direkt auf Udemy

Die Analyse von Daten ist ein bedeutendes Thema im 21 Jahrhundert, wie unter anderem im medizinischen Bereich, in der Industrie oder in der Modellierung von Finanzprozessen. Durch die dabei anfallenden, gigantischen Datenmengen kann es trotz moderner Hochleistungsrechner erforderlich sein, die Daten mittels Rechnernetzwerken (Clustern) zu verarbeiten. Was PySpark damit zu tun hat, zeigen wir dir hier.

Das manuelle Aufsetzen von Clustern zur parallelen Bearbeitung großer Datenmengen ist mühsam. Hier hilft Apache Spark (mit der Python-Schnittstelle PySpark), mit dem solche Cluster einfach konfiguriert werden können. Ein enormer Vorteil von Spark bei dem parallelen Arbeiten mehrerer Rechner auf einem gemeinsamen Datensatz sind robuste Methoden zur Vermeidung von Datenausfällen und -integritätsproblemen.

Sympathischerweise kann Apache Spark auf EC2-Instanzen der Amazon Web Services kostenfrei eingerichtet werden, wodurch einfach damit experimentiert werden kann.

Zuerst ist es erforderlich, eine EC2-Instanz auf AWS einzurichten. Bitte befolge dazu alle Schritte bis zum Abschnitt “Verschlüsseltes Passwort erzeugen” im Tutorial Jupyter Notebook auf einer kostenfreien AWS-Instanz remote ausführen.

Scala Installation

In obig verlinktem Tutorial zur Einrichtung einer AWS-Instanz hast du einen ssh-Befehl erzeugt, mit dem du dich auf deiner Instanz einloggen kannst. Dieser sieht in etwa so aus:

ssh -i "AWS_EC2_Key.pem” ubuntu@ec2-3-22-100-119.us-east-2.compute.amazonaws.com

Dabei muss allerdings die DNS hinter “ubuntu@” der DNS deiner Instanz entsprechen, wie im Tutorial gezeigt.

Logge dich jetzt in deiner Instanz ein und führe anschließend folgende Befehle aus:

sudo apt-get update && sudo apt install scala -y

Py4j Installation

Das Python-Modul Py4j stellt Java-Bindings zur Verfügung, die von Spark benötigt werden. Mit folgender Eingabe erfolgt die Installation:

conda activate && pip install py4j

Spark Installation

Nun kannst du die eigentliche Installation von Apache Spark ausführen. Gib dazu ein

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgzsudo tar xf spark-3.0.1-bin-hadoop2.7.tgz
mv spark-3.0.1-bin-hadoop2.7 /home/ubuntu/

Jetzt müssen noch die Umgebungsvariablen gesetzt werden:

export SPARK_HOME=/home/ubuntu/spark-3.0.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH

PySpark Test

Jetzt kannst du testen, ob die Installation von PySpark erfolgreich war. Starte PySpark durch die Eingabe von

pyspark

Jetzt sollte sich die PySpark-Konsole öffnen, wie in der folgenden Abbildung gezeigt:

PySpark Konsole im Night Modus

Wenn du zusätzlich Jupyter einrichtest, wie im am Anfang verlinkten Tutorial gezeigt, kannst du außerdem ein remote Jupyter Notebook starten und in diesem mit PySpark experimentieren!

Weitere Schritte

Eine spannende Einführung zum Thema Datenanalyse mit PySpark findest du hier:

https://www.guru99.com/pyspark-tutorial.html#8

Statt dessen kannst du auch an unserem umfangreichen und gut verständlichen Onlinekurs zum Thema Spark und Python für Big Data teilnehmen:

> Zu unserem Onlinekurs für Spark Kurs


Wir haben regelmäßig neue Blogbeiträge auf Medium für dich. Schau doch mal vorbei. >>zu unserem Blog auf Medium

Trotz Blog und Kurs nicht verstanden? Kein Problem. Wir haben auch Coding Coaching für dich! >>zum individuellen Coding Coaching

Sieh dir an was wir noch machen.  >> Zurück zur Startseite

Python ist wohl eine der beliebtesten Programmiersprachen. Sie wird sowohl von Data Scientists als auch Softwareentwicklern gleichermaßen für die Lösung von Data Science Problemen verwendet. Auch immer mehr Unternehmen setzen auf Python. So ist es kaum verwunderlich, dass es mittlerweile auch Java abgelöst zu haben scheint — aber das wäre ein Artikel für sich… wer weiß, vielleicht schreib ich ja bald mal darüber.

Python kann verwendet werden, um Ergebnisse vorherzusagen, Aufgaben zu automatisieren, Prozesse zu rationalisieren und vieles mehr. Doch welche Tools sind nun für welche Tasks geeignet? Es gibt in Python ja eine ganze Reihe an Bibiliotheken. Sie erleichtern dir die Arbeit mit allen möglichen Arten von Daten definitiv. Bestimmt hast du — wenn du dich für den Inhalt dieses Artikels interessierst — sowieso schon von einigen gehört. Aber vielleicht gibt es eine hilfreiche Bibliothek, die dir noch fehlt?

Hier habe ich mir eine Reihe der wichtigsten Python-Bibliotheken für Data Science im Bereich Datenmodellierung und Visualisierung angeschaut. Die Datenverarbeitung habe ich dieses Mal außen vor gelassen — einfach zuviel für einen Artikel.

Manchmal scheinen die ganzen Python-Module etwas durcheinander. Oder ihre Funktionen ähneln sich stark, überschneiden sich sogar. Sie bergen aber ein großes Potenzial. Das Potenzial von perfekt automatisierbaren, zu großen Anwendungen skalierbaren und leicht auszubringenden Anwendungen. So kann auch der nächste Entwickler, der sich daran zu schaffen macht noch nachvollziehen was gemacht wurde.

Diese Liste enthält neun der beliebtesten Python Bibliotheken, aber ist keinesfalls vollständig! Das ist bei der rasanten Entwicklung kaum möglich.

Datenmodellierung

1. NumPy

NumPy (Numerical Python) ist ein perfektes Werkzeug für wissenschaftliches Arbeiten und die Durchführung sowohl grundlegender und als auch erweiterter Array-Operationen.

Diese Library bietet viele praktische Features, die Operationen auf n-Arrays und Matrizen in Python ausführen. Numpy hilft dabei, Arrays zu verarbeiten, die Werte desselben Datentyps speichern, und erleichtert die Durchführung von mathematischen Operationen auf Arrays, sowie deren Vektorisierung. Es ist tatsächlich auch so, dass die Vektorisierung mathematischer Operationen am NumPy-Array-Typ die Leistung erhöht und die Ausführungszeit erheblich verkürzt.

2. SciPy

Die zweite nützliche Bibliothek — SciPy — setzt auf NumPy auf und erweitert es um einige Möglichkeiten zum Scientific Computing. Es enthält Module für lineare Algebra, Integration, Optimierung und Statistik. SciPy eignet sich eigentlich für alle Arten von wissenschaftlichen Programmierprojekten, sowohl in der reinen Wissenschaft, als auch in der Mathematik und im Ingenieurwesen und der Wirtschaft. Es bietet effiziente numerische Routinen wie die numerische Optimierung, Integration und andere in weiteren Submodulen. Die umfangreiche Dokumentation macht die Arbeit mit dieser Bibliothek außerdem sehr einfach.

3. Pandas

Kommen wir zu Pandas. Pandas baut, genau wie SciPy auch, auf NumPy auf und verbessert die Userfreundlichkeit für die Datentransformation und Analyse. Pandas ist eine Bibliothek, die entwickelt wurde, um Programmierern zu helfen, intuitiv mit “gelabelten” und “relationalen” Daten zu arbeiten.

Pandas-Objekte erleichtern die Datenanalyse, weil sie über Methoden zur deskriptiven Statistik und zur Visualisierung verfügen — die Standards für eine explorative Datenanalyse. Pandas basiert auf zwei Hauptdatenstrukturen: “Series” (eindimensional, wie eine Liste von Elementen) und “Data Frames” (zweidimensional, wie eine Tabelle mit mehreren Spalten). Pandas ermöglicht das Konvertieren von Datenstrukturen in DataFrame-Objekte, das Hinzufügen/Löschen von Spalten aus DataFrames, das Berechnen fehlender Variablen, Aggregieren und Verknüpfen von Dataframes und das Plotten von Daten in Histogramme und andere Darstellungsarten.

Es ist ein Must-Have für Datenbereinigung, -bearbeitung und deren Visualisierung. Wenn du mehr über Pandas erfahren möchtest, dann geht’s hier zu unserem Udemy-Kurs.

Unseren kostenlosen 8-teiligen Pandas Crashkurs findest du auch auf YouTube:

4. Keras

Keras ist eine großartige Open Source Deep-Learning-Bibliothek zum Aufbau neuronaler Netzwerke für das Deep Learning, deren Modellierung und Trainings. Es ist mit ein wenig Übung relativ einfach zu bedienen und bietet Entwicklern eine einheitliche Schnittstelle für verschiedene Backends, darunter TensorFlow, Microsoft Cognitive Toolkit und Theano. Auch wenn sich das in Zukuft ändern soll. Mit der neuen Version 2.3 soll dies gleichzeitig auch das letzte Release sein, das mehrere Backends unterstützt. In zukünftigen Releases soll Keras nur noch auf Tensorflow ausgerichtet sein.

Es ist eine tolle Wahl, wenn um schnell mit kompakten Systemen zu experimentieren — der minimalistische Designansatz zahlt sich hier wirklich aus!

5. TensorFlow

TensorFlow ist ein beliebtes Python-Framework sowohl für Machine Learning als auch für Deep Learning. Es ist das beste Werkzeug für die Themenfelder der Objektidentifikation und Spracherkennung. Es hilft bei der Arbeit mit künstlichen neuronalen Netzwerken, die mehrere Datensätze verarbeiten müssen. Die Bibliothek umfasst verschiedene Hilfestellungen für Layer (tflearn, tf-slim, skflow), die sie noch funktionaler machen. TensorFlow wird mit seinen neuen Versionen ständig erweitert — einschließlich Korrekturen in potenziellen Sicherheitslücken oder Verbesserungen bei der Integration von TensorFlow und GPU.

6. SciKit-Learn

Der Name scikit entstand aus den beiden Wörtern SciPy und Toolkit. Es wurde auf Grundlage von SciPy entwickelt und ergänzt dieses, da SciPy selbst nicht über entsprechende Methoden verfügt.

SciKit ist fast schon ein Standard für Data Science-Projekte in Python und gilt als die zentrale Machine-Learning Bibliothek in Python. Scikits besteht aus einer Gruppe von Paketen im SciPy Stack, die für bestimmte Funktionalitäten erstellt wurden — zum Beispiel die Bildverarbeitung. SciKit-Learn verwendet die mathematischen Operationen von SciPy, um eine präzise Schnittstelle für die gängigsten Machine Learning-Algorithmen verfügbar zu machen.

Data Scientists verwenden SciKit-Learn für die Handhabung von standardmäßigen Machine Learning und Data Mining-Aufgaben wie Clustering, Regression, Modellauswahl, Dimensionsreduktion und Klassifizierung.

Ein weiterer Vorteil? Es gibt eine super ausführliche Dokumentation dazu.

Datenvisualisierung

7. Matplotlib

So richtig gute Visualisierungen kann man wohl am besten mit Matplotlib erstellen. Diese Bibliothek ermöglicht es, mit ein wenig Übung, jede sich vorstellbare Visualisierung von Daten vorzunehmen. Matplotlib erstellt Grafen in Publikationsqualität in einer Vielzahl von Formaten und interaktiven Umgebungen. Man kann dabei jedes Objekt bis ins Detail individuell anpassen — kann aber auch als Einsteiger schon tolle Schaubilder erstellen, die sich sehen lassen können.

8. Seaborn

Es basiert auf Matplotlib und dient als nützliches Python Machine-Learning-Tool zur Visualisierung statistischer Modelle — Heatmaps und andere Arten von Visualisierungen, die Daten zusammenfassen und so univariate und bivariate Verteilungsdiagramme, Regressionsdiagramme und eine Reihe anderer Methoden wunderbar abbilden. Wenn du diese Bibliothek verwenden möchtest, profitierst du von einem umfangreichen Angebot an möglichen komplexen Visualisierungen.

Das Erstellen von Schaubildern in Seaborn ist genauso einfach wie das Aufrufen der entsprechenden Grafikfunktion selbst. Hier geht’s zum Cheat Sheet >>> API Referenz

9. Plotly

Dieses webbasierte Tool zur Datenvisualisierung bietet viele nützliche Grafiken. Das Coole an Plotly ist seine Interaktivität, beispielsweise macht diese sich gut in Webanwendungen, in denen Heat Maps, Boxplots oder auch 3D-Charts möglich sind. Es kann in Charts hineingezoomt werden und einzelne Graphen können vom Anwender ein- /ausgeblendet werden. Die Macher von Plotly sind außerdem ständig daran, die Bibliothek mit neuen Grafiken und Funktionen zu erweitern, um weitere verknüpfte Ansichten, Animationen und Crosstalk-Integration zu unterstützen. Mehr dazu gibts hier.

Ausblick

Du kannst auch gerne auf unserer Website vorbei schauen, da haben wir einiges, was den ganzen Überblick wieder entwirren und mit tiefgehenden Informationen unterfüttern. Besonders zu empfehlen ist dieser Kurs mit einem tollen Überblick:

Natürlich ist diese Übersicht nicht vollständig. Kann sie bei der Fülle der Bibs für Python auch nicht sein, möchte sie auch nicht 🙂 Spontan würden mit allein zur Datenvisualisierung bereits jetzt weitere Tools einfallen, wie TensorBoard, Bokeh, Vispy oder MoviePy.

Es kommen ja fast täglich neue Funktionen, Tools und auch zu meisternde Aufgaben hinzu — kann also auch gut passieren, dass du das hier liest und es noch keine zwei Tage alt ist und trotzdem denkst du dir: Schnee von Gestern.

Aber wenn du auch nur einen klitzekleinen Überblick und/oder Durchblick gewinnen konntest, dann lass es mich wissen!

>> schau doch bei unseren Online Kursen vorbei

>> home

 

Was wir bieten

Wir bieten umfassende Beratungsdienste für Maschinenintelligenz in den Bereichen Big Data, Data Science und Data Engineering. Unsere Mission ist es, komplexe Geschäftsprobleme durch Planung, Entwicklung, Analyse und die Vorhersage von Geschäftsverbesserungen zu lösen.

Follow Us

© Datamics      

Developed By Sleek Line Designs

chevron-down