Hallo Alle,
Auch diesen Monat gibt es wieder einen interessanten Vortrag.
Dieses Mal ist das Thema "Apache Parquet", ein Open-Source-Projekt das ein spaltenbasiertes Datenformat für große Datenmengen definiert. Ich zitiere einfach mal Sebastians Beschreibungstext:
Die spaltenweise Datenkompression und -kodierung spart Speicherplatz und erlaubt die effiziente Verarbeitung durch analytische Workloads (z.B. SQL). Bibliotheken zum Lesen und Schreiben von Parquet-Dateien stehen für viele Programmiersprachen (C++, Java, Python, PHP, usw.) zur Verfügung. Auch zahlreiche Big-Data-Frameworks (z.B. MapReduce, Spark, Hive) unterstützen Parquet. Obwohl ursprünglich für das Hadoop-Ökosystem entwickelt -- aufgrund der stabilen Spezifikation und universellen API erscheint Parquet als gute Alternative zu XML, CSV oder JSON, wenn es um das Speichern von größeren Datenmengen geht.
Dieses Mal treffen wir uns wieder wie gewohnt im Hackerspace.
Mehr Informationen auch auf Meetup: https://www.meetup.com/GDG-Bodensee/events/252210649/
Ich freue mich schon auf euer Erscheinen und wünsche euch noch einen schönen Sonntagabend!
Grüße Robert