Benchmarking Funken: Wie Sich Unterschiedliche Hardware-Parameter auf Big-Data-Anwendungen auswirken

 Benchmarking Funken: Wie Unterschiedliche Hardware-Parameter Sich auf Big-Data -Anwendungen auswirken Dank leistungsfähiger Hadoop-Distributionen ist es einfach geworden, Ein komplettes Hadoop / Funken-Cluster in wenigen Stunden in der Wolke zu installieren. Schwieriger Wird es jedoch, Die optimale Konfiguration der virtualisierten Wolken-Hardware für den jeweiligen Anwendungsfall zu Bern, denn Unterschiedliche Hardwarekonfigurationen can Sich sehr wohl auf das verhalten von Funken-Anwendungen im Cluster-Betrieb auswirken.

Benchmark Bezeichnet im Allgemeinen das Vermessen Eines Systeme. Werden dabei Mess- und Bewertungsverfahren Gebildet, um zu sterben Qualität und sterben Leistungsfähigkeit des zu prüfenden Systeme mit Kennzahlen beurteilen zu can. Wichtig dabei: Der Benchmark Muss Sich Jederzeit wiederholen lassen, um Objektive, valide und Verlässliche Daten liefern zu can. Benchmarks informationsverarbeitender Systeme Bestehen zumeist aus einzelnen oder Gruppen von Programmen, Welche sterben Leistungsfähigkeit des Systeme wiederholbar und übertragbar messen can.

Apache Hadoop Wurde Einer breiteren öffentlichkeit Bekannt, als ES Yahoo 2008 DAMIT Gelang, Höhle Terabyte Sort Benchmark zu gewinnen. Seit of this Zeit Sind weitere Hadoop-Spezifische Benchmarks hinzugekommen, Welche sterben unterschiedlichen Exigences ein Ein Verteiltes System-Darstellen und Vergleichbar machen Sollen. Einer der vielseitigsten is the Benchmark-Suite HiBench, sterben der Prozessorhersteller Intel als Referenz für sterben messung von Hadoop- und Funken-Clustern unter der Apache-Lizenz Zur Verfügung Gestellt Hut. In der Aktuellen Version 4.0 Werden Zehn Typische Workloads vermessen, sterben die Bandbreite aller möglichen arten von Big-Data-Anwendungen abdecken Sollen.

HiBench eignet Sich gut Dazu, sterben Leistung unterschiedlicher Cluster-Konfigurationen (Anzahl Knoten, CPU -Kerne, Netzwerk- und Speicher-E / A usw.) Miteinander zu Vergleichen. Wer jedoch nur seine eigene Funken-anwendung auf ihr Performanceverhalten in Verschiedenen Cluster-Konfigurationen prüfen Möchte, Wird andere Lösungen FINDEN Müssen. Bevor auf das vorgehen dabei Eingegangen Wird, Sollen hier Aber sterben WICHTIGSTEN Architekturbestandteile Einer Funken anwendung zusammengefasst Werden.

Architektur von Funken

Apache Funken is a Rahmen zur Schnellen Analyse großer Datenmengen Innerhalb Eines Rechner-Clusters. Seine Stärken Liegen dabei in der nutzung des Hauptspeichers, um während der Verarbeitung schneller zugriff auf Daten und Strukturen Zu haben.

Ein Rechner-Cluster, Auf dem Funken zur Ausführung kommt, Besteht Aus einer Menge Einzelner Computersysteme, sterben Über Netzwerkkomponenten Verbunden Sind. Das System-Lässt sich als ansammlung von Ressourcen Wie CPUs, Hauptspeicher, Festplatten und Netzwerkverbindungen betrachten. Das Verwalten der Ressourcen überlässt Funken der Cluster-Management-Software-. Das Rahmen Kann dabei sowohl allein Als Auch im Zusammenspiel mit Garn (Yet Another Ressourcen Negotiator) oder Mesos Betrieben Werden.

Die Schnittstelle Zwischen Einer Funken-anwendung und DEM-Cluster-Manager-Stellt der sogenannte SparkContext dar. Über IHN Verteilt Funken sogenannte Executors Auf die einzelnen Rechnersysteme im Cluster, um auf IHNEN sterben Datenverarbeitung ausführen zu can.

Zur messung der Leistungsfähigkeit Eines Funken-Cluster ist es Wichtig, sterben Grundlegende Architektur und sterben Verarbeitung der Daten Innerhalb des Funken-Systems zu verstehen. . Ein kleiner Rundgang soll sowohl in Druck Termini Als Auch in sterben Besonderheiten der Funken-Architektur einführen

Ansicht des HDFS-Dateisystems auf der EC2-Cluster von Funken (Abb. 1)
Schematische Übersicht Über die Spark-Anwendungs-Architektur (Abb. 1)
Im Kern verwaltet Tragen und Verarbeitet Funken seine Daten als sogenannte Distributed Resilient Datasets (RDDs). This verarbeiten Daten Verteilt mithilfe Zweier unterschiedlicher arten von Operationen:

  1. Transformationen ermöglichen sterben Verarbeitung von Ausgangsdaten in Zieldaten zum beispiel mit Filter- oder Gruppierungsfunktionen. Transformation liefern als Plan Ergebnis Immer ein RDD zurück. Bei Funken spricht man dabei oft von Eltern RDDs, sterben EINEN Kinder RDD erzeugen. Transformationen lassen Sich verketten. Als Plan Ergebnis Davon Erzeugt Funken EINEN gerichteten azyklischen Graphen (DAG), der zur Ausführungszeit abgearbeitet Wird.
  2. Aktionen dagegen liefern nach ihrer Ausführung EINEN einzigen Ergebniswert zurück. Als beispiel soll Hier die Anzahl von Datenelementen Stehen, sterben gezählt Werden Sollen (zählen).

Richtig schnell macht Funken dabei der Umstand, Dass im gegensatz zum Map-Reduce-Algorithmus von Hadoop sterben Daten Nicht zwingend nach Jedem Mapper- oder Reducer-Task-Auf eine Festplatte zwischenzuspeichern Sindh, Sondern Sich im Speicher des Clusters verteilen can. Deshalb spricht man von Funken Auch als “In-Memory-Datenanalysesystem”.

Das vergoldete jedoch Nicht für alle Operationen, sterben Funken auf Grossen Datenmengen anwenden can. Je nach Art und umfang der zu verarbeitenden RDDs Einander Auch Funkenform Daten Auf dem Lokalen System-zwischenspeichern und gegebenenfalls Über das Netzwerk Auf einen other Knoten verschieben. Of this als “shuffle” bezeichnete Zustand von Funken ist der große Zeitfresser beim Verarbeiten von Daten in RDDs.

Tagged: , , , , , ,

Leave a Reply

Your email address will not be published. Required fields are marked *

Read previous post:
Jutta Eckstein
Versionskontrolle: Git 2.6 bringt zahlreiche Ergänzungen für alle Plattformen

Das frische Veröffentlichung der Open-Source-Software zur Versionsverwaltung Git hat zahlreiche kleine Neuerungen zu Bieten, vor Allem sterben die Eingabe Komfortabler......

Close
onur air sunexpress en ucuz ucak bileti full hd film izle
istanbul evden eve nakliyat