Referenzen Individuelle und sichere Hosting-Lösungen
    

Referenzen

HDFS als Filestorage für den Content Pool

Wie kam es dennoch dazu, dass die Red Bull Media House GmbH HDFS seit 2008 als Storage für den Red Bull Content Pool einsetzt?

Das Hadoop Distributed File System (HDFS), die Storage-Einheit des Apache Hadoop Projektes, verwaltet spielend riesige Datenmengen, lässt sich im laufenden Betrieb bequem skalieren und ist komfortabel zu administrieren.

Das besondere Konzept des HDFS macht es einerseits robust gegen Ausfälle, andererseits ist es enorm schnell in der Auslieferung. HDFS wurde jedoch ausdrücklich nicht als Online-Storage konzipiert.

Am Anfang war der Content!

Und zwar jede Menge davon. So viel, dass sich die Red Bull Media House GmbH nach einer neuen Lösung für den Red Bull Content Pool umsah. Denn das rasant wachsende Datenvolumen und stetig steigende Benutzerzahlen erfordern neue Strategien und Konzepte. Der angesichts dieser Datenmengen enorme Bedarf an Hardware geht jedoch gleichzeitig auch mit einem erhöhten Ausfallrisiko einer dieser Komponenten einher. Eine Problematik, der sich auch die Red Bull Media House GmbH bewusst war. Eine neue Online-Storage-Lösung musste her. Aber welche? Bereits in den ersten Gesprächen legte die Red Bull Media House GmbH bereits ausführlich das Vorhaben von Red Bull dar. Das beachtliche und täglich wachsende Datenvolumen bestmöglich zu verwalten, das wurde schnell deutlich, war dabei die übergeordnete Zielsetzung.

Die Anforderungen der Red Bull Media House GmbH

Der "Red Bull Content Pool" dient dem Kunden als zentrales Repository, in dem sämtlicher Content von Red Bull abgelegt wird und in weiterer Folge schnell und einfach weltweit zur Verfügung gestellt werden soll. Dazu zählen neben Moving Images (von kurzen Clips bis zu Kinoproduktionen) auch sämtliche Still Images und Audiodateien, die in verschiedenen Formaten und Qualitätsstufen vorgehalten werden bzw. on-demand jederzeit entsprechend generiert werden können. Verschiedene Ansätze, alle Anforderungen zu erfüllen, wurden bei der Adacor Hosting GmbH diskutiert und getestet. Darunter waren NFS, GlusterFS, Lustre, Openfiler, CloudStore und schließlich HDFS. In den folgenden Abschnitten sind die jeweiligen Varianten mit ihren Möglichkeiten und Grenzen kurz skizziert; jeweils vor dem Hintergrund der konkreten Anforderungen des Kunden. Die Liste der Anforderungen enthielt neben dem reinen Hosting der gesamten Projekt-Infrastruktur folgende Punkte: 

  • Storage im Petabyte-Bereich
  • Redundanz der Daten
  • sehr hohe Lesegeschwindigkeit durch schnelle Datenauslieferung
  • einfache Nutzbarkeit für Applikationen ohne Wartungsfenster
  • skalierbar
  • kurze Downtime im Fehlerfall günstiger als Standardlösungen, beispielsweise mit EMC

Zunächst wurde über Standard-Storage-Lösungen von EMC oder NetApp nachgedacht, aber Adacor schlug vor, auch den Einsatz eines Distributed File Systems oder anderer Lösungen in Erwägung zu ziehen. Beim DFS z. B. handelt es sich um ein verteiltes Dateisystem, das den Zugriff auf Dateien über ein Rechnernetz und die Speicherung der Daten auf mehreren Standard-Servern erlaubt.

Verschiedene Open-Source-Ansätze wurden bei der Adacor Hosting GmbH diskutiert und getestet, um alle Anforderungen zu erfüllen. Darunter waren NFS, GlusterFS, Lustre, Openfiler, CloudStore und schließlich HDFS. Im Folgenden sind die jeweiligen Varianten mit ihren Möglichkeiten und Grenzen kurz skizziert; jeweils vor dem Hintergrund der konkreten Kundenanforderungen.

Und die Moral von der Geschicht?

Dass es die "perfekte", allen Anforderungen gleichermaßen gerecht werdende Lösung im Projekt-Alltag nur sehr selten gibt, wissen alle, die sich ernsthaft schon einmal gefragt haben, ob das Phänomen der eierlegenden Woll-Milch-Sau real jemals überlebensfähig wäre. Sprich, alle getesteten Dateisysteme weisen viele Vorteile, aber auch einige Nachteile auf. Sie wurden detailliert mit der Red Bull Media House GmbH erörtert. Es galt abzuwägen. Der Favorit, der sich vor dem Hintergrund der Systemanalysen und im Hinblick auf die Anforderungen von Red Bull heraus kristallisiert hat, war HDFS. Im HDFS gibt es zwei Typen von Servern: NameNodes und DataNodes. Die Datenblöcke werden auf den DataNodes vorgehalten; sämtliche Meta-Informationen sind auf dem Name- Node gespeichert. Alle Daten auf den DataNodes werden mehrfach redundant gesichert, sofern ein Replikationsfaktor konfiguriert wurde. Allerdings stellt der NameNode einen Single Point of Failure dar. Er bildet die Kernfunktion des Systems, das für den schnelleren Lesezugriff große Dateien in kleinere Datenblöcke teilt. Für diese Blöcke vergibt der NameNode IDs, die er im sogenannten Index verwaltet. Fällt der NameNode wegen eines Hardwarefehlers aus oder wird beschädigt, muss er entweder manuell neu gestartet oder mithilfe eines Ersatz-Nodes wiederhergestellt werden. Auch Konfigurationsdateien sind dann anzupassen. Insgesamt kann dies einige Minuten dauern. Während dieser Zeit ist kein Zugriff auf das HDFS möglich. Aktuell laufende Schreib- und Leseprozesse auf das Filesystem werden mit einer Fehlermeldung abgebrochen. Die Problematik des NameNodes ist Adacor – wie auch Red Bull – bekannt und wird bewusst akzeptiert.

Nachdem die Entscheidung für HDFS gefallen war, wurde im Rahmen des konkreten Designprozesses deshalb besonders großer Wert darauf gelegt, diesem Schwachpunkt bestmöglich Rechnung zu tragen. Hierfür wird der Index zunächst sowohl lokal als auch im Netz gespeichert und zusätzlich wird regelmäßig eine Sicherungskopie angelegt. Um Downtimes auf ein Minimum zu reduzieren und Fehler frühzeitig zu erkennen, werden alle Server rund um die Uhr mit der Monitoring-Software Nagios überwacht. Dort ist verankert, dass bei einem Alarm sofort ein Techniker informiert wird, der umgehend eingreifen kann. Für die Red Bull Media House GmbH erwies sich HDFS als die beste Storage-Lösung, die nicht nur in der Theorie, sondern seit 2008 auch in der Praxis sehr gut funktioniert. Sowohl Adacor als auch die Red Bull Media House GmbH sind mit dem Ergebnis mehr als zufrieden. Aktuell werden netto ca. 250 Terabyte Datenvolumen (brutto aufgrund der Datenredundanz also 500 Terabyte) auf den Servern der Adacor gehostet. Der inund externe Zugriff auf den Red Bull Content Pool wird von einer eigens hierfür entwickelten Applikation verwaltet: dem Media-Manager. Diese Applikation wurde von der Darmstädter Firma Signal7 entwickelt und läuft ebenfalls auf den Servern der Adacor. Lesen Sie mehr darüber im Interview auf den folgenden Seiten.

Kontakt

Sie haben Fragen zu unseren Services? Oder würden Sie gerne zu einem anstehenden Projekt beraten werden? Nehmen Sie einfach per Telefon oder E-Mail Kontakt zu uns auf. Wir melden uns umgehend bei Ihnen. 

Kiki Radicke
Marketingleitung
+49 69 900299 2019
marketing@adacor.com

Kontakt Formular

Anfrage
captcha