Paper: A Hadoop Open Source Backup Solution

Authors: Heitor Faria ; Rodrigo Hagstrom ; Marco Reis ; Breno G. S. Costa ; Edward Ribeiro ; Maristela Holanda ; Priscila Solis Barreto and Aletéia P. F. Araújo

Affiliation: University of Brasilia (UnB), Brazil

ISBN: 978-989-758-295-0

Keyword(s): Hadoop Backup, Cluster, Disaster Recovery.

Abstract: Backup es un servicio comercial tradicional y crítico con más desafíos, como la bola de nieve de datos en constante crecimiento. Las aplicaciones distribuidas de uso intensivo de datos, como Hadoop, pueden dar una falsa impresión de que no necesitan réplicas de datos de respaldo, pero la mayoría de los investigadores están de acuerdo en que todavía es necesario para la mayoría de sus componentes. Una breve encuesta revela varios desastres que pueden causar la pérdida de datos en los clústeres HDFS de Hadoop, y los estudios previos proponen tener un segundo clúster Hadoop completo para alojar una copia de respaldo. Sin embargo, este método es mucho más costoso que el uso de software y medios de copia de seguridad tradicionales, como una biblioteca de cintas, un almacenamiento conectado a la red (NAS) o incluso un Cloud Object Storage. Para abordar estos problemas, este documento presenta una solución de copia de seguridad y restauración más económica y rápida de Hadoop. Compara la técnica tradicional de duplicación de clúster redundante con una alternativa que consiste en utilizar comandos de cliente Hadoop para crear múltiples flujos de datos de H archivos DFS a Bacula, el software de copia de seguridad de código abierto más popular y que puede recibir información de conductos con nombre (FIFO) . El nuevo mecanismo es aproximadamente un 51% más rápido y consume un 75% menos de almacenamiento de respaldo en comparación con las soluciones anteriores.

[Acceso a papel completo y descarga]

Disponível em: Português (Portugués, Brasil)English (Inglés)Español