Artigo: A Hadoop Open Source Backup Solution

Authors: Heitor Faria ; Rodrigo Hagstrom ; Marco Reis ; Breno G. S. Costa ; Edward Ribeiro ; Maristela Holanda ; Priscila Solis Barreto and Aletéia P. F. Araújo

Affiliation: University of Brasilia (UnB), Brazil

ISBN: 978-989-758-295-0

Keyword(s): Hadoop Backup, Cluster, Disaster Recovery.

Abstract: Backup é um serviço de negócios tradicional e crítico, com mais desafios, como a bola de neve de dados em constante crescimento. Aplicativos de dados intensivos distribuídos, como o Hadoop, podem dar uma falsa impressão de que eles não precisam de réplicas de dados de backup, mas a maioria dos pesquisadores concorda que isso ainda é necessário para a maioria de seus componentes. Uma breve pesquisa revela vários desastres que podem causar perda de dados nos clusters do Hadoop HDFS, e estudos anteriores propõem ter um segundo cluster do Hadoop inteiro para hospedar uma réplica de backup. No entanto, esse método é muito mais caro do que usar o software e a mídia de backup tradicionais, como uma biblioteca de fitas, um Network Attached Storage (NAS) ou até mesmo um Cloud Object Storage. Para resolver esses problemas, este documento apresenta uma solução mais barata e mais rápida de backup e restauração do Hadoop. Ele compara a técnica de réplica de cluster redundante tradicional com uma alternativa que consiste em usar os comandos do cliente Hadoop para criar vários fluxos de dados de arquivos HDFS para Bacula – o software de backup de software livre mais popular e que pode receber informações de pipes nomeados (FIFO) . O novo mecanismo é aproximadamente 51% mais rápido e consome 75% menos armazenamento de backup quando comparado com as soluções anteriores.

[Acesso ao artigo completo e download]

Disponível em: PortuguêsEnglish (Inglês)Español (Espanhol)