Quem Somos

Ao conduzir seu experimentos, a Accenture usou as instâncias do Google Compute Engine com discos locais e trabalhos de streaming do MapReduce para copiar dados de entrada/saída de/para o HDFS local dentro de seus clusters Hadoop.

Como mostrado na figura 1, esse método de fluxo de dados lhes forneceu os dados de que precisavam para seus benckmarks ao custo do tempo de execução total, com fases adicionais de cópias de entrada e de saída. Para aumentar os tempos de execução, esse modelo também resultou em mais código complexo para lançamento e gerenciamento de experimentos. O código adicionado precisou de modificação dos scripts testbench da empresa para incluir as cópias necessárias e tempos extra de testes e depuração para assegurar que os scripts estavam corretos.

A equipe da Accenture foi abordada pelo Google para usar o novo conector em seus testes, e a configuração do Hadoop foi modificada para tirar vantagem dele.

Quando o conector foi configurado, a empresa foi capaz de mudar seu modelo de fluxo de dados ao remover a necessidade de cópias e dar a ela a habilidade de acessar diretamente o Google Cloud Storage para dados de entrada e escrever dados de saída.