Neste artigo, vamos mencionar as diferenças entre Big Data e Data Lake que são dois conceitos que podem gerar confusão para quem não está familiarizado com eles. Neste artigo, vamos explicar o que são e como se relacionam.

Big Data é um termo que se refere ao conjunto de dados que possuem as características dos três Vs: Volume, velocidade e variedade. Isso significa que são dados que são gerados em grande quantidade, em alta velocidade e em diversos formatos. Esses dados podem ser provenientes de diversas fontes, como sistemas, dispositivos, redes sociais, etc.

Data Lake é um termo que se refere ao local onde esses dados são armazenados e organizados. Um Data Lake é um repositório que permite o armazenamento de dados em seu formato original, sem a necessidade de estruturação prévia. Isso facilita o acesso e a análise dos dados por diferentes usuários e ferramentas.

Segundo Doug Laney, para o usuário compreender melhor sobre o Big Data, é necessário entender os três Vs: Volume, velocidade e variedade.

Volume: quantidade cada vez maior de dados. Ex: logs de sistemas, dados comportamentais de páginas da web e aplicativos informacionais, IoT e sensores.
Velocidade: aumento da velocidade de recebimento e processamento de dados.
Variedade: refere-se aos diferentes tipos de dados e formatos, como arquivos estruturados ou não estruturados, imagens, vídeos, áudio, etc.

Para entender melhor a diferenciação entre o Data Lake e o Big Data, vou explicar como funciona o Hadoop. Ele escala e processa grandes quantidades de dados com base no paradigma da escalabilidade horizontal. Sendo assim, o Hadoop descarrega os dados do Data Warehouse (DW). Trata-se de fazer o mesmo por menos, com uma opção de armazenamento mais barata para grande quantidade de dados quando comparado aos bancos de dados e DW tradicionais. No entanto, uma vez que o ambiente de Big Data é executado, ele pode ser usado para o um caso de negócio: implementar um Data Lake.

Diferenças entre Big Data e Data Lake

O Data Lake captura os dados relevantes de uma organização, como por exemplo: texto, áudio, vídeos, dados de sensores. Assim, os Datas Lakes são frequentemente implementados usando a tecnologia do Big Data.

Na figura abaixo, você pode observar como os dados chegam a um Data Lake vs a um Data Warehouse:

As etapas são as mesmas: Ingestão, extração, limpeza, consistência e uso de dados.

Ingestão de dados: é a entrega dos dados do Data Lake ou Data Warehouse, que abrange a abertura de firewall, portas e exportação de arquivos para o Data Lake ou Data Warehouse.

Extração de dados: significa extrair informações relevantes de arquivos para reduzir o volume de dados. Isso é utilizado para documentos e dados multimídias.

Limpeza e Consistência de dados: são os núcleos da transformação de dados. Para exemplificar, imagine o seguinte: um sistema bancário pode armazenar dados de pessoas individuais, bem como casais, como um objeto de cliente. Quando um casal se divorcia o objeto do cliente deve ser aposentado. Sem o campo da data do divórcio, no sistema, o funcionário bancário utiliza o campo de data do falecimento para inserir a data do divórcio para retirar o objeto e adicionam um comentário no campo de notas. Posteriormente, quando os cientistas de dados usam esse campo de data de morte, eles devem estar cientes disso antes de carregar os dados no DW ou usá-los de um Data Lake, é necessária uma distinção entre clientes normais mortos e casais divorciados.

Uso de dados: se refere ao ato de usar o DW ou conjunto de dados para análise. Em ambos os casos, Data Lakes e DW, o Algoritmo de aprendizado de máquina (Machine Learning) exige dados de entrada estruturados. No entanto, os Datas Lakes facilitam o tratamento de formatos de dados variáveis com a abordagem Schema-on-read.

O que é Scheme-on-read? é um esquema de leitura que se refere a uma estratégia de análise de dados inovadora em novas ferramentas de manipulação de dados e banco de dados.

Esquema na leitura refere-se a uma estratégia de análise de dados inovadora em ferramentas de manipulação de dados como Hadoop. No esquema de leitura, os dados são aplicados a um plano ou esquema à medida que são retirados de um local armazenado, em vez de quando entram

O Data Lake armazena qualquer tipo de dados, os cientistas de dados não precisam ficar procurando por aplicações com dados que sejam interessantes, eles apenas consultam o Data Lake. Um dos maiores benefícios é que os Cientistas de Dados não precisam lidar com várias tecnologias de armazenamento, firewall ou banco de dados, pois lidam apenas com uma interface. Os aplicativos mantêm os dados mestres e transacionais por um longo tempo, mas excluem grandes arquivos de log após alguns dias ou semanas. Eles liberam seu armazenamento para seus aplicativos de dados de log de que não precisam mais.

Além de melhorar o trabalho das equipes, o Data Lake exige que as equipes assumam novos tipos de tarefas. Há um caminho de novos desafios para as equipes de analistas e IA, pois o Data Lake fornece acesso fácil aos dados que qualquer Data Warehouse pode fornecer.

Se você conseguir integrar novos dados, poderá fornecer novas perspectivas e percepções adicionais para o negócio.

A chave para localizar dados no Data Lake é o catálogo de dados

Gostou do conteúdo?

Leia em nossos blog os artigos relacionados ao assunto, caso tenha alguma dúvida, converse com um dos nossos especialistas através do e-mail contato@mindtek.com.br