É notável que ainda alguns profissionais criam confusões com estes termos. Para ser bem direto, o Big Data é um conceito de tecnologia e o Data Lake é um conceito de negócio. Neste artigo, você irá compreender como funciona cada um desses conceitos.

Segundo Doug Laney, para o usuário compreender melhor sobre o Big Data, é necessário entender os três Vs: Volume, velocidade e variedade.

  • Volume: quantidade cada vez maior de dados. Ex: logs de sistemas, dados comportamentais de páginas da web e aplicativos informacionais, IoT e sensores.
  • Velocidade: aumento da velocidade de recebimento e processamento de dados.
  • Variedade: refere-se aos diferentes tipos de dados e formatos, como arquivos estruturados ou não estruturados, imagens, vídeos, áudio, etc.

Para entender melhor a diferenciação entre o Data Lake e o Big Data, vou explicar como funciona o Hadoop. Ele escala e processa grandes quantidades de dados com base no paradigma da escalabilidade horizontal. Sendo assim, o Hadoop descarrega os dados do Data Warehouse (DW). Trata-se de fazer o mesmo por menos, com uma opção de armazenamento mais barata para grande quantidade de dados quando comparado aos bancos de dados e DW tradicionais. No entanto, uma vez que o ambiente de Big Data é executado, ele pode ser usado para o um caso de negócio: implementar um Data Lake.

Big Data, Data Lakes, IA e análises, Data Warehouses – entendendo o panorama geral:

O Data Lake captura os dados relevantes de uma organização, como por exemplo: texto, áudio, vídeos, dados de sensores. Assim, os Datas Lakes são frequentemente implementados usando a tecnologia do Big Data.

Na figura abaixo, você pode observar como os dados chegam a um Data Lake vs a um Data Warehouse:

As etapas são as mesmas: Ingestão, extração, limpeza, consistência e uso de dados.

  • Ingestão de dados: é a entrega dos dados do Data Lake ou Data Warehouse, que abrange a abertura de firewall, portas e exportação de arquivos para o Data Lake ou Data Warehouse.
  • Extração de dados: significa extrair informações relevantes de arquivos para reduzir o volume de dados. Isso é utilizado para documentos e dados multimídias.
  • Limpeza e Consistência de dados: são os núcleos da transformação de dados. Para exemplificar, imagine o seguinte: um sistema bancário pode armazenar dados de pessoas individuais, bem como casais, como um objeto de cliente. Quando um casal se divorcia o objeto do cliente deve ser aposentado. Sem o campo da data do divórcio, no sistema, o funcionário bancário utiliza o campo de data do falecimento para inserir a data do divórcio para retirar o objeto e adicionam um comentário no campo de notas. Posteriormente, quando os cientistas de dados usam esse campo de data de morte, eles devem estar cientes disso antes de carregar os dados no DW ou usá-los de um Data Lake, é necessária uma distinção entre clientes normais mortos e casais divorciados.
  • Uso de dados: se refere ao ato de usar o DW ou conjunto de dados para análise. Em ambos os casos, Data Lakes e DW, o Algoritmo de aprendizado de máquina (Machine Learning) exige dados de entrada estruturados. No entanto, os Datas Lakes facilitam o tratamento de formatos de dados variáveis com a abordagem Schema-on-read.

O que é Scheme-on-read? é um esquema de leitura que se refere a uma estratégia de análise de dados inovadora em novas ferramentas de manipulação de dados e banco de dados.

Esquema na leitura refere-se a uma estratégia de análise de dados inovadora em ferramentas de manipulação de dados como Hadoop. No esquema de leitura, os dados são aplicados a um plano ou esquema à medida que são retirados de um local armazenado, em vez de quando entram

O Data Lake armazena qualquer tipo de dados, os cientistas de dados não precisam ficar procurando por aplicações com dados que sejam interessantes, eles apenas consultam o Data Lake. Um dos maiores benefícios é que os Cientistas de Dados não precisam lidar com várias tecnologias de armazenamento, firewall ou banco de dados, pois lidam apenas com uma interface. Os aplicativos mantêm os dados mestres e transacionais por um longo tempo, mas excluem grandes arquivos de log após alguns dias ou semanas. Eles liberam seu armazenamento para seus aplicativos de dados de log de que não precisam mais.

Além de melhorar o trabalho das equipes, o Data Lake exige que as equipes assumam novos tipos de tarefas. Há um caminho de novos desafios para as equipes de analistas e IA, pois o Data Lake fornece acesso fácil aos dados que qualquer Data Warehouse pode fornecer.

Se você conseguir integrar novos dados, poderá fornecer novas perspectivas e percepções adicionais para o negócio.

 A chave para localizar dados no Data Lake é o catálogo de dados

Gostou do conteúdo?

Leia em nossos blog os artigos relacionados ao assunto, caso tenha alguma dúvida, converse com um dos nossos especialistas através do e-mail contato@mindtek.com.br

Big Data e Data Lake: Saiba quais são as diferenças entres eles.

By |novembro 30th, 2021|Categories: Big Data, Consultoria de Business Intelligence|Tags: , |

É notável que ainda alguns profissionais criam confusões com

Comentários desativados em Big Data e Data Lake: Saiba quais são as diferenças entres eles.

Ferramenta de automação de Data Warehouse: Qlik Compose

By |novembro 26th, 2021|Categories: Destaque na Home, Integração de dados, Qlik Compose|Tags: , |

Descubra o por que o Qlik Compose é capaz

Comentários desativados em Ferramenta de automação de Data Warehouse: Qlik Compose
Por |2022-09-28T15:32:19-03:00novembro 30th, 2021|Big Data, Consultoria de Business Intelligence|Comentários desativados em Big Data e Data Lake: Saiba quais são as diferenças entres eles.

Sobre o Autor:

Política de Privacidade

Ir ao Topo