Obter informações atualizadas para que as empresas possam continuar a tomarem decisões baseadas em dados é crucial, sendo que algumas vezes pode surgir um grande problema, como exemplo: como saber se os dados estão desatualizados e se o fluxo de trabalho da sincronização de dados precisa de atualização?
Atualmente a maioria das empresas realizam o processamento de dados em lote, cuja finalidade é executar a integração de dados em intervalos regulares. Imagina se você pudesse receber notificações de alterações de dados em tempo real sem a necessidade de programar o intervalo de tempo?
É nesse momento que entra o Change Data Capture (CDC) que é o processo mais eficiente de integração e sincronização de dados independentemente da fonte de origem ou destino.
O que é o CDC?
O CDC é capaz de compreender processos que detectam as alterações feitas em uma tabela ou banco de dados de origem. As linhas alteradas são movidas por meio da replicação de dados para um local de destino, exemplo, um Data Warehouse, Microsoft Azure, AWS, Oracle e entre outros.
Com os dados atualizados eles podem ser utilizados pelos usuários para fluxos de trabalhos com Análise de Dados ou Business Intelligence (BI)
Tipos de Capturas
- Date_modified
A abordagem do CDC é controlar quando as alterações são extraídas em um filtro de execução na coluna Date_Modified para recuperar apenas as linhas que foram modificadas desde a sincronização de dados mais recente.
Utilizar Date_Modified para CDC funciona melhor para aplicativos de Data Warehouse tradicionais que são preenchidos usando trabalhos de ETL quando as tabelas de origem não processam exclusões.
- Diff
Realiza a comparação com o estado anterior dos dados para identificar o que mudou.
O método funciona melhor para aplicações com baixo volume de dados.
- Triggers
Podem ser utilizados para executar CDC em tabelas de sombra. As tabelas podem armazenar toda a linha para manter o controle de cada alteração de coluna, bem como tipo de operação (inserir, atualizar ou excluir).
O CDC usando acionadores de banco de dados reduz a sobrecarga para extrair as alterações, mas aumenta a sobrecarga para registrar as mudanças.
- Log-Based
Os bancos de dados transacionais armazenam as alterações em um log de transação com a finalidade de recuperar o estado do banco de dados caso aconteça alguma falha por qualquer motivo. O Log-Based aproveita o aspecto do banco de dados para ler as alterações do log.
É fato que o CDC permite que os dados sejam replicados, sincronizados e distribuídos de modo instantâneo, registrando as alterações aplicadas de forma incremental ao invés de ficar dependente da transação em uma única vez.
A utilização de boas ferramentas disponíveis no mercado irá facilitar a implementação de todo este processo. Algumas dessas ferramentas são: Qlik Replicate, Azure Data Factory, AWS Database Migration Service, Debezium e FlyData.
Quer saber mais de como a Mindtek pode te ajudar na implementação do CDC em sua Organização?
Envie e-mail para contato@mindtek.com.br
Inscreva-se na Newsletter #NewsMind
Confira mais conteúdos:
4 recursos essenciais da integração Zabbix com GLPI
4 recursos essenciais da integração Zabbix com GLPI que
Como funciona o Data Catalog nas empresas?
Como funciona o Data Catalog nas empresas? Na
Solução para varejistas: Integração do Giftback com Business Intelligence
Solução completa para varejistas: Integração Giftback e Business Intelligence