Complete your Databricks User Groups profile!

Fill out a few details about yourself so the community can get to know you.
São Paulo Databricks User Group

Lakebase: O Banco Transacional Nativo do Lakehouse

Por que sua arquitetura de dados ainda tem um "buraco" entre aplicações e analytics — e como o Lakebase resolve isso.

O Problema que Ninguém Gosta de Admitir

Imagine a seguinte cena: sua equipe de dados construiu um lakehouse impecável. Pipelines de ingestão, camadas bronze/silver/gold, dashboards brilhantes. Tudo funcionando.

Até que alguém pergunta: "E o app de produção? Onde ele grava os dados transacionais?"

Aí começa a dor de cabeça. Você precisa de um banco OLTP separado (Postgres, MySQL, DynamoDB...), pipelines de CDC para trazer dados para o lakehouse, reverse ETL para devolver dados enriquecidos ao app, e uma equipe de infra para manter tudo isso de pé.

O resultado? Silos de dados, latência na sincronização, complexidade operacional e custos que só crescem.

A Arquitetura Tradicional (e Suas Dores)

Veja como a maioria das empresas opera hoje:

Pontos de dor nessa arquitetura:

  • Múltiplas ferramentas e fornecedores para gerenciar

  • Latência significativa entre a escrita no OLTP e a disponibilidade no lakehouse

  • Governança fragmentada — o Unity Catalog não enxerga o banco externo

  • Custo operacional alto com pipelines de sincronização


O Que é o Lakebase?

O Lakebase é um banco de dados Postgres totalmente gerenciado, integrado nativamente à Databricks Data Intelligence Platform. Ele foi projetado para eliminar a lacuna entre workloads transacionais (OLTP) e analíticos (OLAP), unificando tudo em um único ecossistema.

Em termos simples: é como ter um Postgres de alta performance morando dentro do seu lakehouse, com governança unificada via Unity Catalog, sincronização bidirecional nativa e capacidades modernas como autoscaling, scale-to-zero e branching de banco de dados.

A Nova Arquitetura com Lakebase


O que muda:

  • Zero infraestrutura externa de banco de dados

  • Sincronização bidirecional nativa (sem Debezium, sem Airflow, sem dor)

  • Governança unificada pelo Unity Catalog

  • Um único plano de controle para OLTP + OLAP

As Inovações Arquiteturais do Lakebase

O Lakebase não é "apenas mais um Postgres gerenciado". Ele traz conceitos modernos de engenharia de dados para o mundo transacional:

1. Separação de Compute e Storage

Diferente de bancos tradicionais onde CPU e disco estão acoplados, o Lakebase separa completamente os recursos computacionais do armazenamento. Isso significa que você escala cada um de forma independente, pagando apenas pelo que usa.

2. Copy-on-Write Storage

O sistema de armazenamento usa uma abordagem copy-on-write. Na prática, quando você cria um branch do banco, não há duplicação de dados — apenas as alterações são armazenadas separadamente. Isso torna operações como branching e restore praticamente instantâneas.

3. Autoscaling e Scale-to-Zero

O compute ajusta automaticamente sua capacidade com base na demanda. Em períodos de inatividade, o banco escala para zero, eliminando custos. Quando uma requisição chega, ele "acorda" em segundos.

Branching de Banco de Dados: Git para seus Dados

Este é provavelmente o recurso mais inovador. Assim como desenvolvedores criam branches no Git para trabalhar em features isoladas, o Lakebase permite criar branches do banco de dados inteiro.



Casos de uso poderosos:

  • Desenvolvimento: cada dev tem seu próprio branch do banco, sem interferir em produção.

  • Testes de migração: teste alterações de schema em um branch isolado antes de aplicar em prod.

  • Instant Restore: restaure o banco para qualquer ponto no tempo (janela configurável de 0 a 30 dias) criando um branch a partir daquele momento.

Sincronização Bidirecional: O Fim do Reverse ETL

Um dos maiores diferenciais é a sincronização nativa entre o lakehouse e o Lakebase:

Synced Tables (Lakehouse → Lakebase)

Tabelas do Unity Catalog são sincronizadas automaticamente para o Lakebase, permitindo que aplicações consultem dados analíticos enriquecidos com baixa latência. Suporta modos Snapshot, Triggered e Continuous.

Lakehouse Sync (Lakebase → Lakehouse)

Dados transacionais do Lakebase são replicados continuamente para tabelas Delta no Unity Catalog usando Change Data Capture (CDC). As tabelas destino seguem o padrão SCD Type 2, mantendo o histórico completo de alterações.



Isso elimina completamente a necessidade de:

  • Ferramentas externas de CDC (Debezium, Fivetran)

  • Pipelines de reverse ETL (Census, Hightouch)

  • Jobs customizados de sincronização no Airflow/Prefect

Três Casos de Uso Estratégicos

Feature Serving para ML em Tempo Real

O Lakebase funciona como online store para o Feature Store da Databricks. Features computadas no lakehouse são sincronizadas via Synced Tables para o Lakebase, de onde modelos de ML as consultam com latência de milissegundos.

Estado de Agentes de IA

Agentes de IA precisam persistir estado entre requisições — contexto de conversas, histórico de ações, dados de workflow. O Lakebase fornece um banco transacional nativo para armazenar esse estado com consistência ACID.

Dados Transacionais para Aplicações

Databricks Apps (ou qualquer aplicação externa) podem usar o Lakebase como seu banco de dados primário. A integração é nativa: basta adicionar o projeto Lakebase como recurso da app. Além disso, a Data API oferece uma interface REST compatível com PostgREST para acesso HTTP direto.



Comparativo: Antes e Depois



Disponibilidade

O Lakebase Autoscaling está disponível nas seguintes regiões AWS:

  • us-east-1, us-east-2, us-west-2

  • ca-central-1, sa-east-1 (🇧🇷 São Paulo!)

  • eu-central-1, eu-west-1, eu-west-2

  • ap-south-1, ap-southeast-1, ap-southeast-2

A presença em sa-east-1 é particularmente relevante para nós da comunidade brasileira, garantindo baixa latência para aplicações hospedadas no Brasil.

Conclusão

O Lakebase representa uma mudança de paradigma: em vez de tratar OLTP e OLAP como mundos separados que precisam de "pontes" complexas, ele os unifica em uma única plataforma.

Para equipes de dados brasileiras, isso significa:

  • Menos ferramentas para gerenciar e integrar

  • Menos pipelines que quebram silenciosamente às 3h da manhã

  • Mais tempo focado em gerar valor com dados

  • Governança real sobre todo o ciclo de vida do dado — da escrita transacional ao dashboard executivo

O lakehouse finalmente tem seu banco de dados transacional nativo. E ele fala Postgres.

Este post foi inspirado por conceitos da documentação oficial da Databricks. Para mais detalhes técnicos, consulte a documentação do Lakebase.

0 comments