Entrevistas para vagas de engenharia de dados em 2026 seguem um padrao bem definido: SQL, Python para dados, design de pipelines e perguntas sobre ferramentas do ecossistema. Este guia cobre os tipos de perguntas mais comuns e como se preparar para cada etapa.
Etapas tipicas do processo seletivo
A maioria das empresas brasileiras e internacionais segue estas etapas para vagas de engenharia de dados:
Triagem do curriculo/LinkedIn: palavras-chave importam. Mencione ferramentas especificas (Airflow, dbt, Spark, SQL, Python, AWS/GCP, Kafka) em vez de termos genéricos.
Teste tecnico online (1-2h): geralmente SQL e/ou Python. Plataformas como HackerRank, Codility ou teste take-home.
Entrevista tecnica ao vivo (1-2h): live coding de SQL e Python, perguntas conceituais sobre arquitetura de dados, e discussao sobre experiencias anteriores.
System design (45-60min): projete um pipeline de dados para um cenario hipotetico. Comum em vagas senior e em empresas internacionais.
SQL: o que estudar e praticar
SQL e a habilidade mais testada em entrevistas de dados. As perguntas vao de basico (joins, group by) a avancado (window functions, CTEs recursivas).
Window functions (mais cobradas em entrevistas)
Ranking: ROW_NUMBER, RANK, DENSE_RANK — saber a diferenca entre as tres e quando usar cada uma.
Funcoes de janela: SUM() OVER, AVG() OVER, LAG(), LEAD() — calculos sobre um conjunto de linhas sem colapsar o resultado em um grupo.
Pergunta classica: “Para cada departamento, encontre o funcionario com o segundo maior salario.” Solucao com DENSE_RANK:
WITH ranked AS (
SELECT nome, departamento, salario,
DENSE_RANK() OVER (PARTITION BY departamento ORDER BY salario DESC) AS rank
FROM funcionarios
)
SELECT nome, departamento, salario FROM ranked WHERE rank = 2;
Joins complexos e anti-joins
Encontrar registros que NAO tem correspondencia em outra tabela (anti-join):
SELECT c.nome FROM clientes c
LEFT JOIN pedidos p ON c.id = p.cliente_id
WHERE p.id IS NULL;
— Clientes que nunca fizeram pedido
CTEs recursivas
Pergunta: “dada uma tabela de hierarquia (funcionario, gerente), liste toda a cadeia hierarquica de um funcionario.”
WITH RECURSIVE hierarquia AS (
SELECT id, nome, gerente_id, 1 AS nivel FROM funcionarios WHERE id = 42
UNION ALL
SELECT f.id, f.nome, f.gerente_id, h.nivel + 1
FROM funcionarios f JOIN hierarquia h ON f.id = h.gerente_id
)
SELECT * FROM hierarquia;
Python: o que cai na entrevista
Manipulacao de dados com collections nativas: dicionarios, listas, sets. Perguntas comuns envolvem contar frequencias, agrupar dados e encontrar padroes sem usar pandas.
Leitura e processamento de arquivos: ler JSONs aninhados, CSVs com problemas (delimitadores variados, encoding), e log files.
APIs e requests: construir um script que extrai dados de uma API paginada, trata erros e salva o resultado.
Pergunta tipica: “dado um arquivo de log com linhas no formato IP – timestamp – endpoint – status_code, encontre os 10 endpoints com mais erros 5xx nas ultimas 24 horas.”
from collections import Counter
from datetime import datetime, timedelta
def top_erros_24h(arquivo):
agora = datetime.now()
limite = agora – timedelta(hours=24)
erros = Counter()
with open(arquivo) as f:
for linha in f:
partes = linha.strip().split(” – “)
timestamp = datetime.strptime(partes[1], “%Y-%m-%d %H:%M:%S”)
endpoint = partes[2]
status = int(partes[3])
if timestamp > limite and 500 <= status < 600:
erros[endpoint] += 1
return erros.most_common(10)
System design para dados
Perguntas tipicas: “projete um sistema de analytics de eventos para um app com 10M de usuarios”, “como voce montaria um pipeline de dados do zero para esta empresa?”
Estrutura de resposta: comece pelos requisitos (volume de dados, latencia aceitavel, tipos de queries), proponha a arquitetura em camadas (ingestao, armazenamento, processamento, consumo), justifique cada escolha tecnologica, discuta tradeoffs (custo vs performance, batch vs streaming).
Recursos de estudo
LeetCode e HackerRank para SQL e Python. O livro “Designing Data-Intensive Applications” de Martin Kleppmann e leitura obrigatoria para system design. DataLemur e StrataScratch para perguntas de SQL especificas de entrevistas de dados. Projetos praticos no GitHub demonstrando pipelines end-to-end impressionam mais que certificacoes.
Tem um projeto em mente?
Somos especialistas em transformar ideias em produtos digitais. Apps, sites, automações e IA — vamos construir juntos.