Computer Vision com Python: detecção de objetos em imagens e vídeo em tempo real

Computer Vision permite que computadores entendam e interpretem imagens e vídeos. De detecção de produtos em prateleiras a sistemas de segurança, de carros autônomos a filtros de redes sociais — CV está em toda parte. Com Python, OpenCV e modelos pré-treinados como YOLO, você constrói aplicações de visão computacional impressionantes com surpreendentemente pouco código.

Fundamentos com OpenCV

OpenCV é a biblioteca de referência para processamento de imagens com mais de 20 anos de desenvolvimento. Ela oferece: leitura e escrita de imagens e vídeos em qualquer formato, transformações geométricas (resize, rotate, crop, warp), filtros de imagem (blur, sharpen, edge detection), operações morfológicas (erosão, dilatação), detecção de contornos e shapes, e conversão entre espaços de cores (RGB, HSV, LAB, grayscale).

Operações básicas são surpreendentemente poderosas. Converter para HSV e filtrar por range de cor permite detectar objetos de cor específica com perfeição. Thresholding adaptativo segmenta texto de background para OCR. Canny edge detection encontra bordas que alimentam detecção de formas. Essas técnicas clássicas, combinadas com contour detection, resolvem problemas como contagem de objetos em esteira, inspeção visual de peças e leitura de medidores analógicos sem qualquer modelo de ML.

YOLO: detecção de objetos state-of-the-art

YOLO (You Only Look Once) é o modelo mais popular para detecção de objetos em tempo real. A versão atual, YOLOv8 da Ultralytics, detecta 80 categorias de objetos (pessoas, carros, animais, objetos do cotidiano) out-of-the-box, com inference em milissegundos mesmo em hardware modesto. A API é absurdamente simples: carregue o modelo com YOLO(“yolov8n.pt”), chame model.predict(image), e receba bounding boxes com classes e scores de confiança.

Para detecção em vídeo em tempo real, combine YOLO com OpenCV VideoCapture. Capture frames da webcam ou de um stream RTSP, rode inference em cada frame, desenhe bounding boxes e labels no frame, e exiba o resultado. Em uma GPU moderna, YOLOv8 processa mais de 100 frames por segundo — mais do que suficiente para qualquer aplicação real-time.

Treinamento customizado

O YOLO pré-treinado detecta objetos genéricos, mas seu caso de uso pode exigir classes específicas: tipo de defeito em peças industriais, espécie de planta, modelo de carro. Fine-tuning resolve isso. Anote seu dataset com ferramentas como Roboflow ou Label Studio, exporte no formato YOLO (um arquivo txt por imagem com bounding boxes normalizados), e treine com model.train(data=”dataset.yaml”, epochs=50). Com 200-500 imagens anotadas por classe, resultados são tipicamente excelentes.

Data augmentation (rotações, flip, ajustes de brilho/contraste, crop) é aplicado automaticamente pelo Ultralytics durante o treinamento, multiplicando efetivamente o dataset. Para classes raras, oversampling e augmentation agressivo garantem que o modelo veja exemplos suficientes.

Além da detecção: segmentação e pose

YOLO também oferece segmentação de instâncias (contorno exato do objeto, não apenas bounding box), estimativa de pose (keypoints do corpo humano para análise de movimento), e classificação de imagens. Segmentação é essencial para aplicações que precisam separar o objeto do background: remoção de fundo, medição precisa de dimensões, e realidade aumentada.

Pose estimation detecta 17 keypoints do corpo humano (cabeça, ombros, cotovelos, mãos, quadris, joelhos, pés) com precisão impressionante. Aplicações incluem: análise de postura ergonômica, contagem de repetições em exercícios, detecção de quedas em idosos, e motion capture para animação sem equipamento especializado.

Deploy em produção

Para produção, exporte o modelo para ONNX (formato universal que roda sem PyTorch), TensorRT (otimizado para GPUs NVIDIA), ou CoreML (otimizado para dispositivos Apple). A conversão para ONNX reduz o tamanho do modelo e elimina a dependência do PyTorch no servidor de inference. Sirva o modelo via FastAPI com endpoints que recebem imagens e retornam detecções em JSON. Para edge devices, YOLO roda em Raspberry Pi 5, NVIDIA Jetson e até smartphones com o framework NCNN.