Presented by:
No video of the event yet, sorry!

¿Cómo transformas un flujo continuo de eventos en datos analíticos de calidad, con SQL como lenguaje principal y sin infraestructura ad-hoc? Un arquitecto y un data engineer cuentan cómo lo hicieron, desde el diseño hasta el código que funciona en producción. Los datos llegan en tiempo real, pero el negocio necesita respuestas fiables. El reto no es solo mover datos: es orquestar su transformación y almacenamiento de forma que cualquier ingeniero del equipo pueda entenderlo, modificarlo y operarlo sin miedo. Esta charla tiene dos voces deliberadamente: el arquitecto que diseñó el sistema y el data engineer que lo implementó. Porque las decisiones de diseño y la realidad del código no siempre cuentan la misma historia — y esa tensión es donde más se aprende. Recorremos un pipeline completo: Apache Iceberg como formato de tabla abierto con soporte a evolución de esquema y upserts, SparkSQL y PySpark como motor de transformación declarativo gestionando watermarks e idempotencia, y Apache Airflow como orquestador que programa y supervisa la ejecución de los jobs. Explicamos por qué elegimos SparkSQL sobre Beam o Flink, cómo gestionamos datos tardíos con un late_threshold configurable por pipeline, y cómo una tabla de control en Iceberg reemplaza cualquier base de datos externa de estado

Date:
2026 June 26 - 12:30
Duration:
45 min
Room:
Sala Fuengirola
Conference:
OpenSouthCode 2026
Language:
Spanish; Castilian
Track:
Difficulty:
Easy

Happening at the same time:

  1. Docs-as-code: past, present, and future.
  2. Start Time:
    2026 June 26 12:30

    Room:
    Sala Benalmádena 002

  3. Programando GNU/Hurd con Rust
  4. Start Time:
    2026 June 26 12:30

    Room:
    Sala Benamocarra 23

  5. OpenPrinting - We continue to make printing just work!
  6. Start Time:
    2026 June 26 12:30

    Room:
    Sala Canillas 013