OpenSouthCode

Presented by:

¿Cómo transformas un flujo continuo de eventos en datos analíticos de calidad, con SQL como lenguaje principal y sin infraestructura ad-hoc? Un arquitecto y un data engineer cuentan cómo lo hicieron, desde el diseño hasta el código que funciona en producción. Los datos llegan en tiempo real, pero el negocio necesita respuestas fiables. El reto no es solo mover datos: es orquestar su transformación y almacenamiento de forma que cualquier ingeniero del equipo pueda entenderlo, modificarlo y operarlo sin miedo. Esta charla tiene dos voces deliberadamente: el arquitecto que diseñó el sistema y el data engineer que lo implementó. Porque las decisiones de diseño y la realidad del código no siempre cuentan la misma historia — y esa tensión es donde más se aprende. Recorremos un pipeline completo: Apache Iceberg como formato de tabla abierto con soporte a evolución de esquema y upserts, SparkSQL y PySpark como motor de transformación declarativo gestionando watermarks e idempotencia, y Apache Airflow como orquestador que programa y supervisa la ejecución de los jobs. Explicamos por qué elegimos SparkSQL sobre Beam o Flink, cómo gestionamos datos tardíos con un late_threshold configurable por pipeline, y cómo una tabla de control en Iceberg reemplaza cualquier base de datos externa de estado

Date:: 2026 June 26 - 12:30
Duration:: 45 min
Room:: Sala Fuengirola
Conference:: OpenSouthCode 2026
Language:: Spanish; Castilian
Track:
Difficulty:: Easy

De Kafka a Iceberg: construyendo un pipeline de datos moderno con SparkSQL y Airflow

Schedule

Juanlu Hidalgo

Ignacio

No video of the event yet, sorry

Happening At The Same Time:

De Kafka a Iceberg: construyendo un pipeline de datos moderno con SparkSQL y Airflow Schedule

Juanlu Hidalgo

Ignacio

No video of the event yet, sorry

Happening At The Same Time:

De Kafka a Iceberg: construyendo un pipeline de datos moderno con SparkSQL y Airflow

Schedule