¿Son los sectores de la natación, la actividad física y la competitividad aptos para la inteligencia artificial? – Parte 1

Publicado el 11 de febrero de 2025
Editado el 29 de mayo de 2025
Introducción
Los conocimientos basados en datos han revolucionado muchos deportes, lo que ha permitido planificar entrenamientos precisos, mejorar la prevención de lesiones y obtener información sobre el rendimiento en tiempo real. Sin embargo, en el ámbito de la natación (un deporte en el que cada milisegundo importa), la calidad y la estructura de los datos siguen siendo desafíos importantes. ¿Cómo pueden la IA y el aprendizaje automático ayudarnos a lograr mejores resultados y qué riesgos surgen cuando se ignora la calidad de los datos?
Esta primera entrega de nuestra serie de dos partes ofrece una revisión basada en la literatura sobre la preparación de datos para la IA en los deportes, con referencias extraídas de los campos de investigación de la IA y el aprendizaje automático y aplicadas a escenarios específicos de la natación. Nuestro objetivo es cerrar la brecha entre lo que necesitan los sistemas de IA y cómo la natación puede proporcionarlo. Exploraremos los fundamentos de la calidad de los datos, los peligros de una mala gestión de los datos y los pilares clave necesarios para crear conjuntos de datos sólidos y preparados para la IA. Al final de esta revisión, comprenderá por qué los datos bien estructurados y de alta calidad son esenciales para construir una base para análisis avanzados, lo que permite una mejor toma de decisiones y mejoras en el rendimiento en la piscina.
Secciones cubiertas en la Parte 1:
- Sección 1: Por qué la calidad de los datos es esencial para el aprendizaje automático y la inteligencia artificial Describimos las razones principales por las que los datos de alta calidad y bien administrados son indispensables para las aplicaciones de inteligencia artificial y aprendizaje automático, especialmente en deportes críticos para el rendimiento como la natación.
- Sección 2: Las barreras, los obstáculos y los desafíos de los datos de mala calidad Esta sección destaca las consecuencias prácticas de las malas prácticas de datos, incluidos los modelos sesgados, las estrategias de entrenamiento defectuosas y el desperdicio de recursos.
- Sección 3: Fundamentos básicos para garantizar datos de alta calidad en inteligencia artificial y aprendizaje automático Presentamos los pilares clave de la gestión de datos confiable, desde la calidad de los datos intrínsecos y contextuales hasta el cumplimiento ético, todos los cuales son cruciales para crear resultados de inteligencia artificial confiables.
Sección 1: Por qué la calidad de los datos es esencial para el aprendizaje automático y la inteligencia artificial: “El motor de la IA”
Imagina que estás alimentando un motor: si el combustible es de baja calidad o está contaminado, nunca obtendrás el máximo rendimiento. Los datos funcionan de la misma manera para el aprendizaje automático (ML) y la inteligencia artificial (IA). En el mundo de los deportes, especialmente en la natación, los datos precisos son el elemento vital que impulsa el análisis moderno, el seguimiento del rendimiento y la toma de decisiones. Los datos de mala calidad o incompletos pueden confundir incluso a los sistemas de IA más avanzados, lo que podría hacer descarrilar los planes de entrenamiento y los resultados competitivos.
A continuación, se presentan las razones clave por las que la calidad de los datos es vital para cualquier aplicación impulsada por IA:
- Precisión y confiabilidad del modelo Los datos de alta calidad garantizan que los modelos de IA brinden predicciones precisas y confiables. En la natación, los datos consistentes y precisos sobre métricas como el recuento de brazadas, los tiempos de vuelta y la variabilidad de la frecuencia cardíaca permiten a los entrenadores y atletas confiar en los conocimientos generados por IA. Por otro lado, los datos deficientes pueden generar modelos poco confiables y regímenes de entrenamiento defectuosos (Priestley et al., 2023; Qayyum et al., 2020).
- Evitar cascadas de datos Los errores de datos pueden propagarse a lo largo del proceso de aprendizaje automático, lo que crea un efecto cascada en el que los pequeños errores iniciales se amplifican y generan problemas mayores. Por ejemplo, registrar incorrectamente los tiempos de vuelta de manera constante puede distorsionar el análisis del ritmo, las predicciones de fatiga y las estrategias de carrera, lo que genera costosas ineficiencias (Sambasivan et al., 2021; Polyzotis et al., 2018).
- Sesgo y equidad Los datos sesgados o incompletos, especialmente en deportes competitivos, pueden generar información sesgada y resultados desiguales. Por ejemplo, los datos de entrenamiento limitados a ciertas condiciones o características demográficas de los nadadores pueden excluir factores clave, lo que crea modelos que favorecen a algunos atletas en detrimento de otros. Garantizar datos diversos y representativos ayuda a reducir el sesgo y mejorar la generalización (Zhou et al., 2018; Qayyum et al., 2020).
- Limpieza y preparación de datos Una limpieza de datos eficaz elimina el ruido, corrige las inconsistencias y aborda los valores faltantes. Piense en ello como en el mantenimiento de la calidad del agua de una piscina: sin una limpieza adecuada, el rendimiento de los nadadores y los conocimientos de la IA se ven afectados. Los datos limpios garantizan que los modelos puedan adaptarse a condiciones nuevas y cambiantes (Polyzotis et al., 2018; Priestley et al., 2023).
- Requisitos específicos del dominio Cada deporte tiene métricas y requisitos únicos. En natación, es esencial controlar métricas como la frecuencia de brazada, los intervalos de descanso y las fases bajo el agua. Adaptar los controles de calidad de los datos a estos aspectos específicos garantiza que los resultados de la IA aborden las necesidades de rendimiento del mundo real (Priestley et al., 2023; Ranjan, 2023).
- Supervisión y gestión continuas La recopilación de datos no se detiene después de entrenar un modelo. El rendimiento de los nadadores evoluciona, nuevos atletas se suman a los programas y los sensores pueden cambiar con el tiempo. La supervisión continua de los datos entrantes garantiza que las herramientas de IA sigan siendo precisas y relevantes (Bangari et al., 2024; Zhou et al., 2018).
- Gestión integral de la calidad de los datos La gestión de grandes volúmenes y variedades de datos de entrenamiento (como recuentos de vueltas, lecturas biométricas y análisis de vídeo) requiere procesos sólidos y escalables. Una estrategia clara de calidad de los datos aborda el volumen, la variedad y la velocidad para mantener la coherencia en todo el ciclo de vida del aprendizaje automático (Ranjan, 2023; Priestley et al., 2023).
- Consideraciones éticas y legales La recopilación de métricas de rendimiento y salud plantea preocupaciones éticas, especialmente en torno a la privacidad y el cumplimiento. Los altos estándares de calidad de los datos, la gestión segura y el cumplimiento de las pautas éticas ayudan a las organizaciones a cumplir con las obligaciones legales (Qayyum et al., 2020; Zhou et al., 2018).
La calidad de los datos es la base de los sistemas de ML/IA exitosos. Los datos precisos, completos y bien administrados impulsan modelos más confiables, lo que fomenta la confianza entre entrenadores, atletas y partes interesadas. Tratar los datos como el "combustible" de las aplicaciones de IA garantiza resultados más equitativos, ya sea en instalaciones de entrenamiento, laboratorios de investigación o competencias globales.
Sección 2: Las barreras, los obstáculos y los desafíos de los datos de mala calidad
En el análisis deportivo, la mala calidad de los datos es más que un simple revés menor: puede hacer descarrilar los programas de entrenamiento, desperdiciar recursos valiosos y erosionar la confianza en los conocimientos impulsados por la IA. Desde los entrenadores que rastrean los tiempos de los turnos hasta los científicos deportivos que analizan grandes conjuntos de datos de sensores, comprender estos obstáculos clave es crucial para garantizar resultados confiables.
- Degradación del rendimiento del modelo Los modelos de IA dependen de datos precisos y completos para aprender y hacer predicciones. Cuando se les suministran datos faltantes o incorrectos (como tiempos de vuelta inexactos o recuentos de brazadas mal registrados), los modelos producen predicciones poco fiables. Esto puede dar lugar a estrategias de ritmo subóptimas o incluso a un mayor riesgo de lesiones si se exige a los atletas más allá de los límites seguros (Priestley et al., 2023; Qayyum et al., 2020).
- Cascadas de datos Los pequeños errores de datos al comienzo del proceso pueden convertirse en problemas más grandes en el futuro. Por ejemplo, un monitor de frecuencia cardíaca que registre incorrectamente picos frecuentes podría generar "falsas alarmas" sobre la salud de un atleta, lo que provocaría cambios innecesarios en los planes de entrenamiento. Estas cascadas reducen la confianza en los sistemas de IA y pueden comprometer el bienestar del atleta (Sambasivan et al., 2021; Polyzotis et al., 2018).
- Problemas de sesgo y equidad La mala calidad de los datos suele deberse a conjuntos de datos incompletos que no representan a poblaciones diversas de deportistas. Cuando los modelos se entrenan con datos limitados (como métricas de solo nadadores de élite), pueden producir consejos que son irrelevantes o incluso perjudiciales para los atletas jóvenes o de nivel máster. La recopilación de datos inclusivos y representativos es clave para mitigar el sesgo (Zhou et al., 2018; Qayyum et al., 2020).
- Falta de métricas estandarizadas Sin métodos estandarizados para registrar métricas clave (por ejemplo, frecuencia de brazada o tiempos de segmento de vuelta), comparar datos entre equipos o estudios se vuelve difícil. Las definiciones inconsistentes pueden crear confusión al adoptar soluciones de IA, lo que ralentiza el progreso y amplifica los errores en las aplicaciones (Priestley et al., 2023).
- Envenenamiento de datos y riesgos de seguridad Cuando los datos se gestionan de forma deficiente, se vuelven vulnerables a la manipulación o a ataques maliciosos. En los deportes, los datos de rendimiento alterados pueden confundir a los cazatalentos, distorsionar las clasificaciones o incluso afectar a los mercados de apuestas. La implementación de medidas de seguridad y validación sólidas ayuda a prevenir estos riesgos de envenenamiento de datos (Qayyum et al., 2020).
- Restricciones de recursos y problemas de documentación Los equipos con recursos insuficientes y los protocolos de recopilación de datos poco claros a menudo conducen a errores evitables. Por ejemplo, los procedimientos de calibración de sensores mal documentados pueden dar lugar a un etiquetado incorrecto de los datos, lo que luego requiere un gran esfuerzo para corregirlo. Con el tiempo, estas brechas de recursos agravan las ineficiencias (Sambasivan et al., 2021).
- Desafíos éticos y legales El manejo de datos confidenciales de los atletas, incluidos los parámetros biométricos o relacionados con la salud, requiere un estricto cumplimiento de las regulaciones de privacidad. Una gestión descuidada de los datos puede dar lugar a incumplimientos, problemas legales y daños a la confianza entre los atletas y el personal (Qayyum et al., 2020; Zhou et al., 2018).
- Ineficiencias operativas La mala calidad de los datos puede ralentizar significativamente el progreso al requerir una limpieza y validación constantes. El tiempo dedicado a “apagar incendios” de datos erróneos podría aprovecharse mejor para desarrollar estrategias de capacitación avanzadas o realizar experimentos adicionales (Priestley et al., 2023).
- Brechas de capacitación y educación Muchas organizaciones deportivas carecen de la capacitación adecuada en recopilación, gestión y ética de datos. Sin este conocimiento fundamental, los equipos pueden introducir errores inadvertidamente en los conjuntos de datos, lo que genera más desafíos para escalar las soluciones de IA (Zhou et al., 2018).
- Generalización y representatividad Los modelos entrenados en conjuntos de datos estrechos a menudo tienen dificultades para generalizar en diferentes contextos. Por ejemplo, un modelo entrenado exclusivamente en nadadores de élite puede ofrecer poco valor para los atletas jóvenes o mayores, lo que requiere una costosa recopilación de datos y un nuevo entrenamiento (Priestley et al., 2023; Ranjan, 2023).
La mala calidad de los datos presenta desafíos importantes para la adopción de la IA en los deportes. Desde el rendimiento degradado de los modelos y los riesgos éticos hasta los retrasos operativos, estos obstáculos subrayan la necesidad de canales de datos sólidos, bien documentados y seguros. Al abordar estos desafíos, las organizaciones pueden garantizar que los entrenadores, los científicos y el personal de apoyo puedan confiar en los conocimientos de la IA, lo que en última instancia conduce a mejores estrategias de entrenamiento y resultados más equitativos.
Sección 3: Fundamentos básicos para garantizar datos de alta calidad en IA/ML
Lograr datos de alta calidad no es casualidad: requiere estrategias intencionales y procesos meticulosos. En los deportes, especialmente en la natación, los datos provienen de una variedad de fuentes, como tiempos de vuelta, recuentos de brazadas y métricas fisiológicas. Para garantizar que los modelos de IA brinden información confiable, cada punto de datos debe ser preciso, relevante y contextualmente significativo. A continuación, se presentan los pilares clave que respaldan la recopilación, la gestión y el uso efectivos de los datos.
-
Calidad intrínseca de los datos La calidad intrínseca se centra en garantizar que los datos en sí sean precisos, consistentes y completos. En natación, incluso una pequeña inexactitud (como un tiempo de vuelta mal registrado) puede distorsionar las recomendaciones de entrenamiento y afectar los resultados de los atletas. Para lograr una alta calidad intrínseca, los sensores como los cronómetros y los dispositivos portátiles deben someterse a calibraciones periódicas. Las comprobaciones periódicas puntuales, como la comparación de datos automatizados con revisiones de video, ayudan a validar la precisión de las métricas clave. Los sistemas automatizados que señalan valores atípicos, como frecuencias de brazada que exceden los límites físicos, también son fundamentales (Priestley et al., 2023; Ranjan, 2023). Estas medidas combinadas garantizan que los datos sigan siendo confiables para el análisis de IA.
-
Calidad contextual La calidad contextual garantiza que los datos sean relevantes, oportunos y adecuados para la tarea de IA prevista. Por ejemplo, los datos de entrenamiento recopilados en piscinas de recorrido corto pueden no ser aplicables a la natación en aguas abiertas, lo que hace que la segmentación sea esencial. Para mantener la relevancia contextual, los equipos deben definir claramente los objetivos de recopilación de datos, como mejorar las salidas, los giros o la resistencia general. Los datos deben clasificarse en función de condiciones como el tamaño de la piscina o la altitud para proporcionar información contextualmente significativa. Además, a medida que evolucionan las necesidades de capacitación, también deberían evolucionar los procesos de recopilación de datos para mantenerlos alineados con los objetivos actuales (Priestley et al., 2023; Zhou et al., 2018).
-
Calidad representativa La calidad representativa se centra en formatos de datos consistentes e interpretables en todos los equipos y sistemas. Sin estandarización, los datos de rendimiento pueden malinterpretarse, como cuando diferentes equipos etiquetan una vuelta de 50 metros como "50 libres" o "FC_50". La adopción de convenciones de nomenclatura estandarizadas y el mantenimiento de un esquema de datos compartido entre los equipos ayudan a mitigar estos problemas. Los equipos también deben usar metadatos para documentar detalles sobre cuándo y cómo se recopilaron los datos (Priestley et al., 2023). Estas medidas evitan la confusión y mejoran la colaboración entre las partes interesadas internas y externas.
-
Accesibilidad La accesibilidad garantiza que los datos estén disponibles para los usuarios autorizados al tiempo que se protege la privacidad. Los entrenadores, los científicos deportivos y los atletas a menudo necesitan acceso en tiempo real a los datos de rendimiento para ajustar el entrenamiento. Los sistemas seguros basados en la nube con control de acceso basado en roles pueden brindar acceso sin comprometer la seguridad. Además, los paneles de control fáciles de usar diseñados para usuarios no técnicos permiten una accesibilidad más amplia. En el caso de los datos confidenciales de los atletas, se debe aplicar el cifrado para cumplir con las regulaciones de privacidad (Zhou et al., 2018). Estas medidas ayudan a equilibrar la disponibilidad y la privacidad de los datos, al tiempo que respaldan una toma de decisiones eficaz.
-
Gestión del ciclo de vida de los datos La gestión del ciclo de vida de los datos supervisa los datos desde la recopilación hasta el procesamiento, el almacenamiento, el análisis y el archivo o la eliminación final. La trazabilidad es clave; sin ella, se pueden introducir errores en el proceso de IA sin que se detecten. Mantener una documentación completa, que incluya detalles como las fechas de recopilación y los registros de calibración de sensores, ayuda a preservar la integridad de los datos. Las revisiones periódicas son esenciales para eliminar datos obsoletos o irrelevantes, al tiempo que se mantiene el enfoque en los conjuntos de datos de calidad (Ranjan, 2023; Priestley et al., 2023). Las estrategias de copia de seguridad y recuperación ante desastres garantizan aún más la confiabilidad de los datos a largo plazo.
-
Cumplimiento ético y legal El cumplimiento ético y legal es crucial cuando se manejan datos confidenciales, en particular en deportes donde se involucran datos biométricos y de salud. Los atletas confían en que su información personal estará protegida y se usará de manera responsable. Para mantener esta confianza, los equipos deben anonimizar los datos de los atletas cuando sea posible y garantizar que el uso de los datos cumpla con las leyes pertinentes, como el RGPD. También es esencial obtener el consentimiento informado de los atletas antes de recopilar y usar sus datos (Qayyum et al., 2020; Zhou et al., 2018). El incumplimiento de estas pautas corre el riesgo de sufrir repercusiones legales y daños a la reputación.
-
Monitoreo y mejora continuos El monitoreo continuo garantiza que la calidad de los datos se mantenga a lo largo del tiempo a medida que evolucionan los datos de rendimiento. Los programas de natación a menudo introducen nuevas métricas y tecnologías, lo que hace que la validación continua sea importante. Los scripts de validación automatizados pueden detectar anomalías, como tiempos de vuelta inusualmente cortos o largos, antes de que afecten los análisis. Las auditorías periódicas ayudan a mantener la integridad y la completitud, mientras que los ciclos de retroalimentación que involucran a entrenadores y atletas permiten la rápida resolución de discrepancias (Bangari et al., 2024; Zhou et al., 2018). Este enfoque proactivo ayuda a mantener una cadena de datos dinámica y confiable.
-
Integración del conocimiento del dominio La integración del conocimiento del dominio aprovecha la experiencia de entrenadores, científicos deportivos y atletas para interpretar y validar los datos de manera efectiva. Las anomalías, como un aumento repentino de la frecuencia cardíaca, pueden tener explicaciones simples como fallas en los sensores o condiciones ambientales. Los expertos del dominio pueden distinguir entre problemas reales y errores de equipo, lo que evita ajustes innecesarios del modelo. Colaborar con los entrenadores en los protocolos de recopilación de datos y validar las recomendaciones impulsadas por IA frente a experiencias del mundo real mejora la confiabilidad de los conocimientos generados (Ranjan, 2023). Este proceso iterativo garantiza que las decisiones basadas en datos se alineen con la experiencia práctica.
Al centrarse en estos fundamentos básicos (calidad intrínseca y contextual, coherencia representativa, accesibilidad, gestión del ciclo de vida, cumplimiento, supervisión continua y experiencia en el dominio), las organizaciones pueden establecer canales de datos fiables. Para los profesionales de la natación, esto se traduce en mejores regímenes de entrenamiento, comentarios precisos de los atletas, mayor participación, menos lesiones y un rendimiento competitivo superior.
Resumen
En esta primera parte, hemos explorado los principios básicos de la calidad de los datos y hemos demostrado cómo los datos deficientes pueden hacer descarrilar incluso los proyectos de IA más avanzados. Los registros descuidados o incompletos no solo frenan la innovación, sino que pueden engañar activamente a los entrenadores, atletas y analistas. Pero, ¿cómo se aplican estos conceptos al panorama actual de datos de la natación?
En la próxima entrega, nos sumergiremos en las realidades prácticas de la gestión de los datos de las sesiones de entrenamiento de natación, destacando las áreas en las que la industria se destaca y en las que se necesitan mejoras. También analizaremos la oportunidad de un marco unificado diseñado para mejorar la gestión de datos en todos los niveles del deporte. Por último, responderemos la pregunta clave: ¿Los datos de la industria competitiva y de la aptitud física en natación son aptos para la IA? Estén atentos para analizar en profundidad cómo podemos aprovechar la IA para generar mejores resultados para los nadadores en todos los niveles.
Referencias:
Priestley, Maria & O’Donnell, Fionntán & Simperl, Elena. (2023). A Survey of Data Quality Requirements That Matter in ML Development Pipelines. Journal of Data and Information Quality. 15. 10.1145/3592616.
Bangad, Nikhil & Jayaram, Vivekananda & Sughaturu Krishnappa, Manjunatha & Banarse, Amey & Bidkar, Darshan & Nagpal, Akshay & Parlapalli, Vidyasagar. (2024). A Theoretical Framework For Ai-Driven Data Quality Monitoring In High-Volume Data Environments. INTERNATIONAL JOURNAL OF COMPUTER ENGINEERING & TECHNOLOGY. 15. 618-636. 10.5281/zenodo.13878755.
Zhou, Yuhan & Tu, Fengjiao & Sha, Kewei & Ding, Junhua & Chen, Haihua. (2024). A Survey on Data Quality Dimensions and Tools for Machine Learning Invited Paper. 120-131. 10.1109/AITest62860.2024.00023.
Polyzotis, Neoklis & Roy, Sudip & Whang, Steven & Zinkevich, Martin. (2018). Data Lifecycle Challenges in Production Machine Learning: A Survey. ACM SIGMOD Record. 47. 17-28. 10.1145/3299887.3299891.
Qayyum, Adnan & Qadir, Junaid & Bilal, Muhammad & Al-Fuqaha, Ala. (2020). Secure and Robust Machine Learning for Healthcare: A Survey. IEEE Reviews in Biomedical Engineering. PP. 1-1. 10.1109/RBME.2020.3013489.
Neutatz, Felix & Chen, Binger & Abedjan, Ziawasch & Wu, Eugene. (2021). From Cleaning before ML to Cleaning for ML.
Sambasivan, Nithya & Kapania, Shivani & Highfill, Hannah & Akrong, Diana & Paritosh, Praveen & Aroyo, Lora. (2021). “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI. 1-15. 10.1145/3411764.3445518.
Roh, Yuji & Heo, Geon & Whang, Steven. (2019). A Survey on Data Collection for Machine Learning: A Big Data - AI Integration Perspective. IEEE Transactions on Knowledge and Data Engineering. PP. 1-1. 10.1109/TKDE.2019.2946162.
Whang, Steven & Roh, Yuji & Song, Hwanjun & Lee, Jae-Gil. (2023). Data collection and quality challenges in deep learning: a data-centric AI perspective. The VLDB Journal. 32. 10.1007/s00778-022-00775-9.
Rangineni, Sandeep. (2023). An Analysis of Data Quality Requirements for Machine Learning Development Pipelines Frameworks. International Journal of Computer Trends and Technology. 71. 16-27. 10.14445/22312803/IJCTT-V71I8P103.