Sind die Fitness- und Wettkampfindustrien des Schwimmsports datenfit für KI? – Teil 1

Veröffentlicht am 11. Februar 2025
Bearbeitet am 30. Mai 2026
Einleitung
Datengestützte Erkenntnisse haben viele Sportarten verändert und ermöglichen präzisere Trainingspläne, die Überwachung von Verletzungsrisiken sowie Echtzeit-Leistungsfeedback (Vec et al., 2024; Leckey et al., 2025). Doch im Schwimmsport – einer Disziplin, in der Millisekunden entscheiden – stellen Qualität und Struktur der Daten nach wie vor erhebliche Herausforderungen dar. Wie können KI und ML uns dabei helfen, bessere Entscheidungen zu treffen, und welche Risiken entstehen, wenn die Datenqualität vernachlässigt wird?
Diese erste Ausgabe unserer zweiteiligen Reihe bietet einen literaturgestützten Überblick zur Aufbereitung von Daten für KI im Sport. Sie stützt sich auf Erkenntnisse aus der KI/ML-Forschung und überträgt diese auf schwimmspezifische Szenarien. Unser Ziel ist es, die Lücke zwischen dem, was KI-Systeme benötigen, und dem, was der Schwimmsport liefern kann, zu schließen. Wir werden die Grundlagen der Datenqualität, die Gefahren eines schlechten Datenmanagements sowie die zentralen Säulen untersuchen, die für den Aufbau robuster, KI-tauglicher Datensätze erforderlich sind. Am Ende dieses Überblicks werden Sie verstehen, warum gut strukturierte, hochwertige Daten für fortgeschrittene Analysen, bessere Entscheidungsfindung und nützlicheres Leistungsfeedback im Becken unerlässlich sind.
In Teil 1 behandelte Abschnitte:
- Abschnitt 1: Warum Datenqualität für ML/KI unverzichtbar ist Wir skizzieren die wesentlichen Gründe, warum hochwertige, gut verwaltete Daten für KI- und ML-Anwendungen unentbehrlich sind – insbesondere in leistungskritischen Sportarten wie dem Schwimmen.
- Abschnitt 2: Die Hindernisse, Fallstricke und Herausforderungen mangelhafter Datenqualität Dieser Abschnitt beleuchtet die praktischen Konsequenzen schlechter Datenpraktiken, darunter verzerrte Modelle, fehlerhafte Trainingsstrategien und verschwendete Ressourcen.
- Abschnitt 3: Grundlegende Voraussetzungen für hochwertige Daten in der KI/ML Wir stellen die zentralen Säulen eines zuverlässigen Datenmanagements vor – von intrinsischer und kontextueller Datenqualität bis hin zur ethischen Konformität – die alle entscheidend für vertrauenswürdige KI-Ergebnisse sind.
Abschnitt 1: Warum Datenqualität für ML/KI unverzichtbar ist – „Der Motor der KI"
Stellen Sie sich einen Motor vor, der mit minderwertigem oder verunreinigtem Kraftstoff betrieben wird. Er kann keine Höchstleistung erbringen. Für Machine Learning (ML) und Künstliche Intelligenz (KI) funktionieren Daten auf ähnliche Weise. Im Sport, insbesondere im Schwimmen, treiben präzise Daten moderne Analysen, Leistungsüberwachung und Entscheidungsprozesse an. Daten minderer Qualität oder unvollständige Daten können selbst die fortschrittlichsten KI-Systeme in die Irre führen und potenziell Trainingspläne sowie wettkampfbezogene Entscheidungen verzerren.
Im Folgenden sind die wichtigsten Gründe aufgeführt, warum Datenqualität für jede KI-gestützte Anwendung entscheidend ist:
- Modellgenauigkeit und -zuverlässigkeit Hochwertige Daten helfen KI-Modellen dabei, zuverlässigere Ergebnisse zu liefern. Im Schwimmen können konsistente und genaue Daten zu Metriken wie Zuganzahl, Rundenzeiten und Herzratenvariabilität Trainern und Athleten helfen, KI-generierte Erkenntnisse mit größerem Vertrauen zu interpretieren. Umgekehrt können schlechte Daten zu unzuverlässigen Modellen und fehlerhaften Trainingsempfehlungen führen (Priestley et al., 2023; Polyzotis et al., 2018).
- Vermeidung von Datenkaskaden Datenfehler können sich durch die gesamte ML-Pipeline fortpflanzen und einen Kaskadeneffekt erzeugen, bei dem kleine anfängliche Fehler zu größeren Problemen anwachsen. So können beispielsweise dauerhaft falsch erfasste Rundenzeiten die Tempoanalyse, Erschöpfungsprognosen und Wettkampfstrategien verzerren und zu kostspieligen Ineffizienzen führen (Sambasivan et al., 2021; Polyzotis et al., 2018).
- Verzerrung und Fairness Verzerrte oder unvollständige Daten können im Leistungssport zu einseitigen Erkenntnissen und ungerechten Ergebnissen führen. Trainingsdaten, die sich auf bestimmte Schwimmer-Demografien oder -Bedingungen beschränken, können beispielsweise wichtige Faktoren ausschließen und Modelle erzeugen, die manche Athleten gegenüber anderen bevorzugen. Vielfältige, repräsentative Daten helfen, Verzerrungen zu reduzieren und die Generalisierbarkeit zu verbessern (Zhou et al., 2024; Qayyum et al., 2020).
- Datenbereinigung und -aufbereitung Eine effektive Datenbereinigung entfernt Rauschen, korrigiert Inkonsistenzen und behebt fehlende Werte. Man kann es sich vorstellen wie die Pflege der Wasserqualität in einem Schwimmbecken – ohne regelmäßige Reinigung leiden die Leistungsdaten der Schwimmer und die KI-Erkenntnisse. Die Bereinigung für ML sollte dabei auch die beabsichtigte Anwendung berücksichtigen und nicht nur generische Fehler beseitigen (Neutatz et al., 2021; Polyzotis et al., 2018; Priestley et al., 2023).
- Domänenspezifische Anforderungen Jede Sportart bringt einzigartige Metriken und Anforderungen mit sich. Im Schwimmen ist die Überwachung von Metriken wie Zugfrequenz, Ruheintervallen und Unterwasserphasen unerlässlich. Die Anpassung der Datenqualitätsprüfungen an diese Besonderheiten hilft KI-Ergebnissen dabei, reale Leistungsanforderungen zu erfüllen und nicht nur allgemeine Datenverfügbarkeit abzubilden (Priestley et al., 2023; Rangineni, 2023).
- Kontinuierliche Überwachung und Verwaltung Die Datenerhebung endet nicht, wenn ein Modell trainiert ist. Die Leistung von Schwimmern entwickelt sich weiter, neue Athleten kommen zu Programmen hinzu, und Sensoren können sich im Laufe der Zeit verändern. Die laufende Überwachung eingehender Daten hilft KI-Tools dabei, im Kontext ihrer Verwendung relevant zu bleiben (Bangad et al., 2024; Zhou et al., 2024).
- Umfassendes Datenqualitätsmanagement Die Verwaltung großer Mengen und Varianten von Trainingsdaten – wie Rundenzählungen, biometrische Messungen und Videoanalysen – erfordert robuste, skalierbare Prozesse. Eine klare Datenqualitätsstrategie berücksichtigt Volumen, Vielfalt und Geschwindigkeit, um die Konsistenz über den gesamten ML-Lebenszyklus hinweg aufrechtzuerhalten (Rangineni, 2023; Priestley et al., 2023).
- Ethische und rechtliche Überlegungen Die Erfassung von Leistungs- und Gesundheitsmetriken wirft ethische Fragen auf, insbesondere in Bezug auf Datenschutz und Compliance. Hohe Datenqualitätsstandards, sichere Verwaltung und die Einhaltung ethischer Richtlinien helfen Organisationen dabei, rechtlichen Verpflichtungen nachzukommen (Qayyum et al., 2020; Zhou et al., 2024).
Datenqualität ist das Fundament erfolgreicher ML/KI-Systeme. Genaue, umfassende und gut verwaltete Daten können zuverlässigere Modelle ermöglichen und das Vertrauen von Trainern, Athleten und Interessengruppen fördern. Wenn Daten als „Kraftstoff" von KI-Anwendungen betrachtet werden, unterstützt dies gerechtere Ergebnisse – ob in Trainingseinrichtungen, Forschungslabors oder bei internationalen Wettkämpfen.
Abschnitt 2: Die Hindernisse, Fallstricke und Herausforderungen mangelhafter Datenqualität
In der Sportanalytik ist mangelnde Datenqualität mehr als nur ein kleiner Rückschlag – sie kann Trainingsprogramme entgleisen lassen, wertvolle Ressourcen verschwenden und das Vertrauen in KI-gestützte Erkenntnisse untergraben. Von Trainern, die Wendezeiten verfolgen, bis hin zu Sportwissenschaftlern, die große Sensordatensätze analysieren – das Verständnis dieser zentralen Fallstricke ist entscheidend für zuverlässige Ergebnisse.
- Leistungsverschlechterung des Modells KI-Modelle sind auf genaue, vollständige Daten angewiesen, um zu lernen und Vorhersagen zu treffen. Wenn sie mit fehlenden oder falschen Daten gespeist werden – wie ungenauen Rundenzeiten oder falsch erfassten Zuganzahlen – können Modelle unzuverlässige Vorhersagen liefern. Dies kann zu suboptimalen Tempovorgaben oder potenziell unangemessenen Trainingsentscheidungen führen, wenn die Ergebnisse als Vorschriften statt als trainerbegutachtete Entscheidungsunterstützung behandelt werden (Priestley et al., 2023; Leckey et al., 2025).
- Datenkaskaden Kleine Datenfehler am Anfang der Pipeline können sich zu größeren Problemen nachgelagert aufschaukeln. Ein Herzfrequenzmesser, der fälschlicherweise häufige Spitzen aufzeichnet, könnte beispielsweise „Fehlalarme" bezüglich der Gesundheit eines Athleten auslösen und zu unnötigen Änderungen in Trainingsplänen führen. Diese Kaskaden verringern das Vertrauen in KI-Systeme und können die Entscheidungsqualität beeinträchtigen (Sambasivan et al., 2021; Polyzotis et al., 2018).
- Verzerrung und Fairnessprobleme Mangelhafte Datenqualität resultiert häufig aus unvollständigen Datensätzen, die keine vielfältige Athletenpopulation repräsentieren. Wenn Modelle mit begrenzten Daten trainiert werden – beispielsweise ausschließlich mit Metriken von Eliteschwimmern – können sie Empfehlungen liefern, die für Jugend- oder Masterssportler irrelevant oder potenziell ungeeignet sind. Eine inklusive und repräsentative Datenerhebung ist entscheidend, um Verzerrungen zu minimieren (Zhou et al., 2024; Qayyum et al., 2020).
- Fehlende standardisierte Metriken Ohne standardisierte Methoden zur Erfassung wichtiger Metriken (z. B. Schlagrate oder Rundenabschnittszeiten) wird der Vergleich von Daten zwischen Teams oder Studien schwierig. Inkonsistente Definitionen können bei der Einführung von KI-Lösungen zu Verwirrung führen, den Fortschritt verlangsamen und Fehler über Anwendungen hinweg verstärken (Priestley et al., 2023).
- Datenvergiftung und Sicherheitsrisiken Wenn Daten schlecht verwaltet werden, werden sie anfällig für Manipulation oder böswillige Angriffe. Im Sport könnten veränderte Leistungsdaten Scouts in die Irre führen, Rankings verzerren oder sogar Wettmärkte beeinflussen. Die Implementierung robuster Validierungs- und Sicherheitsmaßnahmen hilft, solche Datenvergiftungsrisiken zu verhindern (Qayyum et al., 2020).
- Ressourcenbeschränkungen und Dokumentationsprobleme Unterversorgte Teams und unklare Datenerhebungsprotokolle führen oft zu vermeidbaren Fehlern. Schlecht dokumentierte Sensorkalibrierungsverfahren können beispielsweise zur Fehletikettierung von Daten führen, deren Korrektur später erheblichen Aufwand erfordert. Mit der Zeit verstärken diese Ressourcenlücken die Ineffizienzen (Sambasivan et al., 2021).
- Ethische und rechtliche Herausforderungen Der Umgang mit sensiblen Athletendaten – einschließlich biometrischer oder gesundheitsbezogener Metriken – erfordert die strikte Einhaltung von Datenschutzbestimmungen. Nachlässiges Datenmanagement könnte zu Nicht-Konformität, rechtlichen Problemen und einer Beschädigung des Vertrauens zwischen Athleten und Betreuern führen (Qayyum et al., 2020; Zhou et al., 2024).
- Betriebliche Ineffizienzen Schlechte Datenqualität kann den Fortschritt erheblich verlangsamen, da ständige Bereinigung und Validierung erforderlich sind. Die Zeit, die mit dem „Feuerlöschen" schlechter Daten verbracht wird, könnte besser für die Entwicklung fortgeschrittener Trainingsstrategien oder die Durchführung zusätzlicher Experimente genutzt werden (Priestley et al., 2023).
- Trainings- und Wissenslücken Vielen Sportorganisationen fehlt eine fundierte Ausbildung in Datenerhebung, -management und -ethik. Ohne dieses Grundlagenwissen können Teams unbeabsichtigt Fehler in Datensätze einbringen und dadurch weitere Herausforderungen bei der Skalierung von KI-Lösungen schaffen (Zhou et al., 2024).
- Generalisierbarkeit und Repräsentativität Modelle, die auf engen Datensätzen trainiert wurden, haben oft Schwierigkeiten, sich auf verschiedene Kontexte zu verallgemeinern. Ein Modell, das ausschließlich mit Eliteschwimmern trainiert wurde, bietet möglicherweise wenig Mehrwert für Jugend- oder Masterssportler und erfordert zusätzliche Datenerhebung und Nachtraining (Priestley et al., 2023; Rangineni, 2023).
Mangelhafte Datenqualität stellt erhebliche Herausforderungen für die KI-Einführung im Sport dar. Von verschlechterter Modellleistung und ethischen Risiken bis hin zu betrieblichen Verzögerungen unterstreichen diese Fallstricke die Notwendigkeit robuster, gut dokumentierter und sicherer Datenpipelines. Durch die Bewältigung dieser Herausforderungen können Organisationen Trainern, Wissenschaftlern und Betreuerstäben eine bessere Grundlage für das Vertrauen in KI-Erkenntnisse bieten – und letztlich bessere Trainingsentscheidungen und gerechtere Ergebnisse unterstützen.
Abschnitt 3: Grundlegende Voraussetzungen für hochwertige Daten in der KI/ML
Das Erreichen hochwertiger Daten ist kein Zufall – es erfordert gezielte Strategien und sorgfältige Prozesse. Im Sport, insbesondere im Schwimmen, stammen Daten aus einer Vielzahl von Quellen wie Rundenzeiten, Zuganzahlen und physiologischen Metriken. Damit KI-Modelle zuverlässige Erkenntnisse liefern können, muss jeder Datenpunkt genau, relevant und kontextuell bedeutsam sein. Im Folgenden sind die zentralen Säulen für eine effektive Datenerhebung, -verwaltung und -nutzung beschrieben.
-
Intrinsische Datenqualität Die intrinsische Qualität konzentriert sich darauf sicherzustellen, dass die Daten selbst genau, konsistent und vollständig sind. Im Schwimmen kann selbst eine kleine Ungenauigkeit – wie eine falsch erfasste Rundenzeit – Trainingsempfehlungen verzerren und die Athletenergebnisse beeinflussen. Um eine hohe intrinsische Qualität zu erreichen, sollten Sensoren wie Zeitpads und tragbare Geräte regelmäßig kalibriert werden. Regelmäßige Stichprobenprüfungen, beispielsweise der Vergleich automatisierter Daten mit Videoauswertungen, helfen dabei, die Genauigkeit wichtiger Metriken zu validieren. Automatisierte Systeme, die Ausreißer markieren – etwa Schlagraten, die physikalische Grenzen überschreiten – sind ebenfalls wichtig (Priestley et al., 2023; Rangineni, 2023). Diese kombinierten Maßnahmen tragen dazu bei, die Daten für KI-gestützte Analysen ausreichend vertrauenswürdig zu halten.
-
Kontextuelle Qualität Kontextuelle Qualität stellt sicher, dass Daten relevant, aktuell und für die beabsichtigte KI-Aufgabe geeignet sind. Trainingsdaten aus Kurzbahnanlagen sind beispielsweise möglicherweise nicht auf das Freiwasserschwimmen übertragbar, was eine Segmentierung unerlässlich macht. Um die kontextuelle Relevanz aufrechtzuerhalten, sollten Teams die Ziele der Datenerhebung klar definieren, etwa die Verbesserung von Starts, Wenden oder der allgemeinen Ausdauer. Daten sollten anhand von Bedingungen wie Beckengröße oder Höhenlage klassifiziert werden, um kontextuell aussagekräftige Erkenntnisse zu liefern. Darüber hinaus sollten sich die Datenerhebungsprozesse mit den Trainingsanforderungen weiterentwickeln, um stets auf die aktuellen Ziele ausgerichtet zu bleiben (Priestley et al., 2023; Zhou et al., 2024).
-
Repräsentationsqualität Die Repräsentationsqualität konzentriert sich auf konsistente und interpretierbare Datenformate über Teams und Systeme hinweg. Ohne Standardisierung können Leistungsdaten falsch interpretiert werden – zum Beispiel wenn verschiedene Teams eine 50-Meter-Runde als „50 Free" oder „FC_50" bezeichnen. Die Einführung standardisierter Benennungskonventionen und die Pflege eines gemeinsamen Datenschemas über Teams hinweg helfen dabei, solche Probleme zu vermeiden. Teams sollten außerdem Metadaten verwenden, um Details darüber zu dokumentieren, wann und wie Daten erhoben wurden (Priestley et al., 2023). Diese Maßnahmen verhindern Verwirrung und verbessern die Zusammenarbeit zwischen internen und externen Interessengruppen.
-
Zugänglichkeit Zugänglichkeit stellt sicher, dass Daten autorisierten Nutzern zur Verfügung stehen und gleichzeitig der Datenschutz gewahrt bleibt. Trainer, Sportwissenschaftler und Athleten benötigen häufig Echtzeitzugang zu Leistungsdaten, um das Training anzupassen. Sichere cloudbasierte Systeme mit rollenbasierter Zugriffskontrolle können Zugang ermöglichen, ohne die Sicherheit zu gefährden. Darüber hinaus ermöglichen benutzerfreundliche Dashboards für nicht-technische Anwender eine breitere Zugänglichkeit. Für sensible Athletendaten sollte Verschlüsselung durchgesetzt werden, um Datenschutzbestimmungen zu erfüllen (Zhou et al., 2024; Qayyum et al., 2020). Diese Maßnahmen helfen dabei, Datenverfügbarkeit und Datenschutz in Einklang zu bringen und gleichzeitig eine effektive Entscheidungsfindung zu unterstützen.
-
Datenlebenszyklusmanagement Das Datenlebenszyklusmanagement überwacht Daten von der Erhebung über Verarbeitung, Speicherung und Analyse bis hin zur eventuellen Archivierung oder Löschung. Rückverfolgbarkeit ist entscheidend – ohne sie können Fehler unbemerkt in die KI-Pipeline eingebracht werden. Die Pflege einer gründlichen Dokumentation, einschließlich Details wie Erhebungsdaten und Sensorkalibrierungsprotokollen, hilft dabei, die Datenintegrität zu bewahren. Regelmäßige Überprüfungen sind unerlässlich, um veraltete oder irrelevante Daten zu entfernen und gleichzeitig den Fokus auf qualitativ hochwertige Datensätze zu erhalten (Rangineni, 2023; Priestley et al., 2023). Backup- und Disaster-Recovery-Strategien unterstützen darüber hinaus die langfristige Datenzuverlässigkeit.
-
Ethische und rechtliche Konformität Ethische und rechtliche Konformität ist beim Umgang mit sensiblen Daten entscheidend, insbesondere im Sport, wo biometrische und Gesundheitsdaten eine Rolle spielen. Athleten vertrauen darauf, dass ihre persönlichen Informationen geschützt und verantwortungsvoll genutzt werden. Um dieses Vertrauen aufrechtzuerhalten, sollten Teams Athletendaten nach Möglichkeit anonymisieren und sicherstellen, dass die Datennutzung den relevanten Datenschutzgesetzen und Governance-Anforderungen entspricht. Die Einholung einer informierten Zustimmung von Athleten vor der Erhebung und Nutzung ihrer Daten ist ebenfalls unerlässlich (Qayyum et al., 2020; Zhou et al., 2024). Die Nichteinhaltung dieser Richtlinien birgt rechtliche Konsequenzen und Reputationsschäden.
-
Kontinuierliche Überwachung und Verbesserung Kontinuierliche Überwachung hilft dabei, die Datenqualität im Laufe der Zeit aufrechtzuerhalten, während sich Leistungsdaten weiterentwickeln. Schwimmprogramme führen häufig neue Metriken und Technologien ein, was eine laufende Validierung wichtig macht. Automatisierte Validierungsskripte können Anomalien erkennen – etwa ungewöhnlich kurze oder lange Rundenzeiten – bevor sie Analysen beeinflussen. Regelmäßige Audits helfen dabei, Vollständigkeit und Integrität aufrechtzuerhalten, während Feedback-Schleifen mit Trainern und Athleten eine prompte Behebung von Diskrepanzen ermöglichen (Bangad et al., 2024; Zhou et al., 2024). Dieser proaktive Ansatz hilft dabei, eine dynamische und zuverlässige Datenpipeline aufrechtzuerhalten.
-
Integration von Domänenwissen Die Integration von Domänenwissen nutzt das Fachwissen von Trainern, Sportwissenschaftlern und Athleten, um Daten effektiv zu interpretieren und zu validieren. Anomalien, wie ein plötzlicher Anstieg der Herzfrequenz, können einfache Erklärungen haben, beispielsweise Sensorfehlfunktionen oder Umgebungsbedingungen. Domänenexperten können zwischen echten Problemen und Gerätefehlern unterscheiden und so unnötige Modellanpassungen verhindern. Die Zusammenarbeit mit Trainern bei Datenerhebungsprotokollen und die Validierung KI-gesteuerter Empfehlungen anhand realer Erfahrungen erhöhen die Chance, dass Erkenntnisse in der Praxis nützlich sind (Rangineni, 2023; Neutatz et al., 2021). Dieser iterative Prozess hilft dabei, datengestützte Entscheidungen im Einklang mit praktischer Erfahrung zu halten.
Durch den Fokus auf diese Kerngrundlagen – intrinsische und kontextuelle Qualität, repräsentationale Konsistenz, Zugänglichkeit, Lebenszyklusmanagement, Compliance, kontinuierliche Überwachung und Domänenexpertise – können Organisationen vertrauenswürdigere Datenpipelines aufbauen. Für Schwimmprofis unterstützt dies fundiertere Trainingsentscheidungen, genaueres Athletenfeedback, gestärktes Vertrauen und nützlichere Leistungsunterstützungs-Workflows.
Zusammenfassung
In diesem ersten Teil haben wir die Grundprinzipien der Datenqualität untersucht und gezeigt, wie schlechte Daten selbst fortgeschrittene KI-Projekte zum Scheitern bringen können. Nachlässige oder unvollständige Aufzeichnungen verlangsamen nicht nur die Innovation. Sie können Trainer, Athleten und Analysten aktiv in die Irre führen. Aber wie gelten diese Konzepte für die aktuelle Datenlandschaft im Schwimmsport?
Im nächsten Teil werden wir die praktischen Realitäten des Managements von Schwimmtrainingssession-Daten untersuchen. Wir werden Bereiche hervorheben, in denen die Branche stark aufgestellt ist, und Bereiche, in denen Verbesserungsbedarf besteht. Wir werden auch die Möglichkeit eines einheitlichen Rahmens diskutieren, der darauf ausgelegt ist, das Datenmanagement auf allen Ebenen des Sports zu verbessern. Abschließend werden wir die zentrale Frage beantworten: Sind die Daten der Schwimm-Fitness- und Wettkampfbranche KI-tauglich? Bleiben Sie dran für einen genaueren Blick darauf, wie wir KI einsetzen können, um bessere Entscheidungen für Schwimmer auf allen Leistungsebenen zu unterstützen.
Hinweis: Dieser Artikel wurde ursprünglich auf Englisch verfasst und mithilfe automatisierter KI-Tools in andere Sprachen übersetzt, damit wir diese Informationen mit mehr Menschen teilen können. Wir bemühen uns, Übersetzungen genau und verständlich zu halten, und freuen uns über die Unterstützung der Community bei deren Verbesserung. Wenn etwas in einer übersetzten Version unklar oder fehlerhaft ist oder vom englischen Original abweicht, gilt der englische Originaltext als maßgebliche Fassung.
Quellen
Bangad, N., Jayaram, V., Sughaturu Krishnappa, M., Banarse, A., Bidkar, D., Nagpal, A., & Parlapalli, V. (2024). A theoretical framework for AI-driven data quality monitoring in high-volume data environments. International Journal of Computer Engineering & Technology, 15, 618-636. https://doi.org/10.5281/zenodo.13878755
Leckey, C., van Dyk, N., Doherty, C., Lawlor, A., & Delahunt, E. (2025). Machine learning approaches to injury risk prediction in sport: A scoping review with evidence synthesis. British Journal of Sports Medicine. https://doi.org/10.1136/bjsports-2024-108576
Neutatz, F., Chen, B., Abedjan, Z., & Wu, E. (2021). From cleaning before ML to cleaning for ML. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering.
Polyzotis, N., Roy, S., Whang, S., & Zinkevich, M. (2018). Data lifecycle challenges in production machine learning: A survey. ACM SIGMOD Record, 47, 17-28. https://doi.org/10.1145/3299887.3299891
Priestley, M., O'Donnell, F., & Simperl, E. (2023). A survey of data quality requirements that matter in ML development pipelines. Journal of Data and Information Quality, 15. https://doi.org/10.1145/3592616
Qayyum, A., Qadir, J., Bilal, M., & Al-Fuqaha, A. (2020). Secure and robust machine learning for healthcare: A survey. IEEE Reviews in Biomedical Engineering. https://doi.org/10.1109/RBME.2020.3013489
Rangineni, S. (2023). An analysis of data quality requirements for machine learning development pipelines frameworks. International Journal of Computer Trends and Technology, 71, 16-27. https://doi.org/10.14445/22312803/IJCTT-V71I8P103
Roh, Y., Heo, G., & Whang, S. E. (2019). A survey on data collection for machine learning: A big data - AI integration perspective. IEEE Transactions on Knowledge and Data Engineering. https://doi.org/10.1109/TKDE.2019.2946162
Sambasivan, N., Kapania, S., Highfill, H., Akrong, D., Paritosh, P., & Aroyo, L. (2021). "Everyone wants to do the model work, not the data work": Data cascades in high-stakes AI. Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems, 1-15. https://doi.org/10.1145/3411764.3445518
Vec, V., Tomazic, S., Kos, A., & Umek, A. (2024). Trends in real-time artificial intelligence methods in sports: A systematic review. Journal of Big Data. https://doi.org/10.1186/s40537-024-01026-0
Whang, S. E., Roh, Y., Song, H., & Lee, J.-G. (2023). Data collection and quality challenges in deep learning: A data-centric AI perspective. The VLDB Journal, 32. https://doi.org/10.1007/s00778-022-00775-9
Zhou, Y., Tu, F., Sha, K., Ding, J., & Chen, H. (2024). A survey on data quality dimensions and tools for machine learning. 2024 IEEE International Conference on Artificial Intelligence Testing, 120-131. https://doi.org/10.1109/AITest62860.2024.00023
Bleiben Sie mit Wise Racer auf dem Laufenden
Abonnieren Sie, um neue Artikel und Produktupdates von Wise Racer zu erhalten. Wir senden Ihnen eine Bestätigungs-E-Mail, bevor Ihr Abonnement aktiviert wird.