Wise Racer
StartseiteBlogKontaktieren Sie unsAnmelden

Sind die Fitness- und Wettbewerbsbranche im Schwimmsport datenfit für KI? – Teil 1

Sind die Fitness- und Wettbewerbsbranche im Schwimmsport datenfit für KI? – Teil 1

Veröffentlicht am 11. Februar 2025
Bearbeitet am 29. Mai 2025


Einleitung

Datengestützte Erkenntnisse haben viele Sportarten revolutioniert und ermöglichen präzise Trainingspläne, verbesserte Verletzungsprävention und Leistungsfeedback in Echtzeit. Doch im Bereich des Schwimmens – einem Sport, bei dem es auf Millisekunden ankommt – bleiben die Qualität und Struktur der Daten erhebliche Herausforderungen. Wie können uns KI und ML helfen, bessere Ergebnisse zu erzielen, und welche Risiken entstehen, wenn die Datenqualität ignoriert wird?

Dieser erste Teil unserer zweiteiligen Serie bietet einen literaturbasierten Überblick über die Aufbereitung von Daten für KI im Sport, mit Referenzen aus KI/ML-Forschungsfeldern und angewendet auf schwimmspezifische Szenarien. Unser Ziel ist es, die Lücke zwischen dem, was KI-Systeme benötigen, und der Art und Weise zu schließen, wie Schwimmen diese bereitstellen kann. Wir untersuchen die Grundlagen der Datenqualität, die Gefahren eines schlechten Datenmanagements und die wichtigsten Säulen, die für den Aufbau robuster, KI-fähiger Datensätze erforderlich sind. Am Ende dieses Überblicks werden Sie verstehen, warum gut strukturierte, qualitativ hochwertige Daten für den Aufbau einer Grundlage für erweiterte Analysen unerlässlich sind, die bessere Entscheidungen und Leistungssteigerungen im Pool ermöglichen.

Abschnitte, die in Teil 1 behandelt werden:

  • Abschnitt 1: Warum Datenqualität für ML/KI unverzichtbar ist Wir erläutern die Hauptgründe, warum qualitativ hochwertige, gut verwaltete Daten für KI- und ML-Anwendungen unverzichtbar sind, insbesondere in leistungskritischen Sportarten wie Schwimmen.
  • Abschnitt 2: Die Barrieren, Fallstricke und Herausforderungen von Daten schlechter Qualität Dieser Abschnitt hebt die praktischen Folgen von Datenpraktiken schlechter Qualität hervor, darunter voreingenommene Modelle, fehlerhafte Trainingsstrategien und verschwendete Ressourcen.
  • Abschnitt 3: Grundlegende Grundlagen zur Gewährleistung qualitativ hochwertiger Daten in KI/ML Wir stellen die wichtigsten Säulen eines zuverlässigen Datenmanagements vor, von der intrinsischen und kontextuellen Datenqualität bis hin zur Einhaltung ethischer Vorschriften, die alle für die Schaffung vertrauenswürdiger KI-Ergebnisse von entscheidender Bedeutung sind.

Abschnitt 1: Warum Datenqualität für ML/KI unverzichtbar ist – „Der Motor der KI“

Stellen Sie sich vor, Sie tanken einen Motor: Wenn der Kraftstoff minderwertig oder verunreinigt ist, werden Sie nie Höchstleistungen erzielen. Daten funktionieren für maschinelles Lernen (ML) und künstliche Intelligenz (KI) auf die gleiche Weise. In der Welt des Sports, insbesondere des Schwimmens, sind genaue Daten das Lebenselixier moderner Analysen, Leistungsverfolgung und Entscheidungsfindung. Daten von schlechter Qualität oder unvollständige Daten können selbst die fortschrittlichsten KI-Systeme in die Irre führen und möglicherweise Trainingspläne und Wettkampfergebnisse zunichte machen.

Nachfolgend finden Sie die wichtigsten Gründe, warum Datenqualität für jede KI-gesteuerte Anwendung von entscheidender Bedeutung ist:

  1. Modellgenauigkeit und -zuverlässigkeit Hochwertige Daten stellen sicher, dass KI-Modelle präzise und zuverlässige Vorhersagen liefern. Beim Schwimmen ermöglichen konsistente und genaue Daten zu Metriken wie Schlagzahl, Bahnenzeiten und Herzfrequenzvariabilität Trainern und Athleten, KI-generierten Erkenntnissen zu vertrauen. Andererseits können schlechte Daten zu unzuverlässigen Modellen und fehlerhaften Trainingsplänen führen (Priestley et al., 2023; Qayyum et al., 2020).
  2. Vermeidung von Datenkaskaden Datenfehler können sich in der gesamten ML-Pipeline ausbreiten und einen Kaskadeneffekt erzeugen, bei dem sich kleine anfängliche Fehler zu größeren Problemen ausweiten. So kann beispielsweise eine konsequent falsche Aufzeichnung von Rundenzeiten Tempoanalysen, Ermüdungsvorhersagen und Rennstrategien verzerren, was zu kostspieligen Ineffizienzen führt (Sambasivan et al., 2021; Polyzotis et al., 2018).
  3. Voreingenommenheit und Fairness Voreingenommene oder unvollständige Daten, insbesondere im Wettkampfsport, können zu verzerrten Erkenntnissen und ungerechten Ergebnissen führen. So können beispielsweise Trainingsdaten, die auf bestimmte Schwimmerdemografien oder -bedingungen beschränkt sind, wichtige Faktoren ausschließen, wodurch Modelle entstehen, die einige Athleten gegenüber anderen bevorzugen. Die Gewährleistung vielfältiger, repräsentativer Daten trägt dazu bei, Verzerrungen zu reduzieren und die Verallgemeinerung zu verbessern (Zhou et al., 2018; Qayyum et al., 2020).
  4. Datenbereinigung und -aufbereitung Eine effektive Datenbereinigung entfernt Rauschen, korrigiert Inkonsistenzen und behebt fehlende Werte. Stellen Sie es sich wie die Aufrechterhaltung der Wasserqualität eines Pools vor – ohne ordnungsgemäße Reinigung leiden die Leistung der Schwimmer und die KI-Erkenntnisse. Saubere Daten stellen sicher, dass sich Modelle an neue und sich entwickelnde Bedingungen anpassen können (Polyzotis et al., 2018; Priestley et al., 2023).
  5. Domänenspezifische Anforderungen Jede Sportart hat einzigartige Messwerte und Anforderungen. Beim Schwimmen ist die Überwachung von Messwerten wie Schlagfrequenz, Ruheintervallen und Unterwasserphasen unerlässlich. Die Anpassung der Datenqualitätsprüfungen an diese Besonderheiten stellt sicher, dass die KI-Ergebnisse den realen Leistungsanforderungen entsprechen (Priestley et al., 2023; Ranjan, 2023).
  6. Kontinuierliche Überwachung und Verwaltung Die Datenerfassung endet nicht, nachdem ein Modell trainiert wurde. Die Leistung der Schwimmer entwickelt sich weiter, neue Athleten nehmen an Programmen teil und Sensoren können sich im Laufe der Zeit ändern. Die kontinuierliche Überwachung eingehender Daten stellt sicher, dass KI-Tools genau und relevant bleiben (Bangari et al., 2024; Zhou et al., 2018).
  7. Umfassendes Datenqualitätsmanagement Die Verwaltung großer Mengen und unterschiedlicher Trainingsdaten – wie Rundenzählungen, biometrische Messwerte und Videoanalysen – erfordert robuste, skalierbare Prozesse. Eine klare Datenqualitätsstrategie berücksichtigt Menge, Vielfalt und Geschwindigkeit, um die Konsistenz über den gesamten ML-Lebenszyklus hinweg aufrechtzuerhalten (Ranjan, 2023; Priestley et al., 2023).
  8. Ethische und rechtliche Überlegungen Die Erfassung von Leistungs- und Gesundheitsmetriken wirft ethische Bedenken auf, insbesondere in Bezug auf Datenschutz und Compliance. Hohe Datenqualitätsstandards, sicheres Management und die Einhaltung ethischer Richtlinien helfen Organisationen, gesetzlichen Verpflichtungen nachzukommen (Qayyum et al., 2020; Zhou et al., 2018).

Datenqualität ist die Grundlage erfolgreicher ML/AI-Systeme. Genaue, umfassende und gut verwaltete Daten führen zu zuverlässigeren Modellen und fördern das Vertrauen zwischen Trainern, Sportlern und Interessenvertretern. Die Behandlung von Daten als „Treibstoff“ von KI-Anwendungen sorgt für gerechtere Ergebnisse, sei es in Trainingseinrichtungen, Forschungslabors oder bei globalen Wettbewerben.

Abschnitt 2: Die Barrieren, Fallstricke und Herausforderungen von Daten schlechter Qualität

In der Sportanalyse ist schlechte Datenqualität mehr als nur ein kleiner Rückschlag – sie kann Trainingsprogramme entgleisen lassen, wertvolle Ressourcen verschwenden und das Vertrauen in KI-gestützte Erkenntnisse untergraben. Von Trainern, die Wendezeiten verfolgen, bis hin zu Sportwissenschaftlern, die große Sensordatensätze analysieren, ist das Verständnis dieser wichtigsten Fallstricke entscheidend, um zuverlässige Ergebnisse zu gewährleisten.

  1. Leistungsminderung des Modells KI-Modelle sind auf genaue, vollständige Daten angewiesen, um zu lernen und Vorhersagen zu treffen. Wenn Modelle mit fehlenden oder falschen Daten gefüttert werden – wie etwa ungenaue Rundenzeiten oder falsch erfasste Schlagzahlen –, erstellen sie unzuverlässige Vorhersagen. Dies kann zu suboptimalen Tempostrategien oder sogar zu einem erhöhten Verletzungsrisiko führen, wenn Athleten über sichere Grenzen hinaus belastet werden (Priestley et al., 2023; Qayyum et al., 2020).
  2. Datenkaskaden Kleine Datenfehler zu Beginn der Pipeline können sich später zu größeren Problemen auswachsen. Beispielsweise könnte ein Herzfrequenzmesser, der häufige Spitzen falsch aufzeichnet, „Fehlalarme“ über den Gesundheitszustand eines Athleten auslösen, was zu unnötigen Änderungen der Trainingspläne führt. Diese Kaskaden verringern das Vertrauen in KI-Systeme und können das Wohlbefinden des Athleten beeinträchtigen (Sambasivan et al., 2021; Polyzotis et al., 2018).
  3. Probleme mit Voreingenommenheit und Fairness Eine schlechte Datenqualität resultiert oft aus unvollständigen Datensätzen, die keine vielfältigen Athletenpopulationen repräsentieren. Wenn Modelle mit begrenzten Daten trainiert werden – wie etwa nur mit Messwerten von Eliteschwimmern – können sie Ratschläge geben, die für junge oder hochklassige Athleten irrelevant oder sogar schädlich sind. Eine umfassende und repräsentative Datenerfassung ist der Schlüssel zur Minderung von Voreingenommenheit (Zhou et al., 2018; Qayyum et al., 2020).
  4. Fehlen standardisierter Messwerte Ohne standardisierte Methoden zur Aufzeichnung wichtiger Messwerte (z. B. Schlagfrequenz oder Rundenzeiten) wird der Vergleich von Daten zwischen Teams oder Studien schwierig. Inkonsistente Definitionen können bei der Einführung von KI-Lösungen Verwirrung stiften, den Fortschritt verlangsamen und Fehler zwischen Anwendungen verstärken (Priestley et al., 2023).
  5. Datenvergiftung und Sicherheitsrisiken Wenn Daten schlecht verwaltet werden, werden sie anfällig für Manipulationen oder böswillige Angriffe. Im Sport können veränderte Leistungsdaten Scouts in die Irre führen, Rankings verfälschen oder sogar Wettmärkte beeinflussen. Die Implementierung robuster Validierungs- und Sicherheitsmaßnahmen hilft, solche Risiken einer Datenvergiftung zu vermeiden (Qayyum et al., 2020).
  6. Ressourcenbeschränkungen und Dokumentationsprobleme Unterfinanzierte Teams und unklare Datenerfassungsprotokolle führen oft zu vermeidbaren Fehlern. Beispielsweise können schlecht dokumentierte Sensorkalibrierungsverfahren zu einer falschen Kennzeichnung von Daten führen, deren Korrektur später einen umfangreichen Aufwand erfordert. Mit der Zeit verstärken diese Ressourcenlücken die Ineffizienz (Sambasivan et al., 2021).
  7. Ethische und rechtliche Herausforderungen Der Umgang mit sensiblen Athletendaten – einschließlich biometrischer oder gesundheitsbezogener Messwerte – erfordert die strikte Einhaltung der Datenschutzbestimmungen. Schlamperei im Umgang mit Daten kann zu Nichteinhaltung, rechtlichen Problemen und einer Schädigung des Vertrauens zwischen Athleten und Personal führen (Qayyum et al., 2020; Zhou et al., 2018).
  8. Betriebliche Ineffizienzen Eine schlechte Datenqualität kann den Fortschritt erheblich verlangsamen, da sie ständig bereinigt und validiert werden muss. Die Zeit, die mit der „Brandbekämpfung“ schlechter Daten verbracht wird, könnte besser genutzt werden, um fortgeschrittene Trainingsstrategien zu entwickeln oder zusätzliche Experimente durchzuführen (Priestley et al., 2023).
  9. Lücken in Training und Ausbildung Vielen Sportorganisationen fehlt eine angemessene Ausbildung in Datenerfassung, -verwaltung und Ethik. Ohne dieses grundlegende Wissen können Teams versehentlich Fehler in Datensätze einbringen, was weitere Herausforderungen bei der Skalierung von KI-Lösungen schafft (Zhou et al., 2018).
  10. Generalisierung und Repräsentativität Modelle, die auf engen Datensätzen trainiert wurden, haben oft Schwierigkeiten, auf verschiedene Kontexte zu verallgemeinern. Beispielsweise kann ein Modell, das ausschließlich auf Eliteschwimmern trainiert wurde, für junge oder Master-Athleten wenig Wert bieten, was eine teure Datenerfassung und erneute Schulung erforderlich macht (Priestley et al., 2023; Ranjan, 2023).

Eine schlechte Datenqualität stellt eine erhebliche Herausforderung für die Einführung von KI im Sport dar. Von einer verschlechterten Modellleistung und ethischen Risiken bis hin zu Betriebsverzögerungen unterstreichen diese Fallstricke die Notwendigkeit robuster, gut dokumentierter und sicherer Datenpipelines. Indem sie diese Herausforderungen angehen, können Organisationen sicherstellen, dass Trainer, Wissenschaftler und Support-Mitarbeiter den Erkenntnissen der KI vertrauen können – was letztendlich zu besseren Trainingsstrategien und gerechteren Ergebnissen führt.

Abschnitt 3: Grundlegende Grundlagen zur Gewährleistung qualitativ hochwertiger Daten in KI/ML

Hochwertige Daten zu erzielen, ist kein Zufall – es erfordert gezielte Strategien und sorgfältige Prozesse. Im Sport, insbesondere im Schwimmen, stammen die Daten aus einer Vielzahl von Quellen wie Rundenzeiten, Schlagzahlen und physiologischen Messwerten. Um sicherzustellen, dass KI-Modelle zuverlässige Erkenntnisse liefern, muss jeder Datenpunkt genau, relevant und kontextbezogen bedeutsam sein. Im Folgenden finden Sie die wichtigsten Säulen, die eine effektive Datenerfassung, -verwaltung und -nutzung unterstützen.

  1. Intrinsische Datenqualität Intrinsische Qualität konzentriert sich darauf, sicherzustellen, dass die Daten selbst genau, konsistent und vollständig sind. Beim Schwimmen kann selbst eine kleine Ungenauigkeit – wie eine falsch aufgezeichnete Rundenzeit – die Trainingsempfehlungen verfälschen und die Ergebnisse der Athleten beeinträchtigen. Um eine hohe intrinsische Qualität zu erreichen, sollten Sensoren wie Zeitmesspads und tragbare Geräte regelmäßig kalibriert werden. Regelmäßige Stichprobenkontrollen, wie der Vergleich automatisierter Daten mit Videoüberprüfungen, helfen dabei, die Genauigkeit wichtiger Kennzahlen zu bestätigen. Automatisierte Systeme, die Ausreißer kennzeichnen, wie z. B. Schlagfrequenzen, die die physischen Grenzen überschreiten, sind ebenfalls von entscheidender Bedeutung (Priestley et al., 2023; Ranjan, 2023). Diese kombinierten Maßnahmen stellen sicher, dass die Daten für die KI-Analyse vertrauenswürdig bleiben.

  2. Kontextuelle Qualität Kontextuelle Qualität stellt sicher, dass die Daten relevant, aktuell und für die beabsichtigte KI-Aufgabe geeignet sind. Beispielsweise sind Trainingsdaten, die in Kurzbahnbecken gesammelt wurden, möglicherweise nicht auf das Freiwasserschwimmen anwendbar, sodass eine Segmentierung unerlässlich ist. Um die kontextuelle Relevanz aufrechtzuerhalten, sollten die Teams die Ziele der Datenerfassung klar definieren, wie z. B. die Verbesserung von Starts, Wendungen oder der Gesamtausdauer. Daten sollten basierend auf Bedingungen wie Poolgröße oder Höhe klassifiziert werden, um kontextbezogen sinnvolle Erkenntnisse zu liefern. Darüber hinaus sollten sich mit den sich entwickelnden Trainingsanforderungen auch die Datenerfassungsprozesse weiterentwickeln, um sie an die aktuellen Ziele anzupassen (Priestley et al., 2023; Zhou et al., 2018).

  3. Darstellungsqualität Die Darstellungsqualität konzentriert sich auf konsistente und interpretierbare Datenformate über Teams und Systeme hinweg. Ohne Standardisierung können Leistungsdaten falsch interpretiert werden – beispielsweise wenn verschiedene Teams eine 50-Meter-Runde als „50 Free“ oder „FC_50“ bezeichnen. Die Einführung standardisierter Namenskonventionen und die Aufrechterhaltung eines gemeinsamen Datenschemas für alle Teams helfen, diese Probleme zu mildern. Teams sollten auch Metadaten verwenden, um Details darüber zu dokumentieren, wann und wie Daten erfasst wurden (Priestley et al., 2023). Diese Maßnahmen verhindern Verwirrung und verbessern die Zusammenarbeit zwischen internen und externen Stakeholdern.

  4. Zugänglichkeit Die Zugänglichkeit stellt sicher, dass Daten autorisierten Benutzern zur Verfügung stehen und gleichzeitig die Privatsphäre geschützt ist. Trainer, Sportwissenschaftler und Sportler benötigen häufig Echtzeitzugriff auf Leistungsdaten, um das Training anzupassen. Sichere Cloud-basierte Systeme mit rollenbasierter Zugriffskontrolle können Zugriff bieten, ohne die Sicherheit zu beeinträchtigen. Darüber hinaus ermöglichen benutzerfreundliche Dashboards für nicht-technische Benutzer eine breitere Zugänglichkeit. Bei sensiblen Athletendaten sollte eine Verschlüsselung erzwungen werden, um Datenschutzbestimmungen einzuhalten (Zhou et al., 2018). Diese Maßnahmen helfen dabei, Datenverfügbarkeit und Datenschutz in Einklang zu bringen und unterstützen gleichzeitig eine effektive Entscheidungsfindung.

  5. Datenlebenszyklusmanagement Das Datenlebenszyklusmanagement überwacht Daten von der Erfassung über die Verarbeitung, Speicherung, Analyse bis hin zur endgültigen Archivierung oder Löschung. Rückverfolgbarkeit ist der Schlüssel – ohne sie können Fehler unbemerkt in die KI-Pipeline gelangen. Die Aufrechterhaltung einer gründlichen Dokumentation, einschließlich Details wie Erfassungsdaten und Sensorkalibrierungsprotokollen, trägt zur Wahrung der Datenintegrität bei. Regelmäßige Überprüfungen sind unerlässlich, um veraltete oder irrelevante Daten zu entfernen und gleichzeitig den Fokus auf qualitativ hochwertige Datensätze zu richten (Ranjan, 2023; Priestley et al., 2023). Backup- und Notfallwiederherstellungsstrategien gewährleisten außerdem die langfristige Datenzuverlässigkeit.

  6. Ethische und rechtliche Konformität Ethische und rechtliche Konformität ist beim Umgang mit sensiblen Daten von entscheidender Bedeutung, insbesondere im Sport, in dem biometrische und Gesundheitsdaten im Spiel sind. Sportler vertrauen darauf, dass ihre persönlichen Daten geschützt und verantwortungsvoll verwendet werden. Um dieses Vertrauen aufrechtzuerhalten, sollten Teams die Daten der Sportler nach Möglichkeit anonymisieren und sicherstellen, dass die Datennutzung den einschlägigen Gesetzen wie der DSGVO entspricht. Es ist auch wichtig, die Einwilligung der Sportler einzuholen, bevor ihre Daten erhoben und verwendet werden (Qayyum et al., 2020; Zhou et al., 2018). Die Nichteinhaltung dieser Richtlinien kann rechtliche Konsequenzen und einen Reputationsschaden nach sich ziehen.

  7. Kontinuierliche Überwachung und Verbesserung Kontinuierliche Überwachung stellt sicher, dass die Datenqualität im Laufe der Zeit erhalten bleibt, während sich die Leistungsdaten weiterentwickeln. Schwimmprogramme führen oft neue Metriken und Technologien ein, weshalb eine kontinuierliche Validierung wichtig ist. Automatisierte Validierungsskripte können Anomalien wie ungewöhnlich kurze oder lange Rundenzeiten erkennen, bevor sie sich auf die Analysen auswirken. Regelmäßige Prüfungen tragen zur Wahrung der Vollständigkeit und Integrität bei, während Feedbackschleifen mit Trainern und Athleten eine schnelle Lösung von Unstimmigkeiten ermöglichen (Bangari et al., 2024; Zhou et al., 2018). Dieser proaktive Ansatz trägt zur Aufrechterhaltung einer dynamischen und zuverlässigen Datenpipeline bei.

  8. Integration von Fachwissen Die Integration von Fachwissen nutzt das Fachwissen von Trainern, Sportwissenschaftlern und Athleten, um Daten effektiv zu interpretieren und zu validieren. Anomalien wie ein plötzlicher Anstieg der Herzfrequenz können einfache Erklärungen wie Sensorfehlfunktionen oder Umgebungsbedingungen haben. Fachexperten können zwischen echten Problemen und Gerätefehlern unterscheiden und so unnötige Modellanpassungen vermeiden. Die Zusammenarbeit mit Trainern bei Datenerfassungsprotokollen und die Validierung KI-gesteuerter Empfehlungen anhand realer Erfahrungen erhöht die Zuverlässigkeit der generierten Erkenntnisse (Ranjan, 2023). Dieser iterative Prozess stellt sicher, dass datengesteuerte Entscheidungen mit praktischen Erfahrungen übereinstimmen.

Indem sie sich auf diese Kerngrundlagen konzentrieren – intrinsische und kontextuelle Qualität, repräsentative Konsistenz, Zugänglichkeit, Lebenszyklusmanagement, Compliance, kontinuierliche Überwachung und Fachwissen – können Organisationen vertrauenswürdige Datenpipelines aufbauen. Für Schwimmprofis bedeutet dies bessere Trainingspläne, genaues Athletenfeedback, mehr Engagement, weniger Verletzungen und überlegene Wettkampfleistung.

Zusammenfassung

In diesem ersten Teil haben wir die Kernprinzipien der Datenqualität untersucht und gezeigt, wie schlechte Daten selbst die fortschrittlichsten KI-Projekte zum Scheitern bringen können. Schlampige oder unvollständige Aufzeichnungen bremsen nicht nur Innovationen – sie können Trainer, Athleten und Analysten aktiv in die Irre führen. Aber wie lassen sich diese Konzepte auf die aktuelle Datenlandschaft des Schwimmsports anwenden?

Im nächsten Teil werden wir uns mit den praktischen Realitäten der Verwaltung von Daten zu Schwimmtrainingssitzungen befassen und Bereiche hervorheben, in denen die Branche herausragend ist und in denen Verbesserungen erforderlich sind. Wir werden auch die Möglichkeit eines einheitlichen Rahmens diskutieren, der die Datenverwaltung auf allen Ebenen des Sports verbessern soll. Abschließend beantworten wir die Schlüsselfrage: Sind die Daten zur Schwimmfitness und Wettkampfbranche für KI geeignet? Bleiben Sie dran, um einen genaueren Blick darauf zu werfen, wie wir KI nutzen können, um bessere Ergebnisse für Schwimmer auf allen Ebenen zu erzielen.

Referenzen:

Priestley, Maria & O’Donnell, Fionntán & Simperl, Elena. (2023). A Survey of Data Quality Requirements That Matter in ML Development Pipelines. Journal of Data and Information Quality. 15. 10.1145/3592616.

Bangad, Nikhil & Jayaram, Vivekananda & Sughaturu Krishnappa, Manjunatha & Banarse, Amey & Bidkar, Darshan & Nagpal, Akshay & Parlapalli, Vidyasagar. (2024). A Theoretical Framework For Ai-Driven Data Quality Monitoring In High-Volume Data Environments. INTERNATIONAL JOURNAL OF COMPUTER ENGINEERING & TECHNOLOGY. 15. 618-636. 10.5281/zenodo.13878755.

Zhou, Yuhan & Tu, Fengjiao & Sha, Kewei & Ding, Junhua & Chen, Haihua. (2024). A Survey on Data Quality Dimensions and Tools for Machine Learning Invited Paper. 120-131. 10.1109/AITest62860.2024.00023.

Polyzotis, Neoklis & Roy, Sudip & Whang, Steven & Zinkevich, Martin. (2018). Data Lifecycle Challenges in Production Machine Learning: A Survey. ACM SIGMOD Record. 47. 17-28. 10.1145/3299887.3299891.

Qayyum, Adnan & Qadir, Junaid & Bilal, Muhammad & Al-Fuqaha, Ala. (2020). Secure and Robust Machine Learning for Healthcare: A Survey. IEEE Reviews in Biomedical Engineering. PP. 1-1. 10.1109/RBME.2020.3013489.

Neutatz, Felix & Chen, Binger & Abedjan, Ziawasch & Wu, Eugene. (2021). From Cleaning before ML to Cleaning for ML.

Sambasivan, Nithya & Kapania, Shivani & Highfill, Hannah & Akrong, Diana & Paritosh, Praveen & Aroyo, Lora. (2021). “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI. 1-15. 10.1145/3411764.3445518.

Roh, Yuji & Heo, Geon & Whang, Steven. (2019). A Survey on Data Collection for Machine Learning: A Big Data - AI Integration Perspective. IEEE Transactions on Knowledge and Data Engineering. PP. 1-1. 10.1109/TKDE.2019.2946162.

Whang, Steven & Roh, Yuji & Song, Hwanjun & Lee, Jae-Gil. (2023). Data collection and quality challenges in deep learning: a data-centric AI perspective. The VLDB Journal. 32. 10.1007/s00778-022-00775-9.

Rangineni, Sandeep. (2023). An Analysis of Data Quality Requirements for Machine Learning Development Pipelines Frameworks. International Journal of Computer Trends and Technology. 71. 16-27. 10.14445/22312803/IJCTT-V71I8P103.

Autoren
Diego Torres

Diego Torres

Übersetzer
Wise Racer

Wise Racer


Vorheriger Beitrag
Nächster Beitrag

© 2020 - 2025, Unify Web Solutions Pty Ltd. Alle Rechte vorbehalten.