Yüzmenin Zindeliği ve Rekabetçi Endüstrileri Yapay Zeka İçin Veri Uyumlu mu? – Bölüm 1

Yayınlanma tarihi 11 Şubat 2025
Düzenlendi 29 Mayıs 2025
Giriş
Veri odaklı içgörüler birçok sporu devrim niteliğinde değiştirmiş, hassas antrenman planları, gelişmiş yaralanma önleme ve gerçek zamanlı performans geri bildirimi sağlamıştır. Yine de, milisaniyelerin önemli olduğu bir spor olan yüzme alanında, verilerin kalitesi ve yapısı önemli zorluklar olmaya devam etmektedir. Yapay zeka ve makine öğrenimi daha iyi sonuçların kilidini açmamıza nasıl yardımcı olabilir ve veri kalitesi göz ardı edildiğinde hangi riskler ortaya çıkar?
İki bölümlük dizimizin bu ilk bölümü, AI/ML araştırma alanlarından alınan ve yüzmeye özgü senaryolara uygulanan referanslarla, sporlarda AI için veri hazırlama konusunda literatüre dayalı bir inceleme sunmaktadır. Amacımız, AI sistemlerinin ihtiyaç duyduğu şey ile yüzmenin bunu nasıl sağlayabileceği arasındaki boşluğu kapatmaktır. Veri kalitesinin temellerini, zayıf veri yönetiminin tehlikelerini ve sağlam, AI'ya hazır veri kümeleri oluşturmak için gerekli temel unsurları inceleyeceğiz. Bu incelemenin sonunda, iyi yapılandırılmış, yüksek kaliteli verilerin gelişmiş analizler için bir temel oluşturmak, daha iyi karar alma ve havuzda performans kazanımları sağlamak için neden önemli olduğunu anlayacaksınız.
Bölüm 1'de Ele Alınan Bölümler:
- Bölüm 1: Veri Kalitesinin ML/AI İçin Neden Önemli Olduğu Yüksek kaliteli, iyi yönetilen verilerin özellikle yüzme gibi performans açısından kritik sporlarda AI ve ML uygulamaları için neden vazgeçilmez olduğunun temel nedenlerini özetliyoruz.
- Bölüm 2: Düşük Kaliteli Verilerin Engelleri, Tuzakları ve Zorlukları Bu bölüm, önyargılı modeller, hatalı eğitim stratejileri ve boşa harcanan kaynaklar dahil olmak üzere düşük veri uygulamalarının pratik sonuçlarını vurgulamaktadır.
- Bölüm 3: AI/ML'de Yüksek Kaliteli Veri Sağlamak İçin Temel Temeller Güvenilir AI sonuçları oluşturmak için hayati önem taşıyan, içsel ve bağlamsal veri kalitesinden etik uyumluluğa kadar güvenilir veri yönetiminin temel sütunlarını sunuyoruz.
Bölüm 1: Veri Kalitesinin ML/AI için Neden Önemli Olduğu — "AI'nın Motoru"
Bir motoru yakıtladığınızı düşünün: Yakıt düşük kaliteli veya kirliyse, asla en yüksek performansı elde edemezsiniz. Veriler, Makine Öğrenimi (ML) ve Yapay Zeka (AI) için aynı şekilde çalışır. Spor dünyasında, özellikle yüzmede, doğru veriler modern analitiğin, performans takibinin ve karar almanın can damarıdır. Düşük kaliteli veya eksik veriler, en gelişmiş AI sistemlerini bile yanıltabilir ve potansiyel olarak eğitim planlarını ve rekabetçi sonuçları rayından çıkarabilir.
Aşağıda, veri kalitesinin herhangi bir AI odaklı uygulama için neden hayati önem taşıdığına dair temel nedenler verilmiştir:
- Model Doğruluğu ve Güvenilirliği Yüksek kaliteli veriler, AI modellerinin kesin ve güvenilir tahminler sunmasını sağlar. Yüzmede, vuruş sayısı, tur bölünmeleri ve kalp atış hızı değişkenliği gibi metrikler hakkında tutarlı ve doğru veriler, antrenörlerin ve sporcuların AI tarafından oluşturulan içgörülere güvenmelerini sağlar. Öte yandan, zayıf veriler güvenilir olmayan modellere ve hatalı eğitim rejimlerine yol açabilir (Priestley vd., 2023; Qayyum vd., 2020).
- Veri Basamaklarından Kaçınma Veri hataları ML boru hattı boyunca yayılabilir ve küçük başlangıç hatalarının daha büyük sorunlara dönüştüğü bir basamak etkisi yaratabilir. Örneğin, tur sürelerinin sürekli olarak yanlış kaydedilmesi hız analizini, yorgunluk tahminlerini ve yarış stratejilerini bozabilir ve maliyetli verimsizliklere yol açabilir (Sambasivan vd., 2021; Polyzotis vd., 2018).
- Önyargı ve Adalet Özellikle rekabetçi sporlarda, önyargılı veya eksik veriler çarpık içgörülere ve eşitsiz sonuçlara yol açabilir. Örneğin, belirli yüzücü demografileri veya koşullarıyla sınırlı eğitim verileri, bazı sporcuları diğerlerine göre kayıran modeller oluşturarak temel faktörleri hariç tutabilir. Çeşitli, temsili verilerin sağlanması önyargıyı azaltmaya ve genellemeyi iyileştirmeye yardımcı olur (Zhou ve diğerleri, 2018; Qayyum ve diğerleri, 2020).
- Veri Temizliği ve Hazırlığı Etkili veri temizliği gürültüyü ortadan kaldırır, tutarsızlıkları düzeltir ve eksik değerleri ele alır. Bunu bir havuzun su kalitesini korumak olarak düşünün; uygun temizlik yapılmazsa yüzücülerin performansı ve yapay zeka içgörüleri zarar görür. Temiz veriler, modellerin yeni ve gelişen koşullara uyum sağlayabilmesini sağlar (Polyzotis ve diğerleri, 2018; Priestley ve diğerleri, 2023).
- Alan Spesifik Gereksinimler Her sporun kendine özgü ölçümleri ve gereksinimleri vardır. Yüzmede, vuruş sıklığı, dinlenme aralıkları ve su altı evreleri gibi ölçümleri izlemek esastır. Veri kalitesi kontrollerini bu özelliklere göre düzenlemek, yapay zeka çıktılarının gerçek dünya performans ihtiyaçlarını karşılamasını sağlar (Priestley ve diğerleri, 2023; Ranjan, 2023).
- Sürekli İzleme ve Yönetim Veri toplama, bir model eğitildikten sonra durmaz. Yüzücülerin performansı gelişir, yeni sporcular programlara katılır ve sensörler zamanla değişebilir. Gelen verilerin sürekli izlenmesi, yapay zeka araçlarının doğru ve alakalı kalmasını sağlar (Bangari vd., 2024; Zhou vd., 2018).
- Kapsamlı Veri Kalitesi Yönetimi Tur sayıları, biyometrik okumalar ve video analitiği gibi büyük hacimli ve çeşitli eğitim verilerini yönetmek, sağlam ve ölçeklenebilir süreçler gerektirir. Net bir veri kalitesi stratejisi, ML yaşam döngüsü boyunca tutarlılığı korumak için hacim, çeşitlilik ve hızı ele alır (Ranjan, 2023; Priestley vd., 2023).
- Etik ve Yasal Hususlar Performans ve sağlık ölçümlerini toplamak, özellikle gizlilik ve uyumluluk konusunda etik endişeler doğurur. Yüksek veri kalitesi standartları, güvenli yönetim ve etik yönergelere uyum, kuruluşların yasal yükümlülüklerini yerine getirmesine yardımcı olur (Qayyum vd., 2020; Zhou vd., 2018).
Veri kalitesi, başarılı ML/AI sistemlerinin temelidir. Doğru, kapsamlı ve iyi yönetilen veriler, daha güvenilir modeller sağlar ve koçlar, sporcular ve paydaşlar arasında güveni teşvik eder. Verileri AI uygulamalarının "yakıtı" olarak ele almak, ister eğitim tesislerinde, ister araştırma laboratuvarlarında veya küresel yarışmalarda olsun, daha adil sonuçlar sağlar.
Bölüm 2: Düşük Kaliteli Verilerin Engelleri, Tuzakları ve Zorlukları
Spor analizinde, düşük veri kalitesi yalnızca küçük bir aksilikten daha fazlasıdır; eğitim programlarını rayından çıkarabilir, değerli kaynakları boşa harcayabilir ve AI destekli içgörülere olan güveni aşındırabilir. Dönüş sürelerini takip eden koçlardan büyük sensör veri kümelerini analiz eden spor bilim insanlarına kadar, bu temel tuzakları anlamak güvenilir sonuçları sağlamak için çok önemlidir.
- Model Performansının Bozulması AI modelleri öğrenmek ve tahminlerde bulunmak için doğru ve eksiksiz verilere güvenir. Eksik veya yanlış verilerle (yanlış tur bölümleri veya yanlış kaydedilmiş vuruş sayıları gibi) beslendiğinde modeller güvenilir olmayan tahminler üretir. Bu, sporcular güvenli sınırların ötesine itilirse, suboptimal tempo stratejilerine veya hatta artan yaralanma riskine yol açabilir (Priestley vd., 2023; Qayyum vd., 2020).
- Veri Basamakları Boru hattının başlangıcındaki küçük veri hataları, daha sonra daha büyük sorunlara dönüşebilir. Örneğin, sık görülen ani artışları yanlış kaydeden bir kalp atış hızı monitörü, bir sporcunun sağlığı hakkında "yanlış alarmlar" tetikleyebilir ve bu da eğitim planlarında gereksiz değişikliklere yol açabilir. Bu basamaklar AI sistemlerine olan güveni azaltır ve sporcunun refahını tehlikeye atabilir (Sambasivan vd., 2021; Polyzotis vd., 2018).
- Önyargı ve Adalet Sorunları Düşük veri kalitesi genellikle çeşitli sporcu popülasyonlarını temsil etmeyen eksik veri kümelerinden kaynaklanır. Modeller sınırlı verilerle eğitildiğinde (sadece elit yüzücülerden alınan ölçümler gibi) gençler veya usta seviyesindeki sporcular için alakasız veya hatta zararlı tavsiyeler üretebilirler. Kapsayıcı ve temsili veri toplama, önyargıyı azaltmanın anahtarıdır (Zhou vd., 2018; Qayyum vd., 2020).
- Standart Ölçümlerin Eksikliği Ana ölçümleri (örneğin, vuruş hızı veya tur segmenti süreleri) kaydetmek için standart yöntemler olmadan, takımlar veya çalışmalar arasında verileri karşılaştırmak zorlaşır. Tutarlı olmayan tanımlar, AI çözümleri benimsenirken kafa karışıklığına neden olabilir, ilerlemeyi yavaşlatabilir ve uygulamalar arasında hataları büyütebilir (Priestley vd., 2023).
- Veri Zehirlenmesi ve Güvenlik Riskleri Veriler kötü yönetildiğinde, kurcalamaya veya kötü niyetli saldırılara karşı savunmasız hale gelir. Sporlarda, değiştirilmiş performans verileri izcileri yanıltabilir, sıralamaları çarpıtabilir veya hatta bahis piyasalarını etkileyebilir. Sağlam doğrulama ve güvenlik önlemlerinin uygulanması bu tür veri zehirlenmesi risklerini önlemeye yardımcı olur (Qayyum vd., 2020).
- Kaynak Kısıtlamaları ve Belgeleme Sorunları Kaynak yetersizliği olan takımlar ve belirsiz veri toplama protokolleri genellikle önlenebilir hatalara yol açar. Örneğin, yetersiz belgelenmiş sensör kalibrasyon prosedürleri verilerin yanlış etiketlenmesine neden olabilir ve bu da daha sonra düzeltmek için kapsamlı çaba gerektirir. Zamanla, bu kaynak boşlukları verimsizlikleri birleştirir (Sambasivan vd., 2021).
- Etik ve Yasal Zorluklar Biyometrik veya sağlıkla ilgili ölçümler dahil olmak üzere hassas sporcu verilerinin işlenmesi gizlilik düzenlemelerine sıkı bir şekilde uyulmasını gerektirir. Özensiz veri yönetimi uyumsuzluğa, yasal sorunlara ve sporcular ile personel arasındaki güvenin zedelenmesine yol açabilir (Qayyum vd., 2020; Zhou vd., 2018).
- Operasyonel Verimsizlikler Düşük veri kalitesi, sürekli temizlik ve doğrulama gerektirerek ilerlemeyi önemli ölçüde yavaşlatabilir. Kötü verileri "söndürmek" için harcanan zaman, gelişmiş eğitim stratejileri geliştirmek veya ek deneyler yürütmek için daha iyi kullanılabilir (Priestley vd., 2023).
- Eğitim ve Öğretim Boşlukları Birçok spor organizasyonunda veri toplama, yönetimi ve etik konusunda uygun eğitim yoktur. Bu temel bilgi olmadan, takımlar istemeden veri kümelerine hatalar sokabilir ve bu da yapay zeka çözümlerinin ölçeklenmesinde daha fazla zorluk yaratabilir (Zhou vd., 2018).
- Genelleme ve Temsiliyet Dar veri kümeleri üzerinde eğitilen modeller genellikle farklı bağlamlarda genelleme yapmakta zorlanır. Örneğin, yalnızca elit yüzücüler üzerinde eğitilen bir model, genç veya usta sporcular için çok az değer sunabilir ve pahalı veri toplama ve yeniden eğitim gerektirebilir (Priestley ve diğerleri, 2023; Ranjan, 2023).
Zayıf veri kalitesi, sporlarda AI benimsenmesi için önemli zorluklar sunar. Bozulmuş model performansından ve etik risklerden operasyonel gecikmelere kadar, bu tuzaklar sağlam, iyi belgelenmiş ve güvenli veri hatlarına olan ihtiyacı vurgular. Bu zorlukların üstesinden gelerek, kuruluşlar antrenörlerin, bilim insanlarının ve destek personelinin AI içgörülerine güvenebilmesini sağlayabilir ve sonuçta daha iyi eğitim stratejilerine ve daha adil sonuçlara yol açabilir.
Bölüm 3: AI/ML'de Yüksek Kaliteli Veri Sağlamak İçin Temel Temeller
Yüksek kaliteli veri elde etmek tesadüf değildir; kasıtlı stratejiler ve titiz süreçler gerektirir. Sporlarda, özellikle yüzmede, veriler tur süreleri, vuruş sayıları ve fizyolojik ölçümler gibi çeşitli kaynaklardan gelir. Yapay zeka modellerinin güvenilir içgörüler sağladığından emin olmak için her veri noktası doğru, alakalı ve bağlamsal olarak anlamlı olmalıdır. Etkili veri toplama, yönetimi ve kullanımını destekleyen temel sütunlar aşağıdadır.
-
İçsel Veri Kalitesi İçsel kalite, verilerin kendisinin doğru, tutarlı ve eksiksiz olmasını sağlamaya odaklanır. Yüzmede, yanlış kaydedilmiş bir tur süresi gibi küçük bir yanlışlık bile antrenman önerilerini bozabilir ve sporcuların sonuçlarını etkileyebilir. Yüksek içsel kaliteye ulaşmak için zamanlama pedleri ve giyilebilir cihazlar gibi sensörler düzenli kalibrasyonlardan geçmelidir. Otomatik verileri video incelemeleriyle karşılaştırmak gibi periyodik nokta kontrolleri, temel ölçümlerin doğruluğunu doğrulamaya yardımcı olur. Fiziksel sınırları aşan vuruş oranları gibi aykırı değerleri işaretleyen otomatik sistemler de kritik öneme sahiptir (Priestley ve diğerleri, 2023; Ranjan, 2023). Bu birleşik önlemler, verilerin yapay zeka analizi için güvenilir kalmasını sağlar.
-
Bağlamsal Kalite Bağlamsal kalite, verilerin ilgili, zamanında ve amaçlanan yapay zeka görevi için uygun olmasını sağlar. Örneğin, kısa mesafe havuzlarından toplanan eğitim verileri açık su yüzme için geçerli olmayabilir ve bu da segmentasyonu önemli hale getirir. Bağlamsal ilgililiği korumak için ekipler, başlangıçları, dönüşleri veya genel dayanıklılığı iyileştirmek gibi veri toplama hedeflerini açıkça tanımlamalıdır. Veriler, bağlamsal olarak anlamlı içgörüler sağlamak için havuz boyutu veya rakım gibi koşullara göre sınıflandırılmalıdır. Dahası, eğitim ihtiyaçları geliştikçe, bunları mevcut hedeflerle uyumlu tutmak için veri toplama süreçleri de gelişmelidir (Priestley ve diğerleri, 2023; Zhou ve diğerleri, 2018).
-
Temsili Kalite Temsili kalite, ekipler ve sistemler arasında tutarlı ve yorumlanabilir veri biçimlerine odaklanır. Standardizasyon olmadan, performans verileri yanlış yorumlanabilir; örneğin farklı ekipler 50 metrelik bir turu "50 Serbest" veya "FC_50" olarak etiketlediğinde. Standartlaştırılmış adlandırma kurallarını benimsemek ve ekipler arasında paylaşılan bir veri şeması sürdürmek bu sorunları hafifletmeye yardımcı olur. Ekipler ayrıca verilerin ne zaman ve nasıl toplandığına ilişkin ayrıntıları belgelemek için meta verileri kullanmalıdır (Priestley vd., 2023). Bu önlemler karışıklığı önler ve dahili ve harici paydaşlar arasındaki iş birliğini iyileştirir.
-
Erişilebilirlik Erişilebilirlik, gizliliği korurken verilerin yetkili kullanıcılar için kullanılabilir olmasını sağlar. Antrenörler, spor bilimcileri ve sporcular genellikle antrenmanı ayarlamak için performans verilerine gerçek zamanlı erişime ihtiyaç duyarlar. Rol tabanlı erişim kontrolüne sahip güvenli bulut tabanlı sistemler, güvenliği tehlikeye atmadan erişim sağlayabilir. Ayrıca, teknik olmayan kullanıcılar için tasarlanmış kullanıcı dostu panolar daha geniş erişilebilirlik sağlar. Hassas sporcu verileri için gizlilik düzenlemelerini karşılamak amacıyla şifreleme uygulanmalıdır (Zhou vd., 2018). Bu önlemler, etkili karar almayı desteklerken veri kullanılabilirliği ve gizliliği dengelemeye yardımcı olur.
-
Veri Yaşam Döngüsü Yönetimi Veri yaşam döngüsü yönetimi, verileri toplamadan işleme, depolama, analiz ve nihai arşivleme veya silmeye kadar denetler. İzlenebilirlik anahtardır; izlenebilirlik olmadan, hatalar AI boru hattına fark edilmeden dahil edilebilir. Toplama tarihleri ve sensör kalibrasyon günlükleri gibi ayrıntılar dahil olmak üzere kapsamlı dokümantasyonun sürdürülmesi, veri bütünlüğünün korunmasına yardımcı olur. Kaliteli veri kümelerine odaklanırken güncel olmayan veya alakasız verileri kaldırmak için periyodik incelemeler esastır (Ranjan, 2023; Priestley ve diğerleri, 2023). Yedekleme ve felaket kurtarma stratejileri, uzun vadeli veri güvenilirliğini daha da sağlar.
-
Etik ve Yasal Uyumluluk Hassas verileri işlerken, özellikle biyometrik ve sağlık verilerinin söz konusu olduğu sporlarda, etik ve yasal uyumluluk çok önemlidir. Sporcular, kişisel bilgilerinin korunacağına ve sorumlu bir şekilde kullanılacağına güvenir. Bu güveni korumak için, takımlar mümkün olduğunda sporcu verilerini anonimleştirmeli ve veri kullanımının GDPR gibi ilgili yasalara uygun olduğundan emin olmalıdır. Sporcuların verilerini toplamadan ve kullanmadan önce bilgilendirilmiş onamlarını almak da önemlidir (Qayyum vd., 2020; Zhou vd., 2018). Bu yönergelere uyulmaması yasal sonuçlar ve itibar kaybı riski taşır.
-
Sürekli İzleme ve İyileştirme Sürekli izleme, performans verileri geliştikçe veri kalitesinin zaman içinde korunmasını sağlar. Yüzme programları genellikle yeni ölçümler ve teknolojiler sunar ve bu da sürekli doğrulamayı önemli hale getirir. Otomatik doğrulama betikleri, analizleri etkilemeden önce alışılmadık derecede kısa veya uzun tur süreleri gibi anormallikleri tespit edebilir. Periyodik denetimler, eksiksizliğin ve bütünlüğün korunmasına yardımcı olurken, antrenörler ve sporcuları içeren geri bildirim döngüleri, tutarsızlıkların derhal çözülmesini sağlar (Bangari vd., 2024; Zhou vd., 2018). Bu proaktif yaklaşım, dinamik ve güvenilir bir veri hattının korunmasına yardımcı olur.
-
Alan Bilgisinin Entegrasyonu Alan bilgisi entegrasyonu, verileri etkili bir şekilde yorumlamak ve doğrulamak için koçların, spor bilimcilerinin ve sporcuların uzmanlığından yararlanır. Kalp atış hızında ani bir artış gibi anormallikler, sensör arızaları veya çevre koşulları gibi basit açıklamalara sahip olabilir. Alan uzmanları gerçek sorunlar ile ekipman hataları arasında ayrım yapabilir ve gereksiz model ayarlamalarını önleyebilir. Veri toplama protokolleri konusunda koçlarla iş birliği yapmak ve yapay zeka destekli önerileri gerçek dünya deneyimlerine göre doğrulamak, üretilen içgörülerin güvenilirliğini artırır (Ranjan, 2023). Bu yinelemeli süreç, veri odaklı kararların pratik deneyimle uyumlu olmasını sağlar.
Bu temel temellere odaklanarak (içsel ve bağlamsal kalite, temsili tutarlılık, erişilebilirlik, yaşam döngüsü yönetimi, uyumluluk, sürekli izleme ve alan uzmanlığı) kuruluşlar güvenilir veri hatları kurabilir. Yüzme profesyonelleri için bu, daha iyi eğitim rejimleri, doğru sporcu geri bildirimi, daha fazla katılım, daha az yaralanma ve üstün rekabet performansı anlamına gelir.
Özet
Bu ilk bölümde, veri kalitesinin temel prensiplerini inceledik ve zayıf verilerin en gelişmiş yapay zeka projelerini bile nasıl rayından çıkarabileceğini gösterdik. Özensiz veya eksik kayıtlar sadece yeniliği engellemekle kalmaz; antrenörleri, sporcuları ve analistleri aktif olarak yanıltabilir. Peki bu kavramlar yüzmenin mevcut veri manzarasına nasıl uygulanır?
Bir sonraki bölümde, yüzme antrenman seansı verilerini yönetmenin pratik gerçeklerine dalacağız, sektörün öne çıktığı ve iyileştirmelerin gerektiği alanları vurgulayacağız. Ayrıca, sporun tüm seviyelerinde veri yönetimini geliştirmek için tasarlanmış birleşik bir çerçeve fırsatını da tartışacağız. Son olarak, şu temel soruyu yanıtlayacağız: Yüzme kondisyonu ve rekabetçi sektör verileri yapay zekaya uygun mu? Her seviyedeki yüzücüler için daha iyi sonuçlar elde etmek amacıyla yapay zekayı nasıl kullanabileceğimize daha yakından bakmak için bizi izlemeye devam edin.
Kaynaklar:
Priestley, Maria & O’Donnell, Fionntán & Simperl, Elena. (2023). A Survey of Data Quality Requirements That Matter in ML Development Pipelines. Journal of Data and Information Quality. 15. 10.1145/3592616.
Bangad, Nikhil & Jayaram, Vivekananda & Sughaturu Krishnappa, Manjunatha & Banarse, Amey & Bidkar, Darshan & Nagpal, Akshay & Parlapalli, Vidyasagar. (2024). A Theoretical Framework For Ai-Driven Data Quality Monitoring In High-Volume Data Environments. INTERNATIONAL JOURNAL OF COMPUTER ENGINEERING & TECHNOLOGY. 15. 618-636. 10.5281/zenodo.13878755.
Zhou, Yuhan & Tu, Fengjiao & Sha, Kewei & Ding, Junhua & Chen, Haihua. (2024). A Survey on Data Quality Dimensions and Tools for Machine Learning Invited Paper. 120-131. 10.1109/AITest62860.2024.00023.
Polyzotis, Neoklis & Roy, Sudip & Whang, Steven & Zinkevich, Martin. (2018). Data Lifecycle Challenges in Production Machine Learning: A Survey. ACM SIGMOD Record. 47. 17-28. 10.1145/3299887.3299891.
Qayyum, Adnan & Qadir, Junaid & Bilal, Muhammad & Al-Fuqaha, Ala. (2020). Secure and Robust Machine Learning for Healthcare: A Survey. IEEE Reviews in Biomedical Engineering. PP. 1-1. 10.1109/RBME.2020.3013489.
Neutatz, Felix & Chen, Binger & Abedjan, Ziawasch & Wu, Eugene. (2021). From Cleaning before ML to Cleaning for ML.
Sambasivan, Nithya & Kapania, Shivani & Highfill, Hannah & Akrong, Diana & Paritosh, Praveen & Aroyo, Lora. (2021). “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI. 1-15. 10.1145/3411764.3445518.
Roh, Yuji & Heo, Geon & Whang, Steven. (2019). A Survey on Data Collection for Machine Learning: A Big Data - AI Integration Perspective. IEEE Transactions on Knowledge and Data Engineering. PP. 1-1. 10.1109/TKDE.2019.2946162.
Whang, Steven & Roh, Yuji & Song, Hwanjun & Lee, Jae-Gil. (2023). Data collection and quality challenges in deep learning: a data-centric AI perspective. The VLDB Journal. 32. 10.1007/s00778-022-00775-9.
Rangineni, Sandeep. (2023). An Analysis of Data Quality Requirements for Machine Learning Development Pipelines Frameworks. International Journal of Computer Trends and Technology. 71. 16-27. 10.14445/22312803/IJCTT-V71I8P103.