Soveltuvatko Swimming's Fitness- ja kilpailukykyisen teollisuuden tiedot tekoälylle? – Osa 1

Julkaistu 11. helmikuuta 2025
Muokattu päivämäärä: 29. toukokuuta 2025
Esittely
Tietoihin perustuvat oivallukset ovat mullistaneet monet urheilulajit mahdollistaen tarkat harjoitussuunnitelmat, parannetun vammojen ehkäisyn ja reaaliaikaisen suorituspalautteen. Kuitenkin uinnissa – urheilussa, jossa millisekunneilla on merkitystä – tietojen laatu ja rakenne ovat edelleen merkittäviä haasteita. Kuinka tekoäly ja ML voivat auttaa meitä saavuttamaan parempia tuloksia, ja mitä riskejä syntyy, kun tiedon laatu jätetään huomiotta?
Tämä kaksiosaisen sarjamme ensimmäinen osa tarjoaa kirjallisuuteen perustuvan katsauksen tekoälyn tietojen valmistelemisesta urheilussa, ja siinä on viitteitä AI/ML-tutkimusaloista ja sovellettu uintikohtaisiin skenaarioihin. Tavoitteemme on kuroa umpeen kuilu sen välillä, mitä tekoälyjärjestelmät tarvitsevat ja miten uinti voi tarjota sen. Tutkimme tietojen laadun perusteita, huonon tiedonhallinnan vaaroja ja keskeisiä pylväitä, joita tarvitaan kestävien, tekoälyä tukevien tietojoukkojen rakentamiseen. Tämän katsauksen loppuun mennessä ymmärrät, miksi hyvin jäsennelty ja laadukas data on välttämätöntä kehittyneen analytiikan perustan luomiseksi, mikä mahdollistaa paremman päätöksenteon ja tehokkuuden lisäämisen poolissa.
Osaan 1 kuuluvat osiot:
- Osa 1: Miksi tietojen laatu on olennaista ML/AI:lle
Esittelemme tärkeimmät syyt, miksi korkealaatuinen, hyvin hallittu data on välttämätöntä tekoäly- ja ML-sovelluksissa, erityisesti suorituskriittisissä urheilulajeissa, kuten uinnissa. - Osa 2: Huonolaatuisen tiedon esteet, sudenkuopat ja haasteet
Tässä osiossa korostetaan huonojen datakäytäntöjen käytännön seurauksia, mukaan lukien puolueelliset mallit, puutteelliset koulutusstrategiat ja tuhlatut resurssit. - Osa 3: Perusteet korkealaatuisten tietojen takaamiseksi AI/ML:ssä
Esittelemme luotettavan tiedonhallinnan peruspilarit sisäisestä ja kontekstuaalista tiedonlaadusta eettiseen noudattamiseen, jotka kaikki ovat ratkaisevia luotettavien tekoälytulosten luomisessa.
Osa 1: Miksi tiedon laatu on välttämätöntä ML/AI:lle – "Tekoälyn moottori"
Kuvittele tankkaavasi moottoria: jos polttoaine on heikkolaatuista tai saastunutta, et koskaan saavuta huipputehoa. Data toimii samalla tavalla koneoppimisessa (ML) ja tekoälyssä (AI). Urheilumaailmassa, erityisesti uinnissa, tarkat tiedot ovat nykyaikaisen analytiikan, suoritusten seurannan ja päätöksenteon elinehto. Huonolaatuiset tai puutteelliset tiedot voivat johtaa harhaan jopa edistyneimmät tekoälyjärjestelmät, mikä saattaa suistaa harjoitussuunnitelmat ja kilpailutulokset.
Alla on tärkeimmät syyt, miksi tiedon laatu on elintärkeää mille tahansa tekoälypohjaiselle sovellukselle:
- Mallin tarkkuus ja luotettavuus
Laadukas data varmistaa, että tekoälymallit tarjoavat tarkkoja ja luotettavia ennusteita. Uinnissa johdonmukaiset ja tarkat tiedot mittareista, kuten lyöntimääristä, kierrosten jakovälistä ja sykevaihteluista, antavat valmentajat ja urheilijat luottaa tekoälyn tuottamiin oivalluksiin. Toisaalta huonot tiedot voivat johtaa epäluotettaviin malleihin ja virheellisiin harjoitusohjelmiin (Priestley et al., 2023; Qayyum et al., 2020). - Dataketjujen välttäminen
Datavirheet voivat levitä koko ML-liukuhihnassa luoden kaskadivaikutelman, jossa pienet alkuvirheet lisääntyvät suuremmiksi ongelmiksi. Esimerkiksi kierrosaikojen jatkuva kirjaaminen väärin voi vääristää vauhtianalyysiä, väsymisennusteita ja kilpailustrategioita, mikä johtaa kalliisiin tehottomuuteen (Sambasivan et al., 2021; Polyzotis et al., 2018). - Vihallisuus ja oikeudenmukaisuus
Puolueet tai puutteelliset tiedot, erityisesti kilpaurheilussa, voivat johtaa vääristyneisiin oivalluksiin ja epätasa-arvoisiin tuloksiin. Esimerkiksi tiettyihin uimareiden demografisiin tai olosuhteisiin rajoittuva harjoittelutiedot voivat sulkea pois keskeisiä tekijöitä ja luoda malleja, jotka suosivat joitain urheilijoita toisten kustannuksella. Monipuolisen, edustavan tiedon varmistaminen auttaa vähentämään harhaa ja parantamaan yleistämistä (Zhou et al., 2018; Qayyum et al., 2020). - Tietojen puhdistus ja valmistelu
Tehokas tietojen puhdistus poistaa melua, korjaa epäjohdonmukaisuudet ja korjaa puuttuvat arvot. Ajattele sitä uima-altaan veden laadun ylläpitämisenä – ilman kunnollista puhdistusta uimareiden suorituskyky ja tekoäly kärsivät. Puhdas data varmistaa, että mallit voivat mukautua uusiin ja kehittyviin olosuhteisiin (Polyzotis et al., 2018; Priestley et al., 2023). - Verkkotunnuskohtaiset vaatimukset
Jokaisella urheilulajilla on ainutlaatuiset mittarit ja vaatimukset. Uinnissa on tärkeää seurata mittareita, kuten vetotiheyttä, lepoväliä ja vedenalaisia vaiheita. Tietojen laadun tarkistuksen räätälöiminen näiden ominaisuuksien mukaan varmistaa, että tekoälytulot vastaavat todellisia suorituskykytarpeita (Priestley et al., 2023; Ranjan, 2023). - Jatkuva seuranta ja hallinta
Tiedonkeruu ei lopu mallin koulutuksen jälkeen. Uimarien suorituskyky kehittyy, uusia urheilijoita liittyy ohjelmiin ja anturit voivat muuttua ajan myötä. Jatkuva saapuvan datan seuranta varmistaa, että tekoälytyökalut pysyvät täsmällisinä ja merkityksellisinä (Bangari et al., 2024; Zhou et al., 2018). - Kattava tietojen laadunhallinta
Suurten määrien ja erilaisten harjoitustietojen, kuten kierroslukujen, biometristen lukemien ja videoanalytiikan, hallinta vaatii kestäviä, skaalautuvia prosesseja. Selkeä tiedon laatustrategia käsittelee määrää, vaihtelua ja nopeutta, jotta se säilyttää johdonmukaisuuden ML:n elinkaaren ajan (Ranjan, 2023; Priestley et al., 2023). - Eettiset ja juridiset näkökohdat
Suorituskyky- ja terveysmittareiden kerääminen herättää eettisiä huolenaiheita, erityisesti yksityisyyden ja vaatimustenmukaisuuden suhteen. Korkeat tiedon laatustandardit, turvallinen hallinta ja eettisten ohjeiden noudattaminen auttavat organisaatioita täyttämään lakisääteiset velvoitteensa (Qayyum et al., 2020; Zhou et al., 2018).
Tietojen laatu on menestyneiden ML/AI-järjestelmien perusta. Tarkat, kattavat ja hyvin hallitut tiedot luovat luotettavampia malleja ja lisäävät luottamusta valmentajien, urheilijoiden ja sidosryhmien välillä. Tietojen käsitteleminen tekoälysovellusten "polttoaineena" varmistaa oikeudenmukaisemmat tulokset koulutustiloissa, tutkimuslaboratorioissa tai maailmanlaajuisissa kilpailuissa.
Osa 2: Huonolaatuisen tiedon esteet, sudenkuopat ja haasteet
Urheiluanalytiikassa tietojen huono laatu on enemmän kuin vain pieni takaisku – se voi suistaa harjoitusohjelmat, tuhlata arvokkaita resursseja ja heikentää luottamusta tekoälyyn perustuviin oivalluksiin. Vääntöaikoja seuraavista valmentajista suuria anturitietosarjoja analysoiviin urheilututkijoihin, näiden keskeisten sudenkuoppien ymmärtäminen on ratkaisevan tärkeää luotettavien tulosten varmistamiseksi.
- Mallin suorituskyvyn heikkeneminen
Tekoälymallit luottavat tarkkoihin, täydellisiin tietoihin oppiakseen ja tehdäkseen ennusteita. Kun syötetään puuttuvia tai vääriä tietoja, kuten epätarkkoja kierroslukuja tai virheellisiä lyöntilukuja, mallit tuottavat epäluotettavia ennusteita. Tämä voi johtaa epäoptimaalisiin tahdistusstrategioihin tai jopa lisääntyneeseen loukkaantumisriskiin, jos urheilijat työnnetään turvallisten rajojen yli (Priestley et al., 2023; Qayyum et al., 2020). - Datasarjat
Pienet tietovirheet putkilinjan alussa voivat johtaa suurempiin ongelmiin loppupäässä. Esimerkiksi sykemittari, joka tallentaa väärin toistuvia piikkejä, voi laukaista "vääriä hälytyksiä" urheilijan terveydestä, mikä johtaa tarpeettomiin muutoksiin harjoitussuunnitelmissa. Nämä kaskadit vähentävät luottamusta tekoälyjärjestelmiin ja voivat vaarantaa urheilijan hyvinvoinnin (Sambasivan et al., 2021; Polyzotis et al., 2018). - Viha- ja oikeudenmukaisuusongelmat
Tietojen huono laatu johtuu usein epätäydellisistä tietojoukoista, jotka eivät edusta erilaisia urheilijapopulaatioita. Kun malleja koulutetaan rajoitetun tiedon perusteella – kuten vain huippuuimareiden mittareilla – ne voivat tuottaa neuvoja, jotka ovat merkityksettömiä tai jopa haitallisia nuorille tai mestaritason urheilijoille. Kattava ja edustava tiedonkeruu on avain harhan lieventämiseen (Zhou et al., 2018; Qayyum et al., 2020). - Vakiomuotoisten mittareiden puute
Ilman standardoituja menetelmiä keskeisten mittareiden (esim. lyöntitaajuuden tai kierrosaikojen) tallentamiseen, tietojen vertaaminen tiimien tai tutkimusten välillä on vaikeaa. Epäjohdonmukaiset määritelmät voivat aiheuttaa sekaannusta AI-ratkaisujen käyttöönotossa, hidastaa edistymistä ja lisätä virheitä eri sovelluksissa (Priestley et al., 2023). - Tietomyrkytys ja turvallisuusriskit
Kun tietoja hallitaan huonosti, se altistuu peukalointille tai haitallisille hyökkäyksille. Urheilussa muuttuneet suorituskykytiedot voivat johtaa partiolaisia harhaan, vääristää sijoituksia tai jopa vaikuttaa vedonlyöntimarkkinoihin. Vahvien validointi- ja suojaustoimenpiteiden käyttöönotto auttaa estämään tällaisia tietomyrkytysriskejä (Qayyum et al., 2020). - Resurssirajoitukset ja dokumentointiongelmat
Aliresurssit ja epäselvät tiedonkeruuprotokollat johtavat usein vältettävissä oleviin virheisiin. Esimerkiksi huonosti dokumentoidut anturin kalibrointitoimenpiteet voivat johtaa tietojen virheellisyyteen, jonka korjaaminen vaatii myöhemmin paljon vaivaa. Ajan myötä nämä resurssivajeet lisäävät tehottomuutta (Sambasivan et al., 2021). - Eettiset ja juridiset haasteet
Arkaluonteisten urheilijatietojen – mukaan lukien biometristen tai terveyteen liittyvien mittareiden – käsitteleminen edellyttää tiukkaa tietosuojamääräysten noudattamista. Huolellinen tiedonhallinta voi johtaa vaatimusten noudattamatta jättämiseen, oikeudellisiin ongelmiin ja urheilijoiden ja henkilökunnan välisen luottamuksen vahingoittumiseen (Qayyum et al., 2020; Zhou et al., 2018). - Toiminnan tehottomuudet
Huono tiedonlaatu voi merkittävästi hidastaa edistymistä vaatimalla jatkuvaa puhdistusta ja validointia. Huonojen tietojen "palontorjuntaan" käytetty aika voitaisiin käyttää paremmin kehittyneiden koulutusstrategioiden kehittämiseen tai lisäkokeiden suorittamiseen (Priestley et al., 2023). - Koulutus- ja koulutuspuutteet
Monilta urheiluorganisaatioilta puuttuu asianmukainen koulutus tiedonkeruusta, hallintaa ja etiikkaa varten. Ilman tätä perustavanlaatuista tietämystä tiimit voivat vahingossa lisätä virheitä tietokokonaisuuksiin, mikä aiheuttaa lisähaasteita tekoälyratkaisujen skaalauksessa (Zhou et al., 2018). - Yleistäminen ja edustavuus
Kapeisiin tietokokonaisuuksiin koulutetuilla malleilla on usein vaikeuksia yleistää eri yhteyksissä. Esimerkiksi malli, joka on koulutettu yksinomaan huippuuimareille, voi tarjota vain vähän arvoa nuorille tai mestariurheilijoille, mikä edellyttää kallista tiedonkeruuta ja uudelleenkoulutusta (Priestley et al., 2023; Ranjan, 2023).
Huono tiedonlaatu asettaa merkittäviä haasteita tekoälyn käyttöönotolle urheilussa. Mallin heikentyneestä suorituskyvystä ja eettisistä riskeistä toiminnan viivästyksiin, nämä sudenkuopat korostavat vankkojen, hyvin dokumentoitujen ja suojattujen tietoputkien tarvetta. Vastaamalla näihin haasteisiin organisaatiot voivat varmistaa, että valmentajat, tutkijat ja tukihenkilöstö voivat luottaa tekoälyn oivalluksiin, mikä johtaa viime kädessä parempiin koulutusstrategioihin ja oikeudenmukaisempiin tuloksiin.
Osa 3: Perusteet korkealaatuisten tietojen takaamiseksi AI/ML:ssä
Korkealaatuisen datan saaminen ei ole sattumaa – se vaatii tarkoituksellisia strategioita ja huolellisia prosesseja. Urheilussa, erityisesti uinnissa, tiedot tulevat useista eri lähteistä, kuten kierrosajoista, vetomäärästä ja fysiologisista mittareista. Jotta tekoälymallit tuottavat luotettavia näkemyksiä, jokaisen datapisteen on oltava tarkka, relevantti ja kontekstuaalisesti merkityksellinen. Alla on tärkeimmät pilarit, jotka tukevat tehokasta tiedonkeruuta, -hallintaa ja -käyttöä.
-
Tietojen sisäinen laatu
Sisäinen laatu keskittyy varmistamaan, että itse tiedot ovat tarkkoja, johdonmukaisia ja täydellisiä. Uinnissa pienikin epätarkkuus – kuten väärin kirjattu kierrosaika – voi vääristää harjoitussuosituksia ja vaikuttaa urheilijoiden tuloksiin. Korkean ominaislaadun saavuttamiseksi anturit, kuten ajoitustyynyt ja puettavat laitteet, tulee kalibroida säännöllisesti. Säännölliset pistokokeet, kuten automaattisten tietojen vertailu videoarvosteluihin, auttavat vahvistamaan keskeisten mittareiden tarkkuuden. Automaattiset järjestelmät, jotka ilmoittavat poikkeavuuksista, kuten fyysiset rajat ylittävät iskutiheydet, ovat myös kriittisiä (Priestley et al., 2023; Ranjan, 2023). Nämä yhdistetyt toimenpiteet varmistavat, että tiedot pysyvät luotettavina tekoälyanalyysiä varten. -
Kontekstuaalinen laatu
Kontekstin laatu varmistaa, että tiedot ovat olennaisia, oikea-aikaisia ja sopivat sille tarkoitettuun tekoälytehtävään. Esimerkiksi lyhyen radan altaista kerätyt harjoitustiedot eivät välttämättä sovellu avovesiuimiseen, joten segmentointi on välttämätöntä. Säilyttääkseen asiayhteyden merkityksen ryhmien tulee määritellä selkeästi tiedonkeruun tavoitteet, kuten lähtöjen, käännösten tai yleisen kestävyyden parantaminen. Tiedot tulisi luokitella olosuhteiden, kuten altaan koon tai korkeuden, perusteella, jotta saadaan kontekstuaalisesti merkityksellisiä oivalluksia. Lisäksi koulutustarpeiden kehittyessä tiedonkeruuprosessien pitäisi myös pitää ne nykyisten tavoitteiden mukaisina (Priestley et al., 2023; Zhou et al., 2018). -
** Edustuslaatu**
Edustuksen laatu keskittyy johdonmukaisiin ja tulkittavissa oleviin tietomuotoihin eri tiimeissä ja järjestelmissä. Ilman standardointia suorituskykytiedot voidaan tulkita väärin – esimerkiksi silloin, kun eri joukkueet merkitsevät 50 metrin kierrokselle "50 Free" tai "FC_50". Standardoitujen nimeämiskäytäntöjen ottaminen käyttöön ja jaetun tietomallin ylläpitäminen ryhmien kesken auttavat lieventämään näitä ongelmia. Tiimien tulee myös käyttää metatietoja dokumentoidakseen yksityiskohtia siitä, milloin ja miten tiedot kerättiin (Priestley et al., 2023). Nämä toimenpiteet estävät hämmennystä ja parantavat yhteistyötä sisäisten ja ulkoisten sidosryhmien välillä. -
Esteettömyys
Saavutettavuudella varmistetaan, että tiedot ovat valtuutettujen käyttäjien saatavilla ja samalla turvataan yksityisyys. Valmentajat, urheilututkijat ja urheilijat tarvitsevat usein reaaliaikaisen pääsyn suoritustietoihin harjoituksen säätämiseksi. Suojatut pilvipohjaiset järjestelmät, joissa on roolipohjainen pääsynhallinta, voivat tarjota pääsyn turvallisuudesta tinkimättä. Lisäksi käyttäjäystävälliset kojelaudat, jotka on suunniteltu ei-teknisille käyttäjille, mahdollistavat laajemman käytettävyyden. Arkaluontoisten urheilijatietojen salaus tulee pakottaa tietosuojamääräysten noudattamiseen (Zhou et al., 2018). Nämä toimenpiteet auttavat tasapainottamaan tietojen saatavuutta ja yksityisyyttä samalla kun tukevat tehokasta päätöksentekoa. -
Tietojen elinkaaren hallinta
Tietojen elinkaaren hallinta valvoo tietoja keräämisestä käsittelyyn, tallentamiseen, analysointiin ja mahdolliseen arkistointiin tai poistamiseen. Jäljitettävyys on avainasemassa – ilman sitä virheet voivat joutua tekoälyyn huomaamatta. Perusteellisen dokumentaation ylläpitäminen, mukaan lukien tiedot, kuten keräyspäivämäärät ja anturin kalibrointilokit, auttaa säilyttämään tietojen eheyden. Säännölliset tarkastukset ovat välttämättömiä vanhentuneiden tai epäolennaisten tietojen poistamiseksi ja keskittyen kuitenkin laadukkaisiin tietokokonaisuuksiin (Ranjan, 2023; Priestley et al., 2023). Varmuuskopiointi- ja katastrofipalautusstrategiat varmistavat edelleen tietojen pitkän aikavälin luotettavuuden. -
Eettinen ja oikeudellinen vaatimustenmukaisuus
Eettisten ja lakien noudattaminen on ratkaisevan tärkeää käsiteltäessä arkaluonteisia tietoja, erityisesti urheilussa, jossa on mukana biometrisiä ja terveystietoja. Urheilijat luottavat siihen, että heidän henkilökohtaisia tietojaan suojataan ja niitä käytetään vastuullisesti. Tämän luottamuksen ylläpitämiseksi joukkueiden tulee anonymisoida urheilijoiden tiedot mahdollisuuksien mukaan ja varmistaa, että tietojen käyttö on asiaankuuluvien lakien, kuten GDPR:n, mukaista. Tietoisen suostumuksen hankkiminen urheilijoilta ennen tietojen keräämistä ja käyttöä on myös välttämätöntä (Qayyum ym., 2020; Zhou et al., 2018). Näiden ohjeiden noudattamatta jättäminen voi aiheuttaa oikeudellisia seurauksia ja mainevaurioita. -
Jatkuva seuranta ja parantaminen
Jatkuva seuranta varmistaa, että tietojen laatu säilyy ajan mittaan suorituskykytietojen kehittyessä. Uintiohjelmat tuovat usein käyttöön uusia mittareita ja teknologioita, mikä tekee jatkuvasta validoinnista tärkeän. Automaattiset validointiskriptit voivat havaita poikkeamat, kuten epätavallisen lyhyet tai pitkät kierrosajat, ennen kuin ne vaikuttavat analyyseihin. Säännölliset auditoinnit auttavat säilyttämään täydellisyyden ja eheyden, kun taas palautesilmukat, joihin osallistuu valmentajia ja urheilijoita, mahdollistavat poikkeamien nopean ratkaisemisen (Bangari et al., 2024; Zhou et al., 2018). Tämä ennakoiva lähestymistapa auttaa ylläpitämään dynaamista ja luotettavaa dataputkea. -
Verkkotunnusten tiedon integrointi
Toimialueen tiedon integrointi hyödyntää valmentajien, urheilututkijoiden ja urheilijoiden asiantuntemusta tietojen tehokkaassa tulkinnassa ja validoinnissa. Poikkeavuuksilla, kuten äkillinen sykepiikki, voi olla yksinkertainen selitys, kuten anturin toimintahäiriöt tai ympäristöolosuhteet. Toimialueen asiantuntijat voivat erottaa todelliset ongelmat ja laitevirheet, mikä estää tarpeettomat mallisäädöt. Yhteistyö valmentajien kanssa tiedonkeruuprotokollien parissa ja tekoälypohjaisten suositusten validointi todellisia kokemuksia vastaan parantaa luotujen oivallusten luotettavuutta (Ranjan, 2023). Tämä iteratiivinen prosessi varmistaa, että tietoihin perustuvat päätökset vastaavat käytännön kokemusta.
Keskittymällä näihin ydinperustuksiin – luontaiseen ja kontekstuaaliseen laatuun, edustavuuden johdonmukaisuuteen, saavutettavuuteen, elinkaaren hallintaan, vaatimustenmukaisuuteen, jatkuvaan seurantaan ja toimialueen asiantuntemukseen – organisaatiot voivat luoda luotettavia tietoputkia. Uintiammattilaisille tämä tarkoittaa parempia harjoitusohjelmia, tarkkaa urheilijapalautetta, enemmän sitoutumista, vähemmän loukkaantumisia ja ylivoimaista kilpailusuoritusta.
Yhteenveto
Tässä ensimmäisessä osassa olemme tutkineet tiedon laadun perusperiaatteita ja osoittaneet, kuinka huono data voi suistaa edistyneimmätkin tekoälyprojektit. Huolimattomat tai puutteelliset tietueet eivät vain pysäytä innovaatioita – ne voivat johtaa aktiivisesti harhaan valmentajia, urheilijoita ja analyytikoita. Mutta miten nämä käsitteet koskevat uinnin nykyistä tietomaisemaa?
Seuraavassa erässä sukeltamme uimaharjoitustietojen hallinnan käytännön realiteetteihin ja korostamme alueita, joilla ala on erinomaista ja joissa tarvitaan parannuksia. Keskustelemme myös mahdollisuudesta luoda yhtenäinen kehys, joka on suunniteltu parantamaan tiedonhallintaa urheilun kaikilla tasoilla. Lopuksi vastaamme avainkysymykseen: Sopivatko uintikunto- ja kilpailualan tiedot tekoälylle? Pysy kuulolla, niin saat tarkempaa tietoa siitä, kuinka voimme valjastaa tekoälyn saavuttamaan parempia tuloksia uimareille kaikilla tasoilla.
Viitteet:
Priestley, Maria & O’Donnell, Fionntán & Simperl, Elena. (2023). A Survey of Data Quality Requirements That Matter in ML Development Pipelines. Journal of Data and Information Quality. 15. 10.1145/3592616.
Bangad, Nikhil & Jayaram, Vivekananda & Sughaturu Krishnappa, Manjunatha & Banarse, Amey & Bidkar, Darshan & Nagpal, Akshay & Parlapalli, Vidyasagar. (2024). A Theoretical Framework For Ai-Driven Data Quality Monitoring In High-Volume Data Environments. INTERNATIONAL JOURNAL OF COMPUTER ENGINEERING & TECHNOLOGY. 15. 618-636. 10.5281/zenodo.13878755.
Zhou, Yuhan & Tu, Fengjiao & Sha, Kewei & Ding, Junhua & Chen, Haihua. (2024). A Survey on Data Quality Dimensions and Tools for Machine Learning Invited Paper. 120-131. 10.1109/AITest62860.2024.00023.
Polyzotis, Neoklis & Roy, Sudip & Whang, Steven & Zinkevich, Martin. (2018). Data Lifecycle Challenges in Production Machine Learning: A Survey. ACM SIGMOD Record. 47. 17-28. 10.1145/3299887.3299891.
Qayyum, Adnan & Qadir, Junaid & Bilal, Muhammad & Al-Fuqaha, Ala. (2020). Secure and Robust Machine Learning for Healthcare: A Survey. IEEE Reviews in Biomedical Engineering. PP. 1-1. 10.1109/RBME.2020.3013489.
Neutatz, Felix & Chen, Binger & Abedjan, Ziawasch & Wu, Eugene. (2021). From Cleaning before ML to Cleaning for ML.
Sambasivan, Nithya & Kapania, Shivani & Highfill, Hannah & Akrong, Diana & Paritosh, Praveen & Aroyo, Lora. (2021). “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI. 1-15. 10.1145/3411764.3445518.
Roh, Yuji & Heo, Geon & Whang, Steven. (2019). A Survey on Data Collection for Machine Learning: A Big Data - AI Integration Perspective. IEEE Transactions on Knowledge and Data Engineering. PP. 1-1. 10.1109/TKDE.2019.2946162.
Whang, Steven & Roh, Yuji & Song, Hwanjun & Lee, Jae-Gil. (2023). Data collection and quality challenges in deep learning: a data-centric AI perspective. The VLDB Journal. 32. 10.1007/s00778-022-00775-9.
Rangineni, Sandeep. (2023). An Analysis of Data Quality Requirements for Machine Learning Development Pipelines Frameworks. International Journal of Computer Trends and Technology. 71. 16-27. 10.14445/22312803/IJCTT-V71I8P103.