Wise Racer
홈블로그문의하기로그인

수영의 피트니스와 경쟁 산업이 AI에 적합한 데이터인가? – 1부

수영의 피트니스와 경쟁 산업이 AI에 적합한 데이터인가? – 1부

게시됨 2025년 2월 11일
수정됨 2025년 5월 29일


소개

데이터 기반 통찰력은 많은 스포츠에 혁명을 일으켜 정확한 훈련 계획, 향상된 부상 예방 및 실시간 성과 피드백을 가능하게 했습니다. 그러나 밀리초가 중요한 스포츠인 수영 분야에서 데이터의 품질과 구조는 여전히 중요한 과제로 남아 있습니다. AI와 ML은 어떻게 더 나은 결과를 얻는 데 도움이 될 수 있으며, 데이터 품질을 무시할 때 어떤 위험이 발생할까요?

2부작 시리즈의 첫 번째 기사에서는 스포츠에서 AI를 위한 데이터 준비에 대한 문헌 기반 검토를 제공하며, AI/ML 연구 분야에서 가져온 참고 자료를 수영 특정 시나리오에 적용했습니다. 저희의 목표는 AI 시스템에 필요한 것과 수영에서 제공할 수 있는 방법 간의 격차를 메우는 것입니다. 데이터 품질의 기초, 데이터 관리가 부족한 경우의 위험, 강력하고 AI에 적합한 데이터 세트를 구축하는 데 필요한 핵심 요소를 살펴보겠습니다. 이 검토를 마치면 잘 구조화된 고품질 데이터가 고급 분석의 기반을 구축하고 수영장에서 더 나은 의사 결정과 성과 향상을 가능하게 하는 데 필수적인 이유를 이해하게 될 것입니다.

1부에서 다루는 섹션:

  • 섹션 1: ML/AI에 데이터 품질이 필수적인 이유 우리는 AI 및 ML 애플리케이션, 특히 수영과 같은 성과가 중요한 스포츠에 있어서 고품질의 잘 관리된 데이터가 필수적인 핵심 이유를 설명합니다.
  • 섹션 2: 품질이 좋지 않은 데이터의 장벽, 함정 및 과제 이 섹션에서는 편향된 모델, 결함이 있는 교육 전략 및 낭비되는 리소스를 포함하여 품질이 좋지 않은 데이터 관행의 실질적인 결과를 강조합니다.
  • 섹션 3: AI/ML에서 고품질 데이터를 보장하기 위한 핵심 기반 우리는 신뢰할 수 있는 AI 결과를 만드는 데 필수적인 내재적이고 맥락적인 데이터 품질에서 윤리적 준수에 이르기까지 신뢰할 수 있는 데이터 관리의 핵심 기둥을 제시합니다.

섹션 1: ML/AI에 데이터 품질이 필수적인 이유 - "AI의 엔진"

엔진에 연료를 공급한다고 상상해 보세요. 연료가 저급이거나 오염된 경우 최고의 성능을 얻을 수 없습니다. 데이터는 머신 러닝(ML)과 인공 지능(AI)에서도 같은 방식으로 작동합니다. 스포츠, 특히 수영 분야에서 정확한 데이터는 최신 분석, 성과 추적 및 의사 결정의 생명선입니다. 품질이 좋지 않거나 불완전한 데이터는 가장 진보된 AI 시스템조차도 오도하여 잠재적으로 훈련 계획과 경쟁 결과를 탈선시킬 수 있습니다.

다음은 모든 AI 기반 애플리케이션에 데이터 품질이 필수적인 주요 이유입니다.

  1. 모델 정확도 및 신뢰성 고품질 데이터는 AI 모델이 정확하고 신뢰할 수 있는 예측을 제공하도록 보장합니다. 수영에서 스트로크 수, 랩 스플릿, 심박수 변동성과 같은 지표에 대한 일관되고 정확한 데이터를 통해 코치와 선수는 AI에서 생성된 통찰력을 신뢰할 수 있습니다. 반면에, 데이터가 부족하면 신뢰할 수 없는 모델과 결함이 있는 훈련 체계가 생길 수 있습니다(Priestley et al., 2023; Qayyum et al., 2020).

  2. 데이터 캐스케이드 회피 데이터 오류는 ML 파이프라인 전체에 퍼져서 작은 초기 실수가 더 큰 문제로 확대되는 캐스케이드 효과를 만들어낼 수 있습니다. 예를 들어, 랩 타임을 지속적으로 잘못 기록하면 페이스 분석, 피로 예측 및 레이스 전략이 왜곡되어 비용이 많이 드는 비효율성이 발생할 수 있습니다(Sambasivan et al., 2021; Polyzotis et al., 2018).

  3. 편견과 공정성 편견이 있거나 불완전한 데이터, 특히 경쟁 스포츠에서 데이터는 왜곡된 통찰력과 불공평한 결과를 초래할 수 있습니다. 예를 들어, 특정 수영 선수 인구 통계 또는 조건에 제한된 훈련 데이터는 주요 요소를 제외하여 일부 선수를 다른 선수보다 선호하는 모델을 만들 수 있습니다. 다양하고 대표적인 데이터를 확보하면 편향을 줄이고 일반화를 개선하는 데 도움이 됩니다(Zhou et al., 2018; Qayyum et al., 2020).

  4. 데이터 정리 및 준비 효과적인 데이터 정리는 노이즈를 제거하고, 불일치를 수정하고, 누락된 값을 해결합니다. 수영장의 수질을 유지하는 것으로 생각해 보세요. 적절한 청소가 없으면 수영 선수의 성과와 AI 통찰력이 저하됩니다. 깨끗한 데이터는 모델이 새롭고 진화하는 조건에 적응할 수 있도록 보장합니다(Polyzotis et al., 2018; Priestley et al., 2023).

  5. 도메인별 요구 사항 각 스포츠에는 고유한 지표와 요구 사항이 있습니다. 수영에서는 스트로크 빈도, 휴식 간격, 수중 단계와 같은 지표를 모니터링하는 것이 필수적입니다. 이러한 세부 사항에 맞게 데이터 품질 검사를 조정하면 AI 출력이 실제 성능 요구 사항을 충족할 수 있습니다(Priestley et al., 2023; Ranjan, 2023).

  6. 지속적인 모니터링 및 관리 모델이 훈련된 후에도 데이터 수집은 중단되지 않습니다. 수영 선수의 성과는 진화하고, 새로운 선수가 프로그램에 참여하며, 센서는 시간이 지남에 따라 변경될 수 있습니다. 유입되는 데이터를 지속적으로 모니터링하면 AI 도구가 정확하고 관련성이 유지됩니다(Bangari et al., 2024; Zhou et al., 2018).

  7. 종합적인 데이터 품질 관리 랩 카운트, 생체 인식 판독, 비디오 분석과 같은 방대한 양과 다양한 종류의 훈련 데이터를 관리하려면 견고하고 확장 가능한 프로세스가 필요합니다. 명확한 데이터 품질 전략은 ML 라이프사이클 전반에 걸쳐 일관성을 유지하기 위해 양, 다양성, 속도를 다룹니다(Ranjan, 2023; Priestley et al., 2023).

  8. 윤리적 및 법적 고려 사항 성과 및 건강 지표를 수집하면 특히 개인 정보 보호 및 규정 준수와 관련하여 윤리적 문제가 발생합니다. 높은 데이터 품질 표준, 안전한 관리 및 윤리 지침 준수는 조직이 법적 의무를 충족하는 데 도움이 됩니다(Qayyum et al., 2020; Zhou et al., 2018).

데이터 품질은 성공적인 ML/AI 시스템의 기초입니다. 정확하고 포괄적이며 잘 관리된 데이터는 보다 신뢰할 수 있는 모델을 구동하여 코치, 선수 및 이해 관계자 간의 신뢰를 강화합니다. 데이터를 AI 애플리케이션의 "연료"로 취급하면 훈련 시설, 연구실 또는 글로벌 대회에서 보다 공평한 결과가 보장됩니다.

섹션 2: 품질이 낮은 데이터의 장벽, 함정 및 과제

스포츠 분석에서 품질이 낮은 데이터 품질은 사소한 좌절 이상입니다. 훈련 프로그램을 탈선시키고 귀중한 리소스를 낭비하며 AI 기반 통찰력에 대한 신뢰를 침식할 수 있습니다. 턴 타임을 추적하는 코치에서 대규모 센서 데이터 세트를 분석하는 스포츠 과학자에 이르기까지 이러한 주요 함정을 이해하는 것은 신뢰할 수 있는 결과를 보장하는 데 중요합니다.

  1. 모델 성능 저하 AI 모델은 정확하고 완전한 데이터에 의존하여 학습하고 예측합니다. 누락되거나 잘못된 데이터(예: 부정확한 랩 분할 또는 잘못 기록된 스트로크 수)를 입력하면 모델은 신뢰할 수 없는 예측을 생성합니다. 이로 인해 운동선수가 안전한 한계를 넘어 밀리면 최적이 아닌 페이싱 전략이 사용되거나 부상 위험이 증가할 수 있습니다(Priestley et al., 2023; Qayyum et al., 2020).

  2. 데이터 캐스케이드 파이프라인 시작 시 작은 데이터 오류가 눈덩이처럼 커져 하류에서 더 큰 문제가 될 수 있습니다. 예를 들어, 자주 급증하는 것을 잘못 기록하는 심박수 모니터는 운동선수의 건강에 대한 "거짓 경보"를 트리거하여 불필요한 훈련 계획 변경으로 이어질 수 있습니다. 이러한 캐스케이드는 AI 시스템에 대한 신뢰를 떨어뜨리고 운동선수의 웰빙을 손상시킬 수 있습니다(Sambasivan et al., 2021; Polyzotis et al., 2018).

  3. 편견 및 공정성 문제 데이터 품질이 좋지 않은 것은 종종 다양한 운동 선수 집단을 대표하지 못하는 불완전한 데이터 세트에서 비롯됩니다. 모델이 엘리트 수영 선수만의 지표와 같이 제한된 데이터로 훈련되면 청소년 또는 마스터 수준 운동 선수에게 관련성이 없거나 해로운 조언을 생성할 수 있습니다. 포괄적이고 대표적인 데이터 수집은 편견을 완화하는 데 중요합니다(Zhou et al., 2018; Qayyum et al., 2020).

  4. 표준화된 지표 부족 핵심 지표(예: 스트로크 속도 또는 랩 세그먼트 시간)를 기록하기 위한 표준화된 방법이 없으면 팀이나 연구 간에 데이터를 비교하는 것이 어려워집니다. 일관되지 않은 정의는 AI 솔루션을 채택할 때 혼란을 일으켜 진행 속도를 늦추고 애플리케이션 간에 오류를 증폭시킬 수 있습니다(Priestley et al., 2023).

  5. 데이터 포이즈닝 및 보안 위험 데이터를 제대로 관리하지 않으면 변조나 악의적인 공격에 취약해집니다. 스포츠에서 변경된 성과 데이터는 스카우트를 오도하거나 순위를 왜곡하거나 심지어 베팅 시장에 영향을 미칠 수 있습니다. 강력한 검증 및 보안 조치를 구현하면 이러한 데이터 오염 위험을 방지하는 데 도움이 됩니다(Qayyum et al., 2020).

  6. 자원 제약 및 문서화 문제 자원이 부족한 팀과 불분명한 데이터 수집 프로토콜은 종종 피할 수 있는 오류로 이어집니다. 예를 들어, 제대로 문서화되지 않은 센서 보정 절차는 데이터에 잘못된 레이블을 지정할 수 있으며, 나중에 이를 수정하기 위해 광범위한 노력이 필요합니다. 시간이 지남에 따라 이러한 리소스 격차는 비효율성을 복합화합니다(Sambasivan et al., 2021).

  7. 윤리적 및 법적 과제 생체 인식 또는 건강 관련 지표를 포함한 민감한 선수 데이터를 처리하려면 개인 정보 보호 규정을 엄격히 준수해야 합니다. 부주의한 데이터 관리로 인해 불이행, 법적 문제, 선수와 직원 간의 신뢰가 손상될 수 있습니다(Qayyum et al., 2020; Zhou et al., 2018).

  8. 운영 비효율성 데이터 품질이 좋지 않으면 지속적인 정리 및 검증이 필요하여 진행 속도가 상당히 느려질 수 있습니다. 불량 데이터를 "소방"하는 데 소요된 시간은 고급 교육 전략을 개발하거나 추가 실험을 실행하는 데 더 잘 활용할 수 있습니다(Priestley et al., 2023).

  9. 교육 및 훈련 격차 많은 스포츠 조직은 데이터 수집, 관리 및 윤리에 대한 적절한 교육을 받지 못했습니다. 이러한 기초 지식이 없으면 팀이 실수로 데이터 세트에 오류를 도입하여 AI 솔루션을 확장하는 데 더 많은 어려움이 발생할 수 있습니다(Zhou et al., 2018).

  10. 일반화 및 대표성 좁은 데이터 세트에서 학습된 모델은 종종 다양한 맥락에서 일반화하는 데 어려움을 겪습니다. 예를 들어, 엘리트 수영 선수만을 대상으로 학습된 모델은 청소년 또는 마스터 선수에게 거의 가치를 제공하지 못해 값비싼 데이터 수집 및 재교육이 필요할 수 있습니다(Priestley et al., 2023; Ranjan, 2023).

데이터 품질이 좋지 않으면 스포츠에서 AI를 도입하는 데 상당한 어려움이 있습니다. 저하된 모델 성능과 윤리적 위험에서 운영 지연에 이르기까지 이러한 함정은 견고하고 잘 문서화되고 안전한 데이터 파이프라인의 필요성을 강조합니다. 이러한 과제를 해결함으로써 조직은 코치, 과학자 및 지원 직원이 AI 통찰력을 신뢰할 수 있도록 보장하여 궁극적으로 더 나은 교육 전략과 보다 공평한 결과로 이어질 수 있습니다.

섹션 3: AI/ML에서 고품질 데이터를 보장하기 위한 핵심 기반

고품질 데이터를 얻는 것은 우연이 아닙니다. 의도적인 전략과 세심한 프로세스가 필요합니다. 스포츠, 특히 수영에서 데이터는 랩 타임, 스트로크 수, 생리적 지표와 같은 다양한 소스에서 제공됩니다. AI 모델이 신뢰할 수 있는 통찰력을 제공하도록 하려면 각 데이터 포인트가 정확하고 관련성이 있으며 맥락적으로 의미가 있어야 합니다. 효과적인 데이터 수집, 관리 및 사용을 지원하는 핵심 기둥은 다음과 같습니다.

  1. 내재적 데이터 품질 내재적 품질은 데이터 자체가 정확하고 일관되며 완전하도록 하는 데 중점을 둡니다. 수영에서는 랩 타임이 잘못 기록되는 것과 같은 사소한 부정확성도 훈련 권장 사항을 왜곡하고 선수의 결과에 영향을 미칠 수 있습니다. 높은 내재적 품질을 달성하려면 타이밍 패드 및 웨어러블 기기와 같은 센서가 정기적으로 교정되어야 합니다. 자동화된 데이터를 비디오 리뷰와 비교하는 것과 같은 주기적 스팟 체크는 주요 지표의 정확성을 검증하는 데 도움이 됩니다. 스트로크 속도가 물리적 한계를 초과하는 것과 같은 이상치를 표시하는 자동화된 시스템도 중요합니다(Priestley et al., 2023; Ranjan, 2023). 이러한 결합된 측정값은 데이터가 AI 분석에 신뢰할 수 있는 상태로 유지되도록 보장합니다.

  2. 맥락적 품질 맥락적 품질은 데이터가 관련성 있고 시기적절하며 의도된 AI 작업에 적합한지 확인합니다. 예를 들어, 단거리 수영장에서 수집한 훈련 데이터는 오픈 워터 수영에 적용되지 않을 수 있으므로 세분화가 필수적입니다. 맥락적 관련성을 유지하기 위해 팀은 시작, 턴 또는 전반적인 지구력 개선과 같은 데이터 수집 목표를 명확하게 정의해야 합니다. 데이터는 풀 크기나 고도와 같은 조건에 따라 분류하여 맥락적으로 의미 있는 통찰력을 제공해야 합니다. 게다가 훈련 요구 사항이 진화함에 따라 데이터 수집 프로세스도 진화하여 현재 목표와 일치하도록 유지해야 합니다(Priestley et al., 2023; Zhou et al., 2018).

  3. 표현 품질 표현 품질은 팀과 시스템 간에 일관되고 해석 가능한 데이터 형식에 초점을 맞춥니다. 표준화가 없으면 성과 데이터가 잘못 해석될 수 있습니다. 예를 들어, 다른 팀이 50m 랩을 "50 Free" 또는 "FC_50"으로 레이블을 지정하는 경우가 있습니다. 표준화된 명명 규칙을 채택하고 팀 간에 공유 데이터 스키마를 유지하면 이러한 문제를 완화하는 데 도움이 됩니다. 또한 팀은 메타데이터를 사용하여 데이터가 수집된 시기와 방법에 대한 세부 정보를 문서화해야 합니다(Priestley et al., 2023). 이러한 조치는 혼란을 방지하고 내부 및 외부 이해 관계자 간의 협업을 개선합니다.

  4. 접근성 접근성은 개인 정보를 보호하면서 권한이 있는 사용자가 데이터를 사용할 수 있도록 합니다. 코치, 스포츠 과학자, 운동선수는 종종 훈련을 조정하기 위해 성과 데이터에 실시간으로 액세스해야 합니다. 역할 기반 액세스 제어가 있는 안전한 클라우드 기반 시스템은 보안을 손상시키지 않고 액세스를 제공할 수 있습니다. 또한, 비기술 사용자를 위해 설계된 사용자 친화적인 대시보드는 더 광범위한 접근성을 제공합니다. 민감한 운동선수 데이터의 경우 개인 정보 보호 규정을 충족하기 위해 암호화를 시행해야 합니다(Zhou et al., 2018). 이러한 조치는 효과적인 의사 결정을 지원하는 동시에 데이터 가용성과 개인 정보 보호의 균형을 맞추는 데 도움이 됩니다.

  5. 데이터 수명 주기 관리 데이터 수명 주기 관리에서는 수집에서 처리, 저장, 분석, 최종 보관 또는 삭제까지 데이터를 감독합니다. 추적성이 핵심입니다. 추적성이 없으면 AI 파이프라인에 눈에 띄지 않게 오류가 발생할 수 있습니다. 수집 날짜 및 센서 보정 로그와 같은 세부 정보를 포함한 철저한 문서를 유지 관리하면 데이터 무결성을 유지하는 데 도움이 됩니다. 정기적인 검토는 오래되었거나 관련성이 없는 데이터를 제거하는 동시에 양질의 데이터 세트에 집중하는 데 필수적입니다(Ranjan, 2023; Priestley et al., 2023). 백업 및 재해 복구 전략은 장기적인 데이터 안정성을 더욱 보장합니다.

  6. 윤리 및 법적 준수 민감한 데이터를 처리할 때 윤리 및 법적 준수는 매우 중요합니다. 특히 생체 인식 및 건강 데이터가 관련된 스포츠에서 더욱 그렇습니다. 운동선수는 개인 정보가 보호되고 책임감 있게 사용될 것이라고 믿습니다. 이러한 신뢰를 유지하기 위해 팀은 가능한 경우 운동선수 데이터를 익명화하고 데이터 사용이 GDPR과 같은 관련 법률을 준수하도록 해야 합니다. 데이터를 수집하고 사용하기 전에 운동선수로부터 정보에 입각한 동의를 얻는 것도 필수적입니다(Qayyum et al., 2020; Zhou et al., 2018). 이러한 지침을 준수하지 않으면 법적 반발과 평판 손상의 위험이 있습니다.

  7. 지속적인 모니터링 및 개선 지속적인 모니터링을 통해 성과 데이터가 진화함에 따라 데이터 품질이 시간이 지남에 따라 유지됩니다. 수영 프로그램은 종종 새로운 지표와 기술을 도입하므로 지속적인 검증이 중요합니다. 자동화된 검증 스크립트는 분석에 영향을 미치기 전에 비정상적으로 짧거나 긴 랩 타임과 같은 이상을 감지할 수 있습니다. 주기적 감사는 완전성과 무결성을 유지하는 데 도움이 되는 반면, 코치와 선수를 포함하는 피드백 루프는 불일치를 신속하게 해결할 수 있습니다(Bangari et al., 2024; Zhou et al., 2018). 이러한 사전 예방적 접근 방식은 동적이고 신뢰할 수 있는 데이터 파이프라인을 유지하는 데 도움이 됩니다.

  8. 도메인 지식 통합 도메인 지식 통합은 코치, 스포츠 과학자 및 선수의 전문 지식을 활용하여 데이터를 효과적으로 해석하고 검증합니다. 심박수가 갑자기 증가하는 것과 같은 이상은 센서 오작동이나 환경 조건과 같은 간단한 설명이 있을 수 있습니다. 도메인 전문가는 실제 문제와 장비 오류를 구별하여 불필요한 모델 조정을 방지할 수 있습니다. 데이터 수집 프로토콜에 대해 코치와 협력하고 실제 경험에 대한 AI 기반 권장 사항을 검증하면 생성된 통찰력의 신뢰성이 향상됩니다(Ranjan, 2023). 이 반복적 프로세스를 통해 데이터 기반 의사 결정이 실제 경험과 일치하도록 할 수 있습니다.

이러한 핵심 기반(내재적 및 맥락적 품질, 표현적 일관성, 접근성, 수명 주기 관리, 규정 준수, 지속적인 모니터링 및 도메인 전문성)에 집중함으로써 조직은 신뢰할 수 있는 데이터 파이프라인을 구축할 수 있습니다. 수영 전문가의 경우 이는 더 나은 훈련 체계, 정확한 선수 피드백, 더 많은 참여, 더 적은 부상 및 뛰어난 경쟁 성과로 이어집니다.

요약

첫 번째 부분에서는 데이터 품질의 핵심 원칙을 살펴보고 열악한 데이터가 어떻게 가장 진보된 AI 프로젝트조차 탈선시킬 수 있는지 보여주었습니다. 엉성하거나 불완전한 기록은 혁신을 지연시킬 뿐만 아니라 코치, 선수 및 분석가를 적극적으로 오도할 수 있습니다. 하지만 이러한 개념이 수영의 현재 데이터 환경에 어떻게 적용될까요?

다음 회에서는 수영 훈련 세션 데이터 관리의 실제적 현실을 살펴보고 업계가 뛰어난 분야와 개선이 필요한 분야를 강조합니다. 또한 모든 수준의 스포츠에서 데이터 관리를 향상하도록 설계된 통합 프레임워크의 기회에 대해서도 논의합니다. 마지막으로, 핵심 질문에 답하겠습니다. 수영 피트니스 및 경쟁 산업 데이터가 AI에 적합할까요? 모든 레벨의 수영 선수에게 더 나은 결과를 제공하기 위해 AI를 어떻게 활용할 수 있는지 자세히 살펴보겠습니다.

참조:

Priestley, Maria & O’Donnell, Fionntán & Simperl, Elena. (2023). A Survey of Data Quality Requirements That Matter in ML Development Pipelines. Journal of Data and Information Quality. 15. 10.1145/3592616.

Bangad, Nikhil & Jayaram, Vivekananda & Sughaturu Krishnappa, Manjunatha & Banarse, Amey & Bidkar, Darshan & Nagpal, Akshay & Parlapalli, Vidyasagar. (2024). A Theoretical Framework For Ai-Driven Data Quality Monitoring In High-Volume Data Environments. INTERNATIONAL JOURNAL OF COMPUTER ENGINEERING & TECHNOLOGY. 15. 618-636. 10.5281/zenodo.13878755.

Zhou, Yuhan & Tu, Fengjiao & Sha, Kewei & Ding, Junhua & Chen, Haihua. (2024). A Survey on Data Quality Dimensions and Tools for Machine Learning Invited Paper. 120-131. 10.1109/AITest62860.2024.00023.

Polyzotis, Neoklis & Roy, Sudip & Whang, Steven & Zinkevich, Martin. (2018). Data Lifecycle Challenges in Production Machine Learning: A Survey. ACM SIGMOD Record. 47. 17-28. 10.1145/3299887.3299891.

Qayyum, Adnan & Qadir, Junaid & Bilal, Muhammad & Al-Fuqaha, Ala. (2020). Secure and Robust Machine Learning for Healthcare: A Survey. IEEE Reviews in Biomedical Engineering. PP. 1-1. 10.1109/RBME.2020.3013489.

Neutatz, Felix & Chen, Binger & Abedjan, Ziawasch & Wu, Eugene. (2021). From Cleaning before ML to Cleaning for ML.

Sambasivan, Nithya & Kapania, Shivani & Highfill, Hannah & Akrong, Diana & Paritosh, Praveen & Aroyo, Lora. (2021). “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI. 1-15. 10.1145/3411764.3445518.

Roh, Yuji & Heo, Geon & Whang, Steven. (2019). A Survey on Data Collection for Machine Learning: A Big Data - AI Integration Perspective. IEEE Transactions on Knowledge and Data Engineering. PP. 1-1. 10.1109/TKDE.2019.2946162.

Whang, Steven & Roh, Yuji & Song, Hwanjun & Lee, Jae-Gil. (2023). Data collection and quality challenges in deep learning: a data-centric AI perspective. The VLDB Journal. 32. 10.1007/s00778-022-00775-9.

Rangineni, Sandeep. (2023). An Analysis of Data Quality Requirements for Machine Learning Development Pipelines Frameworks. International Journal of Computer Trends and Technology. 71. 16-27. 10.14445/22312803/IJCTT-V71I8P103.

저자
Diego Torres

Diego Torres

번역가
Wise Racer

Wise Racer


이전 글
다음 글

© 2020 - 2025, Unify Web Solutions Pty Ltd. 모든 권리 보유.