Wise Racer
ГоловнаБлогЗв'яжіться з намиУвійти

Чи підходять дані щодо фітнесу та конкурентних галузей для ШІ? – Частина 1

Чи підходять дані щодо фітнесу та конкурентних галузей для ШІ? – Частина 1

Опубліковано 11 лютого 2025 р.
Відредаговано о 29 травня 2025 р.


Вступ

Статистика на основі даних революціонізувала багато видів спорту, створивши точні плани тренувань, покращивши запобігання травмам і одержавши відгуки про ефективність у реальному часі. Однак у сфері плавання — виду спорту, де мілісекунди мають значення — якість і структура даних залишаються серйозними проблемами. Як штучний інтелект і машинне навчання можуть допомогти нам досягти кращих результатів і які ризики виникають, коли якість даних ігнорується?

У цій першій частині нашої серії з двох частин пропонується огляд літератури щодо підготовки даних для штучного інтелекту у спорті з посиланнями, взятими з галузей досліджень штучного інтелекту/ML, і застосованими до конкретних сценаріїв плавання. Наша мета — подолати розрив між тим, що потрібно системам ШІ, і тим, як це може забезпечити плавання. Ми дослідимо основи якості даних, небезпеки поганого керування даними та ключові основи, необхідні для створення надійних, готових до ШІ наборів даних. Наприкінці цього огляду ви зрозумієте, чому добре структуровані високоякісні дані є важливими для створення основи для розширеної аналітики, що дозволяє краще приймати рішення та підвищувати продуктивність у пулі.

Розділи, розглянуті в частині 1:

  • Розділ 1: Чому якість даних є важливою для ML/AI
    Ми окреслюємо основні причини, чому високоякісні та добре керовані дані є незамінними для додатків штучного інтелекту та машинного навчання, особливо в критично важливих видах спорту, таких як плавання.
  • Розділ 2: Перешкоди, підводні камені та виклики неякісних даних
    У цьому розділі висвітлюються практичні наслідки неналежного використання даних, включаючи упереджені моделі, неправильні стратегії навчання та марну витрату ресурсів.
  • Розділ 3: Основні основи для забезпечення високоякісних даних у AI/ML
    Ми представляємо ключові основи надійного керування даними, від внутрішньої та контекстної якості даних до дотримання етичних норм, усі з яких мають вирішальне значення для створення надійних результатів ШІ.

Розділ 1: Чому якість даних є важливою для ML/AI — «Двигун штучного інтелекту»

Уявіть, що ви заправляєте двигун: якщо пальне низького сорту або забруднене, ви ніколи не досягнете максимальної продуктивності. Дані працюють однаково для машинного навчання (ML) і штучного інтелекту (AI). У світі спорту, особливо плавання, точні дані є джерелом сучасної аналітики, відстеження результатів і прийняття рішень. Низька якість або неповні дані можуть ввести в оману навіть найдосконаліші системи штучного інтелекту, потенційно зірвавши плани навчання та результати змагань.

Нижче наведено ключові причини, чому якість даних життєво важлива для будь-якої програми, керованої ШІ:

  1. Точність і надійність моделі
    Високоякісні дані гарантують, що моделі штучного інтелекту створюють точні та надійні прогнози. Під час плавання узгоджені й точні дані про такі показники, як кількість гребків, розподіл кіл і варіабельність серцевого ритму, дають змогу тренерам і спортсменам довіряти статистиці, створеній ШІ. З іншого боку, погані дані можуть призвести до ненадійних моделей і неправильних схем тренувань (Priestley та ін., 2023; Qayyum та ін., 2020).
  2. Уникнення каскадів даних
    Помилки даних можуть поширюватися по всьому конвеєру машинного навчання, створюючи ефект каскаду, коли невеликі початкові помилки перетворюються на більші проблеми. Наприклад, постійне неправильне записування часу кола може спотворити аналіз темпу, прогнози втоми та стратегії перегонів, що призведе до дорогої неефективності (Sambasivan та ін., 2021; Polyzotis та ін., 2018).
  3. Упередженість і справедливість
    Упереджені або неповні дані, особливо в спортивних змаганнях, можуть призвести до викривленої думки та несправедливих результатів. Наприклад, тренувальні дані, обмежені певними демографічними характеристиками або умовами плавців, можуть виключати ключові фактори, створюючи моделі, які надають перевагу одним спортсменам над іншими. Забезпечення різноманітних, репрезентативних даних допомагає зменшити упередження та покращити узагальнення (Zhou та ін., 2018; Qayyum та ін., 2020).
  4. Очищення та підготовка даних
    Ефективне очищення даних усуває шум, виправляє невідповідності та усуває відсутні значення. Думайте про це як про підтримку якості води в басейні — без належного очищення продуктивність плавців і AI-інтереси страждають. Чисті дані гарантують, що моделі можуть адаптуватися до нових умов, що розвиваються (Polyzotis та ін., 2018; Прістлі та ін., 2023).
  5. Вимоги до домену
    Кожен вид спорту має унікальні показники та вимоги. Під час плавання дуже важливий моніторинг таких показників, як частота гребків, інтервали відпочинку та підводні фази. Пристосування перевірок якості даних до цих особливостей гарантує, що результати штучного інтелекту відповідають реальним потребам у продуктивності (Priestley та ін., 2023; Ranjan, 2023).
  6. Постійний моніторинг і управління
    Збір даних не припиняється після навчання моделі. Результативність плавців розвивається, нові спортсмени приєднуються до програм, а датчики можуть змінюватися з часом. Постійний моніторинг вхідних даних гарантує, що інструменти штучного інтелекту залишаються точними та актуальними (Bangari та ін., 2024; Zhou та ін., 2018).
  7. Комплексне управління якістю даних
    Управління великими обсягами та різноманіттям тренувальних даних, таких як підрахунок кіл, біометричні показники та відеоаналітика, потребує надійних процесів, які можна масштабувати. Чітка стратегія якості даних стосується обсягу, різноманітності та швидкості для підтримки узгодженості протягом життєвого циклу машинного навчання (Ranjan, 2023; Priestley et al., 2023).
  8. Етичні та правові міркування
    Збір показників продуктивності та здоров’я викликає етичні проблеми, особливо щодо конфіденційності та дотримання вимог. Високі стандарти якості даних, безпечне управління та дотримання етичних принципів допомагають організаціям виконувати юридичні зобов’язання (Qayyum та ін., 2020; Zhou та ін., 2018).

Якість даних є основою успішних систем ML/AI. Точні, вичерпні та добре керовані дані створюють більш надійні моделі, зміцнюючи довіру між тренерами, спортсменами та зацікавленими сторонами. Ставлення до даних як до «палива» програм штучного інтелекту забезпечує більш справедливі результати, чи то в навчальних закладах, дослідницьких лабораторіях чи на глобальних змаганнях.

Розділ 2: Перешкоди, підводні камені та виклики неякісних даних

У спортивній аналітиці низька якість даних — це більше, ніж просто незначна перешкода — вона може зірвати програми тренувань, марнувати цінні ресурси та підірвати довіру до ідей, керованих ШІ. Від тренерів, які відстежують час повороту, до спортивних вчених, які аналізують великі набори даних датчиків, розуміння цих ключових пасток має вирішальне значення для забезпечення надійних результатів.

  1. Зниження продуктивності моделі
    Моделі AI покладаються на точні, повні дані, щоб навчатися та робити прогнози. Коли подаються відсутні або неправильні дані, такі як неточні розподіли кіл або неправильна кількість гребків, моделі дають ненадійні прогнози. Це може призвести до неоптимальних стратегій стимуляції або навіть до підвищення ризику травм, якщо спортсмени виходять за безпечні межі (Priestley et al., 2023; Qayyum et al., 2020).
  2. Каскади даних
    Невеликі помилки даних на початку конвеєра можуть перерости в більші проблеми. Наприклад, монітор серцевого ритму, який неправильно фіксує часті стрибки, може викликати «помилкові тривоги» щодо здоров’я спортсмена, що призведе до непотрібних змін у планах тренувань. Ці каскади знижують довіру до систем ШІ та можуть поставити під загрозу благополуччя спортсмена (Sambasivan та ін., 2021; Polyzotis та ін., 2018).
  3. Проблеми упередженості та справедливості
    Погана якість даних часто виникає через неповні набори даних, які не представляють різні групи спортсменів. Коли моделі тренуються на обмежених даних, таких як показники лише від елітних плавців, вони можуть давати поради, які є нерелевантними або навіть шкідливими для молоді або спортсменів рівня майстрів. Всеосяжний і репрезентативний збір даних є ключовим для пом’якшення упередженості (Zhou et al., 2018; Qayyum et al., 2020).
  4. Відсутність стандартизованих показників
    Без стандартизованих методів запису ключових показників (наприклад, частоти гребків або часу відрізка кола) порівняння даних між командами або дослідженнями стає складним. Неузгоджені визначення можуть створити плутанину під час впровадження рішень штучного інтелекту, уповільнити прогрес і збільшити кількість помилок у програмах (Priestley та ін., 2023).
  5. Отруєння даних і ризики безпеки
    Коли даними погано керують, вони стають уразливими для підробки або зловмисних атак. У спорті змінені дані про ефективність можуть ввести в оману скаутів, спотворити рейтинг або навіть вплинути на ринки ставок. Впровадження надійної перевірки та заходів безпеки допомагає запобігти таким ризикам отруєння даних (Qayyum та ін., 2020).
  6. Обмеження ресурсів і проблеми з документацією
    Недостатні ресурси команд і нечіткі протоколи збору даних часто призводять до помилок, яких можна уникнути. Наприклад, погано задокументовані процедури калібрування датчика можуть призвести до неправильного маркування даних, для виправлення якого згодом знадобляться значні зусилля. З часом ці прогалини в ресурсах посилюють неефективність (Sambasivan et al., 2021).
  7. Етичні та правові проблеми
    Обробка конфіденційних даних спортсмена, включно з біометричними чи пов’язаними зі здоров’ям показниками, вимагає суворого дотримання правил конфіденційності. Недбале управління даними може призвести до невідповідності, юридичних проблем і шкоди довірі між спортсменами та персоналом (Qayyum та ін., 2020; Zhou та ін., 2018).
  8. Операційна неефективність
    Низька якість даних може значно сповільнити прогрес, вимагаючи постійного очищення та перевірки. Час, витрачений на «гасіння» поганих даних, можна було б краще використати для розробки стратегій передового навчання або проведення додаткових експериментів (Priestley et al., 2023).
  9. Прогалини в навчанні та освіті
    Багатьом спортивним організаціям бракує належної підготовки щодо збору даних, управління та етики. Без цих фундаментальних знань команди можуть ненавмисно внести помилки в набори даних, створюючи додаткові проблеми в масштабуванні рішень ШІ (Zhou et al., 2018).
  10. Узагальнення та репрезентативність
    Моделі, навчені на вузьких наборах даних, часто важко узагальнити в різних контекстах. Наприклад, модель, розроблена виключно на елітних плавцях, може мати незначну цінність для спортсменів-юнаків або спортсменів-майстрів, що вимагає дорогого збору даних і перенавчання (Priestley et al., 2023; Ranjan, 2023).

Низька якість даних створює значні проблеми для впровадження ШІ у спорті. Від погіршення продуктивності моделі та етичних ризиків до операційних затримок, ці підводні камені підкреслюють потребу в надійних, добре задокументованих і безпечних каналах даних. Вирішуючи ці проблеми, організації можуть переконатися, що тренери, науковці та допоміжний персонал можуть довіряти знанням штучного інтелекту, що зрештою призводить до кращих стратегій навчання та більш справедливих результатів.

Розділ 3: Основні основи для забезпечення високоякісних даних у AI/ML

Досягнення високоякісних даних не є випадковістю — воно вимагає навмисних стратегій і ретельного процесу. У спорті, особливо в плаванні, дані надходять із різних джерел, таких як час проходження кола, кількість гребків і фізіологічні показники. Щоб гарантувати, що моделі штучного інтелекту надають надійну інформацію, кожна точка даних має бути точною, релевантною та контекстно значущою. Нижче наведено основні принципи, які підтримують ефективний збір, керування та використання даних.

  1. Внутрішня якість даних
    Внутрішня якість зосереджується на тому, щоб самі дані були точними, послідовними та повними. Під час плавання навіть невелика неточність, наприклад неправильно зареєстрований час кола, може спотворити рекомендації щодо тренувань і вплинути на результати спортсменів. Щоб досягти високої внутрішньої якості, такі датчики, як таймери та переносні пристрої, повинні проходити регулярне калібрування. Періодичні вибіркові перевірки, як-от порівняння автоматизованих даних із відеооглядами, допомагають підтвердити точність ключових показників. Автоматизовані системи, які позначають викиди, наприклад частоту інсультів, що перевищують фізичні межі, також є критичними (Priestley et al., 2023; Ranjan, 2023). Ці комбіновані заходи гарантують, що дані залишаються надійними для аналізу ШІ.

  2. Контекстуальна якість
    Контекстна якість гарантує, що дані є релевантними, своєчасними та придатними для запланованого завдання ШІ. Наприклад, тренувальні дані, зібрані з басейнів з короткою дистанцією, можуть бути незастосовними до плавання у відкритій воді, що робить сегментацію важливою. Щоб підтримувати відповідність контексту, команди повинні чітко визначити цілі збору даних, такі як покращення стартів, поворотів або загальної витривалості. Дані слід класифікувати на основі таких умов, як розмір басейну або висота над рівнем моря, щоб надати контекстно значущу інформацію. Крім того, у міру того, як потреби в навчанні розвиваються, процеси збору даних мають розвиватися, щоб вони відповідали поточним цілям (Priestley et al., 2023; Zhou et al., 2018).

  3. Репрезентативна якість
    Якість представлення зосереджується на узгоджених і інтерпретованих форматах даних у командах і системах. Без стандартизації дані про продуктивність можуть бути неправильно витлумачені, наприклад, коли різні команди позначають 50-метрове коло як «50 Free» або «FC_50». Прийняття стандартизованих угод про іменування та підтримка спільної схеми даних між командами допомагає пом’якшити ці проблеми. Команди також повинні використовувати метадані для документування подробиць про те, коли та як дані були зібрані (Priestley et al., 2023). Ці заходи запобігають плутанині та покращують співпрацю між внутрішніми та зовнішніми зацікавленими сторонами.

  4. Доступність
    Доступність гарантує, що дані доступні авторизованим користувачам, зберігаючи конфіденційність. Тренерам, спортивним науковцям і спортсменам часто потрібен доступ до даних про продуктивність у реальному часі, щоб налаштувати тренування. Захищені хмарні системи з керуванням доступом на основі ролей можуть забезпечити доступ без шкоди для безпеки. Крім того, зручні інформаційні панелі, розроблені для нетехнічних користувачів, забезпечують ширший доступ. Для конфіденційних даних спортсменів слід застосовувати шифрування, щоб відповідати правилам конфіденційності (Zhou et al., 2018). Ці заходи допомагають збалансувати доступність даних і конфіденційність, одночасно підтримуючи ефективне прийняття рішень.

  5. Керування життєвим циклом даних
    Управління життєвим циклом даних контролює дані від збору до обробки, зберігання, аналізу та остаточного архівування чи видалення. Відстеження є ключовим — без нього помилки можуть непомітно вводитися в конвеєр ШІ. Ведення ретельної документації, включаючи такі деталі, як дати збору та журнали калібрування датчиків, допомагає зберегти цілісність даних. Періодичні перегляди необхідні для видалення застарілих або нерелевантних даних, зберігаючи при цьому зосередженість на якісних наборах даних (Ranjan, 2023; Priestley et al., 2023). Стратегії резервного копіювання та аварійного відновлення додатково забезпечують довгострокову надійність даних.

  6. Дотримання етичних і правових норм
    Дотримання етичних і правових норм має вирішальне значення під час роботи з конфіденційними даними, особливо у спорті, де використовуються біометричні дані та дані про стан здоров’я. Спортсмени вірять, що їхня особиста інформація буде захищена та використана відповідально. Щоб зберегти цю довіру, команди повинні анонімізувати дані спортсменів, коли це можливо, і переконатися, що використання даних відповідає відповідним законам, таким як GDPR. Також важливо отримати інформовану згоду спортсменів перед збором і використанням їхніх даних (Qayyum та ін., 2020; Zhou та ін., 2018). Недотримання цих вказівок може призвести до юридичних наслідків і шкоди репутації.

  7. Постійний моніторинг і вдосконалення
    Постійний моніторинг гарантує, що якість даних зберігається протягом тривалого часу, оскільки дані про продуктивність розвиваються. Програми з плавання часто вводять нові показники та технології, що робить важливою постійну перевірку. Автоматизовані сценарії перевірки можуть виявляти аномалії, наприклад незвично короткий або довгий час кола, перш ніж вони вплинуть на аналіз. Періодичні перевірки допомагають підтримувати повноту та цілісність, тоді як цикли зворотного зв’язку за участю тренерів і спортсменів дозволяють швидко вирішувати розбіжності (Bangari та ін., 2024; Zhou та ін., 2018). Цей проактивний підхід допомагає підтримувати динамічний і надійний конвеєр даних.

  8. Інтеграція знань домену
    Інтеграція знань домену використовує досвід тренерів, спортивних науковців і спортсменів для ефективної інтерпретації та перевірки даних. Такі аномалії, як раптовий стрибок частоти серцевих скорочень, можуть мати прості пояснення, як-от несправність датчика чи умови навколишнього середовища. Доменні експерти можуть розрізнити реальні проблеми та помилки обладнання, запобігаючи непотрібним коригуванням моделі. Співпраця з тренерами над протоколами збору даних і перевірка рекомендацій, керованих штучним інтелектом, порівняно з досвідом реального світу підвищує надійність отриманої інформації (Ranjan, 2023). Цей ітеративний процес гарантує, що рішення на основі даних узгоджуються з практичним досвідом.

Зосереджуючись на цих основних засадах — внутрішній і контекстуальній якості, узгодженості представлення, доступності, управлінні життєвим циклом, відповідності, безперервному моніторингу та досвіді домену — організації можуть створити надійні канали даних. Для професіоналів у плаванні це означає кращі режими тренувань, точні відгуки спортсменів, більше залучення, менше травм і чудові змагальні результати.

Резюме

У цій першій частині ми дослідили основні принципи якості даних і показали, як погані дані можуть зірвати навіть найдосконаліші проекти ШІ. Неакуратні або неповні записи не просто гальмують інновації — вони можуть активно вводити в оману тренерів, спортсменів і аналітиків. Але як ці концепції застосовуються до поточного ландшафту даних про плавання?

У наступній частині ми зануримося в практичні реалії керування даними про тренування з плавання, виділяючи області, де ця галузь переважає та де потрібні вдосконалення. Ми також обговоримо можливість створення уніфікованої структури, призначеної для покращення керування даними на всіх рівнях спорту. Нарешті, ми відповімо на ключове запитання: Чи підходять дані щодо фітнесу в плаванні та конкурентоспроможності для ШІ? Слідкуйте за оновленнями, щоб уважніше поглянути на те, як ми можемо використовувати ШІ для досягнення кращих результатів для плавців на всіх рівнях.

Література:

Priestley, Maria & O’Donnell, Fionntán & Simperl, Elena. (2023). A Survey of Data Quality Requirements That Matter in ML Development Pipelines. Journal of Data and Information Quality. 15. 10.1145/3592616.

Bangad, Nikhil & Jayaram, Vivekananda & Sughaturu Krishnappa, Manjunatha & Banarse, Amey & Bidkar, Darshan & Nagpal, Akshay & Parlapalli, Vidyasagar. (2024). A Theoretical Framework For Ai-Driven Data Quality Monitoring In High-Volume Data Environments. INTERNATIONAL JOURNAL OF COMPUTER ENGINEERING & TECHNOLOGY. 15. 618-636. 10.5281/zenodo.13878755.

Zhou, Yuhan & Tu, Fengjiao & Sha, Kewei & Ding, Junhua & Chen, Haihua. (2024). A Survey on Data Quality Dimensions and Tools for Machine Learning Invited Paper. 120-131. 10.1109/AITest62860.2024.00023.

Polyzotis, Neoklis & Roy, Sudip & Whang, Steven & Zinkevich, Martin. (2018). Data Lifecycle Challenges in Production Machine Learning: A Survey. ACM SIGMOD Record. 47. 17-28. 10.1145/3299887.3299891.

Qayyum, Adnan & Qadir, Junaid & Bilal, Muhammad & Al-Fuqaha, Ala. (2020). Secure and Robust Machine Learning for Healthcare: A Survey. IEEE Reviews in Biomedical Engineering. PP. 1-1. 10.1109/RBME.2020.3013489.

Neutatz, Felix & Chen, Binger & Abedjan, Ziawasch & Wu, Eugene. (2021). From Cleaning before ML to Cleaning for ML.

Sambasivan, Nithya & Kapania, Shivani & Highfill, Hannah & Akrong, Diana & Paritosh, Praveen & Aroyo, Lora. (2021). “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI. 1-15. 10.1145/3411764.3445518.

Roh, Yuji & Heo, Geon & Whang, Steven. (2019). A Survey on Data Collection for Machine Learning: A Big Data - AI Integration Perspective. IEEE Transactions on Knowledge and Data Engineering. PP. 1-1. 10.1109/TKDE.2019.2946162.

Whang, Steven & Roh, Yuji & Song, Hwanjun & Lee, Jae-Gil. (2023). Data collection and quality challenges in deep learning: a data-centric AI perspective. The VLDB Journal. 32. 10.1007/s00778-022-00775-9.

Rangineni, Sandeep. (2023). An Analysis of Data Quality Requirements for Machine Learning Development Pipelines Frameworks. International Journal of Computer Trends and Technology. 71. 16-27. 10.14445/22312803/IJCTT-V71I8P103.

Автори
Diego Torres

Diego Torres

Перекладачі
Wise Racer

Wise Racer


Попередній допис
Наступний допис

© 2020 - 2025, Unify Web Solutions Pty Ltd. Усі права захищено.