Разработка методов и алгоритмов интеллектуальной ГИС многокритериального анализа данных системы здравоохранения (AP09259587)

Цель проекта Разработка моделей, алгоритмов и методов, интеллектуальной геоинформационной системы мультикритериальной поддержки принятия решений в сфере здравоохранения на базе моделей объяснимого машинного обучения, NLP, ГИС с применением социальной, медицинской и экономической информации. Задачи проекта:

  1. Разработка методов формирования наборов данных для решения задач оценки здравоохранения методами машинного обучения и визуализации в среде ГИС.
  2. Разработка моделей и методов анализа социального влияния здравоохранения на основе автоматического сбора и обработки медиа информации.
  3. Разработка моделей\методов\алгоритмов мультикритериального анализа решений (MCDA) на основе медицинских, экономических и медиа данных в среде ГИС.

Достигнутые результаты

1.1 Поскольку конечной целью системы является предоставление аналитических инструментов для статистического анализа структурированных и неструктурированных данных по системе здравоохранения, включая модуль геопространственной визуализации, а также модуль выработки рекомендаций на основании интерпретации предиктивных моделей, разработана следующая архитектура системы:

Концептуальная схема IGISMA
Концептуальная схема IGISMA

 

Потоки данных «Отработка запроса на выработку рекомендаций»
Потоки данных «Отработка запроса на выработку рекомендаций»

1.2 Были разработаны семь обобщающих индикаторов медицинских организаций, каждый из которых состоит из группы индикаторов:  

1.3 В результате выполнения задачи 1.3 была начата разработка наборов данных, и сформированы наборы данные объёмом от сотен до тысяч элементов, описывающие организации здравоохранения на основе медицинских и экономических показателей. Ожидаемые результаты достигнуты в полном объеме.

1.4 Сравнительный анализ методов объяснения результатов работы машинного обучения.

Для превращения «черного ящика» в «белый» или «серый», то есть для понимания того, как влияют отдельные параметры на предсказание модели в задачах регрессии и классификации, полезными инструментами оказываются Treeinterpreter для деревьев решений, LIME (Local Interpretable Model-agnostic), DeepLIFT, похожий на него Layer-Wise Relevance Propagation и наиболее свежий метод, описанный в 2017 году, – SHAP (SHapley Additive exPlanations).

2.1 Разработка системы сбора информации из открытых источников

При разработке архитектуры обработки данных были определены следующие ключевые требования: — возможность одновременных расчетов с использованием нескольких машин; — возможность гибкого планирования различных задач по обработке данных; — возможность мониторинга задач в режиме реального времени, включая оперативное уведомление об исключениях; — гибкость в использовании инструментов и технологий. В системе реализованы методы сбора, обработки и анализа данных с целью анализа информационных трендов, а также тональности и резонансности (популярности) публикаций по темам, связанным с здравоохранением в Республике Казахстане. Спроектированная система представляет собой набор компонентов, каждый из которых формируется и используется в виде Docker-контейнеров. Уровнями системы являются: уровень обработки данных, уровень хранения данных, визуализация и управление результатами обработки данных (уровень визуализации и управления).

2.2 Автоматическое выявление в информационном потоке сообщений, касающихся здравоохранения

Процедура автоматического выявления в информационном потоке сообщений, касающихся здравоохранения осуществлена с помощью каскада тематических моделей с ручной разметкой. Использовался каскад тематических моделей, поскольку предварительные эксперименты показали, что одна тематическая модель не способна отделить документы с требуемой  детализацией.

2.3 Классификация имеющихся тематик в области здравоохранения по степени их резонансности 

Для определения резонансности топика определялось количество просмотров новостей, которое затем нормировалось в диапазоне от 0 до 1. Затем для каждой из 100 итоговых тематических групп (топиков) рассчитывалось среднее значение этого нормированного показателя (resonance). Чем оно больше  – тем более резонансный топик. В результате выполнения задачи 2.3 разработаны методы тематического моделирования и получены результаты тематического моделирования. Другими словами, сформированы группы документов похожего содержания, посвященные здравоохранению. Определена метрика резонансности статей. Тематические группы ранжированы по степени резонансности. Ожидаемые результаты достигнуты в полном объеме.

2.4 Анализ информационных трендов по вопросам здравоохранения

В ходе выполнения задачи оценена динамика изменения информационных трендов, посвященных здравоохранению, их сходство и различие в России и Казахстане и оценена корреляция некоторых из них с объективными данными Всемирной организации здравоохранения (ВОЗ). В результате выполнения задачи 2.4 разработан метод получения численных оценок информационных трендов в области здравоохранения по данным масс медиа в динамике. Метод использован для получения численных оценок наиболее важных информационных трендов в области здравоохранения.

2.5 Оценка освещенности в масс медиа политики в сфере здравоохранения В результате выполнения задачи 2.5 разработана  численная оценка освещенности в масс медиа политики в сфере здравоохранения. Получены результаты вычислительных экспериментов. Ожидаемые результаты достигнуты в полном объеме.

2.6 Оценка тональности массмедиа по вопросам здравоохранения

В результате выполнения задачи 2.6 разработана методика численной оценки тональности массмедиа по вопросам здравоохранения. На основании предложенного метода выполнена оценка тональности СМИ Казахстана и некоторых крупных Российских источников по теме здравоохранения. Ожидаемые результаты достигнуты в полном объеме.

Публикации

  1. Kirill Yakunin,Ravil I. Mukhamediev, Marina Yelis,Yan Kuchin,Adilkhan Symagulov,Vitaly Levashenko,Elena Zaitseva,Margulan Aubakirov, Nadiya Yunicheva, Muhamedijeva,Viktors Gopejenko and Yelena Popova. Analysis of the Correlation between Mass-Media Publication Activity and COVID-19 Epidemiological Situation in Early 2022//Information 2022, 13(9), 434; (CiteScore =4.2, CiteScore highest quartile = Q2, CiteScore highest percentile=64%) https://doi.org/10.3390/info13090434
  2. Mukhamediev RI, Popova Y, Kuchin Y, Zaitseva E, Kalimoldayev A, Symagulov A, Levashenko V, Abdoldina F, Gopejenko V, Yakunin K, Muhamedijeva E, Yelis M. Review of Artificial Intelligence and Machine Learning Technologies: Classification, Restrictions, Opportunities and Challenges //Mathematics — 2022. -Vol.  10, no.15, (article number: 2552). – 25р.  (SCOPUS, Q1, CiteScore highest percentile=87, Web of Science Impact Factor=2,8) https://doi.org/10.3390/math10152552
  3. Kirill Yakunin, Ravil I. Mukhamediev, Elena Zaitseva , Vitaly Levashenko, Marina Yelis, Adilkhan Symagulov, Yan Kuchin, Elena Muhamedijeva, Margulan Aubakirov and Viktors Gopejenko. Mass media as a mirror of the COVID-19 pandemic // Computation 2021, 9(12), 140; https://doi.org/10.3390/computation9120140 (CiteScore highest quartile = Q2, CiteScore =3.3, CiteScore highest percentile=70%) https://www.mdpi.com/2079-3197/9/12/140
  4. Yelis, K. Yakunin, R. Mukhamediev, A. Symagulov, Y. Kuchin, E. Mukhamedieva, N. Yunicheva, F. Abdoldina How to predict the interest of the scientific community in subsections of artificial intelligence? //The 20th Int. scientific. conf. Information technologies and management 2022. — Riga, 2022. — P. 16-17. https://www.ismaitm.lv/theses-2022; https://www.dropbox.com/s/71b993c07tcm92x/06_ITM2022_Yelis_How%20to%20predict%20the%20interest.pdf?dl=0
  5. M Yelis, K Yakunin, R Mukhamediev, A Symagulov, Y Kuchin, E Muhamedijeva, N Yunicheva, F Abdoldina How to estimate mass media? //The 20th Int. conf. Information technologies and management. — Riga, 2022. —  18-19. https://www.ismaitm.lv/theses-2022; https://www.dropbox.com/s/xfi25emob1uv2lc/07_ITM2022_Yelis_How%20to%20estimate%20mass%20media.pdf?dl=0
  6. Юничева Н., Елис М., Якунин К., Мухамедиев Р., Сымагулов А., Кучин Я., Мухамедиева Е. Аналитический обзор  медиаинформации из открытых источников по  теме здравоохранения  в период пандемии COVID-19 //Труды XVIII Международной Азиатской школы-семинара «Проблемы оптимизации сложных систем» (OPCS’22) – Кыргызстан, 2022. – С. 17–41.
  7. O. Yakunin, S. B. Murzakhmetov, R. R. Musabayev, R. I. Mukhamediyev News Popularity Prediction Using Topic Modelling // 2021 IEEE Int. Conf. on Smart Information Systems and Technologies. –Nur-Sultan, 2021. – P. 1-4., doi: 10.1109/SIST50301.2021.9465884
  8. O. Yakunin et al. Reflection of the COVID-19 pandemic in mass media //2021 IEEE Int. Conf. on Information and Digital Technologies (IDT). – Slovakia, 2021. – P. 260-263. https://ieeexplore.ieee.org/abstract/document/9497572
  9. Yelis, Y. Kuchin, A .Symagulov, E. Muhamedieva Explainable machine learning for healthcare decision-making tasks //The 19th int. scientific. conf. Information technologies and management 2021. — Riga, 2021. — P. 56-58.

https://www.ismaitm.lv/images/Files/Theses/2021/01_NC/23_ITM2021_Yelis_Kuchin_Symagulov_Muhamedieva.pdf

  1. Сымагулов А., Кучин Я., Елис М., Жумабаев А., Абдуразаков А. Методы интерпретация черных ящиков машинного обучения и их применение для создания систем поддержки принятия решений // Известия НАН РК. Серия физико-математических наук. – 2021. – №5(339). – С. 91–99. https://journals.nauka-nanrk.kz/physics-mathematics/article/view/2576

Объекты авторского права, акты внедрения

  • Объект авторского права: ЯКУНИН КИРИЛЛ ОЛЕГОВИЧ, Мухамедиев Равиль Ильгизович, Кучин Ян Игоревич, Сымагулов Адилхан, Елис Марина Сергеевна Вид объекта авторского права: программа для ЭВМ Название объекта: Прототип информационной системы для хранения, визуализации и анализа данных о деятельности медицинских учреждений Казахстана Дата создания объекта: 11.07.2022
  • Акты внедрения:
  • Акт внедрения результатов научных исследований проекта № AP09259587 «Разработка методов и алгоритмов интеллектуальной ГИС многокритериального анализа данных системы здравоохранения» в учебном процессе КазНИТУ им. К.И. Сатпаева для обучающихся образовательных программ магистратуры и докторантуры: 7M06101 «Software Engineering», 7M06102 «Machine Learning & Data Science», группы образовательных программ M094 «Информационные технологии» и 8D06101 «Software Engineering», 8D06102 «Machine Learning & Data Science», группы образовательных программ D094 «Информационные технологии» /  Мухамедиев Р. И.; внедрено: 29.04.2022, исх.№ 04-03-311. https://www.dropbox.com/s/fij97kjqcue1ry6/%D0%90%D0%9A%D0%A21_%D0%B2%D0%BD%D0%B5%D0%B4%D1%80%D0%B5%D0%BD%D0%B8%D1%8F_SU.pdf?dl=0
  • Акт внедрения результатов научных исследований проекта № AP09259587 «Разработка методов и алгоритмов интеллектуальной ГИС многокритериального анализа данных системы здравоохранения» в учебном процессе Школы цифровых технологий  УО «Алматы Менеджмент Университет» для обучающихся образовательных программ  бакалавриата 5B070300 «Информационные системы» группы образовательных программ B057 «Информационные технологии» /  Якунин К.О..; внедрено: сентябрь 2022, исх.№ 4. https://www.dropbox.com/s/oun5jas8p524ie0/%D0%90%D0%BA%D1%82_%D0%B2%D0%BD%D0%B5%D0%B4%D1%80%D0%B5%D0%BD%D0%B8%D1%8F_AlmaU_Adobe%20Scan%20May%2014%2C%202022.pdf?dl=0
  • Акт внедрения в образовательный процесс Жилинского университета https://www.dropbox.com/s/klp6tg3q5nznzmb/Act_implementation_Education_IGISMA_Zhilina.pdf?dl=0
  • Акт внедрения результатов НИР в процессе выполнения научной работы в ВУЗе партнере https://www.dropbox.com/s/qunz1kqcwp710x1/Act_implementation_Research_IGISMA_Zhilina.pdf?dl=0

Рабочая группа

Ravil Mukhamedyev Principal invistegator Scopus ➔  ORCID ➔ Publications ➔ mukhamediev.ravil <Ω> gmail.com Kirill Yakunin Lead software engineer Scopus ➔  ORCID ➔ Publications ➔ Yan Kuchin Senior research scientist Scopus ➔  ORCID ➔ Publications ➔ Elena Mukhamedyeva Research scientist Scopus ➔ ORCID ➔ Publications ➔  
  Marina Yelis Junior research scientist Scopus ➔ ORCID ➔ Publications ➔   Adilkhan Symagulov Engineer Scopus ➔ ORCID ➔ Publications ➔