1. Разработка метрик оценки качества распознавания

При решении задачи автоматической классификации литологических типов на урановых месторождениях важными сопутствующими проблемами являются: формализация задачи распознавания, которая, в свою очередь может быть сформулирована в общей, классической постановке, а также в условиях применения множества распознающих алгоритмов как задача комитетного синтеза [1,2]; проблема оценки качества работы алгоритмов классификации, которая, в свою очередь, включает задачи определения (разработки) перечня показателей качества, разработку методики их применения.

В задачах, где программа машинного обучения обучается по результатам экспертных оценок (как в нашем случае), часто затруднительно достоверно оценить качество этих оценок. Несмотря на то, что эксперты задают перечень актуальных признаков объектов, экспертные оценки могут быть противоречивыми или содержать ошибки. Соответственно, обученная система распознавания может интерпретировать данные с ошибками. Иными словами, система машинного обучения в процессе классификации, может решить задачу выбора принадлежности объекта к определенному классу иначе чем эксперт (для данного объекта), то есть, эксперт и сеть могут поместить один и тот же объект в разные классы. Желательно определить максимально и минимально достижимую точность классификации и, соответственно, максимально достижимую степень качества распознавания, которую может дать обучаемая система. Такая оценка послужит обоснованной мерой при анализе архитектур, алгоритмов обучения системы машинного обучения, методов и методик пред- и пост- обработки данных.

В задачах автоматического распознавания литологических типов на урановых месторождениях необходима оценка качества работы алгоритмов распознавания.

В случае с данными каротажа точность классификации может быть существенно различной на разных наборах данных, в частности, на наборах данных, которые участвовали в обучении точность классификации на 10-20% выше. По этой причине для получения более реалистичных результатов рассматривается точность классификации на данных не участвовавших в обучении.

Показатели качества распознавания

В настоящее время в задачах машинного обучения для оценки качества классификации применяется три базовых показателя
Точность (accuracy) — относительное количество корректно классифицированных примеров (процент правильно классифицированных примеров)
В случае с данными каротажа точность классификации может быть существенно различной на разных наборах данных, в частности, на наборах данных, которые участвовали в обучении точность классификации на 10-20% выше. По этой причине для получения более реалистичных результатов рассматривается точность классификации на данных не участвовавших в обучении.
Ошибки классификации (Classification error) — относительное количество ошибочно классифицированных примеров. В свою очередь ошибки классификации разделяются на

  • ошибки на контрольной выборке
  • ошибки скользяшего контроля
  • ошибки, вычисленные по блокам
  • ошибки на случайной подвыборке

Показатели ошибок классификации

Для более тонкой оценки разрабатываемых алгоритмов применяют также показатели ошибок: ошибка на контрольной выборке, ошибка скользящего контроля и методы контроля : контроль по фолдам, контроль на случайной подвыборке.

Метод сравнительной оценки качества классификации
Очевидно, что метод определения качества не должен зависеть от распознающей системы (в нашем случае от нейронной сети — НС).  Именно поэтому для оценки нижней границы предела распознавания с помощью НС предлагается использовать метрику сравнительной точности независимых алгоритмов и выражающуюся в следующее методике (алгоритме) [8]:

  1. Формирование обучающей выборки и ее предобработка (нормировка, сглаживание и т.п.).
  2. Использование алгоритмов распознавания и оценка качества путем сравнения с ответами экспертов. Назовем данную оценку оценкой А.
  3. Использование сформированной обучающей выборки для обучения ANN и применение ее для распознавания и оценка качества путем сравнения с ответами экспертов. Назовем данную оценку оценкой B.
  4. Сравнение результатов пункта 2 и 3.
  5. Если B>=A, — делаем вывод о состоятельности применения ANN для целей распознавания и о состоятельности методов подготовки и применения ANN.

В настоящее время не существуют методов позволяющих с высокой достоверностью оценить качественные показатели обучающего набора и методик применения НС.
В соответствии с предложенной методикой для оценки качества распознавания на базе НС можно использовать  альтернативные методы классификации и распознавания, в качестве которых могут выступать известные алгоритмы классификации:

  • Linear Discriminant Analysis Classifier (LDAC)
  • Support Vector Machine Classification (SVM) (Linear SVM и Non-linear SVM)
  • Diagonal Linear Discriminant Analysis (DLDA)
  • k-Nearest-Neighbor (k-NN)

Метод поинтервальной оценки качества распознавания

В процессе исследовательской работы с экспертами-геологами, была разработана модель, базирующаяся на функциях принадлежности нечеткой логики, позволяющая выполнять такую поинтервальную оценку. Вместо строгого, дискретного обозначения каждого объекта, в разработанной модели используются нечёткие функции принадлежности значения на диаграмме, определенному классу. Причём в середине мощного пласта функция принадлежности достигает максимального значения и плавно (по функции Гаусса) убивает к краям, достигая минимума (нуля) уже за границами пласта. Такие функции принадлежности (рисунок 1) более точно отражают реальную природу подземных пород.

funkciiPrinadlezh
Рисунок 1 — Функции принадлежности различных пород на одной скважине

После этого, для оценки качества возможно сравнение между функциями принадлежности, полученными из интерпретаций экспертов-геологов и распознающей системы. В итоге, мерой оценки качества распознавания становится средняя разность между функциями принадлежности среди всех объектов.

2. Сравнительный анализ методов интерпретации данных электрического каротажа с помощью различных методов машинного обучения

Применяемые алгоритмы и методика исследования

В настоящее время не существуют универсальных методов позволяющих с высокой достоверностью оценить качественные показатели обучающего набора и методик применения ANN.

Предлагается для оценки качества распознавания на базе ANN использовать  альтернативные методы классификации и распознавания, в качестве которых могут выступать известные алгоритмы классификации. В процессе исследования использовались следующие классификационные методы:

  • Linear Discriminant Analysis Classifier (LDAC) [13]
  • Support Vector Classification (SVM) (Linear SVM и Non-linear SVM) [14]
  • Diagonal Linear Discriminant Analysis (DLDA)
  • k-Nearest-Neighbor (k-NN) [15,16]

Для оценки предложенного подхода были проведены серии вычислительных экспериментов.
В качестве исходного набора данных, на которых были проведены вычислительные эксперименты, использовались результаты трех видов электрического каротажа (IK – индукционный каротаж, KS – каротаж методом кажущихся сопротивлений, PS – Каротаж методом естественной поляризации) проведенные на 18 скважинах месторождения «Буденовское».
В процессе обучения ANN множество данных разбивалось на три группы: собственно обучающий набор данных, тестовое и поверочное множество.

Процесс исследования

После предварительных исследований, включающих около 2000 вычислительных экспериментов, были отработаны и экспериментально подтверждены следующие этапы предварительной обработки данных каротажа [19, 20]:

  1. Удаление «закисления» и «выбросов», очистка выборки от шумовых точек
  2. Выставление на один уровень
  3. Вейвлет сглаживание
  4. “Переворот” PS (связанно с особенностями физического процесса получения данных)
  5. Линейная нормировка
  6. Исключение сдвига каротажных кривых
  7. Очистка по методу ближайших соседей
  8. Формирование плавающего окна данных

Обработанные таким образом данные использовались для обучения.

Результаты сравнительного анализа алгоритмов

Нейронная сеть (ANN) и классификационные алгоритмы LDAC, SVM, DLDA, k-NN оценивались в разных сочетаниях и также с применением плавающего окна данных.
Классификационные алгоритмы LDAC, SVM, DLDA, k-NN оценивались в разных сочетаниях и также с применением плавающего окна данных.
Ниже приведена одна из таблиц.

Таблица 1 — Результаты применения LDAC

Комбинация входа Без окна Окно 3 Окно 5 Окно 7
KS_PS_IK 0,53 0,58 0,58 0,57
KS 0,50 0,54 0,54 0,54
PS 0,28 0,28 0,27 0,28
IK 0,33 0,34 0,34 0,34
KS_PS 0,52 0,57 0,57 0,57
KS_IK 0,52 0,57 0,57 0,57
PS_IK 0,33 0,34 0,34 0,34

Результаты вычислительных экспериментов показывают, что для имеющегося набора данных применение алгоритмов классификации дает результат близкий к результатам полученным с помощью ANN. Следовательно, данные алгоритмы, особенно алгоритм k-NN, могут являться в некотором смысле способом оценки нижней границей качества распознавания (омега границы качества распознавания). Эксперименты также показали, что рассмотренные алгоритмы могут использоваться для улучшения качества обучающего набора данных и устранения аномальных значений. В качестве основного алгоритма пригодного для данных целей также использован  алгоритм k-NN.

3. Разработка сайта проекта с результатами применения методов машинного обучения

Для решения задач публикации научных результатов и популяризации работы исследовательской группы, обмена данными с научным сообществом, разработан данный сайт проекта.

4. Реализация метрических и нейросетевых алгоритмов классификации

Перед исследовательской группой была поставлена задача разработать систему для реализации части вышеописанных алгоритмов.
Цель создания системы – разработка удобного и функционального инструмента с гибкой архитектурой для возможных изменений.
Выполняемые задачи системы:

  1. Настройка месторождений и скважин;
  2. Загрузка необработанных данных электрического каротажа – ПС (каротаж потенциалов самопроизвольной поляризации), КС (каротаж сопротивления), ИК (индукционный каротаж);
  3. Пошаговая предобработка загруженных данных:
  4. Определение закисления и выбросов;
  5. Выставление на один уровень;
  6. Линейная нормировка;
  7. Исключение сдвига каротажных кривых.
  8. Обучение и тестирование нейронной сети;
  9. Распознавание пород по данных электрического каротажа с помощью трех алгоритмов:
  10. С использованием обучаемой системы на базе ANN с прямым распространением сигнала;
  11. «Классический способ» определение пород по данным КС
  12. Метрический метод (реализация алгоритма k-NN)
  13. Анализ результатов работы алгоритмов с возможностью сравнения результатов различных алгоритмов и редактирования результатов распознавания.

Краткое описание подходов к реализации системы приведено в работе [21, 22].

Способ реализации

В качестве сервера выступает СУБД PostgreSQL. Для разработки desktop клиента был выбран Delphi 7 с преднастроенным фреймворком. Для работы с нейронной сетью – обучение, тестирование и интерпретация была выбрана библиотека FANN (http://leenissen.dk/fann/wp/). Взаимодействие с библиотекой FANN происходит на серверной стороне.

Система имеет большую графическую составляющую, куда входит работа с результатами распознавания – отображение графиков КС, ПС и ИК, а также графическое отображение пород в сопоставлении с графиком на каждом участке скважины. Имеется возможность редактирования результатов распознавания непосредственно на графике, используя графические обозначения литологического состава.

Интерфейс системы

Система имеет графический интерфейс, позволяющий взаимодействовать с пользователем для выполнения следующих задач:

Пошаговая предобработка загруженных данных.

Данные электрического каротажа предварительно обрабатываются.

Система выполняет шаги предобработки последовательно, при этом показывая на графике изменения данных (рисунок 2).

Рисунок  2 - Пошаговая предобработка загруженных данных
Рисунок 2 — Пошаговая предобработка загруженных данных
Интерпретация данных электрического каротажа

Конечным результатом работы системы является распознавание литологических парод на основе данных электрического каротажа (Рисунок 3).

Рисунок  3 - Пошаговая предобработка загруженных данных
Рисунок 3 — Пошаговая предобработка загруженных данных
Выставление уровней для алгоритма Определения по графику КС

Для более точной работы алгоритма распознавания на основе графика КС необходима его предварительная настройка – выставление уровня литологических парод. Настройка может производиться отдельно для каждого месторождения или группы скважин. Для данной задачи в системе был разработан отдельный функционал.

Рисунок 5 - Выставление уровней для алгоритма Определения по графику КС
Рисунок 4 — Выставление уровней для алгоритма Определения по графику КС
Усовершенствование инструмента распознавания

В целях создания полнофункционального инструмента для выполнения дальнейших исследований, перед командой разработчиков поставлены следующие задачи:

  1.  Реализация алгоритма комитетного синтеза на базе «Simple Integrator of Post-processing Stage» (SIPP), рассмотренного в [23]
  2. Перевод системы на web-платформу с выделенным сервером в Интернете, для обеспечения возможностей удаленной работы.
  3. Реализация в системе дополнительных алгоритмов распознавания.
  4. Реализация в системе дополнительных алгоритмов комитетного синтеза.
Реализация платформы распознавания с использованием мультиагентного подхода

Следующий этап улучшения системы может быть связан с построением системы комитетного синтеза алгоритмов на базе многоагентного подхода. Мультиагентный подход позволяет добиться высокой степени параллелизма, упростить проектирование, реализацию,  обновление системы, а также, обеспечить самоорганизацию системы [24].

 Список использованных источников

  1.  Журавлёв Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Пробл. кибернетики. – М.: Наука, 1978. –Вып. 33. – С. 5–68.
  2. Журавлев Ю.И. Об алгебраических методах в задачах распознавания и классификации. Математические методы и их применение. Распознавание. Классификация. Прогноз. Выпуск 1. – Академия наук СССР, — 1988 г. с. 9-16.
  3. Дьяконов А. Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (Практикум на ЭВМ кафедры математических методов прогнозирования): Учебное пособие. – М.: Издательский отдел факультета ВМК МГУ имени М.В. Ломоносова, 2010. — 277 c.
  4. Амиргалиев Е.Н., Искаков С.Х., Кучин Я.В., Мухамедиев Р.И. Интеграция алгоритмов распознавания литологических типов. Журнал «Проблемы информатики»,Сибирское отделение РАН, N 4(21) 2013, c. 11-20, ISSN 2073-0667
  5. Cohen J. A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 1960:37-46.
  6. RapidMiner and RapidAnalytics. http://www.rapid-i.com/downloads/brochures/RapidMiner_Fact_Sheet.pdf (2014)
  7. David M W Powers The Problem with Kappa. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, pages 345–355, Avignon, France, April 23 — 27 2012.
  8. Амиргалиев Е.Н., Искаков С.A, Кучин Я. В., Мухамедиев Р.И., Мухамедиева Е.Л. Estimation of quality of litological members at the uranium deposits / СРАВНИТЕЛЬНАЯ ОЦЕНКА КАЧЕСТВА РАСПОЗНАВАНИЯ ЛИТОЛОГИЧЕСКИХ СЛОЕВ НА УРАНОВЫХ МЕСТОРОЖДЕНИЯХ. Труды III –й Международной научно-практической конференции «ИКТ: Наука, образование, инновации» Алматы, 20 мая 2013. с. 485-493. ISBN 9965-476-59-4
  9. Stuart Russell and Peter Norvig. Artificial Intelligence: A modern approach. Pearson Edition, Inc., Upper Saddle River, New Jersey 07458. 2010. ISBN-10: 0136042597, ISBN-13:  9780136042594
  10. Guoqiang Peter Zhang. Neural Networks for Classification: A Survey. IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART C: APPLICATIONS AND REVIEWS, VOL. 30, NO. 4, NOVEMBER 2000 http://www-vis.lbl.gov/~romano/mlgroup/papers/neural-networks-survey.pdf
  11. Kostikov D.V. Tools of interpretation of geophysical researches of boreholes on the basis of the transformed logging diagrams by means of a multilayered neural network.-M.: Russian state library, 2007.- 189 p.
  12. Ravil Muhamediyev, Yan Kuchin, Elena Muhamedyeva (2012). Recognition of Geological Rocks At the Bedded-infiltration Uranium Fields by Using Neural Networks. 2012 IEEE Conference on Open Systems, Kuala Lumpur,  IEEE Xplore database, http://cs.ieeemalaysia.org/ICOS2012/ 6 p.(accepted 08.2012) ISBN: 978-1-4673-1044-4, Digital Object Identifier :  10.1109/ICOS.2012.6417622 (Ei Compendex)
  13. Linear discriminant analysis (2012). http://en.wikipedia.org/wiki/Linear_discriminant_analysis
  14. Support vector machine (2012). http://en.wikipedia.org/wiki/Support_vector_machine
  15. Tim Jones. Artificial Intelligence: A Systems Approach. INFINITY SCIENCE PRESS LLC Hingham, Massachusetts, New Delhi, 2008. ISBN: 978-0-9778582-3-1
  16. k-nearest neighbor algorithm (2012) http://en.wikipedia.org/wiki/K-nearest_neighbor_algorithm
  17. Крючин О.В., Козадаев А.С., Дудаков В.П. Прогнозирование временных рядов с помощью искусственных нейронных сетей и регрессионных моделей на примере прогнозирования котировок валютных пар. Электронный научный журнал «ИССЛЕДОВАНО В РОССИИ». http://zhurnal.ape.relarn.ru/articles/2010/030.pdf
  18. Ravil Muhamediyev, Yan Kuchin, Elena Muhamedyeva (2012). Geophysical Research of Boreholes: Artificial Neural Networks Data Analysis. The 6th International Conference on Soft Computing and Intelligent Systems and the 13th International Symposium on Advanced Intelligent Systems November 20-24, 2012, Kobe, Japan (http://scis2012.j-soft.org/?file=home)
  19. Амиргалиев Е.Н., Искаков С.Х., Кучин Я.В., Мухамедиев Р.И.  Методы машинного обучения в задачах распознавания пород на урановых месторождениях. //Известия НАН РК , 2013, №3.  С.82-88.
  20. Амиргалиев Е.Н., Искаков С.Х., Кучин Я.В., Мухамедиев Р.И., Уалиева И.М., Мухамедиева Е.Л. Распознавание пород на урановых месторождениях с использованием методов машинного обучения. Совместный выпуск: Вестник восточно-Казахстанского государственного университет/Вычислительные технологии.Институт вычислительных технологий Сибирского отделения РАН. Том «Информационные и телекоммуникационные технологии».- Усть-Каменогорск, ВКГТУ им. Д. Серикбаева, ИВТ, 2013. ISSN 1561-4212, 1560-7534.  С.232-240.
  21. Muhamediyev, E. Amirgaliev, S. Iskakov, Y. Kuchin, E. Muhamedyeva. Integration of Results of Recognition Algorithms at the Uranium Deposits. JACIII, 2014, Vol.18 No.3. pp. 347-352.
  22. Amirgaliev, Z. Isabaev, S. Iskakov, Y. Kuchin, R. Muhamediyev, E. Muhamedyeva, K. Yakunin Recognition of rocks at uranium deposits by using a few methods of machine learning. Soft Computing in Machine Learning. Advances in Intelligent Systems and Computing,  Volume 273, 2014, pp. 33-40. ISBN: 978-3-319-05532-9 (Print) 978-3-319-05533-6 (Online)
  23. Muhamedyev, S. Iskakov, P.Gricenko, K. Yakunin Y. Kuchin. Integration of results from Recognition Algorithms and its realization at the uranium production process. Proceedings of 8th IEEE International Conference on Application of Information and Communication Technologies — AICT2014, Kazakhstan, Astana, 15-17 October 2014, p.188-191, ISBN 987-1-4799-4120-92, IEEE Catalog Number CFP1456H-PRT.
  24. Gorodetsky V. Self-organizing and multi-agent systems. Bulletin of the Russian Academy of Sciences. Theory and control systems. 2012, N 2, p. 92-120.