В настоящее время искусственный интеллект (ИИ) проникает во все сферы человеческой деятельности – финансы, промышленность, государственное управление, военное дело, медицина и др. Можно условно выделить три основных направления в медицине, в которых активно применяются методы ИИ. Это – диагностика заболеваний посредством обработки изображений, полученных рентгеновским аппаратом, КТ, МРТ и др.; создание новых лекарственных препаратов; обработка медицинских записей с целью прогнозирования возможных состояний больных, исходов лечения, длительности лечения, диагнозов и т.д. Во всех направлениях применяется машинное обучение, состоящее из методов и алгоритмов ИИ, которые в процессе решения задачи обучаются на исходных данных:
– первое направление, называемое компьютерным зрением, использует алгоритмы, которые учатся «видеть», извлекая информацию из изображений для идентификации объектов на них;
– второе направление применяет алгоритмы глубокого машинного обучения на основе многослойных нейронных сетей со сложной математической структурой, обучение происходит на данных больших объемов для выявления закономерностей и последующего прогнозирования;
– третье направление использует алгоритмы методов классификации и регрессии машинного обучения.
Издание, в какой-то степени, является продолжением предыдущей книги автора «Методы машинного обучения в Data Mining пакета STATISTICA, М.: Горячая линия – Телеком», посвященной решению задач классификации методами машинного обучения. Но, в отличие от указанной книги, дополнительно рассмотрено решение задачи регрессии, причем изложение ведется на примерах общедоступных в Интернете датасет (
https://www.kaggle.com) медицинского характера, что облегчает понимание материала медиками и дает возможность читателю повторить приведенные результаты расчетов. Вне зависимости от области применения машинное обучение, включающее методы математики, статистики, информатики, теории вероятностей и т.д. не меняет своей сути, поэтому издание будет понимаемо всеми, кто интересуется компьютерной аналитикой данных.
Книга написана на основе курсов по добыче данных,, читаемых в Кубанском государственном университете для студентов специальности 09.03.03 Прикладная информатика. Освещены методы машинного обучения Data Mining пакета STATISTICA: деревья решений – общие деревья классификации и регрессии, общие CHAD модели, интерактивные деревья, бустинг деревьев классификации и регрессии, случайные леса регрессии и классификации; процедуры обучения – методы опорных векторов, k-ближайших соседей, наивный байесовский классификатор; автоматизированные нейронные сети. Показано, что, несмотря на то, что методы машинного обучения ориентированы на решение задач с большими данными, они могут быть успешно применены для решения задач небольших объемов. При описании методов использована русскоязычная версия пакета STATISTICA 13 (Tibco, USA).
Книга адресована студентам, изучающим математические, технические, медицинские дисциплины, а также аспирантам, преподавателям вузов, научным работникам различных направлений, специалистам в области Data Science, т.е. будет полезна всем, занимающимся компьютерной аналитикой. Простая и доступная для широкого круга читателей форма изложения, использование датасет свободного доступа, делает возможным самостоятельное изучение методов машинного обучения Data Mining пакета STATISTICA, описанных в издании.