Халафян А.А.

Методы машинного обучения в Data Mining пакета STATISTICA

В настоящее время, благодаря совершенствованию технологий сбора и хранения данных в различных областях человеческой деятельности накоплены огромные массивы разнородных данных – количественных, качественных, текстовых, ограниченного и неограниченного объема. Поэтому в дополнении к методам многомерного анализа, как правило, основанных на парадигме среднего, появились современные технологии анализа данных, в частности Data Mining – добычи данных, или интеллектуального анализа данных. Методы машинного обучения Data Mining являются составной частью искусственного интеллекта (ИИ), проникающего практически во все сферы человеческой деятельности. Но ИИ – это программный продукт, разработанный человеком, и эффективность его работы зависит в том, числе и от того насколько правильно применены методы машинного обучения.
Книга написана на основе курсов, читаемых в Кубанском государственном университете для студентов специальности 09.03.03 Прикладная информатика. Освещены методы машинного обучения: деревья решений – общие деревья классификации и регрессии, общие CHAD модели, интерактивные деревья, бустинг деревьев классификации и регрессии, случайные леса регрессии и классификации; процедуры обучения – методы опорных векторов, к-ближайших соседей, наивный байесовский классификатор; автоматизированные нейронные сети и программа DATA MINER.
При описании методов использовались англоязычная версия STATISTICA 10 и Statistica Ultimate Academic for Windows 13 Russian/13 English (Tibco, USA).
Книга адресована студентам, изучающим математические, технические дисциплины, а также аспирантам, преподавателям вузов, научным работникам различных направлений, специалистам в области Data Science, т.е. будет полезна всем, занимающимся анализом данных. Простая и доступная для широкого круга читателей форма изложения делает возможным самостоятельное изучение методов машинного обучения, реализованных в
Data Mining пакета STATISTICA.

ВВЕДЕНИЕ


В современном развивающемся мире неуклонно растут объёмы накопленных данных. Одним из способов их переработки являются современные компьютерные технологии анализа данных, в том числе методы Data Mining в среде пакета STATISTICA.
Термин Data Mining можно перевести как «добыча данных» или «раскопка данных». Нередко под термином Data Mining подразумевают «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Вместе с определением добычи данных, также часто используется словосочетание «Data Warehousing» (хранилище данных). При этом понятие хранилища данных, подразумевает способ хранения больших многомерных массивов данных, позволяющий легко извлекать информацию в процедурах анализа. Возникновение указанных терминов связано с дальнейшим развитием средств и методов обработки данных. В настоящее время термин Data mining – собирательное название, используемое для обозначения методов выявления в данных новых знаний, полезных и необходимых для принятия решений в различных сферах человеческой деятельности. Определение этому термину дал Григорий Пятецкий-Шапиро в 1996 году: Data Mining – исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. Совершенствование технологий сбора, хранения данных позволило накапливать огромные потоки информации в различных областях человеческой деятельности, поэтому применение статистических методов, основанных на парадигме среднего, стало неэффективным. Одна из причин, та, что в основе прикладной статистики лежат операции над виртуальными величинами (средняя температура больных в больнице, средняя зарплата граждан по стране и т.д.). Другая причина в структуре современных данных, которые могут быть разнородными (количественными, качественными, текстовыми) и неограниченного объема.
С помощью «Добычи Данных» можно обработать исходные данные путем запуска автоматизированного поиска закономерностей (паттернов). Данные шаблоны чаще всего ищутся среди фрагментов неоднородных многомерных данных. Процесс добычи данных подразумевает под собой три последовательных этапа выполнения: исследование данных, построение модели и ее проверку. В Data Mining гипотезы формулируются без участия человека, равно как и ищутся необычные (unexpected) шаблоны, чего не скажешь о традиционно используемой оперативной аналитической обработке данных OLAP (online analytical processing). OLAP – технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений [2]. Поэтому, классической математической статистике главным образом свойственна проверка заранее сформулированных исследователем гипотез. В то время как само формулирование гипотезы иногда бывает достаточно сложной и трудоемкой задачей. Ниже приведены примеры формулировок задач при использовании методов OLAP и Data Mining.

OLAP

Data Mining

I. Каковы средние показатели травматизма для курящих и некурящих
I. Какие факторы лучше всего предсказывают несчастные случаи?
II. Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)?
II. Какие характеристики отличают клиентов, которые по всей вероятности, собираются отказаться от услуг телефонной компании?
III. Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карте
III. Каковы схемы покупок, характерные для мошенничества с кредитными карточками?

Data Mining – это не один, а как уже ранее было отмечено, совокупность различных методов обнаружения знаний, например классификация, кластеризация, анализ временных рядов и прогнозирование, нейронные сети и т. д. Выбор метода часто зависит от типа имеющихся данных и от того какую задачу вы планируете решить и какую информацию желаете получить. Важное положение Data Mining в том, что найденные шаблоны должны отражать новые, ранее неизвестные свойства в данных, так называемые скрытые знания (hidden knowledge), которые могут быть использованы для принятия эффективных управленческих решений независимо от области их применения.
Информация, которую можно извлечь при анализе данных, представляет собою выявленные новые закономерности, т.е., как было ранее замечено, новые знания об анализируемом объекте. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
Знания также должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие, так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами, например, средствами визуализации, не оправдывают привлечение мощных методов Data Mining.
Знания должны быть практически полезны, применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Иногда не удается сразу объяснить природу полученных знаний, требуется время, чтобы научные достижения нашли им объяснение. Например, изначально посредством статистических данных было замечено влиянии лунных фаз и солнечных магнитных бурь на состояние живых организмов на Земле. Но лишь по происшествие определенного времени было дано научное объяснение указанным феноменам.
Знания должны быть интерпретируемы, т.е., доступны для понимания человеку и представлены в понятном для него виде. В Data Mining для представления полученных знаний служат модели и графические возможности визуализации. Виды моделей зависят от методов их создания. Наиболее распространенными являются: правила, или алгоритмы, деревья решений, кластеры и математические соотношения.
Различают пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование.
Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.
Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.
С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил, позволяющих предсказать принадлежность объектов к той, или иной группе.
Кластеризация отличается от классификации тем, что сами однородные группы (кластеры) сходных (похожих) между собою объектов заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные кластеры заданной совокупности данных.
Основой для всевозможных систем прогнозирования служит историческая информация, представленная в виде временных рядов. Если удается найти модели, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.
Сфера применения Data Mining ничем не ограничена – Data Mining нужна везде, где имеются какие-либо данные. Опыт многих реализованных проектов показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. Приводятся сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример – годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании. Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Представители бизнеса и государственных структур осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.
Технологии Data Mining успешно применяются в торговле. Это и анализ покупательской корзины, изучение характера потребностей различных категорий клиентов с определенным поведением, создание товарных запасов. Data Mining используют в банковском деле для решения таких распространенных задач как выявление мошенничества с кредитными карточками, сегментация клиентов, прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели потенциала своих клиентов, и соответствующим образом обслуживать каждую категорию. Data Mining успешно применяют в области Интернет технологий, телекоммуникаций, страховании, логистики транспортных и авиакомпаний, медицине, молекулярной генетике, прикладной химии. Можно продолжить список примеров различных областей знания и практической деятельности, где применимы методы Data Mining. Особенность этих областей заключается в их сложной системной организации, закономерности которой не могут быть достаточно точно описаны на языке статистических или математических моделей. Как правило, данные в указанных областях неоднородны, гетерогенны, нестационарны и высокой размерности.
Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных, экспертных систем и др. Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining.
Таким образом, Data Mining это мощный инструментарий для обработки и, анализа данных сложной структуры и его применение в настоящее время весьма актуально.
В пакете STATISTICA Data Mining состоит из широкого спектра модулей.

Таблица White wine в STATISTICA для самостоятельной работы с пособием