ОБЗОР НЕКОТОРЫХ МЕТОДОВ АНАЛИЗА ДАННЫХ

I. Традиционные методы статистического анализа

Объектом исследования в прикладной статистике являются статистические данные, полученные в результате наблюдений или экспериментов. Статистические данные – это совокупность объектов, или наблюдений, случаев и признаков – переменных, их характеризующих. Например, объекты исследования – это страны мира, признаки – это географические и экономические показатели их характеризующие: континент; высота местности над уровнем моря; среднегодовая температура; место страны в списке по качеству жизни и т.д.

Переменные – это величины, которые в результате измерения могут принимать различные значения.

Независимые переменные – это переменные, значения которых в процессе эксперимента можно изменять, а зависимые переменные – это переменные, значения которых можно только измерять.

Измерительные шкалы. Переменные могут быть измерены в различных шкалах. Различие шкал определяется их информативностью. Рассматривают следующие типы шкал, представленные в порядке возрастания их информативности: номинальная, порядковая, интервальная, шкала отношений, абсолютная. Эти шкалы отличаются друг от друга также и количеством допустимых математических действий. Самая «бедная» шкала – номинальная, так как в ней не определена ни одна арифметическая операция, самая «богатая» – абсолютная.

Измерение в номинальной (классификационной) шкале означает определение принадлежности объекта (наблюдения) к тому или иному классу. Например: пол, род войск, профессия, континент и т.д. В этой шкале можно лишь посчитать количество объектов в классах – частоту и относительную частоту.

Измерение в порядковой (ранговой) шкале, помимо определения класса принадлежности, позволяет упорядочить наблюдения, сравнив их между собой в каком-то отношении. Однако эта шкала не определяет дистанцию между классами, а только то, какое из двух наблюдений предпочтительнее. Поэтому порядковые экспериментальные данные, даже если они изображены цифрами, нельзя рассматривать как числа и выполнять над ними арифметические операции. В этой шкале дополнительно к подсчету частоты объекта можно вычислить ранг объекта. Примеры переменных, измеренных в порядковой шкале: бальные оценки учащихся, призовые места на соревнованиях, воинские звания, место страны в списке по качеству жизни и т.д. Иногда номинальные и порядковые переменные называют категориальными, или группирующими, так как они позволяют произвести разделение объектов исследования на подгруппы.

При измерении в интервальной шкале упорядочивание наблюдений можно выполнить настолько точно, что известны расстояния между любыми двумя их них. Шкала интервалов единственна с точностью до линейных преобразований (y = ax + b). Это означает, что шкала имеет произвольную точку отсчета – условный нуль. Примеры переменных, измеренных в интервальной шкале: температура, время, высота местности над уровнем моря. Над переменными в данной шкале можно выполнять операцию определения расстояния между наблюдениями. Расстояния являются полноправными числами и над ними можно выполнять любые арифметические операции.

Шкала отношений похожа на интервальную шкалу, но она единственна с точностью до преобразования вида y = ax. Это означает, что шкала имеет фиксированную точку отсчета – абсолютный нуль, но произвольный масштаб измерения. Примеры переменных, измеренных в шкале отношений: длина, вес, сила тока, количество денег, расходы общества на здравоохранение, средняя продолжительность жизни и т.д. Измерения в этой шкале – полноправные числа и над ними можно выполнять любые арифметические действия.

Абсолютная шкала имеет и абсолютный нуль, и абсолютную единицу измерения (масштаб). Примером абсолютной шкалы является числовая прямая. Эта шкала безразмерна, поэтому измерения в ней могут быть использованы в качестве показателя степени или основания логарифма. Примеры измерений в абсолютной шкале: доля безработицы; доля безграмотных, индекс качества жизни и т.д.

Большинство статистических методов относятся к методам параметрической статистики, в основе которых лежит предположение, что случайный вектор переменных образует некоторое многомерное распределение, как правило, нормальное или преобразуется к нормальному распределению. Если это предположение не находит подтверждения, следует воспользоваться непараметрическими методами математической статистики.

Корреляционный анализ. Между переменными может существовать функциональная связь, проявляющаяся в том, что одна из них определяется как функция от другой. Но между переменными может существовать и связь другого рода, проявляющаяся в том, что одна из них реагирует на изменение другой изменением своего закона распределения. Такую связь называют стохастической. Она появляется в том случае, когда имеются общие случайные факторы, влияющие на обе переменные. В качестве меры зависимости между переменными используется коэффициент корреляции (r), который изменяется в пределах от –1 до +1. Если коэффициент корреляции отрицательный, это означает, что с увеличением значений одной переменной значения другой убывают. Если переменные независимы, то коэффициент корреляции равен 0 (обратное утверждение верно только для переменных, имеющих нормальное распределение). Но если коэффициент корреляции не равен 0 (переменные называются некоррелированными), то это значит, что между переменными существует зависимость. Чем ближе значение r к 1, тем зависимость сильнее. Коэффициент корреляции достигает своих предельных значений +1 или -1, тогда и только тогда, когда зависимость между переменными линейная. Корреляционный анализ позволяет установить силу и направление стохастической взаимосвязи между переменными (случайными величинами). Если переменные измерены, как минимум, в интервальной шкале и имеют нормальное распределение, то корреляционный анализ осуществляется посредством вычисления коэффициента корреляции Пирсона, в противном случае используются корреляции Спирмена, Кендалла, или Гамма.
Регрессионный анализ. В регрессионном анализе моделируется взаимосвязь одной случайной переменной от одной или нескольких других случайных переменных. При этом, первая переменная называется зависимой, а остальные – независимыми. Выбор или назначение зависимой и независимых переменных является произвольным (условным) и осуществляется исследователем в зависимости от решаемой им задачи. Независимые переменные называются факторами, регрессорами или предикторами, а зависимая переменная –
результативным признаком, или откликом.

Если число предикторов равно 1, регрессию называют простой, или однофакторной, если число предикторов больше 1 – множественной или многофакторной. В общем случае регрессионную модель можно записать следующим образом:

y = f (x1, x2, …, xn),


где y – зависимая переменная (отклик), xi (i = 1,…, n) – предикторы (факторы), n – число предикторов.
Посредством регрессионного анализа можно решать ряд важных для исследуемой проблемы задач:
1). Уменьшение размерности пространства анализируемых переменных (факторного пространства), за счет замены части факторов одной переменной – откликом. Более полно такая задача решается факторным анализом.
2). Количественное измерение эффекта каждого фактора, т.е. множественная регрессия, позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшим предиктором для...». При этом, становится более ясным воздействие отдельных факторов на отклик, и исследователь лучше понимает природу изучаемого явления.
3). Вычисление прогнозных значений отклика при определенных значениях факторов, т.е. регрессионный анализ, создает базу для вычислительного эксперимента с целью получения ответов на вопросы типа «Что будет, если…?».
4). В регрессионном анализе в более явной форме выступает причинно-следственный механизм. Прогноз при этом лучше поддается содержательной интерпретации.

Канонический анализ. Канонический анализ предназначен для анализа зависимостей между двумя списками признаков (независимых переменных), характеризующих объекты. Например, можно изучить зависимость между различными неблагоприятными факторами и появлением определенной группы симптомов заболевания, или взаимосвязь между двумя группами клинико-лабораторных показателей (синдромов) больного. Канонический анализ является обобщением множественной корреляции как меры связи между одной переменной и множеством других переменных. Как известно, множественная корреляция есть максимальная корреляция между одной переменной и линейной функцией других переменных. Эта концепция была обобщена на случай связи между множествами переменных – признаков, характеризующих объекты. При этом достаточно ограничиться рассмотрением небольшого числа наиболее коррелированных линейных комбинаций из каждого множества. Пусть, например, первое множество переменных состоит из признаков у1, …, ур, второе множество состоит из – х1, …, хq, тогда взаимосвязь между данными множествами можно оценить как корреляцию между линейными комбинациями a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq,, которая называется канонической корреляцией. Задача канонического анализа в нахождении весовых коэффициентов таким образом, чтобы каноническая корреляция была максимальной.

Параметрические методы сравнения средних выборок. В прикладных исследованиях часто встречаются случаи, когда средний результат некоторого признака одной серии экспериментов отличается от среднего результата другой серии. Так как средние − это результаты измерений, то, как правило, они всегда различаются, вопрос в том, можно ли объяснить обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано определенными причинами. Если идет речь о сравнении двух средних, то можно применять критерий Стьюдента (t-критерий). Это параметрический критерий, так как предполагается, что признак имеет нормальное распределение в каждой серии экспериментов.

Сравнение средних − один из способов выявления зависимостей между переменными − признаками, характеризующими исследуемую совокупность объектов (наблюдений). Если при разбиении объектов исследования на подгруппы при помощи категориальной независимой переменной (предиктора) верна гипотеза о неравенстве средних некоторой зависимой переменной в подгруппах, то это означает, что существует стохастическая взаимосвязь между этой зависимой переменной и категориальным предиктором. Так, например, если установлено, что неверна гипотеза о равенстве средних показателей физического и интеллектуального развития детей в группах матерей, куривших и не куривших в период беременности, то это означает, что существует зависимость между курением матери ребенка в период беременности и его интеллектуальным и физическим развитием.

Наиболее общий метод сравнения средних − дисперсионный анализ. В терминологии дисперсионного анализа категориальный предиктор называется фактором.

Дисперсионный анализ можно определить как параметрический, статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования экспериментов. Поэтому в дисперсионном анализе можно исследовать зависимость количественного признака от одного или нескольких качественных признаков − факторов. Если рассматривается один фактор, то применяют однофакторный дисперсионный анализ, в противном случае используют многофакторный дисперсионный анализ.

Непараметрические методы сравнения выборок. Для сравнения более чем двух независимых групп применяют критерии Краскела – Уоллиса и медианный тест, которые являются непараметрическими альтернативами однофакторного дисперсионного анализа. Файл должен содержать группирующую переменную. Для сравнения двух независимых групп данных используют критерии Вальда – Вольфовица, Колмогорова – Смирнова, Манна – Уитни, являющиеся непараметрическими альтернативами t-критерия для двух независимых выборок. Для сравнения более чем двух зависимых групп используют критерий Фридмана, который является непараметрической альтернативой однофакторному дисперсионному анализу с повторными измерениями. Под зависимыми группами (выборками) в пакете STATISTICA понимаются группы с одними и теми же многократно измеряемыми наблюдениями. Для сравнения средних в двух зависимых выборках используют критерии знаков и Вилкоксона, которые являются непараметрической альтернативой t-критерия сравнения средних в двух зависимых выборках.
Частотный анализ. Таблицы частот, или как еще их называют одновходовые таблицы, представляют собой простейший метод анализа категориальных переменных. Таблицы частот могут быть с успехом использованы также для исследования количественных переменных, хотя при этом могут возникнуть трудности с интерпретацией результатов. Данный вид статистического исследования часто используют как одну из процедур разведочного анализа, чтобы посмотреть, каким образом различные группы наблюдений распределены в выборке, или как распределено значение признака на интервале от минимального до максимального значения. Как правило, таблицы частот графически иллюстрируются при помощи гистограмм.
Кросстабуляция (сопряжение) – процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка в таблице представляется единственной комбинацией значений или уровней табулированных переменных. Кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно выявить связи между табулированными переменными и исследовать структуру этой связи. Обычно табулируются категориальные или количественные переменные с относительно небольшим числом значений. Если надо табулировать непрерывную переменную (предположим, уровень сахара в крови), то вначале ее следует перекодировать, разбив диапазон изменения на небольшое число интервалов (например, уровень: низкий, средний, высокий).
Анализ соответствий. Анализ соответствий по сравнению с частотным анализом содержит более мощные описательные и разведочные методы анализа двухвходовых и многовходовых таблиц. Метод, так же, как и таблицы сопряженности, позволяет исследовать структуру и взаимосвязь группирующих переменных, включенных в таблицу. В классическом анализе соответствий частоты в таблице сопряженности стандартизуются (нормируются) таким образом, чтобы сумма элементов во всех ячейках была равна 1.

Одна из целей анализа соответствий – представление содержимого таблицы относительных частот в виде расстояний между отдельными строками и/или столбцами таблицы в пространстве более низкой размерности.
Кластерный анализ. Кластерный анализ – это метод классификационного анализа; его основное назначение – разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному признаку, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы. Так как кластеры – это группы однородности, то задача кластерного анализа заключается в том, чтобы на основании признаков объектов разбить их множество на m (m – целое) кластеров так, чтобы каждый объект принадлежал только одной группе разбиения. При этом объекты, принадлежащие одному кластеру, должны быть однородными (сходными), а объекты, принадлежащие разным кластерам, – разнородными. Если объекты кластеризации представить как точки в n-мерном пространстве признаков (n – количество признаков, характеризующих объекты), то сходство между объектами определяется через понятие расстояния между точками, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более схожи.

Дискриминантный анализ. Цель дискриминантного анализ состоит в том, чтобы на основе измерения различных характеристик (признаков) объекта классифицировать его, т. е. отнести к одной из нескольких заданных групп (классов) некоторым оптимальным способом. При этом предполагается, что исходные данные наряду с признаками объектов содержат категориальную (группирующую) переменную, которая определяет принадлежность объекта к той или иной группе. Так как группирующая переменная создается специалистом, дискриминантный анализ называют машинным обучением с учителем, или контролируемым обучением. В задачах кластеризации – разделения данных на группы однородности по совокупности категориальных, или непрерывных переменных, группирующая переменная не требуется. Поэтому соответствующий способ называют машинным обучением без учителя, или неконтролируемым обучением.

Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. Методы дискриминации можно условно разделить на параметрические и непараметрические. В параметрических известно, что распределение векторов признаков в каждой совокупности нормально, но нет информации о параметрах этих распределений. Непараметрические методы дискриминации не требуют знаний о точном функциональном виде распределений и позволяют решать задачи дискриминации на основе незначительной априорной информации о совокупностях, что особенно ценно для практических применений. Если выполняются условия применимости дискриминантного анализа – независимые переменные–признаки (их еще называют предикторами) должны быть измерены как минимум в интервальной шкале, их распределение должно соответствовать нормальному закону, необходимо воспользоваться классическим дискриминантным анализом, в противном случае – методом общие модели дискриминантного анализа.

Факторный анализ. Факторный анализ – один из наиболее популярных многомерных статистических методов. Если кластерный и дискриминантный методы классифицируют наблюдения, разделяя их на группы однородности, то факторный анализ классифицирует признаки (переменные), описывающие наблюдения. Поэтому главная цель факторного анализа – сокращение числа переменных на основе классификация переменных и определения структуры взаимосвязей между ними. Сокращение достигается путем выделения скрытых (латентных) общих факторов, объясняющих связи между наблюдаемыми признаками объекта, т.е. вместо исходного набора переменных появится возможность анализировать данные по выделенным факторам, число которых значительно меньше исходного числа взаимосвязанных переменных.
Деревья классификации. Деревья классификации – это непараметрический метод классификационного анализа, позволяющий предсказывать принадлежность объектов к тому или иному классу в зависимости от значений признаков, характеризующих их. В отличие от классического дискриминантного анализа, деревья классификации способны выполнять одномерное ветвление по переменными различных типов − категориальным, порядковым, интервальным. Не накладываются какие-либо ограничения на закон распределения количественных переменных. По аналогии с дискриминантным анализом метод дает возможность анализировать вклады отдельных переменных в процедуру классификации. Деревья классификации могут быть, а иногда и бывают, очень сложными. Однако использование специальных графических процедур позволяет упростить интерпретацию результатов даже для очень сложных деревьев. Возможность графического представления результатов и простота интерпретации во многом объясняют большую популярность деревьев классификации в прикладных областях, однако, наиболее важные отличительные свойства деревьев классификации – их иерархичность и широкая применимость.
Анализ главных компонент и классификация. На практике часто возникает задача анализа данных большой размерности. Метод анализ главных компонент и классификация позволяет решить эту задачу и служит для достижения двух целей:
– уменьшение общего числа переменных (редукция данных) за счет выделения скрытых факторов, называемых главными компонентами;
– классификация переменных и наблюдений, при помощи строящегося факторного пространства.
Метод имеет сходство с факторным анализом в постановочной части решаемых задач, но имеет ряд существенных отличий:
– при анализе главных компонент не используются итеративные методы для извлечения факторов;
– наряду с активными переменными и наблюдениями, используемыми для извлечения главных компонент, можно задать вспомогательные переменные и/или наблюдения; затем вспомогательные переменные и наблюдения проектируются на факторное пространство, вычисленное на основе активных переменных и наблюдений;
– метод можно использовать как мощное средство для классификации одновременно переменных и наблюдений.
Решение основной задачи метода достигается созданием векторного пространства латентных факторов с размерностью меньше исходной.
Многомерное шкалирование. Метод можно рассматривать как альтернативу факторному анализу, в котором достигается сокращение числа переменных, путем выделения латентных факторов, объясняющих связи между наблюдаемыми переменными. Цель многомерного шкалирования – поиск и интерпретация латентных переменных, дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Сходство объектов определяется через матрицу расстояний, построение которой доступно в методе иерархической классификации кластерного анализа. Многомерное шкалирование не накладывает ограничений на непрерывные данные, оно может быть применимо, если задана матрица парных сходств объектов. Основное предположение многомерного шкалирования заключается в том, что существует некоторое метрическое пространство базовых характеристик, которые неявно и послужили основой для полученных эмпирических данных о близости между парами объектов. Следовательно, объекты можно представить как точки в этом пространстве, при этом более близким объектам соответствуют меньшие расстояния в пространстве базовых характеристик.
Моделирование структурными уравнениями (причинное моделирование). Наметившийся в последнее время прогресс в области многомерного статистического анализа и анализа корреляционных структур, объединенный с новейшими вычислительными алгоритмами, послужил отправной точкой для создания новой, но уже получившей признание техники моделирования структурными уравнениями (SEPATH). Эта необычайно мощная техника многомерного анализа включает методы из различных областей статистики, множественная регрессия и факторный анализ получили здесь естественное развитие и объединение.

Постановка задачи структурного моделирования выглядит следующим образом. Пусть имеются переменные, для которых известны статистические моменты, например, матрица выборочных коэффициентов корреляции или ковариации. Такие переменные называются явными. Они могут быть характеристиками сложной системы. Реальные связи между наблюдаемыми явными переменными могут быть достаточно сложными, однако предполагаем, что имеется некоторое число скрытых переменных, которые с известной степенью точности объясняют структуру этих связей. Таким образом, с помощью латентных переменных строится модель связей между явными и неявными переменными. В некоторых задачах латентные переменные можно рассматривать как причины, а явные – как следствия, поэтому, такие модели называются причинными. Допускается, что скрытые переменные, в свою очередь, могут быть связаны между собой. Структура связей допускается достаточно сложной, однако тип ее постулируется – это связи, описываемые линейными уравнениями. Какие-то параметры линейных моделей известны, какие-то нет, и являются свободными параметрами. Основная идея моделирования структурными уравнениями состоит в том, что можно проверить, связаны ли переменные Y и X линейной зависимостью Y = aX, анализируя их дисперсии и ковариации. Эта идея основана на простом свойстве среднего и дисперсии: если умножить каждое число на некоторую константу k, среднее значение также умножится на k, при этом стандартное отклонение умножится на модуль k.
Методы анализа выживаемости. Методы анализа выживаемости первоначально были развиты в медицинских, биологических исследованиях и страховании, но затем стали широко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах – анализ надежности и времен отказов. Представьте, что изучается эффективность нового метода лечения или лекарственного препарата. Очевидно, наиболее важной и объективной характеристикой является средняя продолжительность жизни пациентов с момента поступления в клинику или средняя продолжительность ремиссии заболевания. Для описания средних времен жизни или ремиссии можно было бы использовать стандартные параметрические и непараметрические методы. Однако в анализируемых данных есть существенная особенность – могут найтись пациенты, которые в течение всего периода наблюдения выжили, а у некоторых из них заболевание все еще находится в стадии ремиссии. Также может образоваться группа больных, контакт с которыми был потерян до завершения эксперимента (например, их перевели в другие клиники). При использовании стандартных методов оценки среднего эту группу пациентов пришлось бы исключить, тем самым, потеряв с трудом собранную важную информацию. К тому же в течение времени наблюдения большинство пациентов являются выжившими, что свидетельствует в пользу нового метода лечения. Такого рода информация, когда нет данных о наступлении интересующего нас события, называется неполной. Если есть данные о наступлении интересующего нас события, то информация называется полной. Наблюдения, которые содержат неполную информацию, называются цензурированными наблюдениями. Цензурированные наблюдения типичны, когда наблюдаемая величина представляет время до наступления некоторого критического события, а продолжительность наблюдения ограничена по времени. Использование цензурированных наблюдений составляет специфику рассматриваемого метода – анализа выживаемости. Построение таблиц времен жизни, подгонка распределения выживаемости, оценивание функции выживания с помощью процедуры Каплана – Мейера относятся к описательным методам исследования цензурированных данных. Некоторые из предложенных методов позволяют сравнивать выживаемость в двух и более группах. Наконец, анализ выживаемости содержит регрессионные модели для оценивания зависимостей между многомерными непрерывными переменными со значениями, аналогичными временам жизни.
Общие модели дискриминантного анализа. Если не выполняются условия применимости классического дискриминантного анализа (ДА) – предикторы должны быть измерены как минимум в интервальной шкале, с распределением, соответствующим нормальному закону, необходимо воспользоваться методом общие модели дискриминантного анализа (ОДА). Метод имеет такое название, потому что в нем для анализа дискриминантных функций используется общая линейная модель. В этом модуле анализ дискриминантных функций рассматривается как общая многомерная линейная модель, в которой категориальная зависимая переменная – отклик представляется векторами с кодами, обозначающими различные группы для каждого наблюдения. Метод ОДА имеет ряд существенных преимуществ перед классическим дискриминантным анализом. Например, не устанавливается никаких ограничений на тип используемых предикторов, могут быть категориальными, или непрерывными. Так же нет ограничений на выбор метода – может быть пошаговый выбор предикторов модели, либо лучшего подмножества, или всех предикторов.
Общие линейные модели. В классическом регрессионном анализе предполагается, что отклик и предикторы – это непрерывные случайные величины, имеющие нормальное распределение. Однако в некоторых задачах в качестве предикторов наряду с непрерывными переменными целесообразно рассматривать категориальные переменные, измеренные в номинальной или порядковой шкале. В этом случае для построения регрессионной модели следует использовать метод Общие линейные модели, который реализован в пакете STATISTICA при помощи одноименного модуля. В методе для кодирования значений категориальных предикторов используется сигма-ограниченная параметризация, предполагающая кодирование значений переменных кодами 1, -1, или 0.
Ковариационный анализ. В терминологии ковариационного анализа пакета STATISTICA категориальные предикторы и их комбинации называются эффектами. Дисперсионный анализ позволяет построить регрессионную модель зависимости отклика от эффектов. Регрессионный анализ позволяет исследовать зависимость количественного признака − отклика от одной, или нескольких независимых количественных предикторов (факторов) и построить математическую модель зависимости, которая называется уравнением регрессии. В отличие от дисперсионного и регрессионного анализа ковариационный анализ − раздел анализа данных, ставящий своей целью исследовать характер взаимосвязи между зависимой величиной – откликом и набором количественных и качественных независимых величин – предикторов и построить регрессионную модель, т.е. он является как бы синтезом регрессионного и дисперсионного анализа. Независимые количественные переменные, относящиеся к интервальной шкале или к шкале отношений (метрической), называются ковариатами. Поэтому, в качестве ковариат должна использоваться непрерывная величина, или дискретная (порядковая) с большим количеством значений. Если в дисперсионном анализе оценивается степень случайной изменчивости отклика со стороны эффектов – категориальных предикторов и их комбинаций, то в ковариационном анализе оценивается степень изменчивости отклика также и со стороны непрерывных предикторов, называемых ковариатами. В отношении ковариат делаются предположения о том, что они наряду с эффектами обуславливают некоторую долю вариации (изменчивости) зависимой переменной. Если степень изменчивости отклика от ковариат велика, то мы говорим о статистически значимом воздействии ковариат на отклик.
Позиционный анализ. Как правило, погрешности измерений оказывают значительное влияние на результаты, существенно искажая их. Поэтому, во многих областях знания и практической деятельности точное измерение переменных является важной и сложной задачей. Особенно это актуально там, где в принципе невозможно точное измерений переменных. В первую очередь, это психиатрия, психология, социология. Например, в психиатрии от точности произведенных измерений (результатов опроса) зависит правильность диагноза заболевания, в психологии качество измерения личностных характеристик влияет на правильность составления психологического портрета, в социологии ненадежные измерения могут быть причиной неверного прогноза в поведении людей и т.д. По этому поводу уместными будут слова основателя биометрики Гальтона: «психология не может стать прочной и точной, как физические науки, если не будет основываться на эксперименте и измерении», еще более примечательной является фраза Галилея: «измеряй все, поддающееся измерению, и сделай таким все, не поддающееся измерению». Метод Надежность и позиционный анализ предназначен для построения надежных анкет (шкал), а также анализа и улучшения используемой шкалы. Оценивание надежности шкалы основано на корреляциях между индивидуальными позициями или измерениями, составляющими шкалу, и дисперсиями этих измерений.
Логлинейный анализ. Одним из основных методов анализа взаимосвязи категориальных переменных, или факторов является сопряжение, заключающееся в построении и анализе многомерных таблиц частот. Например, в медицине можно табулировать частоты различных симптомов заболевания по возрасту и полу пациентов; табулировать число выживших пациентов в зависимости от применяемых методов лечения и т.д. Логлинейный анализ является более «глубоким» методы исследования многомерных таблиц, а именно, этот метод посредством моделирования частот в таблицах сопряженности позволяет проверить статистическую значимость различных факторов и их взаимодействий. Логлинейный анализ имеет сходство с дисперсионным анализом и регрессионным анализом. Для проведения логлинейного анализа все переменные должны быть измерены в категориальной шкале. При анализе категориальных переменных также уместно ввести понятие зависимых и независимых переменных. Зависимые переменные, это те переменные, поведение которых мы пытаемся объяснить, то есть, предполагаем, что эти переменные зависят от независимых переменных – предикторов. Например, состояние больного можем рассматривать как переменную, зависимую от методов лечения, или различные симптомы заболеваний можем рассматривать как переменные, зависимые от возраста, или пола специалистов. В этом случае в терминологии логлинейного анализа зависимую переменную будем называть переменной отклика, или просто откликом, а независимые – объясняющими или предикторными переменными. Переменные отклика – это те переменные, которые изменяются в ответ на изменение объясняющих переменных. Понятно, что такое разделение достаточно условно и зависит от содержательной постановки решаемой задачи. Таким образом, предикторами в логлинейной модели выступают категориальные переменные и их взаимодействия. Логлинейная модель представляет собой линейную множественную модель регрессии. Зависимая переменная в логлинейной модели представляет собой натуральный логарифм соответствующей частоты многомерной таблицы сопряженности. Использование логарифма обуславливает линейность модели, что нашло отражение в названии модели – логарифмическая линейная модель.
Временные ряды. Временные ряды – это наиболее интенсивно развивающееся, перспективное направление математической статистики. Под временным (динамическим) рядом подразумевается последовательность наблюдений некоторого признака Х (случайной величины) в последовательные равноотстоящие моменты t. Отдельные наблюдения называются уровнями ряда и обозначаются хt, t = 1, …, n. При исследовании временного ряда выделяются несколько составляющих:
где ut – тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов (убыль населения, уменьшение доходов и т.д.); – сезонная компонента, отражающая повторяемость процессов в течение не очень длительного периода (дня, недели, месяца и т.д.); сt – циклическая компонента, отражающая повторяемость процессов в течение длительных периодов времени свыше одного года; t – случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов. Первые три компоненты представляют собой детерминированные составляющие. Случайная составляющая образована в результате суперпозиции большого числа внешних факторов, каждый в отдельности оказывающих незначительное влияние на изменение значений признака Х. Анализ временного ряда позволит строить модели для прогнозирования значений признака Х на будущее время, если известна последовательность наблюдений в прошлом.

Промышленная статистика

Планирование экспериментов. Искусство располагать наблюдения в определенном порядке или проводить специально спланированные проверки с целью полного использования возможностей этих методов и составляет содержание предмета «планирование эксперимента». В настоящее время экспериментальные методы широко используются как в науке, так и в различных областях практической деятельности. Обычно основная цель научного исследования состоит в том, чтобы показать статистическую значимость эффекта воздействия определенного фактора на изучаемую зависимую переменную. Как правило, основная цель планирования экспериментов заключается в извлечении максимального количества объективной информации о влиянии изучаемых факторов на интересующий исследователя показатель (зависимую переменную) с помощью наименьшего числа дорогостоящих наблюдений. К сожалению, на практике, в большинстве случаев, недостаточное внимание уделяется планированию исследований. Собирают данные (столько, сколько могут собрать), а потом уже проводят статистическую обработку и анализ. Но сам по себе правильно проведенный статистический анализ недостаточен для достижения научной достоверности, поскольку качество любой информации, получаемой в результате анализа данных, зависит от качества самих данных. Поэтому планирование экспериментов находит все большее применение в прикладных исследованиях. Целью методов планирования экспериментов является изучение влияния определенных факторов на исследуемый процесс и поиск оптимальных уровней факторов, определяющих требуемый уровень течения данного процесса.
Карты контроля качества. В условиях современного мира чрезвычайно актуальным является проблема качества не только выпускаемой продукции, но и услуг оказываемых населению. От успешного решения этой важной проблемы в значительной степени зависит благополучие любой фирмы, организации или учреждения. Качество продукции и услуг формируется в процессе научных исследований, конструкторских и технологических разработок, обеспечивается хорошей организацией производства и услуг. Но изготовление продукции и оказание услуг независимо от их вида всегда связано с определенным непостоянством условий производства и предоставления. Это приводит к некоторой вариабельности признаков их качества. Поэтому, актуальными являются вопросы разработки методов контроля качества, которые позволят своевременно выявить признаки нарушения технологического процесса или оказания услуг. При этом, для достижения и поддержания высокого уровня качества, удовлетворяющего потребителя нужны методы, направленные не на устранение дефектов готовой продукции и несоответствий услуг, а на предупреждение и прогнозирование причин их появления. Контрольная карта – это инструмент, позволяющий отслеживать ход протекания процесса и воздействовать на него (с помощью соответствующей обратной связи), предупреждая его отклонения от предъявленных к процессу требований. Инструментарий карт контроля качества широко использует статистические методы, основанные на теории вероятностей и математической статистики. Применение статистических методов позволяет при ограниченных объемах анализируемых изделий с заданной степенью точности и достоверности судить о состоянии качества выпускаемой продукции. Обеспечивает прогнозирование, оптимальное регулирование проблем в области качества, принятие верных управленческих решений не на основе интуиции, а при помощи научного изучения и выявления закономерностей в накапливаемых массивах числовой информации.

II. Методы машинного обучения и Data Mining

В современном развивающемся мире неуклонно растут объёмы накопленных данных. Одним из способов их переработки являются современные компьютерные технологии анализа данных, в том числе методы Data Mining в среде пакета STATISTICA.

Термин Data Mining можно перевести как «добыча данных» или «раскопка данных». Нередко под термином Data Mining подразумевают «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Вместе с определением добычи данных, также часто используется словосочетание «Data Warehousing» (хранилище данных). При этом понятие хранилища данных, подразумевает способ хранения больших многомерных массивов данных, позволяющий легко извлекать информацию в процедурах анализа. Возникновение указанных терминов связано с дальнейшим развитием средств и методов обработки данных. В настоящее время термин Data mining – собирательное название, используемое для обозначения методов выявления в данных новых знаний, полезных и необходимых для принятия решений в различных сферах человеческой деятельности. Определение этому термину дал Григорий Пятецкий-Шапиро в 1996 году: Data Mining – исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. Совершенствование технологий сбора, хранения данных позволило накапливать огромные потоки информации в различных областях человеческой деятельности, поэтому применение статистических методов, основанных на парадигме среднего, стало неэффективным. Одна из причин, та, что в основе прикладной статистики лежат операции над виртуальными величинами (средняя температура больных в больнице, средняя зарплата граждан по стране и т.д.). Другая причина в структуре современных данных, которые могут быть разнородными (количественными, качественными, текстовыми) и неограниченного объема.

В обзоре освещены методы машинного обучения для решения задач классификации и регрессии:
– методы деревьев решений, включающие общие деревья классификации и регрессии, общие CHAD модели, интерактивные деревья, бустинг деревьев классификации и регрессии, случайные леса регрессии и классификации;
– процедуры обучения, представленные методами опорных векторов, к-ближайших соседей, наивный байесовский классификатор;
– автоматизированные нейронные сети;
– программа DATA MINER.
Упомянутые методы успешно применяются как для решения задач классификации, так и для решения задач регрессии. Специфика решения зависит от выбора целевой переменной – если переменная категориальная, то соответствующий модуль решает задачу классификации, если переменная непрерывная, то решается задача регрессии.

Деревья решений позволяют оценить взаимосвязь между зависимой переменной (откликом), или целевой переменной и несколькими независимыми переменными (предикторами). Привлекательность данного класса алгоритмов объясняется их широкой применимостью, наглядностью и элегантностью решения. Однако не следует полагать, что они во всём превосходят традиционные методы статистики, например дискриминантный анализ. Если выполнены более строгие теоретические предположения, необходимые для классических методов, то более результативным будет их использование. Однако, как метод разведочного анализа, или как последнее средство, когда все прочие алгоритмы оказываются неэффективны, деревья решений, по мнению многих специалистов, не знают себе равных. Также деревья решений – один из самых подходящих методов для графического представления результатов. О данных, организованных в виде древовидной структуры, гораздо проще вынести некоторое заключение, чем об их аналоге, представленном в числовой форме.
Деревья решений обладают несколькими свойствами:
иерархичностью. Вопросы, позволяющие отнести некоторый объект к конкретному классу, задаются последовательно, и окончательное решение зависит от ответов на все предшествующие вопросы. Благодаря этому мы имеем возможность последовательно изучать эффекты отдельных предикторов;
гибкостью. В процессе построения дерева решений можно работать с предикторными переменными различных типов, как количественных, так и качественных. К примеру, при определении риска смертности кровяное давление и возраст пациента являются непрерывными предикторами, а наличие или отсутствие тахикардии – категориальным;
многомерностью ветвлений. Деревья решений не ограничены использованием только одномерных ветвлений, т.е. ветвлений по одной переменной: если непрерывные предикторы измерены в интервальной шкале, то деревья классификации могут использовать ветвления и по их линейным комбинациям. Это выгодно в тех случаях, когда имеется много категорий, но мало непрерывных предикторов. Например, определение номинала монетки по её диаметру и толщине. Если не будет успешным ветвление по этим двум предикторам, то можно попробовать ветвление по новой переменной, являющейся их линейной комбинацией;
неограниченностью ветвлений. Одним из важнейших преимуществ перед другими инструментами анализа в подобных ситуациях является отсутствие ограничений на количество одномерных ветвлений и ветвлений по линейным комбинациям.
Метод Общие деревья классификации и регрессии (General Classification and Regression Trees) предназначен для построения деревьев классификации и регрессии, прогнозирующие непрерывную зависимую переменную – регрессия, или значения категориальной переменной – классификация наблюдений (объектов). При этом прогностическая модель представляет собою алгоритм ветвления в соответствии с построенным деревом. Одноименный модуль в Data Mining поддерживает классический алгоритм C&RT, популяризированный Брейманом и др. (Breiman, Friedman, Olshen, & Stone, 1984; см. Также Ripley, 1996) и включает в себя различные методы роста, обрезки деревьев, а также мощные методы v-кратной кросс-проверки.
CHAID – Автоматическое обнаружение взаимодействия Хи-квадрат (Chi-square automatic interaction detection), в переводе означает – метод построения деревьев решений, использующий многострочное разбиение (расщепление, разветвление). Это один из старейших методов деревьев классификации, название алгоритма отражает его базовую идею, которая служит отличием CHAID от других алгоритмов построения деревьев решений. Идея, лежащая в основе алгоритма – это поиск взаимодействий, т.е. подбор сочетаний предикторов, которые определяют зависимую переменную. В моделях, созданных с его помощью, узлы могут иметь более чем два разветвления, в силу чего алгоритму CHAID свойственно «выращивать» достаточно раскидистые деревья. Данный класс алгоритмов заслужил популярность благодаря своему быстродействию в сравнении со стандартными алгоритмами C&RT при больших объемах данных. Если при использовании стандартных методов в алгоритмах C&RT всё дерево строится целиком, а потом при необходимости усекается, в случае его чрезмерной ветвистости, то алгоритмы класса CHAID стремятся сразу избежать переобученности, поэтому прекращают свою работу по достижению определённой точности в вершинах. Это преимущество в полной мере проявляет себя на данных больших объёмов, для которых C&RT оказывается слишком медленным. Однако на выборках небольших размеров он чаще всего строит не совсем корректную модель. Другим отличием CHAID является то, что дерево может быть менее глубоким, так как вершины дерева могут иметь более двух разветвлений. В отличие от других алгоритмов, опирающихся на информационные критерии при расщеплении выборки в узлах деревьев, CHAID использует статистический критерий. Данная особенность отражается на построении решения следующим образом: алгоритмы класса CHAID максимизируют взаимосвязь между независимыми переменными и откликом, в то время как другие методы ориентированы на достижение однородности в узлах дерева. Метод будет эффективным, при классификации переменной категориального отклика со многими категориями, если есть также категориальные предикторы (факторы) со многими категориями. Поэтому метод CHAID особенно популярен в маркетинговых исследованиях в контексте исследования сегментации рынка. Кроме умеренного быстродействия даже для больших выборок данных, CHAID не имеет ограничений на типы переменных в силу того, что он основан на критерии Хи-квадрат для определения наилучшего следующего расщепления узла на каждом шаге. Также как и метод C&RT применим для решения задач регрессионного типа, но в этом случае вычисляет значение F-критерия (Фишера). Недостатком метода является то, что он не очень хорош для работы с выборками небольшого объема.
Метод Интерактивные деревья (Interactive Trees) (C&RT, CHAID) строит деревья классификации и регрессии C&RT, или CHAID на основе их алгоритмических методов и определяемых пользователем правил и критериев, либо их комбинации, задаваемые через высокоинтерактивный графический пользовательский интерфейс. Цель модуля – предоставить высокоинтерактивную среду для построения деревьев классификации или регрессии, чтобы пользователи самостоятельно могли опробовать различные предикторы и критерии разделения в сочетании с почти всеми функциями автоматического построения дерева, предусмотренными в методах C&RT или CHAID программы STATISTICA.
Метод Растущие деревья классификации и регрессии (Boosted Trees) является одним из самых мощных методов Data Mining. Успешно применяется для решения задач классификации и регрессии с непрерывными и/или категориальными предикторами. Относится к ансамблевым методам машинного обучения, которые базируются на парадигме, что прогноз несколькими моделями будет более точен, чем одной моделью. Метод использует технику бустинга, основной принцип которой заключается в построении последовательности очень «простых» деревьев, в которой каждое последующее дерево строится с учетом ошибок предыдущего дерева, стараясь их уменьшить. Идея градиентного бустинга станет более понятной, если обратимся, к какому либо командному (ансамблевому) виду спорта, например, наиболее популярному – футболу. Задача игроков совместными усилиями закатить (забить) мяч в ворота противника. Расстояние между мячом и воротами противника путем последовательности «простых» действий – передач футболистов сокращается (в предположении, что отсутствуют передачи назад) пока мяч не окажется в воротах противника. Каждое действие футболиста зависит от действий предыдущих игроков, учитывая их ошибки и решая задачу сокращения расстояния между мячом и воротами противника. Минимальная сложность дерева в модуле ограничена тремя вершинами: ветвление образуют корень и две дочерние вершины, но может быть пользователем изменена. На каждом шаге работы алгоритма построения растущих деревьев определяется лучшее простое разбиение данных. Вычисляется отклонение наблюдаемых значений от ожидаемых средних значений, т.е., остатки разбиения. Следующее бинарное дерево строится так, чтобы новое разбиение уменьшало остаточную изменчивость данных, исходя из уже построенной последовательности деревьев.
Метод Случайные леса (Random Forest), как Boosted Trees является ансамблевым, но использует технику бэггинга, которая предполагает построение простых независимых моделей и усреднение их решений за счет, например вычисления среднего арифметического в задаче регрессии, или голосования в задаче классификации. Для задач классификации этот ответ принимает форму принадлежности к классу, которая связывает набор значений предикторов с одной из категорий, присутствующих в зависимой переменной. В качестве альтернативы для задач регрессии ответ дерева представляет собой оценку зависимой переменной – отклика с учетом значений предикторов. Особенность метода в том, что решение каждого дерева зависит от случайного набора значений предикторов, выбранных независимо и с одинаковым распределением для всех деревьев в лесу, который является подмножеством значений предикторов исходного набора данных. Основной принцип построения деревьев случайным лесом в независимости моделей друг от друга. Если вновь для лучшего понимания вернуться к футболу, то построение деревьев соответствовало бы игре при условии, что каждый игрок самостоятельно без помощи других игроков команды решает задачу забивания мяча в ворота противника.
Метод Опорных векторов (МОВ) основан на концепции гиперплоскостей, которые определяют границы гиперповерхностей, разделяющих набор объектов различных классов. Однако большинство задач классификации не так просты, и часто требуются более сложные структуры, чем гиперплоскости, чтобы сделать оптимальное разделение. Основная идея МОВ в переупорядочивании объектов с использованием набора математических функций, называемых преобразованием ядра, так чтобы объекты стали линейно разделимы. В пакете STATISTICA предусмотрены такие функции преобразования ядра как линейная, полиномиальная, экспоненциальная (функция радиального базиса РБФ), сигмоида.
Метод Байесовский классификатор (БК) основан на знаменитой теореме Байеса вычисления апостериорных вероятностей:
где B – событие, которое должно произойти в результате испытания; Ai – взаимозависимые с B события; P(Ai) – априорные вероятности наступления событий Ai; P(B) – полная вероятность наступления события B; P(B/Ai) – условные вероятности наступления события B при условии наступления событий Ai; P(Ak/B) – апостериорные вероятности наступления событий Ai. БК в своей основе имеет достаточно простой алгоритм и базируется на предположении, что предикторы модели независимые, т.е. «наивные».
Метод k-ближайших соседей (КБС) основан на оценивании посредством расстояний сходства между объектами. Классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки. Метод КБС легко обобщается на решение задач регрессии. Предсказанное значение непрерывной зависимой переменной соответствует среднему значению исходных значений переменной, соответствующих «ближайшим соседям» объекта для которого вычисляется прогноз.
Нейронные сети (НС) – это совокупность методов моделирования чрезвычайно сложных функций и нелинейных взаимосвязей данных, применяемых для прогнозирования, распознавания образов, включая обработку изображений, оптимизации, анализа данных. Нейронные сети успешно применяются в экономике, бизнесе, системах связи, Интернете, автоматизации производства, робототехнике, индустрии компьютерных видеоигр, в медицине и здравоохранении. Огромный успех НС можно объяснить их мощностью, универсальностью, способностью извлекать знания из сложных и неточных данных. Эти знания представляют собою определенные закономерности, тенденции, правила, взаимосвязи, которые описываются сложными математическими функциями. В большинстве случаев такие закономерности невозможно смоделировать с использованием аналитических или статистических методов. Другая примечательная возможность НС, присущая и другим методам машинного обучения – это с высокой достоверностью предсказывать данные из тестовой выборки, которые не были частью обучающей выборки. Нейронные сети интуитивно привлекательны и понимаемы человеком, поскольку многие из их принципов основаны на моделях биологических систем обработки нейронной информации. Возникли в результате исследований в области искусственного интеллекта, пытаясь имитировать способность к обучению биологических нейронных систем, моделируя низкоуровневые структуры мозга. В основе нейронных сетей лежит то свойство, что отдельный биологический нейрон сам по себе не выполняет значимой задачи, но когда объединяются усилия ансамбля большого количества взаимосвязанных нейронов, результаты становятся весьма значительными, поскольку они могут выполнять различные сложные задачи обучения и мыслительной деятельности. По этому принципу построены и искусственные нейронные сети – они могут достигать замечательных результатов, используя весьма простую ​​математическую модель одиночного нейрона, схематично представленную на рисунке. На входной слой нейрона,состоящий из N синапсов, имеющих определенные весовые коэффициенты w(i,1),…, w(i,N), поступают бинарные сигналыx1,…, xN. Если взвешенная сумматором сумма ui сигналов достигает порогового значения b(i), то она преобразуется математической функцией активации f и в виде выходной информации yi поступает дальше по слоям нейронной сети.
Обучение НС процесс оптимизации весов, в котором минимизируется ошибка предсказания, и сеть достигает требуемого уровня точности. Используется несколько видов функции активации f: линейная, ступенчатая, сигмоидная, тангенциальная, радиально-базисная функция, тождественная, обобщенная логистическая функция (Софтмакс) и др. Так как одиночный нейрон не способен выполнять значимой задачи, для достижения конкретных целей необходимо множество определенным образом взаимосвязанных нейронов, что требует применение в практических приложениях большего количества различных архитектур нейронных сетей.
Наиболее популярные из них: многослойный персептрон МЛП, сеть радиально-базисных функций РБФ, сверточная нейронная сеть – СНС, рекурсивная нейронная сеть – РвНС, рекуррентная нейронная сеть – РНС и др. Архитектура сети определяет область их применения: МЛП применяют в задачах классификации и регрессии, распознавания речи и машинном переводе; РНС – в распознании рукописного текста или речи; РвНС – при обучении последовательных структур и деревьев в задачах обработки естественного языка; СНС показывают хорошие результаты в приложениях к картинкам, тексту и речи и т.д. В РБФ функциями активации являются радиальные базисные функции, применяют в задачах приближения, прогнозирования временных рядов, классификации, в системах управления. В пакете STATISTICA в модуле Автоматизированные нейронные сети (АНС) реализованы сети МЛП и РБФ. Сети используются для классификации, построении модели регрессии, кластеризации сетями Кохонена, построения регрессионных моделей и классификации временных рядов.