Халафян А.А.
Статистический анализ данных. STATISTICA 6.0. Второе издание
В книге освещены основные разделы шестой версии программы STATISTICA. На примерах, большинство которых – из встроенной в программу библиотеки Examples, дано подробное описание технологии работы с модулями программы. Уделено внимание постановочной части статистических методов и интерпретации результатов анализа. Рассмотрены процедуры управления данными, графические возможности программы, разведочный анализ данных, одномерные и многомерные статистические методы, углубленные методы анализа, временные ряды и прогнозирование, формирование отчетов, составление макросов.
Книга написана на основе курсов, читаемых в Кубанском государственном университете. Простая и доступная для широкого круга читателей форма изложения делает возможным самостоятельное изучение программы STATISTICA.
Адресована студентам, изучающим экономические и математические дисциплины, а также аспирантам, преподавателям вузов, научным работникам различных направлений, специалистам в области аналитики и логистики, т.е. будет полезна всем, занимающимся обработкой статистических данных и использующих современные компьютерные технологии.



ПРЕДИСЛОВИЕ


Лучше быть приблизительно правым, чем абсолютно точно ложным.

Джон Мэйнард Кейнс


Статистика возникла в ХVI в. в Италии и ограничивалась сбором данных о состоянии государства. Сегодня трудно назвать область человеческих знаний, которая обходилась бы без сбора и анализа данных.
Статистика проникла практически во все сферы человеческой деятельности – технику, экономику, экологию, медицину, естественные науки, военное дело, социологию, политологию и т.д. Это наука, которая позволяет увидеть закономерности в хаосе случайных данных, выделить устойчивые связи в них, определить наши действия с тем, чтобы увеличить долю правильно принятых решений среди всех принимаемых нами.
Математическая статистика разрабатывает математический аппарат установления статистических закономерностей и получения научно обоснованных выводов о массовых явлениях из данных наблюдений или экспериментов.
Многие методы статистического анализа вышли за рамки классической математической статистики (например, кластерный анализ, многомерное шкалирование, моделирование структурными уравнениями). Поэтому вполне обосновано в предлагается отличать прикладную статистику от математической статистики.
Прикладная статистика определяется как самостоятельная научная дисциплина, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов.
Под методами математической статистики предлагается понимать те методы статистической обработки исходных данных, разработка и использование которых апеллируют к вероятностной природе этих данных. Эти методы предусматривают возможность вероятностной интерпретации обрабатываемых данных и полученных в результате обработки статистических выводов.
Условно выделены три центральные проблемы прикладной статистики:
– статистическое исследование структуры и характера взаимосвязей, существующих между анализируемыми количественными переменными;
–разработка статистических методов классификации объектов и признаков;
– снижение размерности исследуемого признакового пространства с целью лаконичного объяснения природы анализируемых многомерных данных.
Вычислительные процедуры прикладного статистического анализа являются достаточно трудоемкими при их реализации. Особенно актуальной проблема трудоемкости становится при многомерном анализе данных. Поэтому эффективная, грамотная, всесторонняя статистическая обработка данных даже небольшого объема практически невозможна без использования вычислительной техники. В настоящее время новый импульс развития и использования получили компьютерные технологии обработки и анализа данных. Разработка собственных компьютерных программ не всегда целесообразна, так как большой сегмент рынка прикаладных программ занимают пакеты по статистической обработке данных. Это профессиональные пакеты (SAS, BMDP), универсальные пакеты (STADIA, OLIMP, STATGRAPHICS, SPSS, STATISTICA, …), специализированные (BIOSTAT, MESOSAUR, DATASCOPE, …). Благодаря деятельности корпорации Софтлайн, являющейся дилером компании производителя StatSoft (USA), одним из наиболее известных в России пакетов для прикладного статистического анализа данных является пакет STATISTICA.
STATISTICA – это универсальная интегрированная система, предназначенная для статистического анализа и обработки данных. Содержит многофункциональную систему для работы с данными, широкий набор статистических модулей, в которых собраны группы логически связанных между собой статистических процедур, специальный инструментарий для подготовки отчетов, мощную графическую систему для визуализации данных, систему обмена данными с другими Windows-приложениями.
С помощью реализованных в системе STATISTICA языков программирования (SQL, STATISTICA BASIC), снабженных специальными средствами поддержки, легко создаются законченные пользовательские решения и встраиваются в различные другие приложения или вычислительные среды.
Система STATISTICA производится фирмой StatSoft Inc. (США), основанной в 1984 г. в городе Тулса (США). Первые программные продукты фирмы (PsyhoStat-2,3) были предназначены для обработки социологических данных. В 1985 г. StatSoft выпускает первую систему статистического анализа для компьютеров Apple Macintosh (StatFast) и статистический пакет для IBM PC (STATS+). В 1986 г. начинается работа по созданию интегрированных статистических пакетов комплексной обработки данных.
В 1991 г. выходит первая версия системы STATISTICA/DOS. Эта программа представляла собой новое направление развития статистического программного обеспечения, так как в ней реализован графически ориентированный подход к анализу данных. Программа обладала рядом существенных преимуществ перед другими статистическими программами. Например, за счет оптимизации удалось добиться повышения скорости обработки более чем в 10 раз, программа могла анализировать фактически неограниченный объем данных. В 1992 г. вышла версия STATISTICA для Macintosh. В 1994 г. выходит версия STATISTICA 4.5 для Windows, которая сразу же занимает лидирующее положение среди статистических пакетов. В результате сравнительного тестирования с профессиональными системами BMDP 1.0, SPSS 6.1, STATGRAPHICS 1.0, SYSTAT 5.01 она получает первое место в некоторых ведущих научных и компьютерных изданиях.
В конце 1995 г. вышла версия STATISTICA 5.0 с более удобным пользовательским интерфейсом и полной совместимостью с Windows 95. В этой версии реализованы новые мощные возможности численного и графического анализа данных. STATISTICA 5.0 полностью удовлетворяет основным стандартам среды Windows. Это стандарты пользовательского интерфейса (MDI); использование технологий DDE (динамического обмена данными из других приложений); OLE (связывания и внедрения объектов, поддержка основных операций с буфером обмена) и др. В отличие от предыдущих версий в STATISTICA 5.0 включен внутренний язык программирования STATISTICA BASIC, который позволит пользователю расширять возможности системы. Например, нарастить систему по своему усмотрению, добавив собственную панель инструментов с тем или иным методом статистического анализа.
В 1996–1998 гг. появились новые выпуски программы – STATISTICA 5.1, 5.1-97 и 5.1-98, в которые были добавлены новые специализированные модули, учтены все новые форматы Windows и MS Office, дополнены и улучшены существующие процедуры.
Система STATISTICA имеет более полумиллиона зарегистрированных пользователей во всем мире. Пользователями системы являются крупнейшие университеты, исследовательские центры, компании, банки всего мира, государственные учреждения. Имеются версии системы на немецком, французском, японском, испанском, польском и других языках. В 1999 г. состоялся выпуск русской версии STATISTICA 5.1. Корпорацией Софтлайн во главе с В.П. Боровиковым издано большое число книг с подробным описанием системы STATISTICA 5.0. Технология работы с основными процедурами проиллюстрирована на большом количестве примеров. На сайте www.statsoft.ru можно найти всю необходимую информацию о пакете STATISTICA.
Появление операционной системы Windows XP привело к необходимости структурных изменений программы STATISTICA и созданию новой версии STATISTICA 6.0. В ней существенно изменены структуры интерфейса, диалоговых окон. Некоторые модули исключены, так как в новой версии за счет расширения возможностей они потеряли актуальность.
Предлагаемый учебник посвящен описанию новой версии пакета – STATISTICA 6.0. При рассмотрении примеров в основном использованы легко доступные пользователям файлы данных из встроенной в программу STATISTICA библиотеки Examples.Учебник написан по материалам лекционных курсов и семинарских занятий, проводимых на факультете прикладной математики Кубанского государственного университета по дисциплинам: теория вероятностей и математическая статистика (ЕН.Ф.00) – для специальностей 080801 Прикладная информатика (в экономике), 010501 Прикладная математика и информатика; математическая статистика (ЕН.Ф.00), эконометрика (ОПД.Ф.00), многомерные статистические методы (ОПД.Р.00) – для специальности 080116 Математические методы в экономике; методы социально-экономического прогнозирования (ДС) для специальности 080801 Прикладная информатика (в экономике).
В предыдущее 3-е издание книги вошли новые разделы с описанием модулей: анализ главных компонент и классификация, деревья классификации, анализ соответствий, многомерное шкалирование, моделирование структурными уравнениями, анализ выживаемости, общие модели дискриминантного анализа. Рассмотрены способы создания макросов.
В новое издание (Издательство Бином, второе издание) книги вошли дополнительные разделы с описанием диспетчера имен наблюдений, процедуры создания пользовательских диалоговых окон. Незначительно изменено содержание гл.19 «Создание макросов». Добавлена новая гл.20 «Создание пользовательских диалоговых окон».
Так как в книге не излагаются основы теории вероятностей и математической статистики, читателям желательно иметь определенную математическую подготовку и опыт работы на компьютере. При этом нет необходимости знать сложные методы в деталях. С помощью программы STATISTICA можно научиться использовать их мощные возможности для анализа и интерпретации данных.
Учебник предназначен для самого широкого круга читателей: студентов, изучающих экономические и математические дисциплины, аспирантов, преподавателей вузов, научных работников различных направлений, специалистов в области аналитики и логистики. Будет полезна всем, занимающимся обработкой статистических данных и использующих современные компьютерные технологии.
Автор благодарит за экспертизу рукописи Учебно-методическое объединение по образованию в области статистики и антикризисного управления при Московском государственном университете экономики, статистики и информатики, Научно-методический совет по математике Министерства образования и науки РФ; также рецензентов – доктора физико-математических наук, лауреата Государственной премии, профессора О.Д. Пряхину, доктора физико-математических наук, профессора Е.А. Семенчина за замечания, способствующие улучшению содержания 3-го издания книги; декана факультета прикладной математики Ю.В. Кольцова за создание условий, благоприятных для написания книги; родных и близких за терпение и поддержку; К.А. Островскую за помощь в подготовке нового издания.


М.: Бином, 2009