Халафян А.А.

Современные статистические методы медицинских исследований

В монографии приведены результаты научных исследований, проведенных автором совместно с врачами-исследователями. На реальных медицинских данных изложена технология современного статистического анализа данных в среде пакета прикладных программ STATISTICA. Представлены классические многомерные и современные углубленные методы анализа данных: множественный регрессионный анализ, кластерный анализ, факторный анализ, анализ главных компонент и классификация, многомерное шкалирование, анализ соответствий, канонический анализ, дискриминантный анализ, общие модели дискриминантного анализа, дисперсионный анализ, деревья классификации, анализ выживаемости, моделирование структурными уравнениями, временные ряды и прогнозирование.
Уделено внимание постановочной части рассмотренных методов и интерпретации результатов. Показаны возможности пакета при разработке диагностических программ.
Книга рассчитана на широкий круг читателей – врачи, занимающиеся исследовательской работой, профессорско-преподавательский состав, аспиранты, студенты и научные работники медико-билогических вузов, заитересованные в применении современных технологий статистического анализа данных; а также все специалисты, использующие анализ данных в различных прикладных областях знаний.

ВВЕДЕНИЕ


Человеческий организм – это функциональная биологическая система со сложными и еще далеко не изученными взаимосвязями как между элементами внутри системы, так и с окружающей средой. Поэтому медицинские исследования должны проводиться на основе системного анализа. Одним из этапов или методов системного анализа является математическое моделирование, включающее построение и анализ как детерминированных, так и вероятностно-статистических моделей. Таким образом, математическое моделирование и применение вероятностно-статистических методов анализа данных должны быть неотъемлемой частью исследований в области медицины.
Конечная цель научного исследования заключается в нахождении связей (зависимостей) между признаками, характеризующими объекты исследования. В частности математическая статистика разрабатывает вероятностные модели установления статистических закономерностей и получения научно обоснованных выводов о массовых явлениях из данных наблюдений или экспериментов. В медицине в качестве объектов исследования могут выступать больные, а в качестве признаков – клинико-лабораторные показатели, характеризующие состояние больного. Поэтому применение вероятностно-статистического моделирования как метода системного анализа в медицинских исследованиях направлено на исследование закономерностей функционирования человеческого организма как биологической системы.
При этом особую актуальность приобретают методы многомерного статистического анализа, при помощи которых можно строить не только оптимальные планы сбора, систематизации и обработки медицинских данных, но и выявить характер и структуру сложных взаимосвязей между компонентами исследуемого многомерного признака. Под многомерным признаком понимается совокупность показателей, характеризующих исследуемый объект. В данном случае – это человек, как биологическая система с совокупностью показателей характеризующих его состояние. Результаты анализа данных и построенные вероятностно-статистические модели могут быть использованы при принятии медицинских решений по стратегии и тактике лечения больных.
Развитие современных информационных технологий, в частности статистических пакетов прикладных программ (ППП), делает возможным более эффективно использовать, как правило, достаточно трудоемкие многомерные статистические методы. Одним из наиболее известных и широко применяемых статистических ППП является программа STATISTICA (USA).
В монографии приведены результаты научных исследований, проведенных автором совместно с учеными и врачами Кубанского государственного медицинского университета – доктором медицинских наук, профессором, заведующей кафедрой факультетской терапии Л.Н. Елисеевой; доктором медицинских наук, профессором кафедры госпитальной хирургии с курсом урологии А.С. Татевосяном; кандидатом медицинских наук, главным врачом ГУЗ «Специализированная клиническая инфекционная больница» департамента здравоохранения Краснодарского края В.Н. Городиным; кандидатом медицинских наук, врачом-урологом Краснодарской городской клинической больницы скорой медицинской помощи А.Г. Тоняном; кандидатом медицинских наук врачом Центра медицинской профилактики департамента здравоохранения Краснодарского края С.Г. Сафоновой в таких областях медицины, как кардиология, урология, инфекционные болезни. Статистическими методами (множественный регрессионный анализ, кластерный анализ, факторный анализ, анализ главных компонент и классификация, многомерное шкалирование, анализ соответствий, канонический анализ, дискриминантный анализ, общие модели дискриминантного анализа, дисперсионный анализ, деревья классификации, анализ выживаемости, моделирование структурными уравнениями)была исследована структура медицинских данных.
Исследование и анализ данных позволили решить задачу идентификации состояния больных. В качестве инструментария исследований и диагностики использованы ППП STATISTICA 6.0 и разработанный под руководством автора комплекс программ в среде ППП STATISTICA 6.0.
Подробное описание технологии работы с ППП STATISTICA 6.0 дано в другом издании автора ­– учебном пособии «Статистический анализ данных. STATISTICA 6.0», изданном в г. Москве, в 2007 г.
При работе с статистическими методами и моделями важными являются содержательная часть решаемых задач, идеология методов, ограничения на характер исходных данных, и интерпретация результатов. Поэтому в описании статистических методов дан тот необходимый объем информации, который нужен читателю для полного понимания результатов исследований. С этой целью в монографии достаточно подробно описываются задачи решаемые данным методом, требования к исходным данным, построенные таблицы и графики.
Все таблицы и графики сопровождаются указанием «пути», в котором прописаны названия модулей, вкладок и кнопок, последовательная активация которых приводит к построению данной таблицы или графика. Читатель при проведении собственных исследованийсможет воспроизвести получение тех или иных таблиц и графиков по указанному пути и правильно их интерпретировать.
Исходные данные для статистического анализа представляют таблицу, строки которой обозначают объекты исследования (например, больных). В терминологии ППП STATISTICA строки называются наблюдениями. Столбцы обозначают переменные (признаки), описывающие наблюдения, например клинико-лабораторные показатели больного. Переменные могут быть количественными и качественными. Качественные переменные измеряются в классификационной шкале (номинальной), когда в результате измерения определяется принадлежность объекта к определенному классу или в порядковой шкале, когда в результате измерения также определяется принадлежность объекта к некоторому классу, но дополнительно можно упорядочить объекты, сравнив их в каком-то отношении друг с другом. Например, диагноз заболевания – это измерение в классификационной шкале, а определение степени тяжести заболевания – измерение в порядковой шкале. Качественные переменные называются группирующими, или категориальными. Количественные переменные могут быть измерены в интервальной шкале (например, температура больного), в шкале отношений (например, вес больного) или абсолютной шкале (например, некоторый безразмерный клинико-лабораторный показатель).
Статистические методы используют гипотезы (некоторые предположения), которые принимаются или не принимаются в результате проведения исследования. При этом если гипотеза была верна, но ее отвергли, совершается ошибка, которая называется ошибкой 1-го рода. Вероятность совершить ошибку 1-го рода называется уровнем значимости критерия и обозначается р-уров. Если р-уров. больше чем 0,05 (5%), то считается, что вероятность совершить ошибку велика и гипотезу принимают, в противном случае гипотезу отвергают, т.е. p-уров. представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю совокупность изучаемых объектов. Например, p-уров. = 0,05 показывает: имеется 5-процентная вероятность, что выявленная в результате анализа взаимосвязь между переменными вызвана стечением случайных обстоятельств. Значение 0,05 в ППП STATISTICA принято по умолчанию, но может быть изменено исследователем. Например, если речь идет о жизни человека, целостности важных объектов, конструкций и т.д., то значение р-уров. может быть уменьшено до 0,01 или 0,001.
Некоторые методы многомерного анализа являются параметрическими методами, другие – непараметрическими. При реализации параметрических методов предполагается выполнение основного требования к исходным данным – количественный признак измерен как минимум в интервальной шкале и его выборочное распределение соответствует нормальному закону. Непараметрические методы не требуют знания закона распределения количественного признака.
В первой главе книги автором затрагиваются проблемы использования системного анализа в медицине, обосновывается системный подход к пониманию функций всего организма. Анализируются проблемы информатизации в медицине и здравоохранении. Показана актуальность применения статистических пакетов при создании программ, диагностирующих и прогнозирующих состояние больных для практической и исследовательской медицины с максимально дружественным интерфейсом для пользователя, не требующих специальных знаний в области математики, программирования или информационных технологий. Показано, что стохастические модели в равной степени с детерминированными моделями могут быть использованы в качестве инструментария системного анализа в медицинских исследованиях. Сделан аналитический обзор работ, посвященных применению статистических методов в медицинских исследованиях. Это монографии, сборники научных трудов, учебные пособия, научные статьи, а также изобретения, в основе которых лежат статистические методы.
Во второй главе приведены результаты использования многомерных статистических методов для исследования структуры анализируемых медицинских данных:
1. Кластерный анализ позволяет произвести разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры.
Проведено разбиение больных нефроптозом на группы однородности методом k-средних и методом иерархической классификации, показано, что по сравнению с общепринятым разделением больных на группы по величине опущения почки наиболее адекватной классификацией является распределение больных на группы по степени ротации почки в трех координатных плоскостях.
2. Дисперсионный анализ посредством сравнения средних количественной переменной в группах, полученных разбиением всей совокупности наблюдений по одной или нескольким категориальным (качественным) переменным, позволяет исследовать зависимость количественной переменной от данных качественных переменных. Например, количественная переменная – величина опущения почки, группирующая переменная – степень опущения почки, которая разбивает больных на группы 1, 2, 3, соответствующие 1-й, 2-й и 3-й степени опущения почки.
Дисперсионным анализом установлено различие средних клинико-лабораторных показателей, характеризующих состояние больных нефроптозом, в группах по степени опущения и ротации почки. Показано, что в группах по степени ротации почек различие средних более выражено. То есть установлена зависимость между величинами указанных показателей и степенью опущения и ротации почки. Причем для степени ротации почки эта зависимость сильнее.
3. Главной целью факторного анализа является сокращение числа переменных. Сокращение достигается посредством выделения скрытых (латентных) общих факторов, объясняющих связи между наблюдаемыми признаками исследуемых объектов, т.е. вместо исходного набора переменных анализируются данные по выделенным факторам, число которых значительно меньше исходного числа признаков.
Факторным анализом выявлены латентные показатели, характеризующие состояние больных лептоспирозом в остром периоде заболевания (первые 3 недели). Так, на 1-й неделе заболевания выделены следующие: фактор 1 – синдром интоксикации, фактор 2 – синдром органной дисфункции, фактор 3 – синдром неспецифической адаптационной реакции; на 2-й неделе заболевания выделены фактор 1 – синдром эндогенной интоксикации и органной дисфункции, фактор 2 – синдром воспалительной реакции периферической крови, фактор 3 – синдром водно-электролитных нарушений; на 3-й неделе заболевания выделены фактор 1 – синдром органных и метаболических нарушений, фактор 2 – синдром диспротеинемии, фактор 3 – синдром воспалительной реакции периферической крови.
4. Анализ главных компонент и классификация предназначены для уменьшения общего числа переменных (редукция данных) для того, чтобы получить «главные» и «некоррелирующие» переменные и классификации переменных и наблюдений.
Методом выявлены факторы, наиболее полно описывающие состояние больных гипертонической болезнью. Выявлено различие между группами больных гипертонией, страдающих и не страдающих сахарным диабетом. Так, показано, что больных гипертонической болезнью, не страдающих сахарным диабетом, можно объединить в группу однородности, так как они имеют идентичное распределение значений основных клинико-лабораторных показателей. Для больных гипертонической болезнью, страдающих сахарным диабетом, эти показатели ведут себя весьма хаотично и непредсказуемо, принимая различные значения, поэтому не приходится говорить об идентичности больных, а следовательно, и об одинаковых методах их лечения. Причем «индивидуальность» больных сахарным диабетом не зависит от длительности заболевания сахарным диабетом или гипертонической болезнью, от возраста или пола больного.
5. Многомерное шкалирование представляет собой совокупность методов, с помощью которых определяется размерность пространства базовых характеристик объектов и конструируется конфигурация объектов в этом пространстве значительно меньшей размерности, чем исходное. Это пространство (многомерная шкала) аналогично обычно используемым шкалам в том смысле, что значениям базовых характеристик объектов соответствуют определенные значения на осях пространства. Другими словами многомерное шкалирование – это способы наиболее эффективного размещения объектов в пространстве меньшей размерности, приближенно сохраняющие наблюдаемые между ними расстояния. Например, если состояние больных характеризуется несколькими десятками клинико-лабораторных показателей, значения которых косвенно характеризуют «сходство» в состоянии больных, то методами многомерного шкалирования можно построить пространство значительно меньшей размерности, максимально сохранив «сходство» между больными. Малая размерность пространства, например 2, позволяет исследователю визуализировать объекты исследования на плоскости, оценивая степень сходства между объектами расстоянием между ними.
Показано, что существуют групповые различия в состоянии больных, страдающих гипертонической болезнью при наличии и отсутствии сахарного диабета, наряду с определенным сходством между состояниями больных в каждой группе присутствуют индивидуальные различия больных и более значимы эти различия для больных с сахарным диабетом.
6. Метод анализ соответствий содержит описательные и разведочные методы анализа двухвходовых и многовходовых таблиц частот. Одна из целей анализа соответствий – представление содержимого таблицы относительных частот в виде расстояний между отдельными строками и/или столбцами таблицы в пространстве возможно более низкой размерности.
Анализ соответствий показал, что между степенью опущения почки и ее ротацией существует тесная взаимосвязь, но эта взаимосвязь не носит характер прямой зависимости, так как большей степени опущения почки не соответствует большая степень ее ротации. Прямая зависимость имеет место только для больных с 1-й степенью опущения и ротации почки, 2-я степень опущения почки способствует более сильной ротации почки, чем 3-я степень опущения.
7. Метод канонический анализ является обобщением множественного корреляционного анализа как меры взаимосвязи одной переменной с множеством других переменных. Канонический анализ необходим, если имеются две совокупности переменных и необходимо определить взаимосвязь между ними. В результате исследований, проведенных каноническим анализом, выявлена сильная зависимость между показателями синдрома интоксикации и органной дисфункции и показателями гематологического синдрома для больных лептоспирозом 1-й недели заболевания.
В третьей главе приведены результаты использования углубленных статистистических методов для более полного исследования структуры анализируемых данных:
1. Метод анализ выживаемости дает возможность исследовать вероятностные характеристики интервалов времени между последовательным возникновением критических событий, т.е. интервалов времени между началом наблюдения за объектом и моментом прекращения, при котором объект перестает отвечать заданным для наблюдения свойствам. Методы анализа выживаемости в основном применяются к тем же статистическим задачам, что и другие методы, однако их особенность состоит в том, что они применяются к неполным данным или, как иногда говорят, цензурированным. Как правило, вместо обычной функции распределения в этих методах используется так называемая функция выживания, представляющая собой вероятность того, что объект проживет время большее, чем некоторое значение t.
Методом анализ выживаемости построены вероятностные модели и установлены определенные закономерности течения инфекционного процесса при лептоспирозе, определены периоды времени наибольшего риска летального исхода больных, выявлены факторы, влияющие на выживаемость больных.
Так установлено, что наибольший риск летального исхода имеется у больных в первые 2–3 недели заболевания. Вероятность летального исхода больного в этот период составляет более 30%. Около 25 % больных умирают в течение первых 11 дней, выживаемость женщин выше, чем мужчин, выживаемость больных безжелтушной формой также выше, чем при желтушной форме болезни, чем старше больной, тем меньше у него шансов на выздоровление.
2.Метод моделирование структурными уравнениями посредством исследования вероятностных характеристик параметров системы изучает ее структуру и устанавливает причинно-следственные взаимосвязи между элементами системы. В медицинских исследованиях причинное моделирование может быть использовано для установления причинных связей между латентными (скрытыми) факторами заболевания, измерение которых по определенным причинам невозможно, и явными, доступными для измерения факторами.
Моделированием структурными уравнениями построена причинная модельв виде линейных уравнений и выявлена взаимосвязь между тяжестью заболевания и факторами макроорганизма и микроорганизмов больных лептоспирозом. При этом факторы макроорганизма и микроорганизма, тяжесть течения заболевания являются латентными переменными, значения которых неизвестны. Показано, что факторы макроорганизма – нарушения иммунного статуса организма, наличие сопутствующих заболеваний, вредных привычек, возраст и т.д. – в значительно большей степени влияют на состояние больного, чем факторы микроорганизма – активность, проникающая способность лептоспир и т.д.
3.Метод временные ряды и прогнозирование посредством анализа временного ряда позволяет построить наиболее оптимальную модель ряда, по которой можно делать прогноз интересующего показателя на будущий временной интервал произвольной длины.
Построены модели временного ряда количества госпитализированных с диагнозом лептоспироз в специализированную клиническую инфекционную больницу г. Краснодара. Методом авторегрессии и скользящего среднего построена более адекватная модель, чем методом экспоненциального сглаживания. Построенные модели временных рядов показали, что количество заболевших носит колебательный характер, причем наблюдается тенденция стабилизации числа заболевших в течение года относительно величины в 120 чел.
Результаты исследований структуры данных методами статистического анализа позволили решить задачу идентификации состояния больных, страдающих нефроптозом, хронической сердечной недостаточностью, лептоспирозом.
В четвертой главе приведены результаты применения множественного регрессионного анализа и методов классификационного анализа – дискриминантного анализа, общие модели дискриминантного анализа и деревья классификации для идентификации состояния больных хронической сердечной недостаточностью, нефроптозом, лептоспирозом.
Регрессионный анализ изучает вид зависимости одного признака (переменной) от одного или нескольких других признаков и предполагает решение двух задач. Первая заключается в выборе независимых переменных, существенно влияющих на зависимую величину, и в определении формы уравнения регрессии. Данная задача решается путем анализа изучаемой взаимосвязи. Вторая задача – оценивание параметров – решается с помощью того или иного статистического метода обработки данных наблюдения. Построено линейное множественное уравнение регрессии, в котором зависимой переменной является результат 6-миутного теста, а независимыми – основные клинико-лабораторные показатели, характеризующие состояние больных хронической сердечной недостаточностью. Уравнение используется для прогнозирования результатов 6-минутного теста, если известны значения клинико-лабораторных показателей.
Цель дискриминантного анализа состоит в том, чтобы на основе измерения различных характеристик (признаков, параметров) объекта классифицировать его, т. е. отнести к одной из нескольких групп (классов) некоторым оптимальным способом. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. Этот вид статистического анализа является многомерным, так как использует несколько параметров объекта. Для каждого из заболеваний (хронической сердечной недостаточности, нефроптоза, лептоспироза) выделено небольшое количество клинико-лабораторных показателей, по которым можно с высокой достоверностью определить степень тяжести состояния больного. Показана возможность и целесообразность использования дискриминантного анализа для идентификации состояния больных указанных заболеваний.
Методы общие модели дискриминантного анализа и деревья классификации используют, если не выполняются условия применимости модуля дискриминантный анализ, т.е. присутствуют в данных независимые переменные, измеренные в более слабой шкале, чем интервальная шкала, или их распределение не соответствует нормальному закону. Возможности метода общие модели дискриминантного анализа значительно шире, чем у классического дискриминантного анализа. Предусмотрено наличие в файле данных анализируемой выборки – совокупности наблюдений, которые включены в вычисления оценок параметров модели и кросс-проверочной выборки – совокупности наблюдений, которые могут быть использованы для оценки доли ошибочной классификации наблюдений. Другой особенностью метода является наличие опций, позволяющих анализировать, насколько различные уровни предикторов влияют на классификацию наблюдений, что в конечном итоге дает возможность определить комбинации значений предикторов, которые максимизируют правдоподобие того, что соответствующее наблюдение принадлежит тому или иному классу. Так как в данных для больных хронической сердечной недостоточностью присутствуют категориальные переменные (одышка, слабость), метод использован для определения степени тяжести больных, страдающих хронической сердечной недостаточностью.
Деревья классификации – это метод, позволяющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной переменной в зависимости от соответствующих значений одной или нескольких независимых переменных. Деревья классификации выполняют одномерное ветвление по независимым переменным различных типов – непрерывным и категориальным. Построенное дерево может быть очень сложным. Однако использование специальных графических процедур позволяет упростить интерпретацию результатов даже для очень сложных деревьев. Возможность графического представления результатов и простота интерпретации во многом объясняют большую популярность метода в прикладных областях, в частности в медицинских исследованиях. По выделенным клинико-лабораторным показателям для каждого из указанных заболеваний – хронической сердечной недостаточности, нефроптоза, лептоспироза – построены деревья классификации, при помощи которых можно для произвольного больного определить степень тяжести состояния.
Описаны разработанные на основе указанных методов программы на языке STATISTICA VISUAL BASIC с применением макросов модулей регрессионного анализа, дискриминантного анализа и общих моделей дискриминантного анализа. Программы могут быть использованы в практической, образовательной и исследовательской медицине, так как имеют простой и максимально дружественный интерфейс для пользователя, не требуют специальных знаний в области математики, статистического анализа или информационных технологий. Программы зарегистрированы в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.
Книга адресована врачам, занимающимся исследовательской работой, профессорско-преподавательскому составу, аспирантам, студентам и научным работникам медико-билогических вузов, заитересованным в использовании современных технологий анализа данных; а также всем специалистам, использующим статистический анализ данных в различных прикладных областях знаний.