скачать рефераты
  RSS    

Меню

Быстрый поиск

скачать рефераты

скачать рефератыКурсовая работа: Дисперсионный анализ показателей смертностей населения Нерюнгринского улуса

Курсовая работа: Дисперсионный анализ показателей смертностей населения Нерюнгринского улуса

Федеральное агентство по образованию

Государственное образовательное учреждение высшего профессионального образования

“Якутский государственный университет им. М.К. Аммосова”

Технический институт (филиал) в г. Нерюнгри

Педагогический факультет

Кафедра Математики и Информатики

КУРСОВАЯ РАБОТА

по дисциплине «Теория вероятностей и математическая статистика»

на тему: «Дисперсионный анализ показателей смертностей населения Нерюнгринского улуса»

Студентка:

Копотева К. Г., гр. ПМ-04

Руководитель:

Преподаватель:

доцент кафедры к.ф.–м.н.

Попова А.М.

Оценка курсовой работы:__________________

Принял:_______________ Дата _____________

Нерюнгри 2007


Содержание

 

Введение

1.         Теоретическая часть

1.1.     Однофакторный дисперсионный анализ

1.2.     Линейный множественный регрессионный анализ

1.3.     Множественный корреляционный анализ

2.         Аналитическая часть

2.1.     Сбор и первичная обработка данных

2.2.     Дисперсионный анализ

2.3.     Построение уравнения множественной регрессии

2.4.     Исключение незначимых факторов

3.         Заключение

4.         Список литературы

5.         Приложение


Введение

 

Анализируя данные, о смертности населения за 2004-2006 год, полученные в Нерюнгринской городской больнице (см. таблицу 1), можно сделать вывод о том, что общий коэффициент смертности, то есть число умерших от всех причин на 1000 человек населения, увеличивается (рис.1).

Показатель смертности на 1000 человек населения

Таблица 1

2004 год 2005 год 2006 год
7.3 7.8 8.1

Рисунок 1

Несмотря на повышение рождаемости, демографическая ситуация в Нерюнгринском улусе характеризуется уменьшением численности населения. Главной причиной демографического кризиса является преобладание смертности над рождаемостью. Именно поэтому, чтобы снизить показатель смертности необходимо более детально изучить все причины и факторы, приводящие к ее увеличению. Несомненно, в изучении причин, важно исследование значимости отдельных нозологических форм заболеваний. Зная, какие заболевания приводят чаще всего к летальному исходу, можно разработать программу профилактических работ направленную на уменьшение числа данных заболеваний и предотвращения их дальнейшего развития на раннем этапе.

Цель: определение видов заболеваний оказывающих наибольшее влияние на показатели летальности, основываясь на статистике смертности населения Нерюнгринского улуса по классам болезней и возрастам за 2006 год.

Задачи:

1.         сбор статистических данных необходимых для определения закономерности изменения смертности по причинам заболеваний;

2.         проведение однофакторного дисперсионного анализа, с целью определения влияния различных болезней на общее количество смертности населения;

3.         исключение отдельных факторов, оказывающих незначительное влияние;

4.         построение уравнения множественной регрессии, отражающего соотношение между смертностью и различными классами заболеваний.


1. Теоретическая часть

1.1.          Однофакторный дисперсионный анализ

Дисперсионный анализ (от латинского Dispersio - рассеивание) - статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.

Пусть генеральные совокупности Х1, Х2,…, Хр распределены нормально и имеют одинаковую, хотя и неизвестную дисперсию. Математические ожидания которых известны и могут быть различны при заданном уровне значимости α. Проверим при заданном уровне значимости нулевую гипотезу Н0: М(Х1) = М(Х2) = … = М(Хр) о равенстве всех математических ожиданий. Это означает, что мы устанавливаем значимо или нет, различаются выборочные средние.

На практике дисперсионный анализ применяют, чтобы установить оказывает ли существенное влияние качественный фактор F, имеющий p уровней: F1, F2, …, Fp , на изучаемую величину.

Основная идея дисперсионного анализа состоит в сравнение «факторной дисперсии», то есть рассеяние, порождаемое изменением уровня фактора, и «остаточной дисперсии», обусловленной случайными причинами.   Если их различие значимо, то фактор существенно влияет на Х и при изменении его уровня групповые средние различаются значимо. Если установили, что фактор существенно влияет на Х, а требуется выяснить, какой из уровней оказывает наибольшее воздействие, то дополнительно производим попарное сравнение средних. Дисперсионный анализ также применяется для установления однородности нескольких совокупностей (если математические ожидания одинаковы, то совокупности однородны). В более сложных случаях исследуют воздействие нескольких факторов на различные постоянные или различные уровни и выясняют влияние отдельных уровней и их комбинацию (многоуровневый анализ).

Будем считать, что количество наблюдений на каждом уровне фактора одинаково и равно q. Оформим результаты наблюдений в виде таблицы:

Номер

испытания

Уровни фактора Fj

F1

F2

Fp

1

2

q

x11

x21

xq1

x12

x22

xq2

x1p

x2p

xqp

Групповое

среднее

Сумму квадратов отклонения можно определить по формулам:

1.         Общая сумма квадратов отклонений наблюдаемых значений от общего среднего  [1]:

.              (1)

 характеризует влияние фактора F и случайных причин на Х.

2.         Факторная сумма отклонений групповых средних от общей средней, характеризующая рассеяние между группами [1]:

.             (2)  

 характеризует воздействие фактора F на величину Х.


Остаточная сумма квадратов отклонений наблюдаемых значений группы от своего группового среднего, характеризующая рассеяние внутри групп [1]:

.     (3)

 отображает влияние случайных причин на Х.

Вводя обозначения [1]:

,                    (4)

получим формулы, более удобные для расчетов [1]:

,                         (5)

 .                       (6)

Разделив суммы квадратов на соответствующее число степеней свободы, получим общую, факторную и остаточную дисперсии [1]:

 .            (7)

Если справедлива гипотеза Н0, то все эти дисперсии являются несмещенными оценками генеральной дисперсии.

Вычисляем  и сравниваем с Fкр (критерий Фишера - Снедекора) [1]:

Fкр (α; n-1; nk-(k-1)),

,                                                                           (8)

где α – уровень значимости; n – количество факторов; k – количество испытаний.

Если Fнабл  <  Fкр, то гипотеза о равенстве дисперсий будет принята.

Если число испытаний на разных уровнях различно (q1 испытаний на уровне F 1, q 2 – на уровне F 2 , …, - на уровне F р ), то [1]:

,         (9)

где  сумма квадратов наблюдавшихся значений признака на уровне Fj,

 сумма наблюдавшихся значений признака на уровне Fj .

При этом объем выборки, или общее число испытаний, равен . Факторная сумма квадратов отклонений вычисляется по формуле [1]:

 .         (10)

Остальные вычисления проводятся так же, как в случае одинакового числа испытаний [1]:      

.               (11)

1.2.   Линейный множественный регрессионный анализ

Регрессионный анализ, по-видимому, наиболее широко используемый метод многомерного статистического анализа. Термин ''множественная регрессия'' объясняется тем, что анализу подвергается зависимость одного признака (результирующего) от набора независимых (факторных) признаков. Разделение признаков на результирующий и факторные осуществляется исследователем на основе содержательных представлений об изучаемом явлении (процессе). Все признаки должны быть количественными (хотя допускается и использование дихотомических признаков, принимающих лишь два значения, например 0 и 1).При поведении экспериментов в множественной ситуации исследователь записывает показания приборов о состоянии функции отклика (y) и всех факторов, от которых она зависит (xi).

При построении регрессионных моделей, прежде всего, возникает вопрос о виде функциональной зависимости, характеризующей взаимосвязи между результирующим признаком и несколькими признаками-факторами. Выбор формы связи должен основываться на качественном, теоретическом и логическом анализе сущности изучаемых явлений. Чаще всего ограничиваются линейной регрессией, т.е. зависимостью вида [2]:

Y=a0+a1x1+a2x2+…+anxn                                        (12)

где Y - результирующий признак; x1, …, xn - факторные признаки; a1,…,an - коэффициенты регрессии; а0 - свободный член уравнения. ai  находим методом наименьших квадратов, для этого рассматривается функции [2]:

      (13)

Находим частные производные по неизвестным переменным, приравниваем к нулю и получаем систему уравнений. Решая систему, можем найти наименьшее значение функции.

Так как запись множественной регрессии (линейной) в матричной форме имеет вид [2]:

Y=X*A,                                           (14)

где Y - это вектор-столбец опытных значений изучаемой характеристики; X –матрица всех значений всех рассматриваемых факторов, полученных при проведении измерений или наблюдений; А вектор-столбец искомых коэффициентов аппроксимирующего полинома (12) [2]:

Y= ;                                                                             (15)


X=;                                                     (16)

Y=;                                          (17)

Тогда функционал F метода наименьших квадратов имеет вид [2]:

     (18)

Для оценки адекватности рассчитанной регрессионной модели вычисляется коэффициент детерминации, он показывает, какая часть дисперсии функции отклика объясняется вариацией линейной комбинации выбранных факторов x1, x2 ,…, xj, xn [2]:

 ,                                                               (19)

где - прогнозные значения

и множественный коэффициент корреляции [2]:

.                                                                                (20)

 Значение коэффициента множественной корреляции оценивается с помощью таблицы 2 [1]:

Таблица Чеддока               Таблица 2

диапазон измерения характер тесноты

слабая

умеренная

заметная

высокая

весьма высокая

1.3. Множественный корреляционный анализ

Расчеты обычно начинают с вычисления парных коэффициентов корреляции, характеризующих тесноту связи между двумя величинами. В множественной ситуации вычисляют два типа парных коэффициентов корреляции:

1.  - коэффициенты, определяющие тесноту связи между функцией отклика y и одним из факторов  [2]:

Страницы: 1, 2, 3, 4


Новости

Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

  скачать рефераты              скачать рефераты

Новости

скачать рефераты

© 2010.