Статистические гипотезы в ms excel


Рассмотрим использование MS EXCEL при проверке статистических гипотез о среднем значении распределения в случае известной дисперсии. Вычислим тестовую статистику

Z

0

, рассмотрим процедуру «одновыборочный z-тест», вычислим Р-значение (Р-

value

).


Проверка гипотез

(Hypothesis testing) тесно связана с построением

доверительных интервалов

. При первом знакомстве с

процедурой проверки гипотез

рекомендуется начать с изучения

построения соответствующего доверительного интервала

.


СОВЕТ

: Для

проверки гипотез

нам потребуется знание следующих понятий:

  • дисперсия и стандартное отклонение

    ,

  • выборочное распределение статистики

    ,

  • уровень доверия/ уровень значимости

    ,

  • стандартное нормальное распределение

    и

    его квантили

    .


Формулировка задачи.

Из

генеральной совокупности

имеющей

нормальное распределение

с неизвестным μ и известной

дисперсией

σ

2

взята

выборка

размера n. Необходимо проверить

статистическую гипотезу

о равенстве неизвестного μ заданному значению μ

0

(англ. Inference on the mean of a population, variance known).


Примечание

: Требование о

нормальности

исходного распределения, из которого берется

выборка

, не является строгим. Н

0

, необходимо, чтобы были выполнены условия применения

Центральной предельной теоремы

.


Статистическая гипотеза

– это некое утверждение о неизвестных параметрах распределения. Процедура проверки гипотез зависит от оцениваемого параметра распределения и условий задачи. Сначала рассмотрим общий подход при

проверке гипотез

, затем рассмотрим конкретный пример.

Обычно формулируют 2 гипотезы:

нулевую

Н

0

и

альтернативную

Н

1

. В нашем случае

нулевой гипотезой

будет равенство μ и μ

0

, а

альтернативной гипотезой

– их отличие.

Нулевая гипотеза

отвергается только в том случае, если на это достаточно оснований. В этом случае принимается

альтернативная гипотеза

.

Чтобы понять, достаточно ли у нас оснований для отклонения

нулевой гипотезы

, из распределения делают

выборка.

Сначала проведем

проверку гипотезы

, используя

доверительный интервал

, а затем с помощью вышеуказанной процедуры

z-тест

.

В конце вычислим

Р-значение

и также используем его для

проверки гипотезы

.

Итак,

нулевая гипотеза

Н

0

утверждает, что неизвестное

среднее значение

распределения μ равно μ

0

. Соответствующая

альтернативная гипотеза

Н

1

утверждает обратное: μ не равно μ

0

. Это пример

двусторонней проверки

, т.к. неизвестное значение может быть как больше, так и меньше μ

0

.

Если упрощенно, то

проверка гипотезы

заключается в сравнении 2-х величин: вычисленного на основании

выборки среднего значения

Х

ср

и заданного μ

0

. Если эти значения «отличаются больше, чем можно было бы ожидать исходя из случайности», то

нулевую гипотезу

отклоняют.

Поясним фразу «отличаются больше, чем можно было бы ожидать исходя из случайности». Для этого, вспомним, что распределение

Выборочного среднего (статистика Х

ср

)

стремится к

нормальному распределению

со

средним значением

μ и

стандартным отклонением

равным σ/√n, где σ –

стандартное отклонение распределения

, из которого берется

выборка

(не обязательно

нормальное

), а n – объем

выборки

(подробнее см.

статью про ЦПТ

). В нашем случае

стандартное отклонение

σ известно.

В задачах

проверки гипотез

также задается

уровень доверия

(вероятность), который определяет порог между утверждением «мало вероятно» и «вполне вероятно» или «может быть обусловлено случайностью» и «не может быть обусловлено случайностью». Обычно используют значения

уровня доверия

90%; 95%; 99%, реже 99,9% и т.д.


Примечание

:

Уровень доверия

равен (1-α)

,

где α –

уровень значимости

. И наоборот, α=(

1-уровень доверия

)

.

Таким образом, знание распределения

статистики

Х

ср

и заданного

уровня доверия

, позволяют нам формализовать с помощью математических выражений фразу «отличаются больше, чем можно было бы ожидать исходя из случайности». В этом нам поможет

доверительный интервал

(как строится

доверительный интервал

нам

известно из этой статьи

).

Если

среднее выборки

попадает в

доверительный интервал,

построенный относительно μ

0

, то для отклонения нулевой гипотезы оснований нет.

Для визуализации процедуры

проверки гипотез

в

файле примера на листе Сигма известна

создана

диаграмма

.

Если μ

0

не попадает в

доверительный интервал,

то нулевая гипотеза отклоняется.

Теперь рассмотрим проверку гипотез с помощью процедуры

z

-тест

.

Z-тест

Кроме

доверительного интервала

для

проверки гипотез

существует также и другой эквивалентный подход —

z

-тест:

  • На основе

    выборки

    вычисляют

    тестовую статистику

    . Выбор

    тестовой статистики

    делают в зависимости от оцениваемого параметра распределения и условий задачи. В нашем случае

    тестовой статистикой

    является случайная величина z=

    , где

    среднее выборки

    (обозначим Х

    ср

    ). Значение, которое приняла

    z-

    статистика

    , обычно обозначают Z

    0

    ;


  • z

    -статистика

    , как и любая другая случайная величина, имеет свое распределение. В процедуре

    проверки гипотез

    это распределение называют «

    эталонным распределением

    », англ. Reference distribution. В нашем случае

    тестовая статистика

    имеет

    стандартное нормальное распределение

    ;

  • Также исследователь устанавливает требуемый

    уровень значимости

    – это допустимая для данной задачи

    ошибка первого рода

    , т.е. вероятность отклонить

    нулевую гипотезу

    , когда она верна (

    уровень значимости

    обозначают буквой α и чаще всего выбирают равным 0,1; 0,05 или 0,01);

  • С помощью

    эталонного распределения

    для заданного

    уровня значимости

    вычисляют соответствующие

    квантили этого распределения

    . В нашем случае, при проверке

    двухсторонней гипотезы

    , необходимо будет вычислить

    верхний α/2-квантиль стандартного

    нормального распределения,

    т.е. такое значение случайной величины

    z

    ,

    что

    P

    (

    z

    >=

    Z

    α

    /2

    )=α/2

    ;

  • И наконец, значение

    тестовой статистики

    Z

    0

    сравнивают с вычисленными на предыдущем шаге

    квантилями

    и делают

    статистический вывод

    : Имеются ли основания, чтобы отвергнуть

    нулевую гипотезу

    ? В нашем случае проверки двусторонней гипотезы, Н

    0

    отвергается если: |Z

    0

    |>Z

    α

    /2

    .


Примечание

: Подробнее про

квантили

распределения можно прочитать в статье

Квантили распределений MS EXCEL

.

В MS EXCEL

верхний

α

/2-квантиль стандартного нормального распределения

вычисляется по формуле

=НОРМ.СТ.ОБР(1-α/2)

Учитывая симметричность

стандартного нормального распределения

относительно оси ординат,

верхний

α

/2-квантиль

равен обычному α

/2-квантилю

со знаком минус:

=-НОРМ.СТ.ОБР(α/2)


Примечание

: Еще раз подчеркнем связь процедуры

z

-теста

с построением

доверительного интервала

. Т.к.

z

-статистика

распределена по

стандартному нормальному закону,

то можно ожидать, что 1-α значений

z

-статистики

будет попадать в интервал между -Z

α/2

и Z

α/2

. Например, для

уровня доверия

95% в интервал между -1,960 и 1,960 будет попадать примерно 95% значений Z

0

, вычисленных на основе

выборки

. Если Z

0

не попало в указанный интервал, то это считается маловероятным событием и

нулевая гипотеза

отвергается.

В случае

односторонней гипотезы

речь идет об отклонении μ только в одну сторону: либо больше либо меньше μ

0

. Если

альтернативная гипотеза

звучит как μ>μ

0

, то гипотеза Н

0

отвергается в случае Z

0

> Z

α

. Если

альтернативная гипотеза

звучит как μ<μ

0

, то гипотеза Н

0

отвергается в случае Z

0
< -Z

α

.

Вычисление Р-значения

При

проверке гипотез

большое распространение также получил еще один эквивалентный подход, основанный на вычислении

p

-значения

(p-value). Поясним его на основе

односторонней гипотезы

Н

1

: μ>μ

0

.

Напомним, что если Н

1

утверждает, что μ>μ

0

, то

односторонняя гипотеза

Н

0

отвергается в случае если Z

0

> Z

α

. Эти значения

z

-статистики

имеют размерность анализируемой случайной величины, но их трудно интерпретировать. Преобразуем неравенство Z

0

> Z

α

так, чтобы его можно было проще интерпретировать.

Напомним, что Z

α

– это положительная величина и она равна

верхнему

α

-квантилю стандартного нормального распределения

(такому значению случайной величины z, что P(z>=Z

α

)=α). Неравенство Z

0

> Z

α

означает, что если Z

0

, вычисленное на основе

выборки

, будет слишком велико, т.е. больше Z

α

, то эта ситуация считается маловероятным событием и появляется основание для отклонения

нулевой гипотезы

.

Поэтому, логично вычислить вероятность события, что

z

-статистика

примет значение z>=Z

0

и сравнить ее с вероятностью, что z=>Z

α

. Вероятность события z=>Z

α

(по определению

верхнего квантиля

) – это просто α. Вероятность события, что

z

-статистика

примет значение z>=Z

0

равна 1-Ф(Z

0

), где Ф(z) –

интегральная функция стандартного нормального распределения

.

В MS EXCEL эта функция вычисляется по формуле

=1-НОРМ.СТ.РАСП(Z

0

;ИСТИНА)


Примечание

: В MS EXCEL для вычисления

p-значения

имеется специальная функция

Z.TEСT()

, которая эквивалентна выражению

=1-НОРМ.СТ.РАСП(Z

0

;ИСТИНА)

.

Про функцию

Z.TEСT()

см.

ниже

.

Таким образом, неравенство Z

0

> Z

α

эквивалентно неравенству P(z>= Z

0

)<α или в других обозначениях 1-Ф(Z

0

)<α. Величина 1-Ф(Z

0

) называется

p

-значением.


СОВЕТ

: Лучше понять вышесказанное помогут графики

функции стандартного нормального распределения

из статьи

Квантили распределений MS EXCEL

.

Теперь, если

p-значение

меньше чем заданный

уровень значимости α

, то

нулевая гипотеза

отвергается и принимается

альтернативная гипотеза

. И наоборот, если

p-значение

больше α, то

нулевая гипотеза

не отвергается. Другими словами, если

p-значение

меньше

уровня значимости

α, то это свидетельство того, что значение

z

-статистики

, вычисленное на основе

выборки

при условии истинности

нулевой гипотезы

, приняло маловероятное значение Z

0

.

Для другой односторонней гипотезы (μ<μ

0

)

p-значение

вычисляется как Ф(Z

0

) или

=НОРМ.СТ.РАСП(Z

0

;ИСТИНА)

.  Соответственно,

p-значение

для односторонней гипотезы μ<μ

0

вычисляется по формуле

=1-Z.TEСT(

выборка

; μ

0

; σ)

, где

выборка

– ссылка на диапазон, содержащий значения

выборки

.

В случае двусторонней гипотезы,

p

-значение

вычисляется по формуле =2*(1-Ф(|Z

0

|)).

В качестве примера проверим гипотезу Н

0

: μ=μ

0

, при этом

альтернативная

односторонняя гипотеза

Н

1

: μ<μ

0

. Известно, что

среднее выборки

размера 60 равно 1,851;

стандартное отклонение

=2; μ

0

=2,3;

уровень значимости

равен 0,05. Решение:

Z

0

=(1,851-2,3)/(2/КОРЕНЬ(60))=-1,739

p-значение

=НОРМ.СТ.РАСП(-1,739;ИСТИНА)=0,04

Нулевая гипотеза

отклоняется, т.к. 0,04<0,05.

Эквивалентность этих трех подходов для проверки гипотез (

проверка через доверительный интервал

,

z

-тест

и

p-значение

) продемонстрирована в

файле примера

: во всех случаях, когда

z-тест

дает заключение о необходимости отклонить

нулевую гипотезу

, Х

ср

не попадает в соответствующий

доверительный интервал,

а

p

-значение

меньше уровня значимости.

Функция

Z.ТЕСТ()

MS EXCEL для процедуры

z-тест

существует специальная функция

Z.ТЕСТ()

, которая на самом деле вычисляет

p-значение

в случае

односторонней альтернативной гипотезы μ



0

:

=Z.TEСT(

выборка

; μ

0

; σ)

, где

выборка

– ссылка на диапазон, содержащий n значений

выборки, σ

– известное

стандартное отклонение

распределения, из которого делается

выборка

.

Функция

Z.ТЕСТ()

эквивалентна формуле

=1- НОРМ.СТ.РАСП((СРЗНАЧ(

выборка

)- μ

0

) / (σ/√n);ИСТИНА)

Выражение

(СРЗНАЧ(

выборка

)- μ

0

) / (σ/√n)

– это значение

тестовой статистики

, т.е. Z

0

.

Эту же функцию можно использовать для вычисления

p

-значения

в случае проверки

двусторонней гипотезы

, записав формулу:

=2 * МИН(Z.TEСT(

выборка

; μ

0

; σ); 1 — Z.TEСT(

выборка

; μ

0

; σ)

Для вычисления

p

-значения

в случае

односторонней альтернативной гипотезы μ


0

используйте формулу:

=1-Z.TEСT(

выборка

; μ

0

; σ)

σ — третий аргумент функции

Z.ТЕСТ()

должен быть всегда указан, т.к. это соответствует вышерассмотренной процедуре

z-теста

.

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


В статистике проверка гипотезы используется для проверки некоторого предположения о параметре совокупности .

Существует множество различных типов проверки гипотез, которые вы можете выполнять в зависимости от типа данных, с которыми вы работаете, и цели вашего анализа.

В этом руководстве объясняется, как выполнять следующие типы проверок гипотез в Excel:

  • Один образец t-критерия
  • Два выборочных t-теста
  • Парные выборки t-критерий
  • Z-тест одной пропорции
  • Z-тест с двумя пропорциями

Давайте прыгать!

Пример 1: один образец t-критерия в Excel

Одновыборочный t-критерий используется для проверки того, равно ли среднее значение совокупности некоторому значению.

Например, предположим, что ботаник хочет знать, равна ли средняя высота определенного вида растений 15 дюймам.

Чтобы проверить это, она собирает случайную выборку из 12 растений и записывает их высоту в дюймах.

Она записала бы гипотезы для этого конкретного t-критерия одной выборки следующим образом:

  • H 0 : µ = 15
  • НА : мк ≠ 15

Обратитесь к этому руководству для пошагового объяснения того, как выполнить эту проверку гипотезы в Excel.

Пример 2. Двухвыборочный t-критерий в Excel

Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей.

Например, предположим, что исследователи хотят знать, имеют ли два разных вида растений одинаковую среднюю высоту.

Чтобы проверить это, они собирают случайную выборку из 20 растений каждого вида и измеряют их высоту.

Исследователи записали бы гипотезы для этого конкретного двухвыборочного t-критерия следующим образом:

  • Н 0 : мк 1 = мк 2
  • H A : µ 1 ≠ µ 2

Обратитесь к этому руководству для пошагового объяснения того, как выполнить эту проверку гипотезы в Excel.

Пример 3: t-критерий парных выборок в Excel

Стьюдентный критерий для парных выборок используется для сравнения средних значений двух выборок, когда каждое наблюдение в одной выборке может быть сопоставлено с наблюдением в другой выборке.

Например, предположим, что мы хотим знать, значительно ли влияет определенная учебная программа на успеваемость студента на конкретном экзамене.

Чтобы проверить это, у нас есть 20 учеников в классе, которые проходят предварительный тест. Затем каждый из студентов участвует в учебной программе в течение двух недель. Затем учащиеся пересдают пост-тест аналогичной сложности.

Мы бы записали гипотезы для этого конкретного двухвыборочного t-критерия следующим образом:

  • H 0 : µ до = µ после
  • H A : µ до ≠ µ после

Обратитесь к этому руководству для пошагового объяснения того, как выполнить эту проверку гипотезы в Excel.

Пример 4: Z-тест одной пропорции в Excel

Z-критерий одной пропорции используется для сравнения наблюдаемой пропорции с теоретической.

Например, предположим, что телефонная компания утверждает, что 90% ее клиентов удовлетворены их услугами.

Чтобы проверить это утверждение, независимый исследователь собрал простую случайную выборку из 200 клиентов и спросил их, довольны ли они своим сервисом.

Мы бы записали гипотезы для этого конкретного двухвыборочного t-критерия следующим образом:

  • Н 0 : р = 0,90
  • НА : р ≠ 0,90

Обратитесь к этому руководству для пошагового объяснения того, как выполнить эту проверку гипотезы в Excel.

Пример 5: Z-тест для двух пропорций в Excel

Z-критерий двух пропорций используется для проверки разницы между двумя пропорциями населения.

Например, предположим, что руководитель школьного округа утверждает, что процент учащихся, предпочитающих шоколадное молоко обычному молоку в школьных столовых, одинаков для школы 1 и школы 2.

Чтобы проверить это утверждение, независимый исследователь получает простую случайную выборку из 100 учеников из каждой школы и опрашивает их об их предпочтениях.

Мы бы записали гипотезы для этого конкретного двухвыборочного t-критерия следующим образом:

  • Н 0 : р 1 = р 2
  • Н А : п 1 ≠ п 2

Обратитесь к этому руководству для пошагового объяснения того, как выполнить эту проверку гипотезы в Excel.

Содержание

  1. Проверка статистических гипотез в EXCEL о дисперсии нормального распределения
  2. Вычисление Р-значения
  3. Проверка статистических гипотез в EXCEL о равенстве среднего значения распределения (дисперсия неизвестна)
  4. t-тест

Проверка статистических гипотез в EXCEL о дисперсии нормального распределения

history 11 декабря 2016 г.

Рассмотрим использование MS EXCEL при проверке статистических гипотез о дисперсии нормального распределения. Вычислим тестовую статистику χ 2 и Р-значение (Р- value ).

Первое знакомство с процедурой проверки гипотез (Hypothesis testing) для дисперсии рекомендуется начать с изучения построения соответствующего доверительного интервала (см. статью Доверительный интервал для оценки дисперсии в MS EXCEL ).

Примечание : Перечень статей о проверке гипотез приведен в статье Проверка статистических гипотез в MS EXCEL .

СОВЕТ : Для проверки гипотез потребуется знание следующих понятий:

Формулировка задачи. Из генеральной совокупности имеющей нормальное распределение с неизвестным средним значением μ (мю) и неизвестной дисперсией σ 2 ( сигма 2 ) взята выборка размера n. Необходимо проверить двустороннюю статистическую гипотезу о равенстве неизвестной дисперсии σ 2 заданному исследователем значению σ 0 2 (англ. Inference on the variance of a normal population).

Примечание : Изложенный ниже метод проверки гипотез о дисперсии ,очень чувствителен к выполнению требования о нормальности распределения , из которого берется выборка . Если это требование не выполняется, то этот метод проверки гипотез будет давать неточные значения.

В качестве точечной оценкой дисперсии распределения, из которого взята выборка , используют Дисперсию выборки s 2 .

Перед процедурой проверки гипотезы , исследователь устанавливает требуемый уровень значимости – это допустимая для данной задачи ошибка первого рода , т.е. вероятность отклонить нулевую гипотезу , когда она верна ( уровень значимости обозначают буквой α (альфа) и чаще всего выбирают равным 0,1; 0,05 или 0,01).

Тестовой статистикой для проверки этой гипотезы является величина:

В статье про χ 2 -распределение показано , что выборочное распределение этой статистики, имеет χ 2 -распределение с n-1 степенью свободы, которое является « эталонным распределением » (англ. Reference distribution) для данного теста о равенстве дисперсии .

Значение, которое приняла χ 2 -статистика обозначим χ 0 2 .

Нулевая гипотеза Н 0 о равенстве дисперсии значению σ 0 2 отвергается в том случае, если χ 0 2 >χ 2 α/2,n-1 или χ 0 2 2 1-α/2,n-1

Примечание : Подробнее про квантили распределения можно прочитать в статье Квантили распределений MS EXCEL .

В MS EXCEL верхний α/2-квантиль распределения χ 2 вычисляется с помощью формулы =ХИ2.ОБР.ПХ(α/2; n-1)

Верхний (1-α /2)-квантиль вычисляется с помощью аналогичной формулы =ХИ2.ОБР.ПХ(1-α/2; n-1)

или через равный ему нижний квантиль

Вычисления приведены в файле примера .

В случае односторонней гипотезы речь идет об отклонении дисперсии только в одну сторону: либо больше либо меньше σ 0 2 . Если альтернативная гипотеза звучит как σ 2 > σ 0 2 , то гипотеза Н 0 отвергается в случае χ 0 2 > χ 2 α ,n-1 . Если альтернативная гипотеза звучит как σ 2 2 , то гипотеза Н 0 отвергается в случае χ 0 2 2 1-α ,n-1 .

СОВЕТ : О проверке гипотезы о равенстве дисперсий двух нормальных распределений ( F-test ) см. статью Двухвыборочный тест для дисперсии: F-тест в MS EXCEL .

Вычисление Р-значения

При проверке гипотез большое распространение также получил еще один эквивалентный подход, основанный на вычислении p -значения (p-value).

Если p-значение , вычисленное на основании выборки , меньше чем заданный уровень значимости α , то нулевая гипотеза отвергается и принимается альтернативная гипотеза . И наоборот, если p-значение больше α, то нулевая гипотеза не отвергается.

Формула для вычисления p-значения зависит от формулировки альтернативной гипотезы :

  • Для односторонней гипотезы σ 2 2 p-значение вычисляется как =ХИ2.РАСП( χ 0 2 ; n-1;ИСТИНА)
  • Для другой односторонней гипотезы σ 2 > σ 0 2 p-значение вычисляется как =ХИ2.РАСП.ПХ( χ 0 2 ; n-1)
  • Для двусторонней гипотезыp-значение вычисляется как =2*МИН(ХИ2.РАСП( χ 0 2 ;n-1;ИСТИНА); ХИ2.РАСП.ПХ( χ 0 2 ;n-1))

Соответственно, χ 0 2 = (СЧЁТ( выборка )-1)* ДИСП.В( выборка )/ σ 0 2 , где выборка – ссылка на диапазон, содержащий значения выборки .

СОВЕТ : Подробнее про вышеуказанные функции MS EXCEL см. статью про χ 2 -распределение .

В файле примера на листе Дисперсия показано решение задач проверки двусторонней и односторонних гипотез .

Источник

Проверка статистических гипотез в EXCEL о равенстве среднего значения распределения (дисперсия неизвестна)

history 10 декабря 2016 г.

Рассмотрим использование MS EXCEL при проверке статистических гипотез о среднем значении распределения в случае неизвестной дисперсии. Вычислим тестовую статистику t 0 , рассмотрим процедуру «одновыборочный t -тест», вычислим Р-значение (Р- value ).

Материал данной статьи является продолжением статьи Проверка статистических гипотез о равенстве среднего значения распределения (дисперсия известна) . В указанной статье даны основные понятия проверки гипотез ( нулевая и альтернативная гипотезы, тестовые статистики, эталонное распределение, Р-значение и др. ).

СОВЕТ : Для проверки гипотез потребуется знание следующих понятий:

Формулировка задачи. Из генеральной совокупности имеющей нормальное распределение с неизвестным средним значением μ (мю) и неизвестной дисперсией взята выборка размера n. Необходимо проверить статистическую гипотезу о равенстве неизвестного μ заданному значению μ 0 (англ. Inference on the mean of a population, variance unknown).

Примечание : Требование о нормальности исходного распределения, из которого берется выборка , не является обязательным. Но, необходимо, чтобы были выполнены условия применения Центральной предельной теоремы .

Сначала проведем проверку гипотезы , используя доверительный интервал , а затем с помощью процедуры t -тест. В конце вычислим Р-значение и также используем его для проверки гипотезы .

Пусть нулевая гипотеза Н 0 утверждает, что неизвестное среднее значение распределения μ равно μ 0 . Соответствующая альтернативная гипотеза Н 1 утверждает обратное: μ не равно μ 0 . Это пример двусторонней проверки , т.к. неизвестное значение может быть как больше, так и меньше μ 0 .

Если упрощенно, то проверка гипотезы заключается в сравнении 2-х величин: вычисленного на основании выборки среднего значения Х ср и заданного μ 0 . Если эти значения «отличаются больше, чем можно было бы ожидать исходя из случайности», то нулевую гипотезу отклоняют.

Поясним фразу «отличаются больше, чем можно было бы ожидать исходя из случайности». Для этого, вспомним, что распределение Выборочного среднего (статистика Х ср ) стремится к нормальному распределению со средним значением μ и стандартным отклонением равным σ/√n, где σ – стандартное отклонение распределения, из которого берется выборка (не обязательно нормальное ), а n – объем выборки (подробнее см. статью про ЦПТ ).

К сожалению, в нашем случае дисперсия а, значит, и стандартное отклонение , неизвестны, поэтому вместо нее мы будем использовать ее оценку — дисперсию выборки s 2 и, соответственно, стандартное отклонение выборки s.

Известно, что если вместо неизвестной дисперсии распределения σ 2 мы используем дисперсию выборки s 2 , то распределением статистики Х ср является распределение Стьюдента с n-1 степенью свободы .

Таким образом, знание распределения статистики Х ср и заданного уровня доверия , позволяют нам формализовать с помощью математических выражений фразу «отличаются больше, чем можно было бы ожидать исходя из случайности».

В этом нам поможет доверительный интервал (как строится доверительный интервал нам известно из статьи Доверительный интервал для оценки среднего (дисперсия неизвестна) в MS EXCEL ). Если среднее выборки попадает в доверительный интервал, построенный относительно μ 0 , то для отклонения нулевой гипотезы оснований нет. Если не попадает, то нулевая гипотеза отвергается.

Воспользуемся выражением для Доверительного интервала , которое мы получили в статье Доверительный интервал для оценки среднего (дисперсия неизвестна) .

Напомним, что доверительный интервал обычно определяют через количество стандартных отклонений , которые в нем укладываются. В нашем случае в качестве стандартного отклонения берется стандартная ошибка s/√n.

Количество стандартных отклонений зависит от количества степеней свободы используемого t-распределения и уровня значимости α (альфа) .

Для визуализации проверки гипотезы методом доверительного интервала в файле примера на листе Сигма неизвестна создана диаграмма .

Примечание : Перечень статей о проверке гипотез приведен в статье Проверка статистических гипотез в MS EXCEL .

t-тест

Ниже приведем процедуру проверки гипотезы в случае неизвестной дисперсии . Данная процедура имеет название t -тест :

  • Формулируют 2 гипотезы: нулевую Н 0 и альтернативную Н 1 . В случае формулирования двухсторонней гипотезы , нулевой гипотезой будет равенство μ и μ 0 , а альтернативной гипотезой – их отличие. Нулевая гипотеза отвергается только в том случае, если на это достаточно оснований. В этом случае принимается альтернативная гипотеза ;
  • Чтобы понять, достаточно ли у нас оснований для отклонения нулевой гипотезы , из распределения делают выборка.
  • На основе выборки вычисляют тестовую статистику . В нашем случае тестовой статистикой является случайная величина t ( t-статистика ) , где Х ср – среднее выборки . Значение, которое приняла тестовая статистика , обычно обозначают t 0 ;
  • Выбранная тестовая статистика , как и любая другая случайная величина, имеет свое распределение. В процедуре проверки гипотез это распределение называют « эталонным распределением », англ. Reference distribution. В нашем случае, когда дисперсия неизвестна, тестовая статистика имеет t-распределение с n-1 степенью свободы ;
  • Также исследователь устанавливает требуемый уровень значимости – это допустимая для данной задачи ошибка первого рода , т.е. вероятность отклонить нулевую гипотезу , когда она верна ( уровень значимости обозначают буквой α и чаще всего выбирают равным 0,1; 0,05 или 0,01);
  • С помощью эталонного распределения для заданного уровня значимости вычисляют соответствующие квантили этого распределения . В нашем случае, при проверке двухсторонней гипотезы , необходимо будет вычислить верхний α/2-квантильt-распределения с n-1 степенью свободы, т.е.такое значение случайной величины t n-1, что P(t n-1 >=t α/2,n-1 )= α /2 ;
  • И, наконец, значение тестовой статистики t 0 сравнивают с вычисленными на предыдущем шаге квантилями и делают статистический вывод : Имеются ли основания, чтобы отвергнуть нулевую гипотезу ? В нашем случае проверки двусторонней гипотезы , Н 0 отвергается если: |t 0 |>t α/2, n-1

В MS EXCEL верхний α /2-квантиль вычисляется по формуле =СТЬЮДЕНТ.ОБР(1- α /2; n-1)

Учитывая симметричность t- распределения относительно оси ординат, верхний α /2-квантиль равен обычному α /2-квантилю со знаком минус: =-СТЬЮДЕНТ.ОБР( α /2; n-1)

Также в MS EXCEL имеется специальная формула для вычисления двухсторонних квантилей : =СТЬЮДЕНТ.ОБР.2Х( α ; n-1) Все три формулы вернут один и тот же результат.

Примечание : Подробнее про квантили распределения можно прочитать в статье Квантили распределений MS EXCEL .

Примечание : Если вместо t- распределения использовать стандартное нормальное распределение, то мы получим необоснованно более узкий доверительный интервал , тем самым мы будем чаще необоснованно отвергать нулевую гипотезу , когда она справедлива ( увеличим ошибку первого рода ).

Отметим, что различие в ширине интервалов зависит от размера выборки n (при уменьшении n различие увеличивается) и от уровня значимости (при уменьшении α различие увеличивается). Для n=10 и α = 0,01 относительная разница в ширине интервалов составляет порядка 20%. При большом размере выборки n (>30), различием в интервалах часто пренебрегают (для n=30 и α = 0,01 относительная разница составляет 6,55%). Это свойство используется в функции Z.ТЕСТ() , которая вычисляет р-значение (см. ниже) с использованием нормального распределения (аргумент σ должен быть опущен или указана ссылка на стандартное отклонение выборки ).

В случае односторонней гипотезы речь идет об отклонении μ только в одну сторону: либо больше либо меньше μ 0 . Если альтернативная гипотеза звучит как μ>μ 0 , то гипотеза Н 0 отвергается в случае t 0 > t α ,n-1 . Если альтернативная гипотеза звучит как μ СОВЕТ : Подробнее про p -значение написано в статье Проверка статистических гипотез в MS EXCEL о равенстве среднего значения распределения (дисперсия известна) .

Если p-значение , вычисленное на основании выборки , меньше чем заданный уровень значимости α , то нулевая гипотеза отвергается и принимается альтернативная гипотеза . И наоборот, если p-значение больше α , то нулевая гипотеза не отвергается.

Другими словами, если p-значение меньше уровня значимости α , то это свидетельство того, что значение t -статистики , вычисленное на основе выборки при условии истинности нулевой гипотезы , приняло маловероятное значение t 0 .

Формула для вычисления p-значения зависит от формулировки альтернативной гипотезы :

  • Для односторонней гипотезы μ =СТЬЮДЕНТ.РАСП(t 0 ; n-1; ИСТИНА)
  • Для другой односторонней гипотезы μ>μ 0p-значение вычисляется как =1-СТЬЮДЕНТ.РАСП(t 0 ; n-1; ИСТИНА)
  • Для двусторонней гипотезыp-значение вычисляется как =2*(1-СТЬЮДЕНТ.РАСП(ABS(t 0 );n-1;ИСТИНА))

Соответственно, t 0 =(СРЗНАЧ( выборка )-μ 0 )/ (СТАНДОТКЛОН.В( выборка )/ КОРЕНЬ(СЧЁТ( выборка ))) , где выборка – ссылка на диапазон, содержащий значения выборки .

В файле примера на листе Сигма неизвестна показана эквивалентность проверки гипотезы через доверительный интервал , статистику t 0 ( t -тест) и p -значение .

Примечание : В MS EXCEL нет специализированной функции для одновыборочного t-теста . При больших n можно использовать функцию Z.ТЕСТ() с опущенным 3-м аргументом (подробнее про эту функцию см. статью Проверка статистических гипотез в MS EXCEL о равенстве среднего значения распределения (дисперсия известна) ). Функция СТЬЮДЕНТ.ТЕСТ() предназначена для двухвыборочного t-теста .

Источник

Проверка статистической гипотезы позволяет сделать строгий вывод о характеристиках генеральной совокупности на основе выборочных данных. Гипотезы бывают разные. Одна из них – это гипотеза о средней (математическом ожидании). Суть ее в том, чтобы на основе только имеющейся выборки сделать корректное заключение о том, где может или не может находится генеральная средняя (точную правду мы никогда не узнаем, но можем сузить круг поиска).

Распределение Стьюдента

Общий подход в проверке гипотез описан здесь, поэтому сразу к делу. Предположим для начала, что выборка извлечена из нормальной совокупности случайных величин X с генеральной средней μ и дисперсией σ2. Средняя арифметическая из этой выборки, очевидно, сама является случайной величиной. Если извлечь много таких выборок и посчитать по ним средние, то они также будут иметь нормальное распределение с математическим ожиданием μ и дисперсией

Генеральная дисперсия средней

Тогда случайная величина

Нормированное отклонение выборочное средней

имеет стандартное нормальное распределение со всеми вытекающими отсюда последствиями. Например, с вероятностью 95% ее значение не выйдет за пределы ±1,96.

Однако такой подход будет корректным, если известна генеральная дисперсия. В реальности, как правило, она не известна. Вместо нее берут оценку – несмещенную выборочную дисперсию:

Оценка дисперсии средней

где

Выборочная несмещенная дисперсия

Возникает вопрос: будет ли генеральная средняя c вероятностью 95% находиться в пределах ±1,96s. Другими словами, являются ли распределения случайных величин

Нормированное отклонение выборочное средней

и

Нормированное отклонение выборочной средней относительно оценки стандартной ошибки

эквивалентными.

Впервые этот вопрос был поставлен (и решен) одним химиком, который трудился на пивной фабрике Гиннесса в г. Дублин (Ирландия). Химика звали Уильям Сили Госсет и он брал пробы пива для проведения химического анализа. В какой-то момент, видимо, Уильяма стали терзать смутные сомнения на счет распределения средних. Оно получалось немного более размазанным, чем должно быть у нормального распределения.

Собрав математическое обоснование и рассчитав значения функции обнаруженного им распределения, химик из Дублина Уильям Госсет написал заметку, которая была опубликована в мартовском выпуске 1908 года журнала «Биометрика» (главред – Карл Пирсон). Гиннесс строго-настрого запретил выдавать секреты пивоварения, и Госсет подписался псевдонимом Стьюдент.

Несмотря на то что, К. Пирсон уже изобрел распределение Хи-квадрат, все-таки всеобщее представление о нормальности еще доминировало. Никто не собирался думать, что распределение выборочных оценок может быть не нормальным. Поэтому статья У. Госсета осталась практически не замеченной и забытой. И только Рональд Фишер по достоинству оценил открытие Госсета. Фишер использовал новое распределение в своих работах и дал ему название t-распределение Стьюдента. Критерий для проверки гипотез, соответственно, стал t-критерием Стьюдента. Так произошла «революция» в статистике, которая шагнула в эру анализа выборочных данных. Это был краткий экскурс в историю.

Посмотрим, что же мог увидеть У. Госсет. Сгенерируем 20 тысяч нормальных выборок из 6-ти наблюдений со средней () 50 и среднеквадратичным отклонением (σ) 10. Затем нормируем выборочные средние, используя генеральную дисперсию:

Нормирование средней с использование генеральной дисперсии

Получившиеся 20 тысяч средних сгруппируем в интервалы длинной 0,1 и подсчитаем частоты. Изобразим на диаграмме фактическое (Norm) и теоретическое (ENorm) распределение частот выборочных средних.

Распределение средней арифметической

Точки (наблюдаемые частоты) практически совпадают с линией (теоретическими частотами). Оно и понятно, ведь данные взяты из одной и то же генеральной совокупности, а отличия – это лишь ошибки выборки.

Проведем новый эксперимент. Нормируем средние, используя выборочную дисперсию.

Нормирование средней с использование выборочной дисперсии

Снова подсчитаем частоты и нанесем их на диаграмму в виде точек, оставив для сравнения линию стандартного нормального распределения. Обозначим эмпирическое частоты средних, скажем, через букву t.

Отличие распределения средних от нормального закона

Видно, что распределения на этот раз не очень-то и совпадают. Близки, да, но не одинаковы. Хвосты стали более «тяжелыми».

У Госсета-Стьюдента не было последней версии MS Excel, но именно этот эффект он и заметил. Почему так получается? Объяснение заключается в том, что случайная величина

Нормированное отклонение выборочной средней относительно оценки стандартной ошибки

зависит не только от ошибки выборки (числителя), но и от стандартной ошибки средней (знаменателя), которая также является случайной величиной.

Давайте немного разберемся, какое распределение должно быть у такой случайной величины. Вначале придется кое-что вспомнить (или узнать) из математической статистики. Есть такая теорема Фишера, которая гласит, что в выборке из нормального распределения:

1. средняя и выборочная дисперсия s2 являются независимыми величинами;

2. соотношение выборочной и генеральной дисперсии, умноженное на количество степеней свободы, имеет распределение χ2(хи-квадрат) с таким же количеством степеней свободы, т.е.

Теорема Фишера

где k – количество степеней свободы (на английском degrees of freedom (d.f.))

Вернемся к распределению средней. Разделим числитель и знаменатель выражения

Нормированное отклонение выборочной средней относительно оценки стандартной ошибки

на σ. Получим

Вывод t-критерия

Числитель – это стандартная нормальная случайная величина (обозначим ξ (кси)). Знаменатель выразим из теоремы Фишера.

Вывод t-критерия 2

Тогда исходное выражение примет вид

t-критерий Стьюдента

Это и есть t-критерий Стьюдента в общем виде (стьюдентово отношение). Вывести функцию его распределения можно уже непосредственно, т.к. распределения обеих случайных величин в данном выражении известны. Оставим это удовольствие математикам.

Функция t-распределения Стьюдента имеет довольно сложную для понимания формулу, поэтому не имеет смысла ее разбирать. Вероятности и квантили t-критерия приведены в специальных таблицах распределения Стьюдента и забиты в функции разных ПО вроде Excel.

Итак, вооружившись новыми знаниями, вы сможете понять официальное определение распределения Стьюдента.
Случайной величиной, подчиняющейся распределению Стьюдента с k степенями свободы, называется отношение независимых случайных величин

t-критерий Стьюдента

где ξ распределена по стандартному нормальному закону, а χ2k подчиняется распределению χ2 c k степенями свободы.

Таким образом, формула критерия Стьюдента для средней арифметической

Нормированное отклонение выборочной средней относительно оценки стандартной ошибки

есть частный случай стьюдентова отношения

t-критерий Стьюдента

Из формулы и определения следует, что распределение т-критерия Стьюдента зависит лишь от количества степеней свободы.

Зависимость t-распределения Стьюдента от количества степеней свободы

При k > 30 t-критерий практически не отличается от стандартного нормального распределения.

В отличие от хи-квадрат, t-критерий может быть одно- и двусторонним. Обычно пользуются двусторонним, предполагая, что отклонение может происходить в обе стороны от средней. Но если условие задачи допускает отклонение только в одну сторону, то разумно применять односторонний критерий. От этого немного увеличивается мощность критерия.

Несмотря на то, что открытие Стьюдента в свое время совершило переворот в статистике, t-критерий все же довольно сильно ограничен в возможностях применения, т.к. сам по себе происходит из предположения о нормальном распределении исходных данных. Если данные не являются нормальными (что обычно и бывает), то и t-критерий уже не будет иметь распределения Стьюдента. Однако в силу действия центральной предельной теоремы средняя даже у ненормальных данных быстро приобретает колоколообразную форму распределения.

Рассмотрим, для примера, данные, имеющие выраженный скос вправо, как у распределения хи-квадрат с 5-ю степенями свободы.

Распределение хи-квадрат

Теперь создадим 20 тысяч выборок и будет наблюдать, как меняется распределение средних в зависимости от их объема.

Относительная устойчивость t-распределения к ненормальности исходных данных

Отличие довольно заметно в малых выборках до 15-20-ти наблюдений. Но дальше оно стремительно исчезает. Таким образом, ненормальность распределения – это, конечно, нехорошо, но некритично.

Больше всего t-критерий «боится» выбросов, т.е. аномальных отклонений. Возьмем 20 тыс. нормальных выборок по 15 наблюдений и в часть из них добавим по одному случайном выбросу.

Влияние аномальных выбросов на распределение средней

Картина получается нерадостная. Фактические частоты средних сильно отличаются от теоретических. Использование t-распределения в такой ситуации становится весьма рискованной затеей.

Итак, в не очень малых выборках (от 15-ти наблюдений) t-критерий относительно устойчив к ненормальному распределению исходных данных. А вот выбросы в данных сильно искажают распределение t-критерия, что, в свою очередь, может привести к ошибкам статистического вывода, поэтому от аномальных наблюдений следует избавиться. Часто из выборки удаляют все значения, выходящие за пределы ±2 стандартных отклонения от средней.

Пример проверки гипотезы о математическом ожидании с помощью t- критерия Стьюдента в MS Excel

В Excel есть несколько функций, связанных с t-распределением. Рассмотрим их.

СТЬЮДЕНТ.РАСП – «классическое» левостороннее t-распределение Стьюдента. На вход подается значение t-критерия, количество степеней свободы и опция (0 или 1), определяющая, что нужно рассчитать: плотность или значение функции. На выходе получаем, соответственно, плотность или вероятность того, что случайная величина окажется меньше указанного в аргументе t-критерия, т.е. левосторонний p-value.

СТЬЮДЕНТ.РАСП.2Х – двухсторонне распределение. В качестве аргумента подается абсолютное значение (по модулю) t-критерия и количество степеней свободы. На выходе получаем вероятность получить такое или еще больше значение t-критерия (по модулю), т.е. фактический уровень значимости (p-value).

СТЬЮДЕНТ.РАСП.ПХ – правостороннее t-распределение. Так, 1-СТЬЮДЕНТ.РАСП(2;5;1) = СТЬЮДЕНТ.РАСП.ПХ(2;5) = 0,05097. Если t-критерий положительный, то полученная вероятность – это p-value.

СТЬЮДЕНТ.ОБР – используется для расчета левостороннего обратного значения t-распределения. В качестве аргумента подается вероятность и количество степеней свободы. На выходе получаем соответствующее этой вероятности значение t-критерия. Отсчет вероятности идет слева. Поэтому для левого хвоста нужен сам уровень значимости α, а для правого 1 — α.

СТЬЮДЕНТ.ОБР.2Х – обратное значение для двухстороннего распределения Стьюдента, т.е. значение t-критерия (по модулю). Также на вход подается уровень значимости α. Только на этот раз отсчет ведется с двух сторон одновременно, поэтому вероятность распределяется на два хвоста. Так, СТЬЮДЕНТ.ОБР(1-0,025;5) = СТЬЮДЕНТ.ОБР.2Х(0,05;5) = 2,57058

СТЬЮДЕНТ.ТЕСТ – функция для проверки гипотезы о равенстве математических ожиданий в двух выборках. Заменяет кучу расчетов, т.к. достаточно указать лишь два диапазона с данными и еще пару параметров. На выходе получим p-value.

ДОВЕРИТ.СТЬЮДЕНТ – расчет доверительного интервала средней с учетом t-распределения.

Рассмотрим такой учебный пример. На предприятии фасуют цемент в мешки по 50кг. В силу случайности в отдельно взятом мешке допускается некоторое отклонение от ожидаемой массы, но генеральная средняя должна оставаться 50кг. В отделе контроля качества случайным образом взвесили 9 мешков и получили следующие результаты: средняя масса () составила 50,3кг, среднеквадратичное отклонение (s) – 0,5кг.

Согласуется ли полученный результат с нулевой гипотезой о том, что генеральная средняя равна 50кг? Другими словами, можно ли получить такой результат по чистой случайности, если оборудование работает исправно и выдает среднее наполнение 50 кг? Если гипотеза не будет отклонена, то полученное различие вписывается в диапазон случайных колебаний, если же гипотеза будет отклонена, то, скорее всего, в настройках аппарата, заполняющего мешки, произошел сбой. Требуется его проверка и настройка.

Краткое условие в обще принятых обозначениях выглядит так.

H0: μ = 50 кг

Ha: μ ≠ 50 кг

Есть основания предположить, что распределение заполняемости мешков подчиняются нормальному распределению (или не сильно от него отличается). Значит, для проверки гипотезы о математическом ожидании можно использовать t-критерий Стьюдента. Случайные отклонения могут происходить в любую сторону, значит нужен двусторонний t-критерий.

Вначале применим допотопные средства: ручной расчет t-критерия и сравнение его с критическим табличным значением. Расчетный t-критерий:

Фактический t-критерий при 9-ти наблюдениях

Теперь определим, выходит ли полученное число за критический уровень при уровне значимости α = 0,05. Воспользуемся таблицей для критерия Стьюдента (есть в любом учебнике по статистике).

Таблица t-распределения Стьюдента

По столбцам идет вероятность правой части распределения, по строкам – число степеней свободы. Нас интересует двусторонний t-критерий с уровнем значимости 0,05, что равносильно t-значению для половины уровня значимости справа: 1 — 0,05/2 = 0,975. Количество степеней свободы – это объем выборки минус 1, т.е. 9 — 1 = 8. На пересечении находим табличное значение t-критерия – 2,306. Если бы мы использовали стандартное нормальное распределение, то критической точкой было бы значение 1,96, а тут она больше, т.к. t-распределение на небольших выборках имеет более приплюснутый вид.

Сравниваем фактическое (1,8) и табличное значение (2.306). Расчетный критерий оказался меньше табличного. Следовательно, имеющиеся данные не противоречат гипотезе H0 о том, что генеральная средняя равна 50 кг (но и не доказывают ее). Это все, что мы можем узнать, используя таблицы. Можно, конечно, еще p-value попробовать найти, но он будет приближенным. А, как правило, именно p-value используется для проверки гипотез. Поэтому далее переходим в Excel.

Готовой функции для расчета t-критерия в Excel нет. Но это и не страшно, ведь формула t-критерия Стьюдента довольно проста и ее можно легко соорудить прямо в ячейке Excel.

Расчет t-критерия Стьюдента в Excel

Получили те же 1,8. Найдем вначале критическое значение. Альфа берем 0,05, критерий двусторонний. Нужна функция обратного значения t-распределения для двухсторонней гипотезы СТЬЮДЕНТ.ОБР.2Х.

Сравнение расчетного и табличного значения t-критерия Стьюдента

Полученное значение отсекает критическую область. Наблюдаемый t-критерий в нее не попадает, поэтому гипотеза не отклоняется.

Однако это тот же способ проверки гипотезы с помощью табличного значения. Более информативно будет рассчитать p-value, т.е. вероятность получить наблюдаемое или еще большее отклонение от средней 50кг, если эта гипотеза верна. Потребуется функция распределения Стьюдента для двухсторонней гипотезы СТЬЮДЕНТ.РАСП.2Х.

Расчет p-value для t-критерия

P-value равен 0,1096, что больше допустимого уровня значимости 0,05 – гипотезу не отклоняем. Но теперь можно судить о степени доказательства. P-value оказался довольно близок к тому уровню, когда гипотеза отклоняется, а это наводит на разные мысли. Например, что выборка оказалась слишком мала для обнаружения значимого отклонения.

Пусть через некоторое время отдел контроля снова решил проверить, как выдерживается стандарт заполняемости мешков. На этот раз для большей надежности было отобрано не 9, а 25 мешков. Интуитивно понятно, что разброс средней уменьшится, а, значит, и шансов найти сбой в системе становится больше.

Допустим, были получены те же значения средней и стандартного отклонения по выборке, что и в первый раз (50,3 и 0,5 соответственно). Рассчитаем t-критерий.

Расчет t-критерия для выборки из 25 наблюдений
Критическое значение для 24-х степеней свободы и α = 0,05 составляет 2,064. На картинке ниже видно, что t-критерий попадает в область отклонения гипотезы.

Отклонения гипотезы

Можно сделать вывод о том, что с доверительной вероятностью более 95% генеральная средняя отличается от 50кг. Для большей убедительности посмотрим на p-value (последняя строка в таблице). Вероятность получить среднюю с таким или еще большим отклонением от 50, если гипотеза верна, составляет 0,0062, или 0,62%, что при однократном измерении практически невозможно. В общем, гипотезу отклоняем, как маловероятную.

Расчет доверительного интервала для математического ожидания с помощью t-распределения Стьюдента в Excel

С проверкой гипотез тесно связан еще один статистический метод – расчет доверительных интервалов. Если в полученный интервал попадает значение, соответствующее нулевой гипотезе, то это равносильно тому, что нулевая гипотеза не отклоняется. В противном случае, гипотеза отклоняется с соответствующей доверительной вероятностью. В некоторых случаях аналитики вообще не проверяют гипотез в классическом виде, а рассчитывают только доверительные интервалы. Такой подход позволяет извлечь еще больше полезной информации.

Рассчитаем доверительные интервалы для средней при 9 и 25 наблюдениях. Для этого воспользуемся функцией Excel ДОВЕРИТ.СТЬЮДЕНТ. Здесь, как ни странно, все довольно просто. В аргументах функции нужно указать только уровень значимости α, стандартное отклонение по выборке и размер выборки. На выходе получим полуширину доверительного интервала, то есть значение которое нужно отложить по обе стороны от средней. Проведя расчеты и нарисовав наглядную диаграмму, получим следующее.

Проверка гипотезы через доверительные интервалы

Как видно, при выборке в 9 наблюдений значение 50 попадает в доверительный интервал (гипотеза не отклоняется), а при 25-ти наблюдениях не попадает (гипотеза отклоняется). При этом в эксперименте с 25-ю мешками можно утверждать, что с вероятностью 97,5% генеральная средняя превышает 50,1 кг (нижняя граница доверительного интервала равна 50,094кг). А это довольно ценная информация.

Таким образом, мы решили одну и ту же задачу тремя способами:

1. Древним подходом, сравнивая расчетное и табличное значение t-критерия
2. Более современным, рассчитав p-value, добавив степень уверенности при отклонении гипотезы.
3. Еще более информативным, рассчитав доверительный интервал и получив минимальное значение генеральной средней.

Важно помнить, что t-критерий относится к параметрическим методам, т.к. основан на нормальном распределении (у него два параметра: среднее и дисперсия). Поэтому для его успешного применения важна хотя бы приблизительная нормальность исходных данных и отсутствие выбросов.

Напоследок предлагаю видеоролик о том, как рассчитать критерий Стьюдента и проверить гипотезу о генеральной средней в Excel.

Иногда просят объяснить, как делаются такие наглядные диаграммы с распределением. Ниже можно скачать файл, где проводились расчеты для этой статьи.

Скачать файл с примером.

Всего доброго, будьте здоровы.

Поделиться в социальных сетях:

18

Министерство
образования и науки Украины

Севастопольский
национальный технический университет

«ВЫПОЛНЕНИЕ
ПРОВЕРКИ

СТАТИСТИЧЕСКИХ
ГИПОТЕЗ И

ДИСПЕРСИОННОГО
АНАЛИЗА

ПРИ
ПОМОЩИ
EXCEL»

МЕТОДИЧЕСКИЕ
УКАЗАНИЯ

к
лабораторной
работе

по дисциплинам
«Прикладная статистика»

для студентов
специальностей:

для студентов
специальностей:

7.050201
– «Менеджмент организаций»,

7.050104
– «Финансы»

7.050106
– «Учет и аудит»

7.050107
– «Экономика предприятия»

всех форм обучения

Севастополь

2007

УДК
681.5.015.:330.43

«Выполнение
проверки статистических гипотез и
дисперсионного анализа при помощи
Excel»
методические
указания к лабораторной работе
по дисциплине
«Прикладная статистика» для студентов
специальностей: 7.050201
– «Менеджмент организаций», 7.050104 –
«Финансы», 7.050106 – «Учет и аудит», 7.050107
– «Экономика предприятия» всех форм
обучения /
Сост. А.А.
Загорулько, А.Д. Горобец. – Севастополь:
Изд-во СевНТУ, 2007г. – 16с.

Целью
методических указаний является
закрепление теоретических знаний и
приобретение практических навыков по
темам «Проверка статистических гипотез»
и «Дисперсионный анализ» при решении
ситуаций с помощью Excel.
Методические
указания предназначены для студентов
экономических специальностей всех форм
обучения.

Методические
указания утверждены на заседании кафедры
менеджмента и экономико-математических
методов, (протокол № 7
от «16»
марта
2007г.)

Допущено
учебно-методическим центром СевНТУ в
качестве методических указаний

Рецензент:
Одинцова Т.М., канд. эконом. наук, доцент
кафедры «Финансы и кредит»

СОДЕРЖАНИЕ

1. Цель
работы…………………………………………………………………..4

2.Теоретическая
часть…………………………….………………………..4

2.1.
Проверка
статистических гипотез………………………………………4

2.2.
Проверка
статистических гипотез в
Excel………………………………..5

2.3.
Дисперсионный
анализ……………………………………………………..7

2.4.
Выполнение
дисперсионного анализа в Excel…………………………..8

3.Варианты
заданий………………………………………………………….12

3.1. Варианты заданий
по теме «Проверка статистических
гипотез»………………………………………………………………………12

3.2. Варианты заданий
по теме «Однофакторный дисперсионный
анализ»……………………………………………………………………….13

4. Содержание
отчета………………………………………………………..14

5. Контрольные
вопросы……………………………………………………14

Библиографический
список……………………………………………….15

Данные
методические указания предназначены
для закрепления теоретических знаний
и получения практических навыков
студентов при проверке статистических
гипотез и выполнении дисперсионного
анализа в Excel.

2. Теоретическая часть

2.1. Проверка статистических гипотез

Статистическая
гипотеза — некоторое предположение о
законе распределения случайной величины
или о параметрах этого закона в рамках
данной выборки.

Пример статистической
гипотезы: «генеральная совокупность
распределена по нормальному закону»,
«различие между дисперсиями двух выборок
незначимо» и т.д.

При аналитических
расчетах часто необходимо выдвигать и
проверять гипотезы. Проверка статистической
гипотезы осуществляется с помощью
статистического критерия в соответствии
со следующим алгоритмом:

1)
формулировка гипотезы. Гипотеза
формулируется в терминах различия
величин. Например, есть случайная
величина х и константа a. Они не равны
(арифметически), но нужно установить,
значимо ли статистически между ними
различие. Существует
два типа критериев:
а) двухсторонний
критерий вида: х
a;
б)
односторонний критерий вида: х<
a или х<
a.

Необходимо
отметить, что знаки >, <, = здесь
используются не в арифметическом, а в
«статистическом» смысле. Их необходимо
читать «значимо больше», «значимо
меньше», «различие незначимо».

2)
Установка закона распределения. Далее
необходимо установить или постулировать
закон распределения. Существуют также
критерии, которые не зависят от вида
распределения — так называемые
непараметрические критерии.

3)
Вычисление тестовой статистики. Тестовая
статистика — некоторая функция от
рассматриваемых величин, закон
распределения которой точно известен
и ее можно сравнить с табличным значением.

4)
Сравнение с табличным значением. Затем
тестовая статистика сравнивается с
табличным значением. Тестовая статистика
всегда зависит от доверительной
вероятности, и, в некоторых случаях, от
дополнительных параметров. Так, в
приведенном выше примере сравнения
двух дисперсий тестовая статистика
сравнивается с табличным значением
критерия Фишера («критическим» значением),
которое зависит от доверительной
вероятности и числа степеней свободы
дисперсий.

5)
Вывод. На основании сравнения делается
вывод о том, выполняется ли гипотеза
(например, значимо ли различие и т.д.).

2.2. Проверка статистических гипотез в Excel

Рассмотрим пример.

Туристическая фирма в среднем реализует
21 путевку в страны ближнего зарубежья
в день. Количество проданных путевок
за последнюю неделю составило: 17, 19, 25,
32, 27, 30, 28. Полагая, что уровень значимости
равен 5% определить:

— выполняет ли компания план по продаже
путевок в страны ближнего зарубежья;

— увеличился ли среднего ежедневного
объема продаж путевок за последнюю
неделю.

Для выполнения
проверки статистических гипотез в Excel
необходимо произвести расчеты и вычислить
значение критерия Стьюдента.

Решение.

На первом этапе
выдвигаются нулевая и альтернативная
гипотезы:

H0:

H1:
.

После чего необходимо определить
табличное значение критерия Стьюдента.
Для этого в меню «Вставка» выбирается
команда «Функция». Устанавливается
категория «Статистические» и выбирается
функция «СТЬЮДРАСПРОБР». Пример
заполнения окна для определения
табличного значения критерия Стьюдента
представлен на рисунке 1.

Рисунок 1 – Пример
заполнения окна для определения
табличного значения критерия Стьюдента

В
поле «Вероятность» вводится заданный
уровень значимости (),
а так как альтернативная гипотеза имеет
следующий вид: H1:
,
то необходимо применять двусторонний
тест. При использовании двустороннего
теста вместо значения

берется значение
/2
(для рассматриваемого примера
/2=0,025).

В
поле «Степени свободы» вводится значение,
равное n-1,
где n-
число элементов в выборке (для
рассматриваемого примера n-1=6).

В результате мы
определили, что табличное значение
критерия Стьюдента для данной задачи
равно 2,968.

Правило
принятия (отвержения) гипотезы: если
TR<-2,968
и TR>2,968,
то отвергается H0
и принимается H1.

Далее необходимо
выполнить следующие вычисления:

Вычисление
t
расчетного (TR)
производиться по следующей формуле:

,
(1)

.
(2)

Таблица 1 —
Промежуточные вычисления

17

-8,43

71,0649

19

-6,43

41,3449

25

-0,43

0,1849

32

6,57

43,1649

27

1,57

2,4649

30

4,57

20,8849

28

2,57

6,6049

185,7143

Таким
образом имеем:

==5,563

==2,11

На заключительном
этапе происходит принятие статистического
решения.

Так
как -2,968<TR<2,968,
тогда с
=0,05
гипотеза Н0
о равенстве
среднего значения количества проданных
путевок за день в размере 21 штуки
принимается. Следовательно, туристическая
компания
выполняет план по продаже путевок в
страны ближнего зарубежья.

При ответе на
второй вопрос задания нулевая и
альтернативная гипотеза будут иметь
вид:

H0:

H1:
.

Так
как альтернативная гипотеза имеет
следующий вид: H1:
,
то необходимо применять односторонний
тест. При использовании одностороннего
теста табличное значение критерия
Стьюдента определяется таким же образом,
как и для двустороннего теста, но в поле
«Вероятность» указывается значение

(для рассматриваемого примера
=0,05).
Таким образом, табличное значение
критерия Стьюдента для одностороннего
теста равно 2,446.

,
то принимается гипотеза H0
о равенстве
среднего значения количества проданных
путевок в размере 21 штуки в день при
=0,05.
Следовательно, нельзя говорить об
увеличении
среднего ежедневного объема продаж
путевок за последнюю неделю.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Понравилась статья? Поделить с друзьями:

А вот еще интересные статьи:

  • Статистические вычисления в среде excel библиотека пользователя
  • Статистические базы данных excel
  • Статистически функции на excel
  • Статистическая функция счетесли в excel
  • Статистическая функция сумм в excel

  • 0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии