С помощью линейной диаграммы пользователь представляет наглядно вариацию, динамику и взаимосвязь. Графически изображение представляет собой последовательность точек, соединенных отрезками прямой в ломаные линии. Как происходит построение линейной диаграммы в Excel.
Для какой цели используется линейная диаграмма
Линейные диаграммы графики целесообразно использовать в следующих ситуациях:
- Динамический ряд имеет достаточно большое количество значений. Непрерывная линия, соединяющая их, подчеркивает непрерывность процесса.
- Нужно показать общую тенденцию развития явления.
- Необходимо в пределах одной геометрической плоскости сравнить несколько динамических рядов.
- В сопоставлении нуждаются не абсолютные значения, а темпы роста явления.
На оси абсцисс, как правило, показывается временная характеристика явления. На оси ординат – значение показателя.
Как построить линейную диаграмму в Excel
С помощью линейного графика в Excel можно быстро сопоставить продажи в компании за определенные промежутки времени, проанализировать баланс, доходы и расходы, значения какого-либо эксперимента и т.п. Рассмотрим на примере как сделать линейную диаграмму в Excel.
Создадим таблицу в Excel «Численность населения России за 2000-2016 гг.»:
- Все ячейки в колонках должны быть заполнены.
- Данные имеют одинаковый формат.
- В одном столбце – значения одного типа (даты, численность).
Выделяем всю таблицу, включая заголовки. Переходим на вкладку «Вставка» — в меню «Диаграммы». Выбираем «График».
Можно выбрать «с накоплением», «нормированный», «с маркерами» и т.п. Щелкаем по иконке выбранной разновидности графика левой кнопкой мыши. Получаем:
Такой график нас не устраивает – он построен не совсем правильно. Поэтому щелкаем по области построения, чтобы активировалась вкладка «Работа с диаграммами». Нажимаем кнопку «Выбрать данные».
В окне «Выбор источника данных» мы сначала изменим подписи горизонтальной оси.
После нажатия кнопки «Изменить» откроется поле для назначения диапазона подписей. Выбираем столбец с датами.
Нажимаем ОК. Программа возвращает нас к диалоговому окну «Выбор источника данных».
В «Элементы легенды» попали данные столбца «Год» и «Численность населения». «Год» удалим.
По умолчанию подписи горизонтальной и вертикальной оси принимают горизонтальное направление. Каждое значение года имеет 4 цифры. Они сливаются – и плохо видно. Чтобы изменить их направление, щелкаем правой кнопкой мыши по подписям. Нажимаем кнопку «Формат оси».
В открывшемся диалоговом окне переходим на вкладку «Выравнивание». Здесь мы можем изменить направление текста.
Получаем график вида:
Построить линейную диаграмму по таблице достаточно просто. Готовые график можно менять (цвет, толщину линии, размер шрифта, подписи и т.п.), используя доступные инструменты на вкладках «Конструктор», «Макет», «Формат».
Линейчатая диаграмма
В Excel 2007 имеется такой тип. По сути, это столбчатая гистограмма, где столбики повернуты горизонтально. Столбчатая гистограмма и линейчатая диаграмма взаимозаменяемы. Они применяются для анализа изменений показателя за определенный промежуток времени.
Каждый столбик (прямоугольник) показывает величину уровня в анализируемом статистическом ряду. Сравниваемые данные имеют одинаковые единицы измерения. Поэтому удается проанализировать рассматриваемый процесс.
На основе уже имеющихся данных по численности населения построим линейчатую диаграмму.
Обратите внимание: так как столбики имеют горизонтальное направление, диаграмма как будто ложится на бок.
Теперь годы – это подписи вертикальной оси, а численность – горизонтальной. Но при выборе источника данных для диаграммы нужно придерживаться прежнего порядка:
Значения для категорий и рядов должны остаться теми же.
In the following tutorial, we’ll show you how to create a single line graph in Excel 2011 for Mac. When the steps differ for other versions of Excel, they will be called out after each step.
Creating a single line graph in Excel is a straightforward process. Excel offers a number of different variations of the line graph.
-
Line: If there is more than one data series, each is plotted individually.
-
Stacked Line: This option requires more than one data set. Each additional set is added to the first, so the top line is the total of the ones below it. Therefore, the lines will never cross.
-
100% Stacked Line: This graph is similar to a stacked line graph, but the Y axis depicts percentages rather than an absolute values. The top line will always appear straight across the top of the graph and a period’s total will be 100 percent.
-
Marked Line Graph: The marked versions of each 2-D graph add indicators at each data point.
-
3D Line: Similar to the basic line graph, but represented in a 3D format.
Step-by-Step Instructions to Build a Line Graph in Excel
Once you collect the data you want to chart, the first step is to enter it into Excel. The first column will be the time segments (hour, day, month, etc.), and the second will be the data collected (muffins sold, etc.).
Highlight both columns of data and click Charts > Line > and make your selection. We chose Line for this example, since we are only working with one data set.
Excel creates the line graph and displays it in your worksheet.
Other Versions of Excel: Click the Insert tab > Line Chart > Line. In 2016 versions, hover your cursor over the options to display a sample image of the graph.
Customizing a Line Graph
To change parts of the graph, right-click on the part and then click Format. The following options are available for most of the graph elements. Changes specific to each element are discussed below:
-
Font: Change the text color, style, and font.
-
Fill: Add a background color or pattern.
-
Shadow, Glow & Soft Edges and 3-D Format: Make an object stand out.
Line Graph Titles
If Excel doesn’t automatically create a title, select the graph, then click Chart > Chart Layout > Chart Title.
Other Versions of Excel: Click the Chart Tools tab > Layout > Chart Title, and click your option.
To change the text of title, just click on it and type.
To change the appearance of the title, right-click on it, then click Format Chart Title….
The Line option adds a border around the text. See the beginning of this section for the other options.
Other Versions of Excel: Click the Page Layout tab > Chart Title, and click your option.
Using Legends in Line Graphs
To change the legend, right-click on it and click Format Legend….
Click the Placement option to move the location in relation to the plot area.
Axes
To change the scale of an axis, right-click on one and click Format Axis… > Scale.
Entering values into the Minimum and Maximum boxes will change the top and bottom values of the vertical axis.
You can add more lines to the plot area to show more granularity. Right-click an axis (the new lines will appear perpendicular to the axis selected), and click Add Minor Gridlines or Add Major Gridlines (if available).
Other versions of Excel: Click the Chart Tools tab, click Layout, and choose the option. Depending on your version, you can also click Add Chart Element in ribbon on the Chart Design tab.
To adjust the spacing between gridlines, right-click and then click Format Major Gridlines or Format Minor Gridlines.
Other Versions of Excel: Click the Insert tab > Line Chart > Line. In 2016 versions, hover your cursor over the options to display a sample of how the graph will appear.
Changing The Line
To change the appearance of the graph’s line, right-click on the line, click Format Data Series… > Line. If you want to change the color of the line, select from the Color selection box.
Moving the Line Graph
If you need to relocate the graph to a different place on the same worksheet, click on a blank area in the chart and drag the graph.
To move the line graph to another worksheet, right-click the graph, click Move…, and then choose an existing worksheet or create a new one.
To add the graph to another program such as Microsoft Word or PowerPoint, right-click on the chart and click Cut or Copy, then paste it into the desired program.
Регрессия позволяет прогнозировать зависимую переменную на основании значений фактора. В
MS
EXCEL
имеется множество функций, которые возвращают не только наклон и сдвиг линии регрессии, характеризующей линейную взаимосвязь между факторами, но и регрессионную статистику. Здесь рассмотрим простую линейную регрессию, т.е. прогнозирование на основе одного фактора.
Disclaimer
: Данную статью не стоит рассматривать, как пересказ главы из учебника по статистике. Статья не обладает ни полнотой, ни строгостью изложения положений статистической науки. Эта статья – о применении MS EXCEL для целей
Регрессионного анализа.
Теоретические отступления приведены лишь из соображения логики изложения. Использование данной статьи для изучения
Регрессии
– плохая идея.
Статья про
Регрессионный анализ
получилась большая, поэтому ниже для удобства приведены ее разделы:
- Немного теории и основные понятия
- Предположения линейной регрессионной модели
- Задачи регрессионного анализа
- Оценка неизвестных параметров линейной модели (используя функции MS EXCEL)
- Оценка неизвестных параметров линейной модели (через статистики выборок)
- Оценка неизвестных параметров линейной модели (матричная форма)
- Построение линии регрессии
- Коэффициент детерминации
- Стандартная ошибка регрессии
- Стандартные ошибки и доверительные интервалы для наклона и сдвига
- Проверка значимости взаимосвязи переменных
- Доверительные интервалы для нового наблюдения Y и среднего значения
- Проверка адекватности линейной регрессионной модели
Примечание
: Если прогнозирование переменной осуществляется на основе нескольких факторов, то имеет место
множественная регрессия
.
Чтобы разобраться, чем может помочь MS EXCEL при проведении регрессионного анализа, напомним вкратце теорию, введем термины и обозначения, которые могут отличаться в зависимости от различных источников.
Примечание
: Для тех, кому некогда, незачем или просто не хочется разбираться в теоретических выкладках предлагается сразу перейти к вычислительной части —
оценке неизвестных параметров линейной модели
.
Немного теории и основные понятия
Пусть у нас есть массив данных, представляющий собой значения двух переменных Х и Y. Причем значения переменной Х мы можем произвольно задавать (контролировать) и использовать эту переменную для предсказания значений зависимой переменной Y. Таким образом, случайной величиной является только переменная Y.
Примером такой задачи может быть производственный процесс изготовления некого волокна, причем
прочность этого волокна
(Y) зависит только от
рабочей температуры процесса
в реакторе (Х), которая задается оператором.
Построим
диаграмму рассеяния
(см.
файл примера лист Линейный
), созданию которой
посвящена отдельная статья
. Вообще, построение
диаграммы рассеяния
для целей
регрессионного анализа
де-факто является стандартом.
СОВЕТ
: Подробнее о построении различных типов диаграмм см. статьи
Основы построения диаграмм
и
Основные типы диаграмм
.
Приведенная выше
диаграмма рассеяния
свидетельствует о возможной
линейной взаимосвязи
между Y от Х: очевидно, что точки данных в основном располагаются вдоль прямой линии.
Примечание
: Наличие даже такой очевидной
линейной взаимосвязи
не может являться доказательством о наличии причинной взаимосвязи переменных. Наличие
причинной
взаимосвязи не может быть доказано на основании только анализа имеющихся измерений, а должно быть обосновано с помощью других исследований, например теоретических выкладок.
Примечание
: Как известно, уравнение прямой линии имеет вид
Y
=
m
*
X
+
k
, где коэффициент
m
отвечает за наклон линии (
slope
),
k
– за сдвиг линии по вертикали (
intercept
),
k
равно значению Y при Х=0.
Предположим, что мы можем зафиксировать переменную Х (
рабочую температуру процесса
) при некотором значении Х
i
и произвести несколько наблюдений переменной Y (
прочность нити
). Очевидно, что при одном и том же значении Хi мы получим различные значения Y. Это обусловлено влиянием других факторов на Y. Например, локальные колебания давления в реакторе, концентрации раствора, наличие ошибок измерения и др. Предполагается, что воздействие этих факторов имеет случайную природу и для каждого измерения имеются одинаковые условия проведения эксперимента (т.е. другие факторы не изменяются).
Полученные значения Y, при заданном Хi, будут колебаться вокруг некого
значения
. При увеличении количества измерений, среднее этих измерений, будет стремиться к
математическому ожиданию
случайной величины Y (при Х
i
) равному μy(i)=Е(Y
i
).
Подобные рассуждения можно привести для любого значения Хi.
Чтобы двинуться дальше, воспользуемся материалом из раздела
Проверка статистических гипотез
. В статье о
проверке гипотезы о среднем значении генеральной совокупности
в качестве
нулевой
гипотезы
предполагалось равенство неизвестного значения μ заданному μ0.
В нашем случае
простой линейной регрессии
в качестве
нулевой
гипотезы
предположим, что между переменными μy(i) и Хi существует линейная взаимосвязь μ
y(i)
=α* Х
i
+β. Уравнение μ
y(i)
=α* Х
i
+β можно переписать в обобщенном виде (для всех Х и μ
y
) как μ
y
=α* Х +β.
Для наглядности проведем прямую линию соединяющую все μy(i).
Данная линия называется
регрессионной линией генеральной совокупности
(population regression line), параметры которой (
наклон
a и
сдвиг β
) нам не известны (по аналогии с
гипотезой о среднем значении генеральной совокупности
, где нам было неизвестно истинное значение μ).
Теперь сделаем переход от нашего предположения, что μy=a* Х +
β
, к предсказанию значения случайной переменной Y в зависимости от значения контролируемой переменной Х. Для этого уравнение связи двух переменных запишем в виде Y=a*X+β+ε, где ε — случайная ошибка, которая отражает суммарный эффект влияния других факторов на Y (эти «другие» факторы не участвуют в нашей модели). Напомним, что т.к. переменная Х фиксирована, то ошибка ε определяется только свойствами переменной Y.
Уравнение Y=a*X+b+ε называют
линейной регрессионной моделью
. Часто Х еще называют
независимой переменной
(еще
предиктором
и
регрессором
, английский термин
predictor
,
regressor
), а Y –
зависимой
(или
объясняемой
,
response
variable
). Так как
регрессор
у нас один, то такая модель называется
простой линейной регрессионной моделью
(
simple
linear
regression
model
). α часто называют
коэффициентом регрессии.
Предположения линейной регрессионной модели перечислены в следующем разделе.
Предположения линейной регрессионной модели
Чтобы модель линейной регрессии Yi=a*Xi+β+ε
i
была адекватной — требуется:
-
Ошибки ε
i
должны быть независимыми переменными; -
При каждом значении Xi ошибки ε
i
должны быть иметь нормальное распределение (также предполагается равенство нулю математического ожидания, т.е. Е[ε
i
]=0); -
При каждом значении Xi ошибки ε
i
должны иметь равные дисперсии (обозначим ее σ
2
).
Примечание
: Последнее условие называется
гомоскедастичность
— стабильность, гомогенность дисперсии случайной ошибки e. Т.е.
дисперсия
ошибки σ
2
не должна зависеть от значения Xi.
Используя предположение о равенстве математического ожидания Е[ε
i
]=0 покажем, что μy(i)=Е[Yi]:
Е[Yi]= Е[a*Xi+β+ε
i
]= Е[a*Xi+β]+ Е[ε
i
]= a*Xi+β= μy(i), т.к. a, Xi и β постоянные значения.
Дисперсия
случайной переменной Y равна
дисперсии
ошибки ε, т.е. VAR(Y)= VAR(ε)=σ
2
. Это является следствием, что все значения переменной Х являются const, а VAR(ε)=VAR(ε
i
).
Задачи регрессионного анализа
Для проверки гипотезы о линейной взаимосвязи переменной Y от X делают выборку из генеральной совокупности (этой совокупности соответствует
регрессионная линия генеральной совокупности
, т.е. μy=a* Х +β). Выборка будет состоять из n точек, т.е. из n пар значений {X;Y}.
На основании этой выборки мы можем вычислить оценки наклона a и сдвига β, которые обозначим соответственно
a
и
b
. Также часто используются обозначения â и b̂.
Далее, используя эти оценки, мы также можем проверить гипотезу: имеется ли линейная связь между X и Y статистически значимой?
Таким образом:
Первая задача
регрессионного анализа
– оценка неизвестных параметров (
estimation
of
the
unknown
parameters
). Подробнее см. раздел
Оценки неизвестных параметров модели
.
Вторая задача
регрессионного анализа
–
Проверка адекватности модели
(
model
adequacy
checking
).
Примечание
: Оценки параметров модели обычно вычисляются
методом наименьших квадратов
(МНК),
которому посвящена отдельная статья
.
Оценка неизвестных параметров линейной модели (используя функции MS EXCEL)
Неизвестные параметры
простой линейной регрессионной модели
Y=a*X+β+ε оценим с помощью
метода наименьших квадратов
(в
статье про МНК подробно описано этот метод
).
Для вычисления параметров линейной модели методом МНК получены следующие выражения:
Таким образом, мы получим уравнение прямой линии Y=
a
*X+
b
, которая наилучшим образом аппроксимирует имеющиеся данные.
Примечание
: В статье про
метод наименьших квадратов
рассмотрены случаи аппроксимации
линейной
и
квадратичной функцией
, а также
степенной
,
логарифмической
и
экспоненциальной функцией
.
Оценку параметров в MS EXCEL можно выполнить различными способами:
-
с помощью функций
НАКЛОН()
и
ОТРЕЗОК()
; -
с помощью функции
ЛИНЕЙН()
; см. статьюФункция MS EXCEL ЛИНЕЙН()
-
формулами через статистики выборок
;
-
в матричной форме
;
-
с помощью
инструмента Регрессия надстройки Пакет Анализа
.
Сначала рассмотрим функции
НАКЛОН()
,
ОТРЕЗОК()
и
ЛИНЕЙН()
.
Пусть значения Х и Y находятся соответственно в диапазонах
C
23:
C
83
и
B
23:
B
83
(см.
файл примера
внизу статьи).
Примечание
: Значения двух переменных Х и Y можно сгенерировать, задав тренд и величину случайного разброса (см. статью
Генерация данных для линейной регрессии в MS EXCEL
).
В MS EXCEL наклон прямой линии
а
(
оценку
коэффициента регрессии
), можно найти по
методу МНК
с помощью функции
НАКЛОН()
, а сдвиг
b
(
оценку
постоянного члена
или
константы регрессии
), с помощью функции
ОТРЕЗОК()
. В английской версии это функции SLOPE и INTERCEPT соответственно.
Аналогичный результат можно получить с помощью функции
ЛИНЕЙН()
, английская версия LINEST (см.
статью об этой функции
).
Формула
=ЛИНЕЙН(C23:C83;B23:B83)
вернет наклон
а
. А формула =
ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83);2)
— сдвиг
b
. Здесь требуются пояснения.
Функция
ЛИНЕЙН()
имеет 4 аргумента и возвращает целый массив значений:
ЛИНЕЙН(известные_значения_y; [известные_значения_x]; [конст]; [статистика])
Если 4-й аргумент
статистика
имеет значение ЛОЖЬ или опущен, то функция
ЛИНЕЙН()
возвращает только оценки параметров модели:
a
и
b
.
Примечание
: Остальные значения, возвращаемые функцией
ЛИНЕЙН()
, нам потребуются при вычислении
стандартных ошибок
и для
проверки значимости регрессии
. В этом случае аргумент
статистика
должен иметь значение ИСТИНА.
Чтобы вывести сразу обе оценки:
- в одной строке необходимо выделить 2 ячейки,
-
ввести формулу в
Строке формул
-
нажать
CTRL
+
SHIFT
+
ENTER
(см. статью проформулы массива
).
Если в
Строке формул
выделить формулу =
ЛИНЕЙН(C23:C83;B23:B83)
и нажать
клавишу F9
, то мы увидим что-то типа {3,01279389265416;154,240057900613}. Это как раз значения
a
и
b
. Как видно, оба значения разделены точкой с запятой «;», что свидетельствует, что функция вернула значения «в нескольких ячейках одной строки».
Если требуется вывести параметры линии не в одной строке, а одном столбце (ячейки друг под другом), то используйте формулу =
ТРАНСП(ЛИНЕЙН(C23:C83;B23:B83))
. При этом выделять нужно 2 ячейки в одном столбце. Если теперь выделить новую формулу и нажать клавишу F9, то мы увидим что 2 значения разделены двоеточием «:», что означает, что значения выведены в столбец (функция
ТРАНСП()
транспонировала строку в столбец
).
Чтобы разобраться в этом подробнее необходимо ознакомиться с
формулами массива
.
Чтобы не связываться с вводом
формул массива
, можно
использовать функцию ИНДЕКС()
. Формула =
ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83);1)
или просто
ЛИНЕЙН(C23:C83;B23:B83)
вернет параметр, отвечающий за наклон линии, т.е.
а
. Формула
=ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83);2)
вернет параметр
b
.
Оценка неизвестных параметров линейной модели (через статистики выборок)
Наклон линии, т.е. коэффициент
а
, можно также вычислить через
коэффициент корреляции
и
стандартные отклонения выборок
:
=
КОРРЕЛ(B23:B83;C23:C83) *(СТАНДОТКЛОН.В(C23:C83)/ СТАНДОТКЛОН.В(B23:B83))
Вышеуказанная формула математически эквивалентна отношению
ковариации
выборок Х и Y и
дисперсии
выборки Х:
=
КОВАРИАЦИЯ.В(B23:B83;C23:C83)/ДИСП.В(B23:B83)
И, наконец, запишем еще одну формулу для нахождения сдвига
b
. Воспользуемся тем фактом, что
линия регрессии
проходит через точку
средних значений
переменных Х и Y.
Вычислив
средние значения
и подставив в формулу ранее найденный наклон
а
, получим сдвиг
b
.
Оценка неизвестных параметров линейной модели (матричная форма)
Также параметры
линии регрессии
можно найти в матричной форме (см.
файл примера лист Матричная форма
).
В формуле символом β обозначен столбец с искомыми параметрами модели: β0 (сдвиг
b
), β1 (наклон
a
).
Матрица Х равна:
Матрица
Х
называется
регрессионной матрицей
или
матрицей плана
. Она состоит из 2-х столбцов и n строк, где n – количество точек данных. Первый столбец — столбец единиц, второй – значения переменной Х.
Матрица
Х
T
– это
транспонированная матрица
Х
. Она состоит соответственно из n столбцов и 2-х строк.
В формуле символом
Y
обозначен столбец значений переменной Y.
Чтобы
перемножить матрицы
используйте функцию
МУМНОЖ()
. Чтобы
найти обратную матрицу
используйте функцию
МОБР()
.
Пусть дан массив значений переменных Х и Y (n=10, т.е.10 точек).
Слева от него достроим столбец с 1 для матрицы Х.
Записав формулу
=
МУМНОЖ(МОБР(МУМНОЖ(ТРАНСП(B7:C16);(B7:C16))); МУМНОЖ(ТРАНСП(B7:C16);(D7:D16)))
и введя ее как
формулу массива
в 2 ячейки, получим оценку параметров модели.
Красота применения матричной формы полностью раскрывается в случае
множественной регрессии
.
Построение линии регрессии
Для отображения
линии регрессии
построим сначала
диаграмму рассеяния
, на которой отобразим все точки (см.
начало статьи
).
Для построения прямой линии используйте вычисленные выше оценки параметров модели
a
и
b
(т.е. вычислите
у
по формуле
y
=
a
*
x
+
b
) или функцию
ТЕНДЕНЦИЯ()
.
Формула =
ТЕНДЕНЦИЯ($C$23:$C$83;$B$23:$B$83;B23)
возвращает расчетные (прогнозные) значения ŷi для заданного значения Хi из столбца
В2
.
Примечание
:
Линию регрессии
можно также построить с помощью функции
ПРЕДСКАЗ()
. Эта функция возвращает прогнозные значения ŷi, но, в отличие от функции
ТЕНДЕНЦИЯ()
работает только в случае одного регрессора. Функция
ТЕНДЕНЦИЯ()
может быть использована и в случае
множественной регрессии
(в этом случае 3-й аргумент функции должен быть ссылкой на диапазон, содержащий все значения Хi для выбранного наблюдения i).
Как видно из диаграммы выше
линия тренда
и
линия регрессии
не обязательно совпадают: отклонения точек от
линии тренда
случайны, а МНК лишь подбирает линию наиболее точно аппроксимирующую случайные точки данных.
Линию регрессии
можно построить и с помощью встроенных средств диаграммы, т.е. с помощью инструмента
Линия тренда.
Для этого выделите диаграмму, в меню выберите
вкладку Макет
, в
группе Анализ
нажмите
Линия тренда
, затем
Линейное приближение.
В диалоговом окне установите галочку
Показывать уравнение на диаграмме
(подробнее см. в
статье про МНК
).
Построенная таким образом линия, разумеется, должна совпасть с ранее построенной нами
линией регрессии,
а параметры уравнения
a
и
b
должны совпасть с параметрами уравнения отображенными на диаграмме.
Примечание:
Для того, чтобы вычисленные параметры уравнения
a
и
b
совпадали с параметрами уравнения на диаграмме, необходимо, чтобы тип у диаграммы был
Точечная, а не График
, т.к. тип диаграммы
График
не использует значения Х, а вместо значений Х используется последовательность 1; 2; 3; … Именно эти значения и берутся при расчете параметров
линии тренда
. Убедиться в этом можно если построить диаграмму
График
(см.
файл примера
), а значения
Хнач
и
Хшаг
установить равным 1. Только в этом случае параметры уравнения на диаграмме совпадут с
a
и
b
.
Коэффициент детерминации R
2
Коэффициент детерминации
R
2
показывает насколько полезна построенная нами
линейная регрессионная модель
.
Предположим, что у нас есть n значений переменной Y и мы хотим предсказать значение yi, но без использования значений переменной Х (т.е. без построения
регрессионной модели
). Очевидно, что лучшей оценкой для yi будет
среднее значение
ȳ. Соответственно, ошибка предсказания будет равна (yi — ȳ).
Примечание
: Далее будет использована терминология и обозначения
дисперсионного анализа
.
После построения
регрессионной модели
для предсказания значения yi мы будем использовать значение ŷi=a*xi+b. Ошибка предсказания теперь будет равна (yi — ŷi).
Теперь с помощью диаграммы сравним ошибки предсказания полученные без построения модели и с помощью модели.
Очевидно, что используя
регрессионную модель
мы уменьшили первоначальную (полную) ошибку (yi — ȳ) на значение (ŷi — ȳ) до величины (yi — ŷi).
(yi — ŷi) – это оставшаяся, необъясненная ошибка.
Очевидно, что все три ошибки связаны выражением:
(yi — ȳ)= (ŷi — ȳ) + (yi — ŷi)
Можно показать, что в общем виде справедливо следующее выражение:
Доказательство:
или в других, общепринятых в зарубежной литературе, обозначениях:
SST
=
SSR
+
SSE
Что означает:
Total Sum of Squares
=
Regression Sum of Squares
+
Error Sum of Squares
Примечание
: SS — Sum of Squares — Сумма Квадратов.
Как видно из формулы величины SST, SSR, SSE имеют размерность
дисперсии
(вариации) и соответственно описывают разброс (изменчивость):
Общую изменчивость
(Total variation),
Изменчивость объясненную моделью
(Explained variation) и
Необъясненную изменчивость
(Unexplained variation).
По определению
коэффициент детерминации
R
2
равен:
R
2
=
Изменчивость объясненная моделью / Общая изменчивость.
Этот показатель равен квадрату
коэффициента корреляции
и в MS EXCEL его можно вычислить с помощью функции
КВПИРСОН()
или
ЛИНЕЙН()
:
=
ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83;;ИСТИНА);3)
R
2
принимает значения от 0 до 1 (1 соответствует идеальной линейной зависимости Y от Х). Однако, на практике малые значения R2 вовсе не обязательно указывают, что переменную Х нельзя использовать для прогнозирования переменной Y. Малые значения R2 могут указывать на нелинейность связи или на то, что поведение переменной Y объясняется не только Х, но и другими факторами.
Стандартная ошибка регрессии
Стандартная ошибка регрессии
(
Standard Error of a regression
) показывает насколько велика ошибка предсказания значений переменной Y на основании значений Х. Отдельные значения Yi мы можем предсказывать лишь с точностью +/- несколько значений (обычно 2-3, в зависимости от формы распределения ошибки ε).
Теперь вспомним уравнение
линейной регрессионной модели
Y=a*X+β+ε. Ошибка ε имеет случайную природу, т.е. является случайной величиной и поэтому имеет свою функцию распределения со
средним значением
μ и
дисперсией
σ
2
.
Оценив значение
дисперсии
σ
2
и вычислив из нее квадратный корень – получим
Стандартную ошибку регрессии.
Чем точки наблюдений на диаграмме
рассеяния
ближе находятся к прямой линии, тем меньше
Стандартная ошибка.
Примечание
:
Вспомним
, что при построении модели предполагается, что
среднее значение
ошибки ε равно 0, т.е. E[ε]=0.
Оценим
дисперсию σ
2
. Помимо вычисления
Стандартной ошибки регрессии
эта оценка нам потребуется в дальнейшем еще и при построении
доверительных интервалов
для оценки параметров регрессии
a
и
b
.
Для оценки
дисперсии
ошибки ε используем
остатки регрессии
— разности между имеющимися значениями
yi
и значениями, предсказанными регрессионной моделью ŷ. Чем лучше регрессионная модель согласуется с данными (точки располагается близко к прямой линии), тем меньше величина остатков.
Для оценки
дисперсии σ
2
используют следующую формулу:
где SSE – сумма квадратов значений ошибок модели ε
i
=yi — ŷi (
Sum of Squared Errors
).
SSE часто обозначают и как SSres – сумма квадратов остатков (
Sum
of
Squared
residuals
).
Оценка
дисперсии
s
2
также имеет общепринятое обозначение MSE (Mean Square of Errors), т.е. среднее квадратов
ошибок
или MSRES (Mean Square of Residuals), т.е. среднее квадратов
остатков
. Хотя правильнее говорить сумме квадратов остатков, т.к. ошибка чаще ассоциируется с ошибкой модели ε, которая является непрерывной случайной величиной. Но, здесь мы будем использовать термины SSE и MSE, предполагая, что речь идет об остатках.
Примечание
: Напомним, что когда
мы использовали МНК
для нахождения параметров модели, то критерием оптимизации была минимизация именно SSE (SSres). Это выражение представляет собой сумму квадратов расстояний между наблюденными значениями yi и предсказанными моделью значениями ŷi, которые лежат на
линии регрессии.
Математическое ожидание
случайной величины MSE равно
дисперсии ошибки
ε, т.е.
σ
2
.
Чтобы понять почему SSE выбрана в качестве основы для оценки
дисперсии
ошибки ε, вспомним, что
σ
2
является также
дисперсией
случайной величины Y (относительно
среднего значения
μy, при заданном значении Хi). А т.к. оценкой μy является значение ŷi =
a
* Хi +
b
(значение
уравнения регрессии
при Х= Хi), то логично использовать именно SSE в качестве основы для оценки
дисперсии
σ
2
. Затем SSE усредняется на количество точек данных n за вычетом числа 2. Величина n-2 – это количество
степеней свободы
(
df
–
degrees
of
freedom
), т.е. число параметров системы, которые могут изменяться независимо (вспомним, что у нас в этом примере есть n независимых наблюдений переменной Y). В случае
простой линейной регрессии
число степеней свободы
равно n-2, т.к. при построении
линии регрессии
было оценено 2 параметра модели (на это было «потрачено» 2
степени свободы
).
Итак, как сказано было выше, квадратный корень из s
2
имеет специальное название
Стандартная ошибка регрессии
(
Standard Error of a regression
) и обозначается SEy. SEy показывает насколько велика ошибка предсказания. Отдельные значения Y мы можем предсказывать с точностью +/- несколько значений SEy (см.
этот раздел
). Если ошибки предсказания ε имеют
нормальное распределение
, то примерно 2/3 всех предсказанных значений будут на расстоянии не больше SEy от
линии регрессии
. SEy имеет размерность переменной Y и откладывается по вертикали. Часто на
диаграмме рассеяния
строят
границы предсказания
соответствующие +/- 2 SEy (т.е. 95% точек данных будут располагаться в пределах этих границ).
В MS EXCEL
стандартную ошибку
SEy можно вычислить непосредственно по формуле:
=
КОРЕНЬ(СУММКВРАЗН(C23:C83; ТЕНДЕНЦИЯ(C23:C83;B23:B83;B23:B83)) /( СЧЁТ(B23:B83) -2))
или с помощью функции
ЛИНЕЙН()
:
=
ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83;;ИСТИНА);3;2)
Примечание
: Подробнее о функции
ЛИНЕЙН()
см.
эту статью
.
Стандартные ошибки и доверительные интервалы для наклона и сдвига
В разделе
Оценка неизвестных параметров линейной модели
мы получили точечные оценки наклона
а
и сдвига
b
. Так как эти оценки получены на основе случайных величин (значений переменных Х и Y), то эти оценки сами являются случайными величинами и соответственно имеют функцию распределения со
средним значением
и
дисперсией
. Но, чтобы перейти от
точечных оценок
к
интервальным
, необходимо вычислить соответствующие
стандартные ошибки
(т.е.
стандартные отклонения
).
Стандартная ошибка коэффициента регрессии
a
вычисляется на основании
стандартной ошибки регрессии
по следующей формуле:
где Sx – стандартное отклонение величины х, вычисляемое по формуле:
где Sey –
стандартная ошибка регрессии,
т.е. ошибка предсказания значения переменой Y
(
см. выше
).
В MS EXCEL
стандартную ошибку коэффициента регрессии
Se можно вычислить впрямую по вышеуказанной формуле:
=
КОРЕНЬ(СУММКВРАЗН(C23:C83; ТЕНДЕНЦИЯ(C23:C83;B23:B83;B23:B83)) /( СЧЁТ(B23:B83) -2))/ СТАНДОТКЛОН.В(B23:B83) /КОРЕНЬ(СЧЁТ(B23:B83) -1)
или с помощью функции
ЛИНЕЙН()
:
=
ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83;;ИСТИНА);2;1)
Формулы приведены в
файле примера на листе Линейный
в разделе
Регрессионная статистика
.
Примечание
: Подробнее о функции
ЛИНЕЙН()
см.
эту статью
.
При построении
двухстороннего доверительного интервала
для
коэффициента регрессии
его границы определяются следующим образом:
где —
квантиль распределения Стьюдента
с n-2 степенями свободы. Величина
а
с «крышкой» является другим обозначением
наклона
а
.
Например для
уровня значимости
альфа=0,05, можно вычислить с помощью формулы
=СТЬЮДЕНТ.ОБР.2Х(0,05;n-2)
Вышеуказанная формула следует из того факта, что если ошибки регрессии распределены нормально и независимо, то выборочное распределение случайной величины
является
t-распределением Стьюдента
с n-2 степенью свободы (то же справедливо и для наклона
b
).
Примечание
: Подробнее о построении
доверительных интервалов
в MS EXCEL можно прочитать в этой статье
Доверительные интервалы в MS EXCEL
.
В результате получим, что найденный
доверительный интервал
с вероятностью 95% (1-0,05) накроет истинное значение
коэффициента регрессии.
Здесь мы считаем, что
коэффициент регрессии
a
имеет
распределение Стьюдента
с n-2
степенями свободы
(n – количество наблюдений, т.е. пар Х и Y).
Примечание
: Подробнее о построении
доверительных интервалов
с использованием t-распределения см. статью про построение
доверительных интервалов
для среднего
.
Стандартная ошибка сдвига
b
вычисляется по следующей формуле:
В MS EXCEL
стандартную ошибку сдвига
Seb можно вычислить с помощью функции
ЛИНЕЙН()
:
=
ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83;;ИСТИНА);2;2)
При построении
двухстороннего доверительного интервала
для
сдвига
его границы определяются аналогичным образом как для
наклона
:
b
+/- t*Seb.
Проверка значимости взаимосвязи переменных
Когда мы строим модель Y=αX+β+ε мы предполагаем, что между Y и X существует линейная взаимосвязь. Однако, как это иногда бывает в статистике, можно вычислять параметры связи даже тогда, когда в действительности она не существует, и обусловлена лишь случайностью.
Единственный вариант, когда Y не зависит X (в рамках модели Y=αX+β+ε), возможен, когда
коэффициент регрессии
a
равен 0.
Чтобы убедиться, что вычисленная нами оценка
наклона
прямой линии не обусловлена лишь случайностью (не случайно отлична от 0), используют
проверку гипотез
. В качестве
нулевой гипотезы
Н
0
принимают, что связи нет, т.е. a=0. В качестве альтернативной гипотезы
Н
1
принимают, что a <>0.
Ниже на рисунках показаны 2 ситуации, когда
нулевую гипотезу
Н
0
не удается отвергнуть.
На левой картинке отсутствует любая зависимость между переменными, на правой – связь между ними нелинейная, но при этом
коэффициент линейной корреляции
равен 0.
Ниже — 2 ситуации, когда
нулевая гипотеза
Н
0
отвергается.
На левой картинке очевидна линейная зависимость, на правой — зависимость нелинейная, но коэффициент корреляции не равен 0 (метод МНК вычисляет показатели наклона и сдвига просто на основании значений выборки).
Для проверки гипотезы нам потребуется:
-
Установить
уровень значимости
, пусть альфа=0,05;
-
Рассчитать с помощью функции
ЛИНЕЙН()
стандартное отклонение
Se для
коэффициента регрессии
(см.предыдущий раздел
);
-
Рассчитать число степеней свободы: DF=n-2 или по формуле =
ИНДЕКС(ЛИНЕЙН(C24:C84;B24:B84;;ИСТИНА);4;2)
-
Вычислить значение тестовой статистики t
0
=a/S
e
, которая имеетраспределение Стьюдента
с
числом степеней свободы
DF=n-2; -
Сравнить значение
тестовой статистики
|t0| с пороговым значением t
альфа
,n-2. Если значение
тестовой статистики
больше порогового значения, то
нулевая гипотеза
отвергается (
наклон
не может быть объяснен лишь случайностью при заданном уровне альфа) либо -
вычислить
p-значение
и сравнить его с
уровнем значимости
.
В
файле примера
приведен пример проверки гипотезы:
Изменяя
наклон
тренда k (ячейка
В8
) можно убедиться, что при малых углах тренда (например, 0,05) тест часто показывает, что связь между переменными случайна. При больших углах (k>1), тест практически всегда подтверждает значимость линейной связи между переменными.
Примечание
: Проверка значимости взаимосвязи эквивалентна
проверке статистической значимости коэффициента корреляции
. В
файле примера
показана эквивалентность обоих подходов. Также проверку значимости можно провести с помощью
процедуры F-тест
.
Доверительные интервалы для нового наблюдения Y и среднего значения
Вычислив параметры
простой линейной регрессионной модели
Y=aX+β+ε мы получили точечную оценку значения нового наблюдения Y при заданном значении Хi, а именно: Ŷ=
a
* Хi +
b
Ŷ также является точечной оценкой для
среднего значения
Yi при заданном Хi. Но, при построении
доверительных интервалов
используются различные
стандартные ошибки
.
Стандартная ошибка
нового наблюдения Y при заданном Хi учитывает 2 источника неопределенности:
-
неопределенность связанную со случайностью оценок параметров модели
a
и
b
; - случайность ошибки модели ε.
Учет этих неопределенностей приводит к
стандартной ошибке
S(Y|Xi), которая рассчитывается с учетом известного значения Xi.
где SS
xx
– сумма квадратов отклонений от
среднего
значений переменной Х:
Примечание
: Se –
стандартная ошибка коэффициента регрессии
(
наклона
а
).
В
MS EXCEL 2010
нет функции, которая бы рассчитывала эту
стандартную ошибку
, поэтому ее необходимо рассчитывать по вышеуказанным формулам.
Доверительный интервал
или
Интервал предсказания для нового наблюдения
(Prediction Interval for a New Observation) построим по схеме показанной в разделе
Проверка значимости взаимосвязи переменных
(см.
файл примера лист Интервалы
). Т.к. границы интервала зависят от значения Хi (точнее от расстояния Хi до среднего значения Х
ср
), то интервал будет постепенно расширяться при удалении от Х
ср
.
Границы
доверительного интервала
для
нового наблюдения
рассчитываются по формуле:
Аналогичным образом построим
доверительный интервал
для
среднего значения
Y при заданном Хi (Confidence Interval for the Mean of Y). В этом случае
доверительный интервал
будет уже, т.к.
средние значения
имеют меньшую изменчивость по сравнению с отдельными наблюдениями (
средние значения,
в рамках нашей линейной модели Y=aX+β+ε, не включают ошибку ε).
Стандартная ошибка
S(Yср|Xi) вычисляется по практически аналогичным формулам как и
стандартная ошибка
для нового наблюдения:
Как видно из формул,
стандартная ошибка
S(Yср|Xi) меньше
стандартной ошибки
S(Y|Xi) для индивидуального значения
.
Границы
доверительного интервала
для
среднего значения
рассчитываются по формуле:
Проверка адекватности линейной регрессионной модели
Модель адекватна, когда все предположения, лежащие в ее основе, выполнены (см. раздел
Предположения линейной регрессионной модели
).
Проверка адекватности модели в основном основана на исследовании остатков модели (model residuals), т.е. значений ei=yi – ŷi для каждого Хi. В рамках
простой линейной модели
n остатков имеют только n-2 связанных с ними
степеней свободы
. Следовательно, хотя, остатки не являются независимыми величинами, но при достаточно большом n это не оказывает какого-либо влияния на проверку адекватности модели.
Чтобы проверить предположение о
нормальности распределения
ошибок строят
график проверки на нормальность
(Normal probability Plot).
В
файле примера на листе Адекватность
построен
график проверки на нормальность
. В случае
нормального распределения
значения остатков должны быть близки к прямой линии.
Так как значения переменной Y мы
генерировали с помощью тренда
, вокруг которого значения имели нормальный разброс, то ожидать сюрпризов не приходится – значения остатков располагаются вблизи прямой.
Также при проверке модели на адекватность часто строят график зависимости остатков от предсказанных значений Y. Если точки не демонстрируют характерных, так называемых «паттернов» (шаблонов) типа вор
о
нок или другого неравномерного распределения, в зависимости от значений Y, то у нас нет очевидных доказательств неадекватности модели.
В нашем случае точки располагаются примерно равномерно.
Часто при проверке адекватности модели вместо остатков используют нормированные остатки. Как показано в разделе
Стандартная ошибка регрессии
оценкой
стандартного отклонения ошибок
является величина SEy равная квадратному корню из величины MSE. Поэтому логично нормирование остатков проводить именно на эту величину.
SEy можно вычислить с помощью функции
ЛИНЕЙН()
:
=
ИНДЕКС(ЛИНЕЙН(C23:C83;B23:B83;;ИСТИНА);3;2)
Иногда нормирование остатков производится на величину
стандартного отклонения
остатков (это мы увидим в статье об инструменте
Регрессия
, доступного в
надстройке MS EXCEL Пакет анализа
), т.е. по формуле:
Вышеуказанное равенство приблизительное, т.к. среднее значение остатков близко, но не обязательно точно равно 0.
Содержание
- Принцип создания линейчатой диаграммы
- Изменение фигуры трехмерной линейчатой диаграммы
- Изменение расстояния между линиями диаграммы
- Изменение расположения осей
- Вопросы и ответы
Принцип создания линейчатой диаграммы
Линейчатая диаграмма в Excel применяется для отображения совершенно разных информативных данных, касающихся выбранной таблицы. Из-за этого возникает потребность не только создать ее, но и настроить под свои задачи. Сперва следует разобраться с выбором линейной диаграммы, а уже потом перейти к изменению ее параметров.
- Выделите необходимую часть таблицы или ее целиком, зажав левую кнопку мыши.
- Перейдите на вкладку «Вставка».
- В блоке с диаграммами разверните выпадающее меню «Гистограмма», где находятся три стандартных шаблона линейных графиков и есть кнопка для перехода в меню с другими гистограммами.
- Если нажать по последней, откроется новое окно «Вставка диаграммы», где из сортированного списка выберите пункт «Линейчатая».
- Рассмотрим все присутствующие диаграммы, чтобы выбрать ту, которая подойдет для отображения рабочих данных. Вариант с группировкой удачен, когда нужно сравнить значения в разных категориях.
- Второй тип — линейчатая с накоплением, позволит визуально отобразить пропорции каждого элемента к одному целому.
- Такой же тип диаграммы, но только с приставкой «Нормированная» отличается от предыдущей лишь единицами представления данных. Здесь они показываются в процентном соотношении, а не пропорционально.
- Следующие три типа линейчатых диаграмм — трехмерные. Первая создает точно такую же группировку, о которой шла речь выше.
- Накопительная объемная диаграмма дает возможность просмотреть пропорциональное соотношение в одном целом.
- Нормированная объемная так же, как и двухмерная, выводит данные в процентах.
- Выберите одну из предложенных линейчатых диаграмм, посмотрите ее представление и нажмите на Enter для добавления в таблицу. Зажмите график левой кнопкой мыши, чтобы переместить его в удобное положение.

Изменение фигуры трехмерной линейчатой диаграммы
Трехмерные линейчатые диаграммы тоже пользуются популярностью, поскольку выглядят красиво и позволяют профессионально продемонстрировать сравнение данных при презентации проекта. Стандартные функции Excel умеют менять тип фигуры ряда с данными, уходя от классического варианта. Дальше можно настроить формат фигуры, придав ему индивидуальное оформление.
- Изменять фигуру линейчатой диаграммы можно тогда, когда она изначально была создана в трехмерном формате, поэтому сделайте это сейчас, если график еще не добавлен в таблицу.
- Нажмите ЛКМ по рядам данных диаграммы и немного проведите вверх, чтобы выделить все значения.
- Сделайте клик правой кнопкой мыши и через контекстное меню перейдите к разделу «Формат ряда данных».
- Справа откроется небольшое окно, отвечающее за настройку параметров трехмерного ряда. В блоке «Фигура» отметьте маркером подходящую фигуру для замены стандартной и посмотрите на результат в таблице.
- Сразу же после этого откройте раздел посередине, отвечающий за редактирование формата объемной фигуры. Задайте ей рельеф, контур и присвойте текстуру при надобности. Не забывайте следить за изменениями в диаграмме и отменять их, если что-то не нравится.


Изменение расстояния между линиями диаграммы
В этом же меню работы с диаграммой ряда есть отдельная настройка, открывающаяся через выпадающий раздел «Параметры ряда». Она отвечает за увеличение или уменьшение зазора между рядами как с фронтальной стороны, так и сбоку. Выбирайте оптимальное расстояние, передвигая эти ползунки. Если вдруг настройка вас не устраивает, верните значения по умолчанию (150%).

Изменение расположения осей
Последняя настройка, которая окажется полезной при работе с линейчатой диаграммой, — изменение расположения осей. Она поворачивает оси на 90 градусов, делая отображение графика вертикальным. Обычно, когда нужно организовать подобный вид, пользователи выбирают другой тип диаграмм, однако иногда можно просто изменить настройку текущей.
- Нажмите по оси правой кнопкой мыши.
- Появится контекстное меню, через которое откройте окно «Формат оси».
- В нем перейдите к последней вкладке с параметрами.
- Разверните раздел «Подписи».
- Через выпадающее меню «Положение подписи» выберите желаемое расположение, например внизу или сверху, а после проверьте результат.

Еще статьи по данной теме:
Помогла ли Вам статья?
В этой статье описаны синтаксис формулы и использование функции LINEST в Microsoft Excel. Ссылки на дополнительные сведения о диаграммах и выполнении регрессионного анализа можно найти в разделе См. также.
Описание
Функция ЛИНЕЙН рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные и затем возвращает массив, который описывает полученную прямую. Функцию ЛИНЕЙН также можно объединять с другими функциями для вычисления других видов моделей, являющихся линейными по неизвестным параметрам, включая полиномиальные, логарифмические, экспоненциальные и степенные ряды. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива. Инструкции приведены в данной статье после примеров.
Уравнение для прямой линии имеет следующий вид:
y = mx + b
или
y = m1x1 + m2x2 +… + b
если существует несколько диапазонов значений x, где зависимые значения y — функции независимых значений x. Значения m — коэффициенты, соответствующие каждому значению x, а b — постоянная. Обратите внимание, что y, x и m могут быть векторами. Функция ЛИНЕЙН возвращает массив {mn;mn-1;…;m1;b}. Функция ЛИНЕЙН может также возвращать дополнительную регрессионную статистику.
Синтаксис
ЛИНЕЙН(известные_значения_y; [известные_значения_x]; [конст]; [статистика])
Аргументы функции ЛИНЕЙН описаны ниже.
Синтаксис
-
Известные_значения_y. Обязательный аргумент. Множество значений y, которые уже известны для соотношения y = mx + b.
-
Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.
-
Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.
-
-
Известные_значения_x. Необязательный аргумент. Множество значений x, которые уже известны для соотношения y = mx + b.
-
Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то массивы известные_значения_y и известные_значения_x могут иметь любую форму — при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (т. е. интервалом высотой в одну строку или шириной в один столбец).
-
Если массив известные_значения_x опущен, то предполагается, что это массив {1;2;3;…}, имеющий такой же размер, что и массив известные_значения_y.
-
-
Конст. Необязательный аргумент. Логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.
-
Если аргумент конст имеет значение ИСТИНА или опущен, то константа b вычисляется обычным образом.
-
Если аргумент конст имеет значение ЛОЖЬ, то значение b полагается равным 0 и значения m подбираются таким образом, чтобы выполнялось соотношение y = mx.
-
-
Статистика. Необязательный аргумент. Логическое значение, которое указывает, требуется ли вернуть дополнительную регрессионную статистику.
-
Если статистика имеет true, то LINEST возвращает дополнительную регрессию; в результате возвращается массив {mn;mn-1,…,m1;b;sen,sen-1,…,se1;seb;r2;sey; F,df;ssreg,ssresid}.
-
Если аргумент статистика имеет значение ЛОЖЬ или опущен, функция ЛИНЕЙН возвращает только коэффициенты m и постоянную b.
Дополнительная регрессионная статистика.
-
|
Величина |
Описание |
|---|---|
|
se1,se2,…,sen |
Стандартные значения ошибок для коэффициентов m1,m2,…,mn. |
|
seb |
Стандартное значение ошибки для постоянной b (seb = #Н/Д, если аргумент конст имеет значение ЛОЖЬ). |
|
r2 |
Коэффициент определения. Сравнивает предполагаемые и фактические значения y и диапазоны значений от 0 до 1. Если значение 1, то в выборке будет отличная корреляция— разница между предполагаемым значением y и фактическим значением y не существует. С другой стороны, если коэффициент определения — 0, уравнение регрессии не помогает предсказать значение y. Сведения о том, каквычисляется 2, см. в разделе «Замечания» далее в этой теме. |
|
sey |
Стандартная ошибка для оценки y. |
|
F |
F-статистика или F-наблюдаемое значение. F-статистика используется для определения того, является ли случайной наблюдаемая взаимосвязь между зависимой и независимой переменными. |
|
df |
Степени свободы. Степени свободы используются для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели необходимо сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН. Дополнительные сведения о вычислении величины df см. ниже в разделе «Замечания». Далее в примере 4 показано использование величин F и df. |
|
ssreg |
Регрессионная сумма квадратов. |
|
ssresid |
Остаточная сумма квадратов. Дополнительные сведения о расчете величин ssreg и ssresid см. в подразделе «Замечания» в конце данного раздела. |
На приведенном ниже рисунке показано, в каком порядке возвращается дополнительная регрессионная статистика.

Замечания
-
Любую прямую можно описать ее наклоном и пересечением с осью y:
Наклон (m):
Чтобы найти наклон линии, обычно записанной как m, возьмите две точки на строке (x1;y1) и (x2;y2); наклон равен (y2 — y1)/(x2 — x1).Y-перехват (b):
Y-пересечение строки, обычно записанное как b, — это значение y в точке, в которой линия пересекает ось y.Уравнение прямой имеет вид y = mx + b. Если известны значения m и b, то можно вычислить любую точку на прямой, подставляя значения y или x в уравнение. Можно также воспользоваться функцией ТЕНДЕНЦИЯ.
-
Если имеется только одна независимая переменная x, можно получить наклон и y-пересечение непосредственно, воспользовавшись следующими формулами:
Наклон:
=ИНДЕКС( LINEST(known_y,known_x’s);1)Y-перехват:
=ИНДЕКС( LINEST(known_y,known_x),2) -
Точность аппроксимации с помощью прямой, вычисленной функцией ЛИНЕЙН, зависит от степени разброса данных. Чем ближе данные к прямой, тем более точной является модель ЛИНЕЙН. Функция ЛИНЕЙН использует для определения наилучшей аппроксимации данных метод наименьших квадратов. Когда имеется только одна независимая переменная x, значения m и b вычисляются по следующим формулам:
где x и y — выборочные средние значения, например x = СРЗНАЧ(известные_значения_x), а y = СРЗНАЧ(известные_значения_y).
-
Функции ЛИННЕСТРОЙ и ЛОГЪЕСТ могут вычислять наилучшие прямые или экспоненциальное кривой, которые подходят для ваших данных. Однако необходимо решить, какой из двух результатов лучше всего подходит для ваших данных. Вы можетевычислить known_y(known_x) для прямой линии или РОСТ(known_y, known_x в) для экспоненциальной кривой. Эти функции без аргумента new_x возвращают массив значений y, спрогнозируемых вдоль этой линии или кривой в фактических точках данных. Затем можно сравнить спрогнозируемые значения с фактическими значениями. Для наглядного сравнения можно отобразить оба этих диаграммы.
-
Проводя регрессионный анализ, Microsoft Excel вычисляет для каждой точки квадрат разности между прогнозируемым значением y и фактическим значением y. Сумма этих квадратов разностей называется остаточной суммой квадратов (ssresid). Затем Microsoft Excel подсчитывает общую сумму квадратов (sstotal). Если конст = ИСТИНА или значение этого аргумента не указано, общая сумма квадратов будет равна сумме квадратов разностей действительных значений y и средних значений y. При конст = ЛОЖЬ общая сумма квадратов будет равна сумме квадратов действительных значений y (без вычитания среднего значения y из частного значения y). После этого регрессионную сумму квадратов можно вычислить следующим образом: ssreg = sstotal — ssresid. Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента определения r2— индикатор того, насколько хорошо уравнение, выданное в результате регрессионного анализа, объясняет связь между переменными. Значение r2 равно ssreg/sstotal.
-
В некоторых случаях один или несколько столбцов X (предполагается, что значения Y и X — в столбцах) могут не иметь дополнительного прогнозируемого значения при наличии других столбцов X. Другими словами, удаление одного или более столбцов X может привести к одинаковой точности предсказания значений Y. В этом случае эти избыточные столбцы X следует не использовать в модели регрессии. Этот вариант называется «коллинеарность», так как любой избыточный X-столбец может быть выражен как сумма многих не избыточных X-столбцов. Функция ЛИНЕЙН проверяет коллинеарность и удаляет все избыточные X-столбцы из модели регрессии при их идентификации. Удалены столбцы X распознаются в результатах LINEST как имеющие коэффициенты 0 в дополнение к значениям 0 se. Если один или несколько столбцов будут удалены как избыточные, это влияет на df, поскольку df зависит от числа X столбцов, фактически используемых для прогнозирования. Подробные сведения о вычислении df см. в примере 4. Если значение df изменилось из-за удаления избыточных X-столбцов, это также влияет на значения Sey и F. Коллинеарность должна быть относительно редкой на практике. Однако чаще всего возникают ситуации, когда некоторые столбцы X содержат только значения 0 и 1 в качестве индикаторов того, является ли тема в эксперименте участником определенной группы или не является ее участником. Если конст = ИСТИНА или опущен, функция LYST фактически вставляет дополнительный столбец X из всех 1 значений для моделирования перехвата. Если у вас есть столбец с значением 1 для каждой темы, если мальчик, или 0, а также столбец с 1 для каждой темы, если она является женщиной, или 0, последний столбец является избыточным, так как записи в нем могут быть получены из вычитания записи в столбце «самец» из записи в дополнительном столбце всех 1 значений, добавленных функцией LINEST.
-
Вычисление значения df для случаев, когда столбцы X удаляются из модели вследствие коллинеарности происходит следующим образом: если существует k столбцов известных_значений_x и значение конст = ИСТИНА или не указано, то df = n – k – 1. Если конст = ЛОЖЬ, то df = n — k. В обоих случаях удаление столбцов X вследствие коллинеарности увеличивает значение df на 1.
-
При вводе константы массива (например, в качестве аргумента известные_значения_x) следует использовать точку с запятой для разделения значений в одной строке и двоеточие для разделения строк. Знаки-разделители могут быть другими в зависимости от региональных параметров.
-
Следует отметить, что значения y, предсказанные с помощью уравнения регрессии, возможно, не будут правильными, если они располагаются вне интервала значений y, которые использовались для определения уравнения.
-
Основной алгоритм, используемый в функции ЛИНЕЙН, отличается от основного алгоритма функций НАКЛОН и ОТРЕЗОК. Разница между алгоритмами может привести к различным результатам при неопределенных и коллинеарных данных. Например, если точки данных аргумента известные_значения_y равны 0, а точки данных аргумента известные_значения_x равны 1, то:
-
Функция ЛИНЕЙН возвращает значение, равное 0. Алгоритм функции ЛИНЕЙН используется для возвращения подходящих значений для коллинеарных данных, и в данном случае может быть найден по меньшей мере один ответ.
-
Наклон и ОТОКП возвращают #DIV/0! ошибка «#ЗНАЧ!». Алгоритм функций НАКЛОН и ОТОКП предназначен для поиска только одного ответа, и в этом случае может быть несколько ответов.
-
-
Помимо вычисления статистики для других типов регрессии с помощью функции ЛГРФПРИБЛ, для вычисления диапазонов некоторых других типов регрессий можно использовать функцию ЛИНЕЙН, вводя функции переменных x и y как ряды переменных х и у для ЛИНЕЙН. Например, следующая формула:
=ЛИНЕЙН(значения_y, значения_x^СТОЛБЕЦ($A:$C))
работает при наличии одного столбца значений Y и одного столбца значений Х для вычисления аппроксимации куба (многочлен 3-й степени) следующей формы:
y = m1*x + m2*x^2 + m3*x^3 + b
Формула может быть изменена для расчетов других типов регрессии, но в отдельных случаях требуется корректировка выходных значений и других статистических данных.
-
Значение F-теста, возвращаемое функцией ЛИНЕЙН, отличается от значения, возвращаемого функцией ФТЕСТ. Функция ЛИНЕЙН возвращает F-статистику, в то время как ФТЕСТ возвращает вероятность.
Примеры
Пример 1. Наклон и Y-пересечение
Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.
|
Известные значения y |
Известные значения x |
|---|---|
|
1 |
0 |
|
9 |
4 |
|
5 |
2 |
|
7 |
3 |
|
Результат (наклон) |
Результат (y-пересечение) |
|
2 |
1 |
|
Формула (формула массива в ячейках A7:B7) |
|
|
=ЛИНЕЙН(A2:A5;B2:B5;;ЛОЖЬ) |
Пример 2. Простая линейная регрессия
Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.
|
Месяц |
Продажи |
|---|---|
|
1 |
3 100 ₽ |
|
2 |
4 500 ₽ |
|
3 |
4 400 ₽ |
|
4 |
5 400 ₽ |
|
5 |
7 500 ₽ |
|
6 |
8 100 ₽ |
|
Формула |
Результат |
|
=СУММ(ЛИНЕЙН(B1:B6; A2:A7)*{9;1}) |
11 000 ₽ |
|
Вычисляет предполагаемый объем продаж в девятом месяце на основе данных о продажах за период с первого по шестой месяцы. |
Пример 3. Множественная линейная регрессия
Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.
|
Общая площадь (x1) |
Количество офисов (x2) |
Количество входов (x3) |
Время эксплуатации (x4) |
Оценочная цена (y) |
|---|---|---|---|---|
|
2310 |
2 |
2 |
20 |
142 000 ₽ |
|
2333 |
2 |
2 |
12 |
144 000 ₽ |
|
2356 |
3 |
1,5 |
33 |
151 000 ₽ |
|
2379 |
3 |
2 |
43 |
150 000 ₽ |
|
2402 |
2 |
3 |
53 |
139 000 ₽ |
|
2425 |
4 |
2 |
23 |
169 000 ₽ |
|
2448 |
2 |
1,5 |
99 |
126 000 ₽ |
|
2471 |
2 |
2 |
34 |
142 900 ₽ |
|
2494 |
3 |
3 |
23 |
163 000 ₽ |
|
2517 |
4 |
4 |
55 |
169 000 ₽ |
|
2540 |
2 |
3 |
22 |
149 000 ₽ |
|
-234,2371645 |
||||
|
13,26801148 |
||||
|
0,996747993 |
||||
|
459,7536742 |
||||
|
1732393319 |
||||
|
Формула (формула динамического массива, введенная в A19) |
||||
|
=ЛИНЕЙН(E2:E12; A2:D12; ИСТИНА; ИСТИНА) |
Пример 4. Использование статистики F и r2
В предыдущем примере коэффициент определения (r2)составляет 0,99675 (см. ячейку A17 в результатах для ЛИТН), что указывает на крепкая связь между независимыми переменными и ценой продажи. F-статистику можно использовать для определения случайности этих результатов с таким высоким значением r2.
Предположим, что на самом деле взаимосвязи между переменными не существует, просто статистический анализ вывел сильную взаимозависимость по взятой равномерной выборке 11 зданий. Величина «Альфа» используется для обозначения вероятности ошибочного вывода о существовании сильная взаимозависимости.
Значения F и df в результатах функции LINEST можно использовать для оценки вероятности возникновения более высокого F-значения. F можно сравнивать с критическими значениями в опубликованных F-таблицах или с помощью функции FРАСП в Excel для вычисления вероятности случайного возникновения большего F-значения. Соответствующее F-распределение имеет v1 и v2 степени свободы. Если n — количество точек данных и конст = ИСТИНА или опущен, то v1 = n – df – 1 и v2 = df. (Если конст = ЛОЖЬ, то v1 = n – df и v2 = df.) Функция FIST с синтаксисом FDIST(F;v1;v2) возвращает вероятность возникновения более высокого F-значения, случайного. В этом примере df = 6 (ячейка B18) и F = 459,753674 (ячейка A18).
Предположим, что альфа имеет значение 0,05, v1 = 11 – 6 – 1 = 4, а v2 = 6, критический уровень F составляет 4,53. Поскольку F = 459,753674 значительно больше 4,53, вероятность того, что F-значение этого высокой случайности превышает 4,53, крайне маловероятно. (Если значение «Альфа» = 0,05, гипотеза о том, что между known_y и known_x нет связи, отклоняется при превышении F критического уровня (4,53).) Функцию FDIST в Excel можно использовать для получения вероятности случайного возникновения F-значения. Например, FIST(459,753674, 4, 6) = 1,37E-7, очень небольшая вероятность. Можно сделать вывод о том, что формула регрессии полезна для предсказания оценочного значения офисных зданий в этой области, найдя критический уровень F в таблице или с помощью функции FDIST. Помните, что крайне важно использовать правильные значения 1 и 2, вычисленные в предыдущем абзаце.
Пример 5. Вычисление t-статистики
Другой тест позволяет определить, подходит ли каждый коэффициент наклона для оценки стоимости здания под офис в примере 3. Например, чтобы проверить, имеет ли срок эксплуатации здания статистическую значимость, разделим -234,24 (коэффициент наклона для срока эксплуатации здания) на 13,268 (оценка стандартной ошибки для коэффициента времени эксплуатации из ячейки A15). Ниже приводится наблюдаемое t-значение:
t = m4 ÷ se4 = –234,24 ÷ 13,268 = –17,7
Если абсолютное значение t достаточно велико, можно сделать вывод, что коэффициент наклона можно использовать для оценки стоимости здания под офис в примере 3. В таблице ниже приведены абсолютные значения четырех наблюдаемых t-значений.
Если обратиться к справочнику по математической статистике, то окажется, что t-критическое двустороннее с 6 степенями свободы равно 2,447 при Альфа = 0,05. Критическое значение также можно также найти с помощью функции Microsoft Excel СТЬЮДРАСПОБР. СТЬЮДРАСПОБР(0,05; 6) = 2,447. Поскольку абсолютная величина t, равная 17,7, больше, чем 2,447, срок эксплуатации — это важная переменная для оценки стоимости здания под офис. Аналогичным образом можно протестировать все другие переменные на статистическую значимость. Ниже приводятся наблюдаемые t-значения для каждой из независимых переменных.
|
Переменная |
t-наблюдаемое значение |
|---|---|
|
Общая площадь |
5,1 |
|
Количество офисов |
31,3 |
|
Количество входов |
4,8 |
|
Возраст |
17,7 |
Абсолютная величина всех этих значений больше, чем 2,447. Следовательно, все переменные, использованные в уравнении регрессии, полезны для предсказания оценочной стоимости здания под офис в данном районе.
Линейные диаграммы могут отображать непрерывные данные с течением времени на равномерно масштабированной оси. Таким образом, они идеально подходят для отображения тенденций в данных с равными интервалами, такими как дни, месяцы, кварталы или годы.
В линейном графике –
-
Данные категории распределяются равномерно по горизонтальной оси.
-
Значения данных распределяются равномерно по вертикальной оси.
Данные категории распределяются равномерно по горизонтальной оси.
Значения данных распределяются равномерно по вертикальной оси.
Следуйте приведенным ниже инструкциям, чтобы вставить линейную диаграмму в свой рабочий лист.
Шаг 1 – Расположите данные в столбцах или строках на листе.
Шаг 2 – Выберите данные.
Шаг 3 – На вкладке « ВСТАВКА » в группе «Диаграммы» щелкните значок «Линейный график» на ленте.
Вы увидите различные доступные линейные графики.
Линейный график имеет следующие подтипы –
-
Двухмерные линейные графики
-
Линия
-
100% накопленная линия
-
Линия с маркерами
-
Сложенная линия с маркерами
-
100% стопка с маркерами
-
-
Трехмерные графики
-
3-D линия
-
Двухмерные линейные графики
Линия
100% накопленная линия
Линия с маркерами
Сложенная линия с маркерами
100% стопка с маркерами
Трехмерные графики
3-D линия
Шаг 4 – Наведите указатель мыши на каждый из значков. Предварительный просмотр этого типа линии будет показан на листе.
Шаг 5 – Дважды щелкните тип диаграммы, который соответствует вашим данным.
В этой главе вы поймете, когда каждый из типов линейных диаграмм полезен.
Линия и линия с маркерами
Линейные диаграммы показывают отдельные значения данных. Линейные диаграммы работают лучше всего, когда в вашем графике несколько рядов данных.
Линейные графики могут показывать тренды над –
-
Время (дни, месяцы, кварталы или годы) или
-
Равномерно расположенные категории.
Время (дни, месяцы, кварталы или годы) или
Равномерно расположенные категории.
Линейный график может быть с маркерами или без них.
Вы можете использовать линейный график без маркеров, когда –
-
Порядок категорий важен.
-
Есть много категорий или, если значения являются приблизительными.
Порядок категорий важен.
Есть много категорий или, если значения являются приблизительными.
Вы можете использовать линейный график с маркерами, когда –
-
Порядок категорий важен.
-
Есть только несколько категорий.
Порядок категорий важен.
Есть только несколько категорий.
Линия с накоплением и линия с накоплением с маркерами
Сложенные линейные диаграммы указывают отдельные значения данных. Графики с накоплением линий могут показать тенденцию вклада каждого значения сверх –
- Время или
- Равномерно расположенные категории.
Графики Stacked Line могут быть с маркерами или без них.
Вы можете использовать линейную диаграмму с накоплением без маркеров, когда имеется много категорий или если значения приблизительны. Вы можете использовать линейную диаграмму с маркерами, если есть только несколько категорий.
Чтение Stacked Line графиков может быть затруднено, так как –
-
Они суммируют данные, которые могут не соответствовать желаемому результату.
-
Может быть нелегко увидеть, что линии сложены.
Они суммируют данные, которые могут не соответствовать желаемому результату.
Может быть нелегко увидеть, что линии сложены.
Чтобы преодолеть трудности, вы можете использовать вместо этого таблицу с накоплением.
Линия со стопкой 100% и линия со стопкой 100% с маркерами
Графики с накоплением 100% указывают отдельные значения данных. Графики 100% Stacked Line могут показывать тенденцию в процентах от каждого значения за –
- Время или
- Равномерно распределенные категории
График 100% Stacked Line может быть с маркерами или без них.
Вы можете использовать 100% -ную диаграмму с накоплением без маркеров, когда есть много категорий или если значения приблизительны. Вы можете использовать 100% Stacked Line диаграмму с маркерами, когда есть несколько категорий.
Чтение диаграмм с накоплением может быть затруднено. Вместо этого вы можете использовать 100-процентную диаграмму с накоплением.
3-D линия
Трехмерные линейные диаграммы показывают каждую строку или столбец данных в виде трехмерной ленты. Графики 3-D Line могут показывать тренды над –
- Время (дни, месяцы, кварталы или годы) или
- Категории.
Трехмерная линейная диаграмма имеет горизонтальные, вертикальные и глубинные оси, которые вы можете изменить. Третья ось может показывать некоторые линии перед другими.
Здравствуйте на этой странице я собрала теорию и практику с примерами решения задач по предмету эконометрика в программе Microsoft Excel с решением по каждой теме, чтобы вы смогли освежить знания!
Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!
Эконометрика
Становление эконометрики как научной дисциплины представляет значительный интерес с точки зрения как определения объектов исследования, так и формирования набора методов. Сам термин «эконометрика» сформировался из двух частей: «эконо-» – от «экономика» и «-метрика» – от «измерение». Поэтому статистический анализ экономических данных называется эконометрикой, что буквально означает «наука об экономических измерениях».
Эконометрика – это наука, связанная с эмпирическим выводом экономических законов.
Статистические ряды данных
Методы систематизации, обработки и использования статистических данных, выявление закономерностей являются основой эконометрических исследований. Пусть требуется исследовать какой-нибудь признак, свойственный большой группе однородных объектов. Напомним основные понятия и характеристики статистических данных.
Возможно эта страница вам будет полезна:
Генеральной совокупностью (генеральной выборкой) называется совокупность значений признака всех объектов данного типа, а их число 

Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов, а её объем обозначается 
Статистические исследования позволяют распространить выводы, сделанные на основе случайной выборки, на всю генеральную совокупность исследуемых случайных величин. Это является основой выборочного метода.
Графическое представление статистических данных
Пусть из генеральной совокупности извлекается выборка объема 




Статистическим распределением выборки называется перечень наблюдаемых значений и соответствующих им частот 

Упорядоченный в порядке возрастания или убывания ряд значений признака с соответствующими ему частотами называют вариационным рядом.
В целях наглядности строятся различные графики статистического распределения.
Полигоном частот (относительных частот) называется ломаная линия, которая соединяет точки с координатами 

Для построения гистограммы частот (относительных частот) необходимо найти границы интервалов признаков. Если данные наблюдений представляют в виде рядов с равными интервалами, то их величина находится по формуле Стэрд-жесса:

где 

По оси абсцисс откладываются границы интервалов так, чтобы они покрыли все значения вариационного ряда, а по оси ординат откладываются абсолютная плотность распределения 

Аналогом функции распределения 

по оси абсцисс откладывают значения признака, а по оси ординат — накопленные частоты или частости. Такую кривую иногда называют кумулятой: по данным интервального ряда на оси абсцисс откладывают точки, являющиеся верхними границами интервалов, а на оси ординат накопленные частоты (частости) соответствующих интервалов. Часто добавляют ещё одну точку, абсцисса которой соответствует левой границе первого интервала, а ордината равна нулю.
Числовые характеристики статистических распределений
Для описания статистических распределений обычно используют три вида характеристик:
- средние, или характеристики центральной тенденции;
- характеристики изменения вариант (рассеяния);
- характеристики, отражающие дополнительные особенности распределений, в частности их форму.
Все эти характеристики вычисляются по результатам наблюдений и построенных вариационных рядов.
Основным видом средних характеристик является средняя арифметическая (среднее выборочное значение), определяемая по формуле:

где 

Довольно часто в статистическом анализе применяют структурные или порядковые средние:

1) медиана 

2) мода 
Величины моды и медианы определяются по интерполяционным формулам, непосредственно из их определения, которые можно найти в дополнительной литературе.
Средние характеристики должны быть дополнены изменением вариации признака (рассеянием). Для этого рассчитываются квадраты отклонений вариант от среднего арифметического значения. Средний квадрат отклонений по данной выборке называется дисперсией и вычисляется по формуле:

На базе дисперсии вводятся две характеристики:
1) среднее квадратическое отклонение 
2) коэффициент вариации, равный процентному отношению среднего квадратического отклонения к значению средней арифметической исследуемой случайной величины, помогает решить вопрос об однородности выборки:

Величина о является чаще всего применяемой характеристикой рассеяния. Для характеристики формы распределения вводятся моменты к-того порядка, впервые предложенные Чебышсвым П. Л.:

которые называются центральными моментами к-того порядка. Чем больше моментов для данного признака вычислено, тем точнее можно описать свойства распределения. Однако с ростом К растет влияние случайных погрешностей, поэтому на практике используются моменты до четвертого порядка.
Центральный момент третьего порядка называется асимметрией 

Инструмент анализа описательная статистика и гистограмма в Excel
Наиболее полный анализ статистических данных позволяет выполнить пакет Анализ данных из меню Сервис. Если команда Анализ данных отсутствует в меню Сервис, выберите Надстройки и в появившемся списке отметьте Analysis ToolPak (Пакет анализа). В случае отсутствия этого пункта в Надстройках, вам придется установить его вручную с помощью Microsoft Excel Setup (меню Сервис > Надстройки > подключите Пакет Анализа).
При выполнении этой лабораторной работы будут использоваться инструменты Описательная статистика и Гистограмма из Анализа данных. Надо сказать, что в Excel есть набор встроенных статистических функций, которыми можно пользоваться, если нет необходимости во всех характеристиках исследуемых данных. Для вызова нужной функции необходимо выполнить действия: из меню Вставка и выбрать команду Функция и перейти к категории Статистические.
Возможно эта страница вам будет полезна:
Пример с решением №1.1.
При обследовании 50 семей получены данные о количестве детей, которые имеют БИНОМРАСЩ) с числом испытаний равным 10 и вероятностью успеха 0,3 (сгенерировать с помощью пакета Анализа данных). Определите средний размер семьи. Охарактеризуйте колеблемость размера семьи с помощью показателя вариации. Постройте гистограмму и функцию распределения.
Данные для решения примера задают изначально в виде таблиц и их надо поместить на лист Excel; или можно воспользоваться инструментом Анализа данных Генерация случайных чисел.
Генерация случайных чисел позволяет быстро получить нужное количество значений одной или нескольких вариант, имеющих одно из распределений: Равномерное, Нормальное, Бернулли, Биномиальное, Пуассона и другие. Надо помнить, что каждое распределение имеет свои параметры, которые задаются пользователем. Достоверность полученных выводов в этом случае мала.
- В меню Сервис выберите Анализ данных, а затем выделите инструмент анализа Генерация случайных чисел (найти его можно с помощью линейки прокрутки). Выделите в диалоговом окне нужный инструмент и нажмите ОК (рис. 1.1).
- Заполните поля диалогового окна так же как на рис. 1.2 и нажмите ОК. Результатом является набор из пятидесяти чисел, которые располагаются в столбце В рис 1.3.
- Примените инструмент Описательная статистика для поиска числовых характеристик выборочных данных, расположенных в диапазоне В2:В51. Для этого выберите инструмент анализа Описательная статистика в диалоговом окне Анализ данных рис. 1.1. В одноименном диалоговом окне надо указать: входной интервал (В2:В51), ячейку левого верхнего угла для вывода итогов D1, обязательно включите опцию Итоговая Статистика. Результат применения инструмента Описательная статистика показан на рис. 1.3. в диапазоне D1:Е18.
Значения в диапазоне Е2: Е18 не обновляются в случае изменения исходных данных В2:В51.

В столбце 

Построение гистограммы и функции распределения можно выполнить, выбрав инструмент, Гистограмма (рис. 1.1). Перед использованием этого инструмента надо решить вопрос об интервале разбиения (

Описание результатов.
Описательная статистика содержит три результата средней характеристики исследования числа детей в пятидесяти семьях: Среднее (3,34), Моду (3) и Медиану (3). Найдем значение коэффициента вариации по формуле (1.4):

Так как 43% > 35%, можно сделать вывод, что изучаемая совокупность семей является неоднородной, чем и объясняется высокая колеблемость количества детей в семьях. В виду неоднородности семей, попавших в выборку, можно в качестве среднего использовать моду или медиану
Стандартное отклонение (1,44) — наиболее широко используемая характеристика изменения данных — измеряется в тех же единицах, что и исходные данные.
Стандартная ошибка является характеристикой достоверности среднего выборочного значения и используется в статистических исследованиях (0,20).
Эксцесс и Асснметрнн позволяют сделать вывод о незначительных отклонениях гистограммы частостей от нормально распределенной случайной величины, характеризующей количество детей в семьях с средним равным 3,34 и средним квад-ратическим отклонением 1,44.
Напомним, что эталоном этих величин являются нормальное распределение (рис. 1.5), для которого Ассиметрия равна нулю, а центральный момент четвертого порядка (1.5) равен трем.
Ассиметрия имеет отрицательное значение. Это означает, что гистограмма не симметрична по отношению к среднему значению выборки и имеет скос вправо, то есть количество семей имеющих менее трех детей больше, чем семей количество детей в которых больше трех.
Эксцесс тоже имеет отрицательное значение. То есть значение гистограммы в точке 
Математическая статистика статистические оценки
Имеется случайная величина 

Числовые характеристики генеральной совокупности, как правило, неизвестны. Их называют параметрами генеральной совокупности (среднее, дисперсия, среднее квадратическое отклонение, доля признака генеральной совокупности объема 
Из генеральной совокупности извлекается выборка объёма 

Обозначим через 









Несмещенной называют оценку, для которой выполняется условие:

Состоятельной называется оценка, удовлетворяющая условию:

Для выполнения условия 2.2 достаточно, чтобы:

Эффективной считается оценка, которая при заданном объеме выборки имеет наименьшую возможную дисперсию.
Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней и вычисляется по формуле (1.1).
Выборочная дисперсия найденная по формуле (1.2) является смещенной оценкой для дисперсии генеральной совокупности.
Вводится понятие исправленной выборочной дисперсии, которая является несмещенной оценкой генеральной дисперсии и вычисляется по формуле:

Исправленное выборочное средне квадратическое отклонение будет равно:

Теоретическое обоснование использования этих выборочных оценок для определения характеристик генеральной совокупности дают закон больших чисел и предельные теоремы.
Основные виды распределения и функции excel, позволяющие проводить статистическое оценивание
Чтобы построить модели статистических закономерностей возникает необходимость использовать известные виды распределения. Каждое распределение характеризует некоторую случайную величину — результат определенного вида испытаний. С функциями, задающими эти распределения, а также их параметрами можно познакомиться в любом учебнике по теории вероятностей. Выбранное распределение может рассматриваться только как теоретическое (генеральное), а результат опыта — как статистическое (выборочное) распределение. Последнее, в силу ограниченности числа наблюдений, будет лишь приближенно характеризовать теоретическое распределение.
По виду гистограммы и полученным числовым характеристикам выборки делается предположение о теоретическом виде распределения исследуемого признака. Если это удается, то можно найти оценки числовых характеристик и сделать выводы о параметрах генеральной совокупности. Если закон распределения не возможно установить, то подбирается кривая, наилучшим образом сглаживающая данные статистического ряда. Распределения делятся на дискретные и непрерывные.
Дискретные распределения описываются конечные набором чисел и соответствующими им частотами. Например, оценки, которые может получить студент на экзамене, описываются множеством (2, 3, 4, 5). Поэтому случайная величина 
Непрерывные распределения описывают случайные величины с непрерывной областью значений. Для непрерывных распределений вероятность сопоставляется не с отдельным значением, а интервалом чисел. Непрерывные распределения в теории вероятностей задаются функцией плотности распределения 

Площадь фигуры, ограниченной 






Нормальное распределение
Чаще других в статистических исследованиях применяется нормальное распределение. Теоретическим основанием к его применению служит центральная предельная теорема Ляпунова. Оно имеет два параметра: среднее (а) и стандартное отклонение 

Синтаксис функции:
Значение функции распределения случайной величины 

Графики плотности распределения и функции распределения случайной величины 
Вероятность попадания случайной величины 


Если случайная величина нормально распределена и имеет среднее арифметическое равное нулю и среднее квадратическое отклонение равное единицы, то её называют стандартизованной а для вычисления вероятности попадания в интервал таких случайных величин в Excel существует функция:

которая возвращает интегральное стандартное распределение.

При статистических исследованиях оценок довольно часто приходится решать обратную задачу: находить значение варианты 

Распределения, связанные с нормальным распределением
Несмотря на широкое распространение нормального распределения, в некоторых случаях при построении статистических моделей возникает необходимость в использовании других распределений. Приведем примеры некоторых функций в Excel.
Логнормальное распределение
Свидетельством близости распределения к логнормальному является значительная ассиметрия, обусловленная ограничением 
Функция ЛОГНОРМРАСП(


Хи-квадрат распределение
Чаще всего это распределение используется для определения критического значения статистики с заданным уровнем значимости 


Если задано значение вероятности, то функция ХИ20БР позволяет найти значение 

В функции ХИ20БР для поиска применяется метод итераций. Если поиск не закончится после 100 итераций, функция возвращает сообщение об ошибке #Н/Д.
Распределение стьюдента t
Это распределение имеет важное значение для статистических выводов. Функция СТЬЮДРАСП возвращает вероятностную меру «хвостов» распределения. Её синтаксис:


Если «хвосты» = 1, то функция СТЬЮДРАСП возвращает одностороннее распределение (вероятность правого хвоста).
Если «хвосты» = 2, то функция СТЬЮДРАСП возвращает двухстороннее распределение.
При этом значение 
Так как функция симметричная относительно нуля, то справедливо следующие равенства:
Функция СТЬЮДРАСПОБР(вероятность; степени свободы) является обратной для распределения Стьюдента и соответствует положительному значению 
РАСПРЕДЕЛЕНИЕ ФИШЕРА Эту функцию можно использовать, чтобы определить, имеют ли два множества данных различные степени разброса результатов. Например, можно проанализировать результаты тестирования старшеклассников и определить, различается ли разброс результатов для мальчиков и девочек.


Обратное значение для 
Распределения дискретной случайной величины в excel биномиальное распределение
Распределение используется для моделирования случайной величины с конечным числом испытанной. В каждом испытании случайная величина может принимать только два значения: успех или неуспех (0 или 1). Вероятность успеха постоянна и не зависит от результатов других испытаний. Биномиальное распределение описывает общее число успехов при указанном числе испытаний. Данное распределение требует указать два параметра: число испытаний 

Пример с решением №2.1.
Группа из 20 студентов сдает экзамен. Вероятность сдать экзамен по данным прошлых лет равна 0,3. Отобрано 5 человек составьте закон распределения случайной величины 
В ячейку В7 помещена функция БИНОМРАСЩА7; SBS1; $В$2; 0) (рис 2.3.). Скопируйте формулу для остальных ячеек столбца В, как показано на рис. 2.2. Чтобы получить данные столбца С надо в качестве аргумента интегральная поставить единицу.
С помощью функции БИНОМРАСП можно получить только вероятности равные числу успеха к (интегральная равна нулю) или не большие к (интегральная равна единицы). Для вычисления других вероятностей надо воспользуйтесь значениями столбцов 



Для построение диаграммы биномиального распределения выделите ячейки В7:В12 и нажмите кнопку мастер диаграмм на стандартной панели инструментов. Отформатируйте её как показано на рис. 2.2.
В качестве обратной функции к БИНОМРАСП в Exccl рассматривается функция КРИТБИНОМ. Её синтаксис:


Гипергеометрическое распределение
Распределение возвращает вероятность заданного количества успехов в выборке, если заданы: размер выборки 




Синтаксис:
ГИПЕРГЕОМЕТ (числоуспеховввыборке; размер выборки; числоуспеховвсовокупности; размерсовокумности)
Распределение Пуассона
Обычное применение распределения Пуассона состоит в предсказании количества событий, происходящих за определенное время, например: количество машин, появляющихся за 1 минуту на станции техобслуживания.
Синтаксис: ПУАССОН(

среднее — ожидаемое численное значение.
интегральная — логическое значение, определяющее форму возвращаемого распределения вероятностей.
Если аргумент «интегральная» имеет значение ИСТИНА, то функция ПУАССОН возвращает интегральное распределение Пуассона, то есть вероятность того, что число случайных событий будет от 0 до 
Если этот аргумент имеет значение ЛОЖЬ, то вычисляется значение функции плотности распределения Пуассона, то есть вероятность того, что событий появится равно 
Интервальные оценки
Величина оценки 


где 


Значение 


Если стандартное отклонение находится по выборке, то рассматривают два случая:
1) 

2) 
Если раскрыть модуль в уравнении (2.7), то получим неравенство:

Числа 


Границы доверительного интервала симметричны относительно точечной оценки 

Так как 



Рассмотрим на примерах, как строятся доверительные интервалы для математического ожидания, дисперсии и среднего квадратического отклонения нормально распределенного количественного признака 
Доверительный интервал для математического ожидания с известной дисперсией
При построении доверительного интервала используется функция НОРМОБР для 

где 
Пример с решением №2.2.
Спонсоры телевизионных программ хотят знать, сколько времени дети проводят за экраном телевизора. После опроса 100 человек оказалось, что среднее число часов в неделю соответствует 27,5 часов, а средне квадратическое отклонение равно 8,0 часов. Найдите 95% доверительный интервал для оценки среднего количества часов в неделю, которое дети проводят за просмотром телепередач
На основании исследований с 95% вероятностью можно утверждать, что за просмотром телевизора дети проводят от 25,93 до 28,65 часов. Формулы для вычисления приведены на рис 2.4.

Доверительный интервал для математического ожидания с неизвестной дисперсией
Как правило, дисперсия оцениваемого параметра является величиной неизвестной. Тогда находят исправленную выборочную дисперсию, а доверительный интервал строится с помощью 
Функция СТЬЮДРАСПОБРО возвращает значение 

где 

Пример с решением №2.3.
Владелец таксопарка хочет спрогнозировать свои расходы на следующий год. Основной статьей расходов является покупка топлива. Так как бензин стоит дорого, владелец стал использовать газ. Были выбраны восемь такси, и оказалось, что число миль на галлон соответственно равно 28,1, 33,6, 41,1, 37,5, 27,6,36,8, 39,0 и 29,4. Оцените с доверительной вероятностью 95% средний пробег на один галлон газа для всех такси в парке, предполагая, что он распределен нормально.

После исследования оказалось, что средний пробег на один галлон для всех такси в парке находится между 29,71 и 38,81 миль на галлон. Формулы для вычисления приведены на рис.2.5.
Доверительный интервал для дисперсии и среднего квадратического отклонения
Рассмотрим нормально распределенную случайную величину, дисперсия 




Теперь с доверительной вероятностью 


Доверительный интервал для дисперсии запишется в виде неравенства:

Выборочня исправленная дисперсия несмещенная оценка генеральной дисперсии равна:

Так как 

имеет 





Тогда уравнение 2.9 примет вид:

из которого доверительный интервал для 

С помощью функции ХИ20БР можно найти верхнюю и нижнюю границы 



Подставив найденные значения в уравнения:

получим верхнюю и нижнюю границы доверительного интервала для дисперсии:

Доверительный интервал для среднего выборочного значения а получится, если извлечь корень из каждой части предыдущего неравенства.
Доверительный интервал для доли признака генеральной совокупности
Проводится серия из 




Если 


Зададим доверительную вероятность 



Интервал 


При большом числе испытаний Бернулли 

где 
a 
Тогда доверительный интервал генеральной доли признака можно найти, используя функцию Лапласа:
Откуда

Рассматривают два случая: большое количество проведенных испытаний и малое. В случае малого объема выборки найти 

Проверка статистических гипотез о числовых значениях параметров нормального распределения
Данные выборочных обследований часто являются основой для принятия одного из нескольких решений. При этом любое суждение о генеральной совокупности будет сопровождаться случайной погрешностью и поэтому может рассматриваться лишь как предположительное.
Под статистической гипотезой понимается всякое высказывание о виде неизвестного распределения, или параметрах генеральной совокупности известных распределений, или о равенстве параметров двух распределений, или о независимости выборок, которое можно проверить статистически, то есть опираясь на результаты случайных наблюдений.
Наиболее часто формулируются и проверяются гипотезы о числовых значениях параметров генеральной совокупности, подчиняющихся одному из известных законов распределения: нормальному, Стьюдента, Фишера и др.
Основные понятия статистической гипотезы
Подлежащая проверке гипотеза называется основной (нулевой) обозначают её 
Каждой основной гипотезе противопоставляется альтернативная (конкурирующая) гипотеза 

Статистическая проверка гипотез, основанная на результатах выборки, связана с риском, принять ложное решение. Если по выборочным данным основная гипотеза отвергнута, в то время как для генеральной совокупности она справедлива, то говорят об ошибке первого рода. Вероятность допустить такую ошибку принято называть уровнем значимости и обозначать а (10%, 9%,… 1%).
Рассматривается и ошибка второго рода, когда основная гипотеза принимается, в действительности же верной оказывается альтернативная гипотеза. В таком случае говорят об ошибке второго рода, а вероятность допустить эту ошибку обозначают 

Поскольку ошибки первого и второго рода исключить невозможно, то в каждом конкретном случае пытаются минимизировать потери от этих ошибок. Увеличение объема выборки является одним из таких путей.
Критерии проверки. Критическая область
Вывод о соответствии выборочных данных с проверяемой гипотезой делается на основе некоторого критерия. Критерий проверки гипотезы реализуют с помощью некоторой статистики 








После выбора критерия множество всех его возможных значений разбивают на два непересекающихся подмножества. Одно содержит значения критерия, при которых нулевая гипотеза отклоняется, это множество значений называют критической областью. Другое, называют областью принятия гипотезы — содержит совокупность значений, при которых нулевая гипотеза принимается.
Вычисленное по выборке значение критерия (




Если 
Общая схема проверки гипотезы
Проверка гипотезы с помощью уровня значимости.
- Формулируется нулевая гипотеза и альтернативная ей.
- Выбирается уровень значимости.
- Определяется критическая область и область принятия гипотезы.
- Выбирают критерий, и находят его расчетное значение по выборочным данным.
- Вычисляют критические точки.
- Принимается решение.
Другим способом проверки гипотезы является вывод р-значения (значения вероятности). В этом случае не указывается уровень значимости и не принимается решения об отбрасывании нулевой гипотезы. Вместо этого проверяем насколько правдоподобно, что полученная оценка соответствует значению генеральной совокупности. При левостороннем или правостороннем критерии рассчитываются вероятности попадания статистики 0 в критическую область. Если применяется двухсторонний критерий, то оценивается разность между выборочным средним и предполагаемым средним совокупности по модулю. Если р-значснис мало, то выборочное среднее значительно отличается от среднего совокупности.
Проверка гипотезы о математическом ожидании нормально распределенной (m0) случайной величины при известной дисперсии
Пусть генеральная совокупность имеет нормальное распределение, причем её математическое ожидание равно 



На рис. 2.6. приведены возможные варианты проверки нулевой гипотезы. Результаты проверки включают в себя решение о принятии нулевой или альтернативной гипотез, основанные на уровне значимости альфа и р-значении.
Пример с решением №2.4.
Клиенты банка в среднем снимают со своего счета 100$ при среднем квадратическом отклонении 
На каждого клиента банк резервирует сумму в 160$. По выборочным данным эта сумма составляет 100$.
Проверим гипотезу, может ли банк снизить свои резервы, то есть основная гипотеза может быть записана

В качестве альтернативной гипотезы рассмотрим ситуацию: «банк сможет обеспечить клиентов, если расчетная сумма выплат для каждого клиента будет снижена до 100$», тогда

Принимается гипотеза 

С надежностью 95% можно гарантировать, что у банка имеется остаток более 6000$.
Проверка гипотезы о математическом ожидании при неизвестной дисперсии
Пусть генеральная совокупность имеет нормальное распределение, причем её дисперсия неизвестна. Данная ситуация более реалистична, чем предыдущая. Пусть есть основания утверждать, что 
По результатам выборки найдем 

где 

которая имеет распределение Стьюдента с 
Пример с решением №2.5.
Производитель выпускает стальные стержни. Для улучшения качества планируется внедрить новую технологию, которая получить стержни по средней прочности лучшие на излом. Текущий стандарт прочности на излом составлял 500 фунтов.
Характеристики прочности стержней, произведенных по новой технологии, представлены в D3:D14 рис. 2.9. сформулируем гипотезу об увеличении прочности стержней.
Если
Возьмем выборочное среднее 
Новая технология позволит улучшить среднюю прочность стержней. Так как 
Построим сравнительные графики новой технологии и стандарта (рис2.10).
Большинство наблюдений превышает стандартную прочность излома стержней. Такая ситуация практически невозможна, если случайная величина имеет нормальное распределение со средним значением 500 фунтов следовательно по данным выборки можно предположить, что новая технология дает увеличение прочности.
Проверка гипотезы относительно доли признака
Рассматривается два основных типа задач:
1) сравнение выборочной доли признака 
Для проверки этой гипотезы используют статистику :

которая имеет нормальное распределение 
Критическое значение этой статистики можно найти по заданному уровню значимости 
2) для сравнения долей признака двух выборок 


Для больших выборок вводится статистика 

Используют функцию НОРМРАСПОБР для поиска критического значения по уровню значимости альфа, и сравнивают с расчетным значением

Малые выборки (
Оценка среднего по двум выборкам
При анализе экономических показателей довольно часто приходится сравнивать две генеральные совокупности. Например, можно сравнить два варианта инвестирования по размерам средних дивидендов, качество знаний студентов двух университетов — по среднему баллу на комплексном тестовом экзамене. Если дисперсии известны, то можно использовать Двухвыборочный z-тест для средних. Кроме этого существуют три варианта Двухвыборочный t-тестов. Эти три средства допускают следующие условия: равные дисперсии генерального распределения, дисперсии выборок не равны, а также представление двух выборок до и после наблюдения по одному и тому же субъекту.
Для запуска этих инструментов анализа данных надо выполнить действия меню Сервис/Анализ данных выберите из списка нужный вам пункт.
Для выполнения таких проверок инструментами анализа Excel требуется наличие двух выборок, оценка полагаемой разницы между средними значениями выборок и альфа — уровень значимости. Все перечисленные критерии предполагают, что рассматриваемые совокупности нормально распределены, и выборки получены случайно.
Случай равных дисперсий
Рассмотрим данный критерий на примере.
Пример с решением №4.1.
На заводе проводится эксперимент по оценке новой технологии сборки устройств. Рабочие делятся на две группы; одна обучается новой технологии, другая — стандартной. В конце обучения измеряется время (в минутах), необходимое рабочему для сборки устройства. Результаты приведены в диапазоне A L:В10 рис 4.1. Можно ли сделать вывод, исходя из данных выборок, что время сборки по новой технологии меньше, чем по стандартной.
На листе Exccl постройте графики для выборок Стандартная и Новая. Разброс (дисперсии равны) данных практически одинаковый, этот вывод можно сделать, изучив амплитуды колебания графиков (рис. 4.1). Маркеры графика Новая расположены ниже, поэтому можно предположить, что среднее время сбора устройств по новой технологии меньше.
Выдвигаем гипотезу: «Среднее время сборки по новой технологии не изменилось», . эту гипотезу можно записать в виде:

В диалоговом окне Анализ данных и выберите Двухвыборочный t-тест с одинаковыми дисперсиями. Заполните поля, как показано на рис.3.2. и нажмите кнопку ОК. результат появится на листе Excel в диапазоне D4: F16, как на рис 3.3.
Описание полученных результатов сравнения средних двух выборок (рис.3.3).
Объединенная дисперсия — это взвешенное среднее выборочных дисперсий, со степенями свободы каждой дисперсии в качестве весов (8). Она является оценкой общей дисперсии двух выборок и используется для определения стандартной ошибки разности средних.









Найденное расчетное значение 


Если бы рассматривалась левосторонняя гипотеза, то:

Можно построить доверительный интервал для разности средних значений выборок (результат в диапазоне Н3:18 рис. 3.4).
Среднее разности находится как разность ЕЗ — F3,


Половина длины равна произведению 
Доверительный интервал для разности средних значений равен (-1,046; 8,379) с вероятностью 95%.
Случай разных дисперсий
В данном случае не предполагается равенство дисперсий выборок, но сохраняется требование их нормальности и независимости.
Для принятия решения в таких случаях надо использовать Двухвыборочный t-тест с различными дисперсиями.
Пример с решением №3.2.
Для производства нового продукта предлагается две схемы размещения рабочих. Шесть случайно отобранных рабочих собирают изделие по схеме А, а другие восемь — по схеме В. Время сборки записывается соответственно в столбец А и В рис 3.5. Можно ли сделать вывод с 5% уровнем значимости, что время сборки различаются в схемах, при условии, что они нормальные.
Построим диаграммы данных выборок и сравним среднее время сборки и разброс.
Сравнивая графики для схем 


Выдвинем гипотезу: «Размещение рабочих не влияет на время сборки изделий:
В качестве альтернативной гипотезы выдвинем предположение: «время сборки изделий по схеме 

Для проверки этой гипотезы следует применить двухсторонний критерий. Инструкции по использованию 
Сравнивая расчетное значение 


Используя 
Парный выборочный критерий
Критерий используется в случае, когда одна и та же группа наблюдается дважды. Обычно это происходит при измерении характеристик до и после эксперимента. Например, студенты могут тестироваться дважды до и после курса по некоторой дисциплине. Можно использовать критерий и для других естественных пар наблюдений.
Пример с решением №3.3.
Исследователь хочет определить, имеется ли разница в успешности автомобильных сделок при их проведении продавцами женского и мужского пола. Для этого были выбраны восемь продавщиц и определена комиссия, заработанная каждой в прошедшем году. Так как опытность влияет на размер комиссии, то исследователь записала и стаж работы для каждой из восьми женщин. Данные приведены в столбцах 

Нулевая гипотеза состоит в том, что разность средних совокупностей равна нулю. Однако по результатам выборок получено среднее значение разности и она равна 2,25 тыс. рублей. Тогда в качестве альтернативной гипотезы рассмотрим утверждение, что продавцы различных полов имеют различные показатели. Для проверки гипотез применим Двухвыборочных парный t-тест для средних. После его запуска в диапазоне F1 :Н 14 будут помещены результаты применения этого критерия. Они практически ничем не отличаются от предыдущих результатов (пример 4.1, пример 4.2), только в ячейке G7 содержится коэффициент корреляции.
Принимая решение, для данного теста мы вынуждены принять гипотезу о равенстве средних значений комиссии у продавцов мужчин и женщин. Об этом говорят значения 

В случае проверки с гипотезы с помощью 

В диапазоне J1:K7 представлены вычисления 95% доверительного интервала для разности средних выборок.
Анализ дисперсий

Двухсторонний критерий применяется в случае, если альтернативная гипотеза состоит в том, что дисперсии выборок различны. Для этого составляется отношение дисперсий, которое сравнивается с единицей.
Если альтернативная гипотеза проверяет утверждение о том, что дисперсия одной выборки строго больше дисперсии другой выборки, применяется односторонний критерий.
Напомним, что заданный уровень значимости альфа для двухстороннего критерия делится пополам.
В примере 3.2. проверялась гипотеза о равенстве средних значений выборок, представляющих две схемы размещения рабочих мест. При этом предполагалось, что дисперсии этих выборок не равны. Воспользуемся данными этого примера и проверим гипотезу о равенстве дисперсий. Применим двухсторонний 





Можно не использовать двухвыборочный 

Значение статистики 
Критерий хи-квадрат (критерий согласия)
Этот критерий используют для проверки гипотезы о виде распределения выборки. Её проверка состоит в том, чтобы на основе сравнения фактических и теоретических частот сделать вывод о соответствии фактического распределения аредполагаемому. В критерии используется статистика:

где 



Статистика 6.1 подчиняется ХИ-квадрат распределению с 


В некоторых случаях сравнение может проводиться с заранее данным распределением, или с распределением у которого часть параметров указана (а не рассчитывается по выборочным данным). В этом случае число к (параметров генерального распределения) уменьшается.
Для применения критерия ХИ-квадрат требуется выполнение условий:
- экспериментальные данные должны быть независимыми;
- объем выборки должен быть достаточно большим (не менее 50);
- частота в каждой группе должна быть не менее 5. Если это условие не выполняется, то проводят объединение малочисленных интервалов, при этом частоты объединенных интервалов суммируются.
При полном совпадении теоретического и фактического распределений 



которое находится по заданному уровню значимости. Гипотеза 

Основанием для выдвижения гипотезы о виде распределения генеральной совокупности могут служить:
- формальные свойства числовых характеристик выборочных данных:
a. равенство нулю ассиметрии и эксцесса является признаком нормального распределения;
b. дисперсия и среднее значение выборки равны является признаком распределения Пуассона и т.д;
- графический анализ выборочных данных: полигон, гистограмма, функция накопленных частот их сравнение с теоретическими функциями известных распределений.
Если статистический ряд не является интервальным, то его данные подвергаются группировке и представляются в виде q интервалов равной длины. Далее находят количество вариант, попавших в каждый частичный интервал. Если значения статистического ряда являются равноотстоящими вариантами с заданными частотами, то данные можно и не группировать.
Проверка гипотезы о нормальном распределении генеральной совокупности
В предыдущих примерах мы пользовались тем, что значения выборки распределены по нормальному закону распределения. Рассмотрим применение критерия согласия, проверяющего справедливость гипотезы о наличии нормального распределения в совокупности на примере.
Пример с решением №5.1.
Чтобы установить гарантийный срок на товар, производитель хочет проверить является ли срок службы выпускаемого товара нормально распределенным. Случайным образом отобранные 200 единиц товара при проверке распределились следующим образом по количеству отработанных часов:

Запишем нулевую и альтернативную гипотезы:


Проверку будем проводить с помощью встроенных функций Excel. Для этого внесем данные, как показано на рис. 5.1 в ячейки А7:В11.
ШАГ 1. Найдите среднее значение и дисперсию интервального ряда по формулам 1.1 и 1.2. Для этого в ячейки D15:D19 занесите середины интервалов. Середина первого интервала определяется по формуле:

где пять половина длины следующего интервала. Аналогично вычисляется середина последнего интервала, только учитывается половина длины предшествующего интервала. В диапазон Е15:Е19 скопируйте фактические частоты. В ячейку Е20 запишите формулу: =СУММ(Е15:Е19).
В ячейку F15 поместите произведениех^ =D15*E15 и скопируйте в остальные ячейки диапазона F15:F 19. Теперь можете воспользоваться формулой 1.1 для определения среднего, значение которого поместите в ячейку В4.
Дисперсию найдите самостоятельно, для этого лучше воспользоваться формулой:

Сначала выполните следующие действия в ячейках G 15:G19 найдите 


ШАГ 2. В столбце «Вероятность» (рис.5.1) находится вероятность попадания случайной величины в соответствующий интервал. Для вычисления этих значений использовалась функция НОРМРАСП. Для первого интервала левым концом является минус бесконечность, поэтому в ячейку С8 запишите формулу:

Для последнего интервала находим

поэтому вычисление проводится по формуле:

Для вычисления вероятности попадания в интервал 

ШАГ 3. Диапазон «Ожидаемая частота» вычисляется как произведение соответствующих значений столбца «Вероятность» на объем выборки (200). ШАГ 4. Столбец 

В примере рассматривается пять интервалов, а количество параметров предполагаемого распределения два (среднее и стандартное отклонение) рассчитывается по выборке, поэтому число степеней свободы (СС) равно двум (5-2-1=2). В ячейки А14:В19 введите формулы согласно рис. 5.2.

В ячейке В19 делается вывод, что распределение часов работы, выпускаемого товара нормальное, это же подтверждает и р-значение.
Проверка гипотезы о распределении генеральной совокупности но закону Пуассона
Параметром этого распределения является 


Пример с решением №5.2.
Проведено наблюдение за числом вызовов такси в праздничные дни. Для этого анализировалось 100 случайно выбранных одно минутных интервалов времени. Число вызовов такси в минуту распределилось следующим образом:

Проверить, используя критерий Хи-квадрат, гипотезу о том, что число вызовов согласуется с законом Пуассона с уровнем значимости 
ШАГ 1. Внесите данные на лист Excel и найдите теоретические частоты (диапазон D2:D7), как показано на рис 5.3.
ШАГ2. Найдите слагаемые формулы 5.1. Для этого скопируйте значения фактических и теоретических частот, как показано на рис. 5.4, в ячейку С12 запишите формулу:


Можно сделать вывод о том, что число вызовов такси в праздничные дни имеет распределение Пуассона.
Проверка гипотезы о распределении генеральной совокупности но равномерному закону
Пусть случайная величина 


Пример с решением №6.3.
На рис.6.5 приведена частота появление на остановке автобусов определенного маршрута, имеющих интервал движения, пять минут 

При проверке гипотезы, так же как и в случае нормального распределения найдено критическое значение (рис. 5.2) и р-значение, которое характеризует вероятность выполнения гипотезы 
Проверка гипотезы о распределении генеральной совокупности но показательному закону
Как и в предыдущих проверках, выборочные данные сгруппируйте и запишите в виде последовательности частичных интервалов и соответствующих им частот. Найдите выборочное среднее значение 


Вероятности попадания случайной величины в интервалы определите с помощью функции ЭКСПРАСП.
Выполните расчеты как показано на рис. 5.6. Столбцы Е, F заполните как в примере 5.1. В столбце вероятность:
В ячейку D4 запишите =ЭКСПРАСП(В4;$Р$19;1);
В ячейку D5 поместите =ЭКСПРАСП(В5;$Р$ 19; 1 )-ЭКСГ1РАСП(A5;$F$ 19; 1), скопируйте её в остальные ячейки столбца D.
Сравнивая критическое и расчетное значение статистики ХИ-квадрат при 5% уровне значимости, можно сделать вывод, что нет оснований отвергать гипотезу 
Проверка гипотезы о распределении генеральной совокупности но биномиальному закону распределения
Пример с решением №5.4.
В библиотеке отобрано 200 партий по пять книг для обучения студентов в семестре. Каждому студенту было предложено заполнить опросный лист числа повреждений в книге. В итоге был получен вариационный ряд:

При уровне значимости 5% проверьте гипотезу о биномиальном распределении числа повреждений в книгах.
Биномиальное распределение имеет один неизвестный параметр — 


Выделенные ячейки следует объединить в одну группу, тогда количество рассматриваемых интервалов равно четырем.
Относительная частота находится по формуле

Прежде чем перейти к столбцу вероятность найдите оценку 


Столбец вероятность заполните с помощью формул :
Остальные ячейки заполняем, копируя полученную формулу.
Вывод: можно считать число повреждений в книге подчиняется биномиальному закону распределения.
Использование статистики ХИ-квадрат для изучения зависимостей двух переменных
Одним из приложений критерия 
Пример с решением №5.5.
Компания продает четыре сорта колы в Москве. Чтобы определить, будет ли успешным тот же способ распространения в Ростове и Краснодаре, фирма анализирует связь между предпочтениями и городом потребителя. Аналитик распределяет покупателей на четыре класса по предпочтениям сортов колы: обычная, без кофеина и сахара, только без кофеина, только без сахара. Опрашивают 250 случайно выбранных потребителей колы из трех городов и записывают их предпочтения. В результате получается таблица частот.

Так как аналитик определяет связь между городом и предпочтением определенного вида колы, то нулевая и альтернативная гипотезы следующие: 

На лист Excel поместим данные о распространении сортов кофе в диапазон В5:Е7 (рис 6.8). Расчет ожидаемых частот проводится в предположении, что нулевая гипотеза выполняется, то есть переменные независимые, а значит вероятность их произведения равна произведению вероятностей каждой их них. Поэтому таблица ожидаемых частот строится по формуле:

Ожидаемые частоты поместите в диапазон В12:Е 14. Для их вычисления, воспользуйтесь смешанной и абсолютной ссылками на ячейки сумма по строке, сумма по столбцу, общая сумма. Результаты вычисления приведены на рис. 6.9.
Для сравнения ожидаемых и фактических частот воспользуемся ХИ2ТЕСТОМ (рис. 5.8). В ячейку В17 внесите формулу:

Получите р-значение равное 0,00000013, которое определяет вероятность выполнения нулевой гипотезы. Можно сделать вывод, что нулевая гипотеза отвергается, то есть люди из разных городов предпочитают различные сорта колы.
Проверим эту же гипотезу с помощью статистики ХИ-квадрат. Слагаемые формулы 6.1 найдем с помощью Фактических и Ожидаемых частот. Для этого в ячейку В21 введите формулу:

и скопируйте её для всего диапазона B21:F23 (рис.5.9).

- Сумму слагаемых ХИ-квадрат поместите в ячейку В25 (рис.5.9).
- В ячейке В27 задайте уровень значимости (альфа равно 0,01).
- Число степеней свободы (СС) найдите по формуле:

- Критическое значение (В29) найдем с помощью

- В ячейку ВЗО помести функцию:

Так как ХИ-квадрат больше критического значения, то принимается гипотеза 

Критерии Колмогорова-Смирнова
Этот критерий является альтернативой критерию ХИ-квадрат. Его применение не требует вычисления ожидаемых частот и может использоваться для малых выборок. Данные должны представлять случайную выборку и обязательно должна быть сформулирована гипотеза о распределении генеральной совокупности. Нулевая гипотеза утверждает, что генеральная совокупность имеет выбранное распределение с определенным уровнем значимости.
Применение критерия Колмогорова-Смирнова основано на оценке разности функции накопленных частот 


где 



Если D больше критического значения, взятого из таблицы соответствующего критерия для объема выборки п и уровня значимости 
Если необходимо проверить нулевую гипотезу о принадлежности двух выборок (объема 


где 

Статистика сравнивается с критическим значением 

Пример с решением №6.1.
Получена случайная выборка о среднем дневном заработке, руб/день, для пяти работников: 288, 231, 249, 146, 291. можно ли считать на 10% уровне значимости, что выборка проведена из нормально распределенной генеральной совокупности со средним значением





ШАГ 1. Заполните диапазон А5:А9 выборочными данными и отсортируйте их по возрастанию.
ШАГ 2. Найдите относительные частоты для перечисленных вариант и поместите их в столбец В.
ШАГ 3. Для определения значений функции накопленных частот в ячейку С5 внесите формулу: = В5, в ячейку С6 запишите: =С5+В6 и скопируйте её для ячеек диапазона С7:С9.
ШАГ 3. Для заполнения столбца D, внесите в ячейку D5 формулу:

и скопируйте её на остальные ячейки диапазона D6: D9.
ШАГ 4. В ячейку Е5 внесите формулу: =ABS(C5-D5) и скопируйте для остальных ячеек диапазона Е5:Е9
ШАГ 5. Найдите максимальное значение статистики D и сравните с критическим, взятым из таблицы при уровне значимости 10% и числе степеней свободы равном пяти. Сравнивая эти можно сделать вывод, что выборка взята из нормально распределенной генеральной совокупности с

Линейная регрессия и корреляция
Регрессия и корреляция широко используется при анализе связей между явлениями. Прежде всего, в экономике — исследование зависимости объемов производства от целого ряда факторов: размера основных фондов, обеспеченности предприятия квалифицированным персоналом и других; зависимости спроса или потребления населения от уровня дохода, цен на товары и т.д. Экономические показатели являются многомерными случайными величинами.
В большинстве случаев между переменными, характеризующими экономические величины, существуют зависимости, отличающиеся от функциональных. Она возникает, когда один из факторов зависит не только от другого, но и от ряда случайных условий, оказывающих влияние на один или оба фактора. В этом случае ее называют стохастической (корреляционной) и говорят, что переменные коррелируют. Виды стохастических связей между факторами могут быть линейными и нелинейными, положительными или отрицательными. Возможна такая ситуация, когда между факторами невозможно установить какую-либо зависимость.
Однако при изучении влияния одного явления на другое удобно работать именно с функциями, связывающими эти явления. Задачи построения функциональной зависимости между факторами, анализа полученных результатов и прогнозирования решаются с помощью регрессионного анализа.
В пособии приводятся решения задач содержащих небольшое количество данных, для того чтобы пользователь мог быстро ввести значения в таблицу Excel. Каждое решение содержит подробную инструкцию. Сначала рассмотрите пример и проверьте результаты. Затем примените пошаговые инструкции к собственному множеству данных.
Корреляционная зависимость
Для изучения зависимости между двумя числовыми переменными (

Теперь можно выдвинуть предположение о существовании линейной или нелинейной зависимости между переменными. Для этого найдите коэффициент корреляции и проверьте его значимость.
Тесноту линейной зависимости изучаемых явлений оценивает линейный коэффициент парной корреляции 

где 
Ковариация является мерой взаимосвязи случайных величин и может служить для определения направления их изменения:
если 
если 
Очевидными свойствами ковариации являются:
Коэффициент корреляции (1.1) является величиной безразмерной. Случайные величины 







В пакете Анализ данных есть инструменты Ковариации и Корреляция, позволяющие сделать вывод о линейной зависимости случайных величин.
Пример с решением №7.1.
Для анализа зависимости объема потребления 



Постройте график рассеяния и сделайте вывод о виде функциональной зависимости между объемом потребления и ежемесячным доходом в семье.
Инструкции по выполнению задания
- Расположите данные в столбцах таблицы так, чтобы значения х были слева, а у справа (рис. 1.1).
- Выделите диапазон ячеек.
- Щелкните мышью по кнопке Мастер диаграмм и выберите тип Точечная. Для форматирования диаграммы удобно использовать контекстное меню, которое вызывается щелчком правой кнопки мыши на форматируемом объекте.
- Дайте название диаграмме Корреляционное поле.
- Расположите диаграмму на листе, содержащем данные, как показано на рис.
Применим встроенную функцию КОРРЕЛ(диапазон 

Проверим значимость коэффициента корреляции. Для этого сформулируем основную и альтернативную гипотезы:



Для проверки гипотезы воспользуемся 

Сравнивая эти значения, сделаем вывод о том, что основная гипотеза отклоняется в пользу альтернативной, т.е. коэффициент корреляции значим. По расположению точек на рис. 1.1 можно предположить, что между 



Корреляционный анализ данных
При выполнении многомерного анализа данных изучают корреляцию между каждой парой переменных. Эти результаты представляют в виде корреляционной матрицы. Инструмент анализа Корреляция позволяет определить парные корреляции для многих переменных. После его запуска получится нижняя треугольная часть матрицы, на диагонали которой будут стоять единицы 

Если надо изучить зависимость между переменными при условии управления одной или несколькими переменными, то находят коэффициенты частной корреляции. Частные коэффициенты корреляции могут оказаться полезными при определении ложных связей.
Например, изучается зависимость 







Надо найти частные коэффициенты корреляции, т.е. элиминировать один из факторов (устранить его влияние). В случае трех факторов корреляцию между 



Подобным образом находят и остальные коэффициенты частной корреляции.
Пример с решением №7.2.
Формируется три портфеля из десяти акций. Первый состоит из 10 акций вида 





Имеется ли зависимость между акциями 


Инструкции по выполнению задания
- Введите данные в ячейки A1: C11, как показано на рис. 1.2.
- В меню сервис выберите Анализ данных / инструмент Корреляция. Заполните поля диалогового окна, как показано на рис. 1.3. и нажмите ОК.
- Аналогично найдите матрицу парных ковариаций.
Описание результатов
Коэффициенты корреляции не очень высокие:

Акции плохо коррелируют между собой, то есть между дивидендами по акциям существует слабая линейная зависимость.
Так как коэффициент ковариации для дивидендов по акциям 




Если рынок ценных бумаг устойчивый, то желательно исключить акции вида 

Акции 


Дисперсии для первого портфеля :

Для второго:


Третий портфель имеет дисперсию:

Вывод: наименьший риск получается при покупке акций 

Чтобы принять окончательное решение надо построить множество Парето, характеризующее зависимость доходности портфеля от его риска, т.е. математического ожидания и дисперсии:

Построение тренда для двух рядов данных
Задача построения функциональной зависимости может быть выполнена с помощью команды Добавить линию тренда. В этом случае необходимо визуально исследовать зависимость между х и у и выбрать график элементарной функции, который даст лучшее приближение к экспериментальным данным. Форматирование графиков выполняется с помощью меню Диаграмма. Напомним, что форматируемый объект должен быть выделен.
Существуют и другие способы форматирования: контекстное меню — вызывается для объекта с помощью правой клавиши мыши.
Прежде всего, надо исследовать корреляционное поле и сделать вывод о характере зависимости между переменными. Затем выполните действия (тренд построен для данных примера 1.1):
- На диаграмме (рис. 1.1) выделите маркеры, щелкнув по любой из точек данных.
- В меню диаграмма выберите Добавить линию тренда (можно воспользоваться контекстным меню).
- Перейдите на вкладку Тип диалогового окна Линия тренда, как показано на рис. 1.5 и выделите пиктограмму Линейный.
- Откройте вкладку Параметры (рис. 1.6) включите опции Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации
.

На вкладке параметры имеются и другие типы функциональных зависимостей. Предлагается самостоятельно построить остальные виды тренда и записать их уравнения. Не забывайте включать опции из пункт 4, приведенной выше инструкции.
Инструмент анализа регрессия
Дает возможность провести более полный анализ, полученного уравнения линейного тренда с использованием методов математической статистики.
Коэффициенты уравнения линейной регрессии находятся по выборочным данным и являются величинами случайными, поэтому надо провести анализ их значимости (значимости). Надо определить значимость всего уравнения регрессии и самое главное построить прогноз по построенному уравнению, а затем провести его оценку значимости.
При построении линейного тренда предполагается, что линейная модель наилучшим образом характеризует зависимость между 


где 


Уравнение прямой (1.2), коэффициенты которого находят по выборочным данным, называют уравнением регрессии и обозначают 

Коэффициенты регрессии 




индекс 
• случайные отклонения имеют нормальный закон распределения;
• отсутствуют ошибки спецификации;
• число наблюдений достаточно большое: как минимум в шесть раз превышает число объясняющих факторов и другие.
Оценку 
Можно установить зависимость между коэффициентом регрессии и коэффициентом корреляции:

В качестве меры рассеивания фактического значения у относительно теоретического значения 

Оценка качества полученного уравнения регрессии содержит следующие пункты:
- Оценка значимости коэффициентов регрессии;
- Построение доверительных интервалов для каждого коэффициента;
- Оценка значимости всего уравнения регрессии;
- Построение прогнозного значения и доверительного интервала к ним. Для определения статистической значимости коэффициентов регрессии и корреляции необходимо рассчитать
-статистики Стьюдента лучше всего это сделать с помощью встроенной функции СТЬДРАСПОБР [1].
Оценка значимости коэффициентов регрессии и корреляции
Устанавливает надежность полученных результатов. Случайные ошибки коэффициента корреляции и оценок параметров линейной модели вычисляются по формулам:

стандартное отклонение коэффициента 

стандартное отклонение коэффициента 

стандартное отклонение коэффициента корреляции.
Любое стандартное отклонение иногда называют стандартной ошибкой соответствующего коэффициента.
Рассматривается основная гипотеза о равенстве параметров регрессии нулю.





Критическое значение 



Выдвинутая гипотеза:
Часто при проверке качества коэффициентов используют «грубое правило»:
• если 
• если 
• если 

• если 
Каждая оценка дополняется доверительным интервалом. Для этого определяют предельную ошибку [1] для каждого коэффициента:

откуда границы доверительных интервалов находятся по формуле:

Коэффициент детерминации для парной регрессии совпадает с квадратом коэффициента корреляции 




Разделив обе части уравнения на общую сумму квадратов отклонений, получим:

Таким образом, коэффициент детерминации 





Корень квадратный из коэффициента детерминации называется индексом корреляции и обозначают 
Для проверки общего качества уравнения регрессии выдвигается предположение, что коэффициенты 





При выполнении условий МНК статистика имеет распределение Фишера с числом степеней свободы 



■ если 


■ если 

В случае линейной регрессии проверка нулевой гипотезы для 


Можно доказать равенство:

Самостоятельную значимость коэффициент 
Поиск прогнозного значения и его оценка
Прогнозное значение 


Границы доверительного интервала для параметра 

Чтобы найти стандартную ошибку 





Доверительный интервал для отдельного значения 


Доверительный интервал для условного среднего не учитывает дисперсию для всего уравнения регрессии (1.4), поэтому формула для вычисления ошибки прогноза имеет вид:

Пример с решением №7.3.
Воспользуемся данными примера 1.1 для выполнения следующих заданий:
- по данным выборок постройте линейную модель
;
a. оценить параметры уравнения регрессии 
b. оценить статистическую значимость коэффициентов регрессии;
c. оценить силу линейной зависимости между 

d. спрогнозируйте потребление при доходе 
- постройте модель, не содержащую свободный член
.
a. найдите коэффициент регрессии 
b. оценить статистическую значимость коэффициента 
c. оценить силу общее качество уравнения регрессии;
- значимо или нет различаются коэффициенты
на?
- какую модель вы выбираете?
Инструкции для выполнения примера с помощью инструмента Регрессия пакета анализ.
Для задания 1.
- Наберите исходные данные на лист Excel, как и раньше по столбцам (рис 1.1).
- Найдите инструмент Регрессия в пакете Анализ данных и нажмите ОК. появится диалоговое окно (рис. 1.8)
- Входной интервал
: введите ссылки на значения переменной
, включая метки диапазона.
- Входной интервал
: введите ссылки на значения переменной
, включая метки диапазона.
- Включите опцию Метки.
- Включите опцию Уровень надежности и введите в поле значение 98.
- Установите параметр вывода результатов, имя ячейки.
- Включите опцию вывод остатков для получения теоретических значений
.
- Нажмите ОК.
- Появятся итоговые результаты (рис 1.9).
- Выделите диапазон Вывод остатков и перенесите его, как показано на рис. 1.9.
Все оценки по умолчанию проводятся в excel с уровнем значимости
Описание результатов поданным примера 1.1
Рисунок 1.9. состоит из четырех блоков: Регрессионная статистика, Дисперсионный анализ, данных для коэффициентов регрессии и их оценок, вывод остатков. Опишем более подробно полученные результаты.
Регрессионная статистика содержит строки, характеризующие построенное уравнение регрессии:
Для парной регрессии Множественный 



Строка 







Дисперсионный анализ
Он позволяет исследовать общую дисперсию у (строка ИТОГО), дисперсию для теоретических данных (строка Регрессия) и остаточную дисперсию (строка Остаток).
Второй столбец 
В третьем столбе 
Четвертый столбец 

В пятом столбце вычисляется по выборочным данным значение статистика 


с уровнем значимости 0,05. С его помощью можно оценить значимость всего уравнения регрессии. Это значение можно считать вероятностью выполнения гипотезы 
Построение уравнения регрессии и оценка значимости ее коэффициентов
Этот блок состоит из трех строк:
названия столбцов — первая строка





используя их можно записать уравнение линейной регрессии:

Столбец Стандартная ошибка содержит значения

В столбце 

По «грубому правилу» можно сделать вывод, что 

Подтвердить эти выводы можно с помощью данных столбца 

которое можно считать вероятностью выполнения гипотезы 


Доверительные интервалы строятся для коэффициентов по умолчанию с доверительной вероятностью 95%. Границы интервалов находятся в столбцах Нижнее 95%, Верхнее 95%:

Так как нами была включена опция уровень надежности 98%, то получены доверительные интервалы и для этого значения 

Описания, приведенные выше, практически позволили ответить на все вопросы задания 1, кроме построения прогнозного значения и доверительного интервала для него. Выполнить это задание можно с помощью блока вывод остатков и функции ТЕНДЕЦИЯ() или непосредственно по формулам (1.14-1.18).
Прогнозируемое потребление при доходе 

Границы доверительного интервала условного среднего значения 

Таким образом, среднее потребление при доходе 160 у.е. с надежностью 95% будет находиться в интервале (152,8993; 15464624).
Для определения границ интервала, в котором сосредоточено не менее 95% возможных объемов потребления при неограниченно большом числе наблюдений и уровне дохода 

Получим границы интервала для прогнозного значения (151,4791; 155,61409). Нетрудно заметить, что он включает в себя интервал для среднего потребления.
Коэффициент 
Свободный член 



Следует помнить, что полученное уравнение регрессии отражает лишь общую тенденцию в поведении рассматриваемых переменных. Индивидуальные значения могут отклоняться от модельных.
Задание2.
Рассмотрим модельное уравнение, не содержащее свободного члена:

тогда соответствующее ему уравнение регрессии:

Проведем исследование этого уравнения, так же как и в задании 1. Запустим инструмент Регрессия. Для заполнения полей диалогового окна (рис. 1.8) повторите действия 3 — 6 из задания 1; обязательно включите опцию Константа ноль и измените параметры выходного интервала так, чтобы вывод итогов задания 1 и задания 2 не пересекались.
Вывод итогов в этом случае представлен на рис 1.12. Строка, соответствующая свободному члену уравнения, содержит запись #Н/Д, так как он отсутствует в уравнении.
Проведите описание результатов самостоятельно для полученного уравнения регрессии 
Обратите внимание, что столбцы Верхнее 95% и Нижнее 95% повторяются, так как опция уровень надежности отключена.
Задание 3.
Проверим значимо или нет, различаются коэффициенты 



Для проверки гипотезы построим статистику

Сравним наблюдаемое значение с критическим при уровне значимости 

Найдем критическое значение с помощью встроенной функции Стьюдента 

Задание 4.
Необходимо сравнить коэффициенты детерминации двух уравнений, значения которых возьмите из отчетов Вывод Итогов (рис. 1.9, рис. 1.10):
для первого уравнения

для второго уравнения

Так как для первого уравнения это значение больше, чем для второго, то можно предположить, что первое уравнение

описывает поведение зависимой переменной лучше, чем второе

так как её коэффициент детерминации больше. Сравнение двух уравнений регрессии с помощью 
Множественная линейная регрессия
Как правило, на изучаемый фактор 

Пусть зависимая переменная 



или для индивидуальных наблюдений 

Уравнение регрессии для индивидуальных наблюдений:












Тогда уравнение (1.18) можно записать в матричном виде:

а так же уравнение (1.20):

Чтобы найти коэффициенты линейной регрессии (1.20), надо решить уравнение (1.22) относительно матрицы В. Для этого умножают обе части матричного уравнения (1.22) на транспонированную матрицу 

Полученное решение справедливо для уравнений регрессии с произвольным количеством объясняющих факторов 


Решение (1.23) уравнения регрессии (1.22) можно найти:
- с использованием методов матричной алгебры;
- с помощью встроенных функций Excel для работы с массивами: МОБР(), ТРАНСП(), МУМНОЖ();
- применить инструмент анализа Регрессия.
Первый способ изучается в курсе Математика и для его реализации необходимо записать все матрицы, характеризующие уравнение 1.23.
Для реализации второго способа коэффициенты этих матриц надо занести на лист Excel, а затем применить правила работы с массивами данных. Необходимо помнить, что матрицы для этих методов имеют вид:

Матрица 

Наиболее простым является последний способ поиска коэффициентов регрессии 1.20. Рассмотрим его применение на примере.
Пример с решением №7.4.
Анализируется объем сбережений 






Задание:
1) найдите коэффициенты линейной регрессии
2) оцените статистическую значимость найденных коэффициентов регрессии
3) оцените силу влияния факторов на объем сбережений населения;
4) постройте 95% -е доверительные интервалы для найденных коэффициентов;
5) вычислите коэффициент детерминации 

6) рассчитайте коэффициенты частной корреляции;
7) определите, какой процент разброса зависимой переменной объясняется данной регрессией;



9) оцените предельную склонность граждан к сбережению. Существенно ли отличается она от 0,5?
10) определите, увеличивается или уменьшается объем сбережений с ростом процентной ставки; будет ли ответ статистически обоснованным;
11) спрогнозируйте средний объем сбережений в 2011 году, если предполагаемый доход составит 270 тыс. руб., а процентная ставка будет равна 5,5%.
12) выводы по качеству построенной модели;
Все расчеты выполним с помощью ППП Excel.
Инструкции для выполнения
- Наберите исходные данные на лист Excel, как и раньше по столбцам (рис 1.13).
- Найдите инструмент Регрессия в пакете Анализ данных и нажмите
, появится диалоговое окно (рис. 1.8)
- Входной интервал
: введите ссылки на значения переменной в столбце
, включая метки диапазона.
- Входной интервал
: введите ссылки на значения переменной в столбцах
и
, включая метки диапазона.
- Включите опцию Метки.
- Включите опцию Уровень надежности и введите в поле значение 99.
- Установите параметр вывода результатов, имя ячейки.
- Включите опцию вывод остатков для получения теоретических значений
.
- Нажмите
.
- Появятся итоговые результаты (рис 1.14).

Описание результатов уравнение линейной регрессии
Используя столбец Коэффициенты, запишем уравнение регрессии:

При изменении доходов в предшествующем году на одну тысячу рублей сбережения увеличатся на 120 рублей, если экономическая ситуация будет стабильной. При увеличении процентной ставки на 1% сбережения могут увеличиться на 350 рублей.

Значимость коэффициентов регрессии
Значение 

Используя «грубое правило», можно сделать вывод, что коэффициенты 


Этот же вывод получите, если исследуете показания столбца 


Значение 

Сравнение коэффициентов регрессии
Простое сопоставление коэффициентов регрессии по модулю не может оценить силу влияния факторов на признак у: такое сопоставление лишено смысла. Однако их можно нормировать (стандартизировать), используя формулу:

где 




Нормированные коэффициенты можно сравнивать и делать вывод о влиянии факторов на переменную 


Уравнение регрессии в стандартизованном масштабе имеет вид:

это означает, что влияние процентной ставки 


Доверительные интервалы для коэффициентов
Находятся в столбцах нижнее/верхнее 95%:

Можно построить доверительные интервалы с уровнем надежности 97% (Рис. 1.14).
Коэффициент детерминации
Коэффициент детерминации находится по формуле (1.11):

Он характеризует долю разброса значений зависимой переменной 

Скорректированный коэффициент детерминации
В случае множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных, т.е. добавление новой переменной увеличивает значение 

■ 



■



Заметим, что несмещенная оценка объясненной дисперсии 



Все суммы можно найти в столбце 


Для нашего примера 
Можно получить формулу, устанавливающую связь между скорректированным коэффициентом детерминации и коэффициентом детерминации:

Очевидно, что:






Коэффициент корректируется с ростом числа объясняющих переменных. Доказано, что скорректированный коэффициент корреляции увеличивается при добавлении новой переменной тогда и только тогда, когда 
В пакете Анализ данных приводятся значения 



Индекс множественной корреляции
Теснота линейной взаимосвязи в линейной регрессии выполняется с помощью индекса корреляции:

Если 




Для нашего примера 
Коэффициенты частной корреляции
Используются для выделения определяющего фактора и второстепенных. Необходимо определить частные зависимости между 




Воспользуйтесь инструкциями примера 1.2. и найдите коэффициенты парной корреляции для вычисления коэффициентов частной корреляции.

Анализируя, полученные данные можно сказать, что факторы 







Доверительный интервал прогноза
Если уравнение регрессии имеет вид:

то прогнозное значение вычисляется так же как в случае парной регрессии. Необходимо подставить заданные значения прогноза

в уравнение регрессии.
Найдем средний объем сбережений в 2011 году, если предполагаемый доход в 2010 году составит 270 тыс. рублей, а процентная ставка вырастет до 5,5%. Подставив эти значения в уравнение регрессии, получим средний объем сбережений в 2011 году:
Точечная оценка объема сбережений в 2011 году может быть дополнена интервальной оценкой, полученной по формуле 1.15:

где

Используя встроенные функции Excel, найдем матричное произведение:

Подставив все значения в 1.28, найдем интервальные оценки среднего сбережения населения в 2011 году:

Склонность населения к сбережению в данной модели отражается через коэффициент 

Для анализа, существенно или нет коэффициент 
Построим 



Так как

то 
Рост процентной ставки увеличивает объем сбережений
Эта зависимость характеризуется коэффициентом 
Анализ качества уравнения регрессии
Первое построенное по выборке уравнение редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей задачей эконометрического анализа является проверка качества уравнения регрессии. Эта проверка проводится по следующим этапам:
■ проверка статистической значимости коэффициентов регрессии;
■ проверка общего качества уравнения регрессии;
■ проверка свойств данных: проверка выполнимости МНК.
По всем показателям нашего примера 1.3 модель может быть признана удовлетворительной:
■ высокие 
■ коэффициент детерминации близок к единице;
Это означает, что модель может быть использована для целей анализа и прогнозирования. Мы не проверили выполнимость МНК и значимость коэффициента детерминации.
Анализ значимости 
Проверяется гипотеза об одновременном равенстве нулю всех объясняющих переменных — уравнение считается незначимым:

Если данная гипотеза не отклоняется, то делается вывод, что совокупное влияние всех m объясняющих переменных на зависимую переменную 
Проверка данной гипотезы проводится на основе дисперсионного анализа, при этом сравниваются объясненная и остаточная дисперсии.

Для проверки гипотезы строится 

которая при выполнении МНК имеет распределение Фишера с числом степеней свободы

Критическое значение находится с помощью:

при уровне значимости 
■ Если 


■ Если 

На практике вместо указанной гипотезы проверяется, связанная с ней гипотеза о статистической значимости коэффициента детерминации 

Очевидно, что если 





Для проверки этой гипотезы числитель и знаменатель формулы 1.29 поделим на общую сумму квадратов отклонений 

Вернемся к результатам нашего примера 1.3. (рис. 1.14).Найдем по таблице распределения Фишера критическую точку для уровня значимости 






Проверка качества двух коэффициентов детерминации
Статистику 

Использовать лучше 

Пусть первоначально построенное по п наблюдениям уравнение регрессии имело вид:

и скорректированный коэффициент детерминации равен 
Исключим из уравнения 



скорректированный коэффициент детерминации, для которого равен 
Необходимо определить существенно ли ухудшилось качество описания зависимой переменной 



которая имеет распределения Фишера с числом степеней свободы

где




Сравним критическое значение 

■ Если 



■ Если 



Аналогично проверяется гипотеза о добавлении к объясняющих переменных в уравнение регрессии. В этом случае составляется статистика:

Исключим фактор 



Коэффициенты и все остальные характеристики для этого уравнения регрессии можно посмотреть на рис 1.16. Сравним новое уравнений с уравнением полученным ранее.

В ячейке N18 находится значение 

Сравнивая эти два значения делаем вывод, что гипотеза 

Проверка качества двух коэффициентов детерминации
Необходимо сравнить два уравнения регрессии для отдельных групп наблюдений, т.е. будет одним и тем же уравнение регрессии для этих выборок. Для проверки этой гипотезы используется тест Чоу.
Пусть имеются две выборки объемом 


Суммы квадратов отклонений 


Выдвинем гипотезу о равенстве соответствующих коэффициентов регрессии

Объединим обе выборки в одну. Для выборки объема 



которая имеет распределение Фишера с числом степеней свободы
Если 



Данные исследования отвечают на вопрос, можно ли за рассматриваемый период времени построить единое уравнение регрессии или же нужно разбить его на части и для каждого временного интервала построить свое уравнение регрессии.
Проверка выполнимости мнк. Автокорреляция остатков. Статистика дарбина-уотсона
Все предыдущие рассуждения основаны на том, что выполняются предпосылки МНК: мы предполагали, что случайные отклонения являются независимыми случайными величинами со средней, равной нулю. При работе с фактическими данными, такое допущение не всегда выполняется. Например, если вид функции выбран неудачно, то отклонения от регрессии вряд ли будут независимыми. В этом случае замечается концентрация положительных или отрицательных отклонений от регрессии и можно сомневаться в их случайном характере.
Если последовательные значения 
МНК в случае автокорреляции дает несмещенные и состоятельные оценки, однако полученные в этом случае доверительные интервалы имеют мало смысла в силу своей ненадежности. Значительная автокорреляция говорит о том, что спецификация модели неправильная. Проверка остатков на автокорреляцию должна выполняться обязательно. Наиболее простым приемом обнаружения автокорреляции является метод Дарбина-Уотсона (



Статистика 

При условии что 


тогда после преобразования получим:

Очевидно, что 
■ 

■ 
■ 

Возникает вопрос, какие значения 







Статистику 

Для вычисления этой статистики запустите инструмент Регрессия, включив опции Остатки и График остатков, как показано на рис. 1.18. В результате получите значение случайных отклонений е, и их графики, которые Excel строит для каждой независимой переменной, как показано на рис. 1.20 и 1.21. Чтобы найти 
Если зависимость между 




Для проверки статистической значимости 


Можно считать, что автокорреляция отсутствует, так как найденная статистика попадает в критический интервал: 1,604<

Мультиколлинеарность
Увеличение числа переменных в уравнении множественной регрессии повышает точность описания взаимосвязи, однако при этом должно выполняться условие, что 
Под мулыиколлинеарностью понимают взаимосвязь объясняющих переменных регрессии. Если между переменными 


При строгой мультиколлинеарности решение матричного уравнения 1.22 становится невозможным, так как матрица 
Если же мультиколлинеарность нестрогая, то решение матричного уравнения формально можно найти, однако все оценки мало надежны.
Чтобы обнаружить мультиколлинеарность надо найти определитель матрицы 
Устранение мультиколлинеарности заключается в исключении одной из двух, находящихся во взаимосвязи переменных, либо путем пересмотра структуры уравнения регрессии. Для оценки влияния факторов на результирующий фактор 

где 
Гомоскедастичность (постоянство дисперсии случайных отклонений)
Для применения МНК требуется, чтобы дисперсия остатков была величиной постоянной. Невыполнимость этого условия называется гетероскедастичностью и влечёт смещенность дисперсий оценок, так как стандартная ошибка регрессии (1.4) становится смещенной.
Обнаружение гетероскедастичности является сложной задачей потому что необходимо знать распределение 




- Все
наблюдений упорядочивают по величине.
- Упорядоченная выборка разбивается на три подвыборки размерностью
,
и
соответственно.
- Центральные наблюдения исключаются из дальнейшего рассмотрения.
- Строят регрессии для первой и последней групп и находят остаточные суммы квадратов
и
соответственно. Если условие гомоскедастичности выполняется, то
, в противном случае
.
- Построенная
-статистика, имеет распределение Фишера с
степенями свободы, где
число объясняющих переменных в уравнении регрессии.
- Чем больше
превышает значение
, тем более нарушена предпосылка о равенстве остаточных дисперсий.
- НЕЛИНЕЙНАЯ РЕГРЕССИЯ
Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих функций:

a) квадратичная функция (полином любой степени);
b) равносторонняя гипербола;
c) степенная;
d) показательная и др.
Кроме указанных функций для описания связи двух переменных можно использовать и другие типы кривых:

Различают два класса нелинейных уравнений:
1) регрессии, нелинейные относительно включенных объясняющих переменных,
но линейные по оцениваемым параметрам;
2) регрессии, нелинейные по оцениваемым параметрам.
К первому классу — нелинейные по переменным — относятся кривые а и b (рис 2.1). Нелинейными по параметрам (второй класс) являются зависимости c и d на рис. 2.1.
Линейные по параметру
Такие модели легко приводятся к линейному виду — линеаризуются. Для линейных но параметру моделей вводят новую переменную (таблица 2.1) и переходят к построению линейной регрессии по преобразованным данным. Применяя инструмент Регрессия, к преобразованным данным можно найти все оценки параметров преобразованных моделей и оценить их качество.
Качество исходной модели можно оценить, используя индекс корреляции (1.26). Оценка статистической значимости индекса корреляции проводится с помощью 

и оценивает по модулю величину отклонений расчетных значений от фактических. Допустимый предел значений средней ошибки аппроксимации не более 8-10%.
Приведем примеры использования нелинейных моделей, перечисленных в таблице 2.1.
Полиномиальная модель (1) может отражать зависимость между объемом выпуска 



Гиперболическая модель (2) — классическим примером этой модели является кривая Филлипса 









Полулогарифмические модели (3) используются, когда необходимо определить темп роста или прироста экономических показателей. Например, при анализе банковского вклада по процентной ставке, при исследовании зависимости прироста объема выпуска продукции от процентного увеличения затрат на расходы, бюджетного дефицита от темпа роста ВВП, темп роста инфляции от объема денежной массы и т.д.
Нелинейные по параметру
Уравнения нелинейные по параметру можно разделить на:
- внутренне линейные — можно привести к линейному виду путем преобразований;
- внутренне нелинейные, которые не могут быть сведены к линейной модели.
Степенная модель:

Если прологарифмировать обе части уравнения 2.2, получится модель, легко приводящаяся к линейному виду:

Надо сделать замену:

получим линейную модель (1.1).
Коэффициент модели 





Так как 
В случае парной регрессии использование обоснование использования степенной модели достаточно просто. Надо построить корреляционное поле для точек 
Данная модель легко обобщается на большее число переменных. Наиболее известная — производственная функция Кобба-Дугласа: 



Лог-линейные модели широко используются в банковском и финансовом анализе:

где 



Прологарифмируем обе части этой модели

Введя замену

получим полулогарифмическую модель:

Коэффициент 






Умножив 


определяет мгновенный темп прироста, а

характеризует темп прироста сложного процента.
Показательные модели используются, когда анализируется изменение переменной 


Если провести логарифмирование, то получится уравнение аналогичное 2.5 В общем виде показательная модель имеет вид:

но в силу равенства

сводится к уравнению 2.8.
Коэффициент эластичности
Рассматривая степенную модель, мы ввели понятие эластичности функции: предел отношения относительных приращений независимой переменной и зависимой называется эластичностью функции

показывает на сколько процентов изменится в среднем результат, если фактор х изменится на 1%.
Для других форм связи Э зависит от значения фактора 



Несмотря на широкое использование в экономике коэффициентов эластичности, возможны случаи, когда они не имеют экономического смысла. Составьте таблицу коэффициентов эластичности для всех рассмотренных нелинейных моделей самостоятельно.
2.4. ПОСТРОЕНИЕ НЕЛИНЕЙНЫХ РЕГРЕССИЙ
Можно воспользоваться командой Добавить линию тренда, так же как в случае линейного тренда (раздел 1.3): необходимо построить корреляционное поле 
Использовать инструмент Регрессия можно только для преобразованных данных. Этот способ дает много не нужной информации.
Пример 3.1. По семи территориям Южного федерального округа за 2001 год известны значения двух признаков:

Задание
- Постройте уравнения регрессии для модели:
a) линейной;
b) степенной;
c) экспоненциальной;
d) логарифмической; гиперболы.
- Оцените каждую модель через среднюю ошибку аппроксимации
и
-критерий Фишера.
Проще всего построить поле корреляции, а затем добавить линии тренда (см. параграф 1.З.). Для полученных уравнений надо найти коэффициент аппроксимации и проверить 
1а. Уравнение линейной регрессии:


Вариация результата на 12% объясняется вариацией фактора 

Так как

то параметры линейного уравнения и показатель тесноты связи между 


l.b. Степенная модель


Подставляя в уравнение регрессии фактические значения 


и среднюю ошибку аппроксимации:

Характеристики степенной модели указывают, что она не намного лучше линейной функции описывает связь между 

1с. Аналогично l.b. для показательной модели

сначала нужно выполнить линеаризацию

и после замены переменных

рассмотрим линейное уравнение:

Используя столбцы для 


и уравнение

После потенциирования запишем уравнение в обычной форме:

Все эти расчеты можно не делать, если воспользоваться для вычисления параметров 



Тесноту связи оценим с помощью индекса корреляции

который вычисляется по формуле (1.26). Связь между 




l.d. Аналогичные расчеты надо провести и для равносторонней гиперболы 

Для этого уравнения в таблицу исходных значений надо добавить столбец 

Получена наибольшая оценка тесноты связи по сравнению с линейной, степенной и показательной регрессиями, а 


- Введем гипотезу
: уравнение регрессии статистически незначимо и рассмотрим статистику (1.30):



Гипотеза 


Возможно эти страницы вам будут полезны:
- Курсовая работа по эконометрике
- Заказать работу по эконометрике
- Лабораторная работа по эконометрике
- Помощь по эконометрике
- Системы эконометрических уравнений
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.
Поделиться ссылкой:
Так как я часто имею дело с большим количеством данных, у меня время от времени возникает необходимость генерировать массивы значений для проверки моделей в Excel. К примеру, если я хочу увидеть распределение веса продукта с определенным стандартным отклонением, потребуются некоторые усилия, чтобы привести результат работы формулы СЛУЧМЕЖДУ() в нормальный вид. Дело в том, что формула СЛУЧМЕЖДУ() выдает числа с единым распределением, т.е. любое число с одинаковой долей вероятности может оказаться как у нижней, так и у верхней границы запрашиваемого диапазона. Такое положение дел не соответствует действительности, так как вероятность возникновения продукта уменьшается по мере отклонения от целевого значения. Т.е. если я произвожу продукт весом 100 грамм, вероятность, что я произведу 97-ми или 103-граммовый продукт меньше, чем 100 грамм. Вес большей части произведенной продукции будет сосредоточен рядом с целевым значением. Такое распределение называется нормальным. Если построить график, где по оси Y отложить вес продукта, а по оси X – количество произведенного продукта, график будет иметь колоколообразный вид, где наивысшая точка будет соответствовать целевому значению.
Таким образом, чтобы привести массив, выданный формулой СЛУЧМЕЖДУ(), в нормальный вид, мне приходилось ручками исправлять пограничные значения на близкие к целевым. Такое положение дел меня, естественно, не устраивало, поэтому, покопавшись в интернете, открыл интересный способ создания массива данных с нормальным распределением. В сегодняшней статье описан способ генерации массива и построения графика с нормальным распределением.
Характеристики нормального распределения
Непрерывная случайная переменная, которая подчиняется нормальному распределению вероятностей, обладает некоторыми особыми свойствами. Предположим, что вся производимая продукция подчиняется нормальному распределению со средним значением 100 грамм и стандартным отклонением 3 грамма. Распределение вероятностей для такой случайной переменной представлено на рисунке.
Из этого рисунка мы можем сделать следующие наблюдения относительно нормального распределения — оно имеет форму колокола и симметрично относительно среднего значения.
Стандартное отклонение имеет немаловажную роль в форме изгиба. Если посмотреть на предыдущий рисунок, то можно заметить, что практически все измерения веса продукта попадают в интервал от 95 до 105 граммов. Давайте рассмотрим следующий рисунок, на котором представлено нормальное распределение с той же средней – 100 грамм, но со стандартным отклонением всего 1,5 грамма
Здесь вы видите, что измерения значительно плотней прилегают к среднему значению. Почти все производимые продукты попадают в интервал от 97 до 102 грамм.
Небольшое значение стандартного отклонения выражается в более «тощей и высокой кривой, плотно прижимающейся к среднему значению. Чем больше стандартное, тем «толще», ниже и растянутее получается кривая.
Создание массива с нормальным распределением
Итак, чтобы сгенерировать массив данных с нормальным распределением, нам понадобится функция НОРМ.ОБР() – это обратная функция от НОРМ.РАСП(), которая возвращает нормально распределенную переменную для заданной вероятности для определенного среднего значения и стандартного отклонения. Синтаксис формулы выглядит следующим образом:
=НОРМ.ОБР(вероятность; среднее_значение; стандартное_отклонение)
Другими словами, я прошу Excel посчитать, какая переменная будет находится в вероятностном промежутке от 0 до 1. И так как вероятность возникновения продукта с весом в 100 грамм максимальная и будет уменьшаться по мере отдаления от этого значения, то формула будет выдавать значения близких к 100 чаще, чем остальных.
Давайте попробуем разобрать на примере. Выстроим график распределения вероятностей от 0 до 1 с шагом 0,01 для среднего значения равным 100 и стандартным отклонением 1,5.
Как видим из графика точки максимально сконцентрированы у переменной 100 и вероятности 0,5.
Этот фокус мы используем для генерирования случайного массива данных с нормальным распределением. Формула будет выглядеть следующим образом:
=НОРМ.ОБР(СЛЧИС(); среднее_значение; стандартное_отклонение)
Создадим массив данных для нашего примера со средним значением 100 грамм и стандартным отклонением 1,5 грамма и протянем нашу формулу вниз.
Теперь, когда массив данных готов, мы можем выстроить график с нормальным распределением.
Построение графика нормального распределения
Прежде всего необходимо разбить наш массив на периоды. Для этого определяем минимальное и максимальное значение, размер каждого периода или шаг, с которым будет увеличиваться период.
Далее строим таблицу с категориями. Нижняя граница (B11) равняется округленному вниз ближайшему кратному числу. Остальные категории увеличиваются на значение шага. Формула в ячейке B12 и последующих будет выглядеть:
=ЕСЛИ(A12;B11+$B$6; «»)
В столбце X будет производится подсчет количества переменных в заданном промежутке. Для этого воспользуемся формулой ЧАСТОТА(), которая имеет два аргумента: массив данных и массив интервалов. Выглядеть формула будет следующим образом =ЧАСТОТА(Data!A1:A175;B11:B20). Также стоит отметить, что в таком варианте данная функция будет работать как формула массива, поэтому по окончании ввода необходимо нажать сочетание клавиш Ctrl+Shift+Enter.
Таким образом у нас получилась таблица с данными, с помощью которой мы сможем построить диаграмму с нормальным распределением. Воспользуемся диаграммой вида Гистограмма с группировкой, где по оси значений будет отложено количество переменных в данном промежутке, а по оси категорий – периоды.
Осталось отформатировать диаграмму и наш график с нормальным распределением готов.
Итак, мы познакомились с вами с нормальным распределением, узнали, что Excel позволяет генерировать массив данных с помощью формулы НОРМ.ОБР() для определенного среднего значения и стандартного отклонения и научились приводить данный массив в графический вид.
Для лучшего понимания, вы можете скачать файл с примером построения нормального распределения.
Построим диаграмму распределения в Excel. А также рассмотрим подробнее функции круговых диаграмм, их создание.
График нормального распределения имеет форму колокола и симметричен относительно среднего значения. Получить такое графическое изображение можно только при огромном количестве измерений. В Excel для конечного числа измерений принято строить гистограмму.
Внешне столбчатая диаграмма похожа на график нормального распределения. Построим столбчатую диаграмму распределения осадков в Excel и рассмотрим 2 способа ее построения.
Имеются следующие данные о количестве выпавших осадков:
Первый способ. Открываем меню инструмента «Анализ данных» на вкладке «Данные» (если у Вас не подключен данный аналитический инструмент, тогда читайте как его подключить в настройках Excel):
Выбираем «Гистограмма»:
Задаем входной интервал (столбец с числовыми значениями). Поле «Интервалы карманов» оставляем пустым: Excel сгенерирует автоматически. Ставим птичку около записи «Вывод графика»:
После нажатия ОК получаем такой график с таблицей:
В интервалах не очень много значений, поэтому столбики гистограммы получились низкими.
Теперь необходимо сделать так, чтобы по вертикальной оси отображались относительные частоты.
Найдем сумму всех абсолютных частот (с помощью функции СУММ). Сделаем дополнительный столбец «Относительная частота». В первую ячейку введем формулу:
Способ второй. Вернемся к таблице с исходными данными. Вычислим интервалы карманов. Сначала найдем максимальное значение в диапазоне температур и минимальное.
Чтобы найти интервал карманов, нужно разность максимального и минимального значений массива разделить на количество интервалов. Получим «ширину кармана».
Представим интервалы карманов в виде столбца значений. Сначала ширину кармана прибавляем к минимальному значению массива данных. В следующей ячейке – к полученной сумме. И так далее, пока не дойдем до максимального значения.
Для определения частоты делаем столбец рядом с интервалами карманов. Вводим функцию массива:
Вычислим относительные частоты (как в предыдущем способе).
Построим столбчатую диаграмму распределения осадков в Excel с помощью стандартного инструмента «Диаграммы».
Частота распределения заданных значений:
Круговые диаграммы для иллюстрации распределения
С помощью круговой диаграммы можно иллюстрировать данные, которые находятся в одном столбце или одной строке. Сегмент круга – это доля каждого элемента массива в сумме всех элементов.
С помощью любой круговой диаграммы можно показать распределение в том случае, если
- имеется только один ряд данных;
- все значения положительные;
- практически все значения выше нуля;
- не более семи категорий;
- каждая категория соответствует сегменту круга.
На основании имеющихся данных о количестве осадков построим круговую диаграмму.
Доля «каждого месяца» в общем количестве осадков за год:
Круговая диаграмма распределения осадков по сезонам года лучше смотрится, если данных меньше. Найдем среднее количество осадков в каждом сезоне, используя функцию СРЗНАЧ. На основании полученных данных построим диаграмму:
Получили количество выпавших осадков в процентном выражении по сезонам.
В двух словах: Добавляем полосу прокрутки к гистограмме или к графику распределения частот, чтобы сделать её динамической или интерактивной.
Уровень сложности: продвинутый.
На следующем рисунке показано, как выглядит готовая динамическая гистограмма:
Что такое гистограмма или график распределения частот?
Гистограмма распределения разбивает по группам значения из набора данных и показывает количество (частоту) чисел в каждой группе. Такую гистограмму также называют графиком распределения частот, поскольку она показывает, с какой частотой представлены значения.
В нашем примере мы делим людей, которые вызвались принять участие в мероприятии, по возрастным группам. Первым делом, создадим возрастные группы, далее подсчитаем, сколько людей попадает в каждую из групп, и затем покажем все это на гистограмме.
На какие вопросы отвечает гистограмма распределения?
Гистограмма – это один из моих самых любимых типов диаграмм, поскольку она дает огромное количество информации о данных.
В данном случае мы хотим знать, как много участников окажется в возрастных группах 20-ти, 30-ти, 40-ка лет и так далее. Гистограмма наглядно покажет это, поэтому определить закономерности и отклонения будет довольно легко.
«Неужели наше мероприятие не интересно гражданам в возрасте от 20 до 29 лет?»
Возможно, мы захотим немного изменить детализацию картины и разбить население на две возрастные группы. Это покажет нам, что в мероприятии примут участие большей частью молодые люди:
Динамическая гистограмма
После построения гистограммы распределения частот иногда возникает необходимость изменить размер групп, чтобы ответить на различные возникающие вопросы. В динамической гистограмме это возможно сделать благодаря полосе прокрутки (слайдеру) под диаграммой. Пользователь может увеличивать или уменьшать размер групп, нажимая стрелки на полосе прокрутки.
Такой подход делает гистограмму интерактивной и позволяет пользователю масштабировать ее, выбирая, сколько групп должно быть показано. Это отличное дополнение к любому дашборду!
Как это работает?
Краткий ответ: Формулы, динамические именованные диапазоны, элемент управления «Полоса прокрутки» в сочетании с гистограммой.
Формулы
Чтобы всё работало, первым делом нужно при помощи формул вычислить размер группы и количество элементов в каждой группе.
Чтобы вычислить размер группы, разделим общее количество (80-10) на количество групп. Количество групп устанавливается настройками полосы прокрутки. Чуть позже разъясним это подробнее.
Далее при помощи функции ЧАСТОТА (FREQUENCY) я рассчитываю количество элементов в каждой группе в заданном столбце. В данном случае мы возвращаем частоту из столбца Age таблицы с именем tblData.
=ЧАСТОТА(tblData;C13:C22)=FREQUENCY(tblData,C13:C22)
Функция ЧАСТОТА (FREQUENCY) вводится, как формула массива, нажатием Ctrl+Shift+Enter.
Динамический именованный диапазон
В качестве источника данных для диаграммы используется именованный диапазон, чтобы извлекать данные только из выбранных в текущий момент групп.
Когда пользователь перемещает ползунок полосы прокрутки, число строк в динамическом диапазоне изменяется так, чтобы отобразить на графике только нужные данные. В нашем примере задано два динамических именованных диапазона: один для данных — rngGroups (столбец Frequency) и второй для подписей горизонтальной оси — rngCount (столбец Bin Name).
Элемент управления «Полоса прокрутки»
Элемент управления Полоса прокрутки (Scroll Bar) может быть вставлен с вкладки Разработчик (Developer).
На рисунке ниже видно, как я настроил параметры элемента управления и привязал его к ячейке C7. Так, изменяя состояние полосы прокрутки, пользователь управляет формулами.
Гистограмма
График – это самая простая часть задачи. Создаём простую гистограмму и в качестве источника данных устанавливаем динамические именованные диапазоны.
Есть вопросы?
Что ж, это был лишь краткий обзор того, как работает динамическая гистограмма.
Да, это не самая простая диаграмма, но, полагаю, пользователям понравится с ней работать. Определённо, такой интерактивной диаграммой можно украсить любой отчёт.
Более простой вариант гистограммы можно создать, используя сводные таблицы.
Пишите в комментариях любые вопросы и предложения. Спасибо!
Урок подготовлен для Вас командой сайта office-guru.ru
Источник: /> Перевел: Антон Андронов
Правила перепечаткиЕще больше уроков по Microsoft Excel
Оцените качество статьи. Нам важно ваше мнение:
Данное руководство расскажет, как в Excel создать линейчатую диаграмму со значениями, автоматически отсортированными по убыванию или по возрастанию, как создать линейчатую диаграмму с отрицательными значениями, как настраивать ширину полос линейчатой диаграммы и многое другое.
Линейчатые диаграммы, наравне с круговыми диаграммами, входят в число самых популярных диаграмм. Построить линейчатую диаграмму не сложно, а понять – ещё проще. Для каких данных лучше всего использовать линейчатую диаграмму? Для любых числовых данных, которые нужно сравнить: числа, проценты, температуры, частоты и прочие измерения. В целом, линейчатая диаграмма подойдёт для того, чтобы сравнить отдельные значения нескольких категорий данных. Особый вид линейчатой диаграммы – диаграмма Ганта, часто используется в приложениях для управления проектами.
В данном руководстве мы рассмотрим следующие вопросы, касающиеся линейчатых диаграмм в Excel:
- Линейчатые диаграммы в Excel – основы
- Как создать линейчатую диаграмму в Excel
- Создание линейчатых диаграмм разного типа
- Настройка линейчатых диаграмм в Excel
- Изменение ширины полос и расстояния между полосами диаграммы
- Построение линейчатой диаграммы с отрицательными значениями
- Сортировка данных в линейчатых диаграммах Excel
Содержание
- Линейчатые диаграммы в Excel – основы
- Как построить линейчатую диаграмму в Excel
- Как увидеть все доступные типы линейчатой диаграммы
- Выбираем макет и стиль линейчатой диаграммы
- Типы линейчатых диаграмм в Excel
- Линейчатая с группировкой
- Линейчатая с накоплением
- Нормированная линейчатая с накоплением
- Цилиндры, конусы и пирамиды
- Как в Excel 2013 и 2016 при построении диаграммы использовать цилиндр, конус или пирамиду
- Настройка линейчатых диаграмм в Excel
- Изменение ширины полос и расстояния между полосами диаграммы
- Построение линейчатой диаграммы с отрицательными значениями
- Настраиваем подписи вертикальной оси
- Меняем цвет заливки для отрицательных значений
- Сортировка данных в линейчатых диаграммах Excel
- Расставляем данные в линейчатой диаграмме Excel в порядке убывания/возрастания без сортировки исходных данных
- Изменяем порядок рядов данных в линейчатой диаграмме
- Изменяем порядок рядов данных при помощи диалогового окна «Выбор источника данных»
- Изменяем порядок рядов данных при помощи формул
Линейчатые диаграммы в Excel – основы
Линейчатая диаграмма – это график, показывающий различные категории данных в виде прямоугольных полос (линеек), длины которых пропорциональны величинам элементов данных, которые они отображают. Такие полосы могут быть расположены горизонтально (линейчатая диаграмма) или вертикально. График с вертикальными полосами – это отдельный тип диаграммы в Excel, называется гистограмма.
Чтобы упростить дальнейшее изучение данного руководства и точно знать, что мы с Вами правильно понимаем друг друга, давайте определим основные термины, которыми обозначены элементы линейчатой диаграммы в Excel. На следующем рисунке показана стандартная линейчатая диаграмма с группировкой, которая содержит 3 ряда данных (серый, зелёный и голубой) и 4 категории данных (Jan, Feb, Mar и Apr).
Как построить линейчатую диаграмму в Excel
Нет ничего проще, чем построить линейчатую диаграмму в Excel. Сначала выделите данные, которые нужно показать на диаграмме, затем на вкладке Вставка (Insert) в разделе Диаграммы (Charts) кликните иконку линейчатой диаграммы и выберите, какой подтип нужно создать.
В данном примере мы создаём самую простую диаграмму – Линейчатая с группировкой (2-D clustered Bar):
Линейчатая диаграмма с группировкой, вставленная на рабочий лист Excel, будет выглядеть примерно так:
Показанная на рисунке выше линейчатая диаграмма Excel, отображает только один ряд данных, поскольку исходные данные содержат только один столбец с числами. Если в исходных данных окажется два или более столбцов с числами, то линейчатая диаграмма будет содержать несколько рядов данных, окрашенных в разные цвета:
Как увидеть все доступные типы линейчатой диаграммы
Чтобы увидеть все доступные в Excel типы линейчатой диаграммы, нажмите ссылку Другие линейчатые диаграммы (More Column Charts) и в открывшемся диалоговом окне Вставка диаграммы (Insert Chart) выберите один из доступных подтипов диаграммы.
Выбираем макет и стиль линейчатой диаграммы
Если предложенный по умолчанию макет или стиль линейчатой диаграммы, вставленной на рабочий лист Excel, не вызывает восторга, то выделите её, чтобы на Ленте меню появилась группа вкладок Работа с диаграммами (Chart Tools). После этого на вкладке Конструктор (Design) можно сделать следующее:
- В разделе Макеты диаграмм (Chart Layouts) нажмите кнопку Экспресс-макет (Quick Layout) и попробуйте различные готовые макеты линейчатой диаграммы;
- Или поэкспериментируйте со стилями линейчатой диаграммы в разделе Стили диаграмм (Chart Styles).
Типы линейчатых диаграмм в Excel
Создавая линейчатую диаграмму в Excel, можно выбрать один из следующих подтипов:
Линейчатая с группировкой
Линейчатая диаграмма с группировкой (2-D или 3-D) сравнивает значения в категориях данных. В линейчатой диаграмме с группировкой категории обычно построены по вертикальной оси (ось Y), а значения – по горизонтальной (ось X). 3-D линейчатая диаграмма с группировкой не отображает третью ось, а просто делает полосы графика объёмными.
Линейчатая с накоплением
Линейчатая диаграмма с накоплением показывает пропорции отдельных элементов в отношении к целому. Как и линейчатая диаграмма с группировкой, она может быть плоской (2-D) или объёмной (3-D):
Нормированная линейчатая с накоплением
Этот тип линейчатой диаграммы похож на предыдущий, но показывает долю в процентах каждого элемента относительно целого для каждой категории данных.
Цилиндры, конусы и пирамиды
Кроме стандартных прямоугольников, для построения всех перечисленных подтипов линейчатой диаграммы можно использовать цилиндры, конусы или пирамиды. Разница только в форме фигуры, которая отображает исходные данные.
В Excel 2010 и более ранних версиях диаграмму с цилиндрами, конусами или пирамидами можно было построить, выбрав соответствующий тип графика на вкладке Вставка (Insert) в разделе Диаграммы (Charts).
На Ленте меню Excel 2013 и Excel 2016 не предлагается использовать цилиндры, конусы или пирамиды. Как сообщает Microsoft, эти типы диаграмм были убраны, поскольку слишком большое разнообразие типов диаграмм в ранних версиях Excel затрудняло пользователю выбор нужного типа. Тем не менее, возможность использовать цилиндр, конус или пирамиду доступна и в современных версиях Excel, правда для этого потребуется сделать несколько дополнительных действий.
Как в Excel 2013 и 2016 при построении диаграммы использовать цилиндр, конус или пирамиду
Чтобы в Excel 2013 и 2016 при построении диаграммы использовать цилиндр, конус или пирамиду, создайте объёмную линейчатую диаграмму нужного типа (с группировкой, с накоплением или нормированную с накоплением) и затем измените фигуры, использованные для построения рядов:
- Выделите все полосы на диаграмме, кликните по ним правой кнопкой мыши и в контекстном меню нажмите Формат ряда данных (Format Data Series), либо просто дважды кликните по полосе графика.
- В появившейся панели в разделе Параметры ряда (Series Options) выберите подходящую Фигуру (Column shape).
Замечание: Если на диаграмме построено несколько рядов данных, то описанную процедуру необходимо повторить для каждого ряда в отдельности.
Настройка линейчатых диаграмм в Excel
Как и другие типы диаграмм Excel, линейчатые диаграммы предоставляют множество настроек для таких элементов, как название диаграммы, оси, подписи данных и прочее. Более подробную информацию Вы сможете найти по ссылкам ниже:
- Добавляем название диаграммы
- Настраиваем оси диаграммы
- Добавляем подписи данных
- Добавляем, убираем, перемещаем и настраиваем формат легенды
- Показываем или скрываем линии сетки
- Изменяем или скрываем ряды данных
- Изменяем тип и настраиваем стиль диаграммы
- Изменяем стандартные цвета диаграммы
А теперь давайте рассмотрим некоторые специфические приёмы, применимые к линейчатым диаграммам в Excel.
Изменение ширины полос и расстояния между полосами диаграммы
В линейчатой диаграмме, созданной в Excel с использованием настроек по умолчанию, между полосами остаётся слишком много пустого пространства. Чтобы сделать полосы шире и визуально приблизить их друг к другу, выполните следующие шаги. Таким же способом можно сделать полосы уже и увеличить расстояние между ними. В плоской 2-D диаграмме полосы могут даже накладываться одна на другую.
- В линейчатой диаграмме Excel кликните правой кнопкой мыши по любому ряду данных (полосе) и в контекстном меню нажмите Формат ряда данных (Format Data Series)
- В появившейся панели в разделе Параметры ряда (Series Options) сделайте одно из следующих действий:
- Для плоской или для объёмной диаграммы: чтобы изменить ширину полосы и промежуток между категориями, переместите ползунок параметра Боковой зазор (Gap Width) или введите значение в процентах от 0 до 500 в поле ввода. Чем меньше значение, тем тоньше полосы и меньше зазор между ними, и наоборот.
- Для плоской диаграммы: чтобы изменить зазор между рядами в одной категории, переместите ползунок параметра Перекрытие рядов (Series Overlap) или введите в поле ввода значение в процентах от -100 до 100. Чем больше значение, тем больше перекрытие рядов. Отрицательное значение приведёт к появлению зазора между рядами, как на картинке ниже:
- Для объёмной (3-D) диаграммы: чтобы изменить зазор между рядами данных, переместите ползунок параметра Фронтальный зазор (Gap Depth) или введите значение от 0 до 500 процентов. Чем больше значение, тем больше расстояние между полосами. Изменение фронтального зазора заметно отражается в большинстве линейчатых диаграмм Excel, но лучше всего – в объёмной гистограмме, как показано на следующей картинке:
- Для плоской или для объёмной диаграммы: чтобы изменить ширину полосы и промежуток между категориями, переместите ползунок параметра Боковой зазор (Gap Width) или введите значение в процентах от 0 до 500 в поле ввода. Чем меньше значение, тем тоньше полосы и меньше зазор между ними, и наоборот.
Построение линейчатой диаграммы с отрицательными значениями
Для построения линейчатой диаграммы в Excel исходные значения не обязательно должны быть больше нуля. В целом, в Excel нет никаких проблем с отображением отрицательных значений на стандартной линейчатой диаграмме, но вид диаграммы, вставляемой по умолчанию на рабочий лист Excel, заставляет задуматься о правках в макете и оформлении.
Чтобы как-то улучшить вид диаграммы на рисунке выше, во-первых, было бы неплохо сместить подписи вертикальной оси влево, чтобы они не накладывались на полосы отрицательных величин, и во-вторых, можно использовать другие цвета для отрицательных значений.
Настраиваем подписи вертикальной оси
Чтобы изменить параметры оформления вертикальной оси, кликните по любой из её подписей и в контекстном меню нажмите Формат оси (Format Axis), или просто дважды кликните по подписям оси. В правой части рабочего листа появится панель.
Откройте вкладку Параметры оси (Axis Options), разверните раздел Подписи (Labels) и установите для параметра Положение метки (Labels Position) значение Внизу (Low).
Меняем цвет заливки для отрицательных значений
Если нужно привлечь внимание к отрицательным значениям на диаграмме, то это с успехом можно сделать, если полосы отрицательных значений будут окрашены в другой цвет.
Если в линейчатой диаграмме Excel построен только один ряд данных, то отрицательные значения, как это часто делается, можно окрасить в красный цвет. Если рядов данных на диаграмме несколько, то отрицательные значения в каждом из них нужно будет окрасить в свой цвет. Например, можно использовать определенные цвета для положительных значений, а для отрицательных — их более бледные оттенки.
Для того, чтобы изменить цвет отрицательных полос, выполните следующие действия:
- Кликните правой кнопкой мыши по любой полосе ряда данных, цвет которого нужно изменить (в нашем примере это оранжевая полоса) и в контекстном меню нажмите Формат ряда данных (Format Data Series).
- В появившейся панели на вкладке Заливка и границы (Fill & Line) отметьте галочкой параметр Инверсия для чисел <0 (Invert if Negative)
- Сразу после этого появится два поля выбора цвета – для положительных и для отрицательных значений.
Совет: Если второе поле выбора цвета не появилось, кликните маленькую чёрную стрелку в пока единственном доступном поле и укажите цвет для положительных значений (можете выбрать тот же, что назначен по умолчанию). Сразу после этого появится второе поле выбора цвета для отрицательных значений:
Сортировка данных в линейчатых диаграммах Excel
При создании линейчатой диаграммы в Excel категории данных по умолчанию выстраиваются в обратном порядке. То есть, если исходные данные отсортированы от А до Я, то в линейчатой диаграмме они будут расположены от Я до А. Почему так принято в Excel? Никто не знает. Зато мы знаем, как это исправить.
Примечание переводчика: Автор не знает почему так, хотя с точки зрения математики всё вполне логично: Microsoft Excel строит график от начала координат, которое находится стандартно в левом нижнем углу. То есть первое значение, верхнее в таблице данных, будет отложено первым снизу и так далее. Это работает и для диаграмм, построенных на трёх осях. В таком случае первый ряд данных в таблице будет отложен ближним по оси Z и далее по порядку.
Простейший способ развернуть порядок категорий на линейчатой диаграмме – выполнить обратную сортировку в исходной таблице.
Проиллюстрируем это на примере простого набора данных. На рабочем листе содержится список из 10 крупнейших городов мира, расставленных в порядке убывания числа населения. В линейчатой диаграмме данные будут расположены сверху вниз по возрастанию.
Чтобы на диаграмме Excel данные расположились от больших к меньшим сверху вниз, достаточно упорядочить их в исходной таблице в обратном порядке, т.е. от меньших к большим:
Если по каким-либо причинам сортировка данных в таблице невозможна, то далее будет показан способ изменить порядок расположения данных на диаграмме Excel, не изменяя порядок данных в исходной таблице.
Расставляем данные в линейчатой диаграмме Excel в порядке убывания/возрастания без сортировки исходных данных
Если порядок исходных данных на рабочем листе имеет значение и изменён быть не может, давайте заставим полосы диаграммы появиться в точности в том же порядке. Это просто – нужно лишь включить пару дополнительных опций в настройках параметров.
- В линейчатой диаграмме Excel кликните правой кнопкой мыши по любой из подписей вертикальной оси и в контекстном меню нажмите Формат оси (Format Axis). Или просто дважды кликните по подписям вертикальной оси.
- В появившейся панели в разделе Параметры оси (Axis Options) настройте следующие параметры:
- В группе Пересечение с горизонтальной осью (Horizontal axis crosses) выберите В точке с максимальным значением категории (At maximum category).
- В группе Положение оси (Axis position) выберите Обратный порядок категорий (Categories in reverse order).
Готово! Данные в линейчатой диаграмме Excel немедленно выстроятся в том же порядке, что и в исходной таблице, – по возрастанию или по убыванию. Если порядок исходных данных будет изменён, то данные на диаграмме автоматически повторят эти изменения.
Изменяем порядок рядов данных в линейчатой диаграмме
Если в линейчатой диаграмме Excel содержится несколько рядов данных, то по умолчанию они также построены в обратном порядке. Обратите внимание на рисунок ниже: регионы в таблице и на диаграмме расположены в противоположном порядке.
Чтобы расположить ряды данных в линейчатой диаграмме в том же порядке, как и на рабочем листе, используйте параметры В точке с максимальным значением категории (At maximum category) и Обратный порядок категорий (Categories in reverse order), как мы сделали это в предыдущем примере. Порядок построения категорий при этом также изменится, как видно на следующем рисунке:
Если нужно расставить ряды данных в линейчатой диаграмме в порядке, отличающемся от порядка данных на рабочем листе, то это можно сделать при помощи:
- Диалогового окна «Выбор источника данных»
- Формулы ряда данных
Изменяем порядок рядов данных при помощи диалогового окна «Выбор источника данных»
Этот метод позволяет изменить порядок построения рядов данных в линейчатой диаграмме для каждого ряда в отдельности и сохранить при этом неизменным порядок исходных данных на рабочем листе.
- Выделите диаграмму, чтобы на Ленте меню появилась группа вкладок Работа с диаграммами (Chart Tools). Откройте вкладку Конструктор (Design) и в разделе Данные (Data) нажмите кнопку Выбрать данные (Select Data). Или нажмите иконку Фильтры диаграммы (Chart Filters) справа от диаграммы и кликните ссылку Выбрать данные (Select Data) внизу открывшегося меню.
- В диалоговом окне Выбор источника данных (Select Data Source) выберите ряд данных, для которого нужно изменить порядок построения, и переместите его вверх или вниз при помощи стрелок:
Изменяем порядок рядов данных при помощи формул
Каждый ряд данных в диаграммах Excel (не только линейчатой – любой диаграммы) задан формулой, поэтому можно изменить ряд данных, изменяя его формулу. В рамках этой статьи нам интересен только последний аргумент этой формулы, который определяет порядок построения рядов. Более подробно о формуле ряда данных Вы можете прочитать в этой статье.
Например, серый ряд данных линейчатой диаграммы в следующем примере занимает третье место.
Чтобы изменить порядок построения данного ряда данных, выделите его в диаграмме, затем в строке формул измените последний аргумент формулы на любое другое число. В нашем примере, чтобы переместить ряд данных на одну позицию вверх, введите «2», а чтобы сделать его первым в диаграмме, введите «1» в качестве последнего аргумента.
Как и настройка параметров в диалоговом окне Выбор источника данных (Select Data Source), редактирование формулы ряда данных приводит к изменению порядка рядов данных только в диаграмме; исходные данные на рабочем листе остаются неизменными.
Вот так происходит построение линейчатой диаграммы в Excel. Для тех, кто желает узнать больше о диаграммах Excel, рекомендую изучить статьи из этого раздела сайта. Спасибо за внимание!
Оцените качество статьи. Нам важно ваше мнение:
















































































































.
;
.
на?
: введите ссылки на значения переменной
: введите ссылки на значения переменной 






, появится диалоговое окно (рис. 1.8)
: введите ссылки на значения переменной в столбце
, включая метки диапазона.
: введите ссылки на значения переменной в столбцах
.




,
и
и
соответственно. Если условие гомоскедастичности выполняется, то
, в противном случае
.
степенями свободы, где
, тем более нарушена предпосылка о равенстве остаточных дисперсий.





























