ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ СТАТИСТИЧЕСКИХ ДАННЫХ И
ПРОГНОЗИРОВАНИЕ В ЭЛЕКТРОННЫХ ТАБЛИЦАХ.
Цель занятия. Изучение информационной технологии использования
возможностей Excel для статистических расчетов, графического представления
данных и прогнозирования.
Инструментарий. ПЭВМ IBM PC, программа MS Excel.
Литература.
1. Информационные
технологии в профессиональной деятельности: учебное пособие/ Елена
Викторовна Михеева. – М.: Образовательно-издательский центр «Академия», 2004.
ЗАДАНИЯ
Задание 1. С помощью диаграммы (обычная гистограмма)
отобразить данные о численности населения России (млн. чел.) за 1970- 2005 гг.
Исходные данные представлены на рис.1, результаты работы на рис.3
Рис.1.
Порядок работы.
1. Откройте редактор электронных таблиц Microsoft Excel и создайте новую
электронную книгу (при стандартной установке MS Office выполните Пуск/Все
программы/ Microsoft Excel).
2. Создайте на листе 1 таблицу численности населения по образцу (рис.1). Для
ввода значений лет создайте ряд чисел с интервалом в 7 лет (введите первые два
значения даты — 1970 и 1977, выделите обе ячейки и протяните вправо за маркер
автозаполнения до нужной конечной даты).
3. Постройте диаграмму (обычная гистограмма) по данным таблицы. Для этого
выделите интервал ячеек с данными численности населения А3:G3 и выберите
команду Вставка/Диаграмма. На первом шаге работы с Мастером диаграмм
выберите тип диаграммы – гистограмма обычная; на втором шаге на вкладке Ряд в
окошке Подписи оси Х укажите интервал ячеек с годами В2: G2 (рис.2).
Далее введите название диаграммы и подписи осей; дальнейшие шаги построения
диаграммы осуществляется по подсказкам мастера.
Рис.2.
Задание 2. Осуществить прогноз численности населения России на 2012
г. добавлением линии тренда к ряду данных графика.
Краткая справка.
Для наглядного показа тенденции изменения некоторой
переменной целесообразно на график вывести линию тренда. Это возможно не для
всех типов диаграмм, а только для гистограмм, линейчатых диаграмм, диаграмм с
областями, графиков. Введенная линия тренда сохраняет связь с исходным рядом,
т.е. при изменении данных соответственно изменяется линия тренда. Линию тренда
можно использовать для прогноза данных.
Порядок работы.
1. Добавьте линию тренда к диаграмме, построенной в Задании 1. Для этого
сделайте диаграмму активной щелком мыши по ней и в меню Диаграмма выберите
команду Добавить линию тренда.
2. В открывшемся окне Линия тренда (рис.3) на вкладке Тип выберите
вид тренда полиномиальный 4-й степени;
Рис.3
3. Для осуществления прогноза на вкладке Параметры введите название
кривой «Линия тренда» и установите параметр прогноза — вперед на один период
(рис.4).
Рис.4
4. На диаграмме будет показана линия тренда и прогноз на один период вперед
(рис.5).
Рис.5
5. Добавьте линии сетки на диаграмме (Диаграмма/ Параметры диаграммы/ Линии
сетки).
Измените цену одного деления оси Y с 5 на 1 (Выполните двойной щелчок по оси и
на вкладке «Шкала» задайте новые значения).
Средствами рисования проведите линию красного цвета (на ось Y) для определения
значения прогноза на 2012 г.
Если вы все сделали правильно, то прогноз численности населения России по линии
тренда составит 131 млн.чел.
Внесите численное значение прогноза на 2012
г. в исходную таблицу.
Задание 3. Построить график о числе заключенных браков населением
России. Добавить линейную линию тренда и составить прогноз на три периода
вперед.
Исходные данные представлены на рис. 6, результаты работы на рис. 7.
Рис. 6
Рис. 7
Министерство образования и науки Астраханской области
ГАПОУ АО «Астраханский социально-педагогический колледж»
Специальность: 39.02.01 «Социальная работа»
Сообщение.
По дисциплине: «Статистика»
Тема: Использование графических возможностей Excel при решении статистических задач.
|
Выполнила: Студентка группы 2 «С» ___________Рюминой Д.А. Проверила: Преподаватель ___________ Коржова А.П. |
г. Астрахань, 2023
В современном обществе к статистическим методам проявляется повышенный интерес как к одному из важнейших аналитических инструментариев в сфере поддержки процессов принятия решений. Статистикой пользуются все- от политиков, желающих предсказать исход выборов, до предпринимателей, стремящихся оптимизировать прибыль при тех или иных вложениях капитала. Большим шагом вперёд к развитию статистической науки послужило применение экономико-математических методов и использование компьютерной техники в анализе социально-экономических явлений.
Программа обработки электронных таблиц MS Excel- мощная и достаточно простая в использовании программа, предназначенная для решения широкого круга планово-экономических, учетно-статистических, научно-технических и других задач, в которых числовая, текстовая или графическая информация с некоторой регулярной, повторяющейся структурой представлена в табличном виде.
Программа MS Excel предоставляет богатые возможности создания и изменения таблиц, которые могут содержать числа, тексты, даты, денежные единицы, графику, а также математические и иные формулы для выполнения вычислений.
Предусмотрены средства представления числовых данных в виде диаграммы, создания, сортировки и фильтрации списков, статического анализа данных и решения оптимизационных задач.
В данной работе я постараюсь показать, какие возможности для обработки статистических данных имеет программа MS Excel.
Объектом исследования данной работы являются возможности табличного процессора.
Предметом исследования является применение программы MS Excel для решения статистических задач.
Актуальность работы обусловлена недостаточной реализацией возможностей MS Excel для решения статистических задач.
Цель настоящего исследования заключается в формировании устойчивых знаний о возможностях MS Excel для решения статистических задач.
Для достижения поставленной цели потребовалось решить следующие задачи:
1. Раскрыть сущность возможностей MS Excel.
2. Определить способы применения этих возможностей при решении задач статистики.
В качестве гипотезы выдвигается следующее:
Использование возможностей программы MS Excel облегчает и ускоряет решения задач статистики.
Глава 1. Применение Microsoft Excel для решения
статистических задач.
Работа с данными
В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.
Графические изображения используются, прежде всего, для наглядного представления статистических данных, благодаря ним существенно облегчается их восприятие и понимание. Существенна их роль и тогда, когда речь идет о контроле полноты и достоверности исходного статистического материала, используемого для обработки и анализа.
Статистические данные приводятся в виде длинных и сложных статистических таблиц, поэтому бывает весьма трудно обнаружить в них имеющиеся неточности и ошибки.
В процессе анализа данных, как правило, присутствуют следующие основные этапы:
1. Ввод данных
Введенные данные обычно отражаются в форме электронной таблицы или матрицы данных, где столбцы представляют различные переменные (например, рост, вес), а строки — измерение значений этих переменных, произведенные в различных условиях, в различное время, у различных объектов и т.п.
2. Преобразование данных
Данные в электронной таблице можно просмотреть и скорректировать методами ручного редактирования или же полуавтоматического преобразования к виду, адекватному выбранному методу анализа. Здесь может быть использован широкий набор алгебраических, матричных, структурных преобразований, а также комбинирование этих операций в требуемой последовательности.
3. Визуализация данных
На данные обязательно следует просто посмотреть, чтобы составить общее (в том числе и интуитивное) представление о характере их изменения, специфических особенностях и закономерностях, что очень важно при выборе стратегии и тактики дальнейшего анализа. Для этого можно использовать как исходное числовое представление, так и различные формы графического изображения.
4. Статистический анализ
Собственно выбор метода, анализ данных и интерпретация результатов.
5. Представление результатов
Для наглядности производимых выводов полученные результаты желательно представлять в виде адекватных, убедительных и эффектных графиков.
Для успешного применения процедур анализа необходимы начальные знания в области статистических и инженерных расчетов, для которых эти инструменты были разработаны
В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и дисперсионного анализа.
При машинной обработке исходной информации на ЭВМ, оснащенных пакетами стандартных программ ведения анализов, вычисление параметров применяемых математических функций является быстро выполняемой счетной операцией.
Возможность использования формул и функций является одним из важнейших свойств программы обработки электронных таблиц. Это, в частности, позволяет проводить статистический анализ числовых значений в таблице.
Текст формулы, которая вводится в ячейку таблицы, должен начинаться со знака равенства (=), чтобы программа Excel могла отличить формулу от текста. После знака равенства в ячейку записывается математическое выражение, содержащее аргументы, арифметические операции и функции.
В качества аргументов в формуле обычно используются числа и адреса ячеек. Для обозначения арифметических операций могут использоваться следующие символы: + (сложение); — (вычитание); * (умножение); / (деление).
Формула может содержать ссылки на ячейки, которые расположены на другом рабочем листе или даже в таблице другого файла. Однажды введенная формула может быть в любое время модифицирована. Встроенный Менеджер формул помогает пользователю найти ошибку или неправильную ссылку в большой таблице.
Кроме этого, программа Excel позволяет работать со сложными формулами, содержащими несколько операций. Для наглядности можно включить текстовый режим, тогда программа Excel будет выводить в ячейку не результат вычисления формулы, а собственно формулу.
Программа Excel интерпретирует вводимые данные либо как текст (выравнивается по левому краю), либо как числовое значение (выравнивается по правому краю). Для ввода формулы необходимо ввести алгебраическое выражение, которому должен предшествовать знак равенства (=). [7]
Ввод формул можно существенно упростить, используя маленький трюк. После ввода знака равенства следует просто щелкнуть мышью по первой ячейке, затем ввести операцию деления и щелкнуть по второй ячейке.
Инструменты пакета анализа в Microsoft Excel
Дисперсионный анализ
Пакет анализа включает в себя три средства дисперсионного анализа. Выбор конкретного инструмента определяется числом факторов и числом выборок в исследуемой совокупности данных. [6]
Однофакторный дисперсионный анализ
Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности. Этот метод распространяется также на тесты для двух средних (к которым относится, например, t-критерий).
Тема: Графическое
изображение статистических данных и прогнозирование в Microsoft Excel.
Цель
занятия:
Изучение информационных технологий использования возможностей Microsoft excel для
статистических расчетов графического представления данных и прогнозирования.
Задание
1. С
помощью диаграммы (обычная гистограмма) отобразите данные о численности
населения России (млн. чел.) за 1970-2005 гг.
Исходные данные представлены на рис.1,
результаты работы на рис. 3.
Порядок работы
1. Откройте редактор
электронных таблиц Microsoft Excel и создайте новую
электронную книгу (при стандартной установке Microsoft Office выполните Пуск
– Все программы-Microsoft Office – Microsoft Office Excel).
Рисунок 1 – Исходные данные для задания 1
2.
Создайте
на листе 1 таблицу численности населения по образцу (см. рис.1). Для ввода
значений лет создайте ряд чисел с интервалом в 7 лет (введите первые два
значения даты – 1970 и 1977 г., выделите обе ячейки и протяните вправо за
маркер автозаполнения до нужной конечной даты).
3.
Постройте
диаграмму (обычная гистограмма) по данным таблицы. Для этого выделите интервал
ячеек с данными численности населения A3:G3 и выберите
команду Вставка – Гистограмма – Обычная гистограмма. Щелкните правой
кнопкой мыши по построенной диаграмме и выберите команду Выбрать
данные… в открывшемся диалоговом окне измените данные так как показано на
рисунке 3 и нажмите ОК.
Рисунок 2 – Выбор типа диаграммы
Рисунок 3 – Второй этап построения диаграммы
Задание
2. Осуществить
прогноз численности населения России на 2012 г. Добавлением линии тренда к ряду
данных графика.
Краткая справка. Для наглядного
показа тенденции изменения некоторой переменной целесообразно на график вывести
линию тренда. Это возможно не для всех типов диаграмм, а только для гистограмм,
линейчатых диаграмм, диаграмм с областями, графиков. Введенная линия тренда
сохраняет связь с исходным рядом, т. е. при изменении данных соответственно
изменяется линия тренда. Линию тренда можно использовать для прогноза данных.
Порядок работы
- Добавьте линию тренда к диаграмме, построенной в
задании 1. Для этого сделайте диаграмму активной, затем щелкните правой
кнопкой мыши по диаграмме и выберите команду Изменить тип диаграммы. Измените,
тип диаграммы выберите График.
Рисунок
4 – Изменения типа тиаграммы
Затем перейдите на
вкладку Макет – Линия тренда – Дополнительные параметры линии тренда… — в
диалоговом окне Формат линии тренда выберите Полиномиальная 4-й
степени затем Закрыть.
Рисунок
5 – Формат линии тренда
Далее измените тип
диаграммы на обычную гистограмму.
- Для осуществления прогноза в области Название
аппроксимирующей (сглаженной) кривой выберите Другое и введите
с клавиатуры Линия тренда. - На диаграмме будет показана линия тренда и
прогноз на один период вперед (рис. 6).
Рисунок 6 – конечный вид диаграммы и линии тренда
задания 1
- Внесите численное значение прогноза на 2012 г. в
исходную таблицу. Если вы все сделали правильно, то прогноз численности
населения России по линии тренда составит 131 млн. чел.
Задание
3. Построить
график о числе заключенных населением России браков. Добавить линию тренда и
составить прогноз на три периода вперед.
Исходные данные представлены на рис. 7,
результаты работы на рис. 8.
Рисунок 7 – Исходные данные для задания 3
Рисунок 8 – Конечный вид графика и линии тренда
задания 3
Задание
4. Построить
линейчатую диаграмму изменения стоимости автомобилей в зависимости от года
выпуска. Добавить линейную и логарифмическую линии тренда. Определить, какой
вид линии тренда дает более реальный прогноз. Определить примерную стоимость
автомобилей 1998 и 1997 гг. выпуска.
Исходные данные представлены на рис. 9,
результаты работы на рис. 10.
Рисунок 9 – Исходные данные для задания 4
Рисунок 10 – Конечный вид диаграммы и линий тренда
задания 4
Задание
5. По
данным о численности работников научных организаций (тыс. чел.) в России за
2000-2005 гг. произвести расчеты и построить графики численности работников по
категориям
Формула для расчета столбца «Прочие»:
Прочие = Всего работников — Специалисты –
Вспомогательный персонал.
Добавить линию тренда и составить прогноз
изменений численности специалистов на три года вперед.
Исходные данные представлены на рис. 11.
Рисунок 11 – Исходные данные для
задания 5
Задание 6. Произвести
прогнозирование спроса товаров народного потребления торгового центра на
декабрь текущего года добавлением к графику полиномиальной линии тренда
Исходные данные представлены на рис. 12.
Рисунок 12 – Исходные данные для
задания 6
Лабораторная работа
№1
Цель работы:
Получить навыки построения диаграмм
распределений в среде электронных
таблиц MS
Excel.
Задачи работы:
Изучить основные методы графического
представления статистических данных.
Изучить возможности построения графиков
в среде Excel.
По данным выборочной совокупности
построить полигон частот, гистограмму
и сглаженную кумулятивную кривую
распределения с использованием
электронных таблиц MS
Excel.
Теоретические сведения
Большинство
экономических задач, где требуется
обработка большого количества данных,
решается с помощью методов математической
статистики. Практически любая обработка
данных начинается с ее графического
анализа. Использование графиков в
статистике насчитывает более двухсот
лет. Однако, прежде чем рассмотреть
графические методы анализа, необходимо
ознакомиться с основными понятиями
одного из главного раздела теории
статистики, получившей название
описательной статистики, в рамках
которой и изучаются методы построения
различных видов диаграмм и графиков.
Описательная
статистика позволяет
описывать, подытоживать и воспроизводить
в виде таблиц или графиков данные того
или иного распределения,
вычислять среднее
для данного распределения и его размах
и дисперсию.
Все эти параметры часто называют
описательными статистиками основными
числовыми характеристиками выборки
(совокупности) или мерами центральной
тенденции. Описательная статистика
включает в себя табулирование,
представление и описание совокупностей
данных, которые могут быть как
количественные (например, измерение
роста, веса и т.д.), так и качественные
(например, пол или тип личности).
Одна из задач описательной
статистики состоит в том, чтобы
анализировать данные, полученные на
части популяции, с целью сделать выводы
относительно популяции в целом.
Популяция или
генеральная совокупность в
статистике не обязательно означает
какую-либо группу людей или естественное
сообщество; этот термин относится ко
всем существам или предметам, образующим
общую изучаемую совокупность, будь то
атомы или студенты, посещающие то или
иное кафе.
Выборка или
выборочная совокупность
— это небольшое количество элементов,
отобранных с помощью научных методов
так, чтобы она была репрезентативной,
т.е. отражала популяцию в целом.
Другими словами, выборка
– это совокупность случайно отобранных
объектов, а генеральная совокупность
– это совокупность объектов, из которых
производится выборка.
Объемом совокупности
(выборочной или генеральной) называют
число объектов этой совокупности.
Например, из 1000 человек для исследования
отобрано 100 людей, то объем генеральной
совокупности
,
а объем выборки
.
Генеральная совокупность
часто содержит конечное число объектов.
Однако если это число достаточно велико,
то иногда в целях упрощения вычислений,
или для облегчения теоретических
выводов, допускают, что генеральная
совокупность состоит из бесчисленного
множества объектов. Такое допущение
оправдывается тем, что увеличение объема
генеральной совокупности (достаточно
большого объема) практически не
сказывается на результатах обработки
данных выборки.
Пусть из генеральной
совокупности извлечена выборка, причем
наблюдалось
раз,
—
раз,
—
раз и
— объем выборки. Наблюдаемые значения
называют вариантами,
а последовательность вариант, записанных
в возрастающем порядке – вариационным
рядом. Числа
наблюдений называют частотами,
а их отношения к объему выборки
— относительными частотами.
Статистическим
распределением выборки
называют перечень вариант и соответствующих
им частот или относительных частот.
Статистическое распределение можно
также задать в виде последовательности
интервалов и соответствующих им частот
(в качестве частоты, соответствующей
интервалу, принимаю сумму частот,
попавших в этот интервал).
Для оценки статистического
распределения вводится понятие функции
распределения, которая находится
эмпирическим (опытным) путем и называется
эмпирической.
Эмпирической функцией
распределения (функцией распределения
выборки) называют функцию
,
определяющую для каждого значения
относительную
частоту события
:
,
где
— число вариант, меньших
;
— объем выборки.
В отличие от эмпирической
функции распределения выборки функцию
распределения
генеральной совокупности называют
теоретической функцией распределения.
Различия между эмпирической и теоретической
функцией распределения состоит в том,
что теоретическая функция
определяет вероятность события
,
а эмпирическая функция
определяет частоту этого же события.
В большинстве случаев
при решении реальных задач закон
распределения и его параметры неизвестны.
Поэтому для определения вида закона
распределения и его параметров необходимо
выполнять ряд действий по анализу
полученных исходных данных.
Таким образом,
описательная статистика позволяет
обобщать первичные результаты, полученные
при наблюдении или в эксперименте.
Процедуры здесь сводятся к группировке
данных по их значениям, построению
распределения их частот, выявлению
центральных тенденций распределения
(например, средней арифметической) и,
наконец, к оценке разброса данных по
отношению к найденной центральной
тенденции.
Построение распределения
— это разделение первичных данных,
полученных на выборке, на классы или
категории с целью получить обобщенную
упорядоченную картину, позволяющую их
анализировать.
Для наглядности строят
различные графики статистического
распределения, в частности, полигон
распределения, гистограмму или сглаженную
кумулятивную кривую.
Полигоном частот
называют ломаную, отрезки которой
соединяют точки
,
,
…,
.
Для построения полигона часто на оси
абсцисс откладывают варианты
,
а на оси ординат – соответствующие им
частоты
.
Точки
соединяют
отрезками прямых и получают полигон
частот.
Полигоном относительных
частот называют
ломаную, отрезки которой соединяют
точки
,
,
…,
.
Для построения полигона часто на оси
абсцисс откладывают варианты
,
а на оси ординат – соответствующие им
относительные частоты
.
Точки
соединяют
отрезками прямых и получают полигон
относительных частот.
На рис. 1 показан полигон
относительных частот для следующего
распределения:
|
Варианта (значение |
12 |
14 |
16 |
18 |
20 |
|
Частота, |
0,1 |
0,2 |
0,4 |
0,2 |
0,1 |

Рис. 1 – Полигон
относительных частот
Гистограммой частот
называют ступенчатую фигуру, состоящую
из прямоугольников, основаниями которых
служат частичные интервалы длиною
,
а высоты равны отношению
(плотность частоты).
Для построения
гистограммы частот на оси абсцисс
откладывают частичные интервалы, а над
ними проводят отрезки, параллельные
оси абсцисс на расстоянии
.
Площадь
-го
частичного прямоугольника равна
— сумме частот вариант
-го
интервала; следовательно, площадь
гистограммы частот равна сумме всех
частот, т.е. объему выборки.
Гистограммой
относительных частот
называют ступенчатую фигуру, состоящую
из прямоугольников, основаниями которых
служат частичные интервалы длиною
,
а высоты равны отношению
(плотность относительной частоты).
Для построения
гистограммы частот на оси абсцисс
откладывают частичные интервалы, а над
ними проводят отрезки, параллельные
оси абсцисс на расстоянии
.
Площадь
-го
частичного прямоугольника равна
— относительной частоте вариант, попавших
в
-й
интервал. Следовательно, площадь
гистограммы относительных частот равна
сумме всех относительных частот, т.е.
единице.
На рис. 2 приведен пример
гистограммы для данных, отображенных
в таблице 1.
Таблица 1
Исходное распределение
|
Показатель |
Номер |
||||
|
1 |
2 |
3 |
4 |
5 |
|
|
Частичный |
100-199 |
200-299 |
300-399 |
400-499 |
500-600 |
|
Частота |
9 |
4 |
2 |
2 |
3 |
|
Плотность |
0,09 |
0,04 |
0,02 |
0,02 |
0,03 |

Рис. 2 – Гистограмма
частот распределения
Для некоторых целей
более полезным в сравнении с простыми
графиками распределения частот является
сглаженная кривая
накопленных (кумулятивных) частот.
При построении такой кривой частоты,
которые соответствуют интервалам,
накапливаются, начиная с одного из
концов распределения, т.е. накопленные
частоты к любой
заданной оценке представляют собой
суммарное количество частот на этой
оценке или ниже ее. Обычно, такая
сглаженная кривая отображает относительные
накопленные частоты в процентах, а не
в относительных единицах. На рис. 3
приведен пример кривой накопленных
частот для данных, приведенных в таблице
1.

Рис. 3 – Сглаженная
накопленная кривая
Рассмотрим для примера
задачу анализа чистой прибыли предприятия
с помощью электронных таблиц MS
Excel.
На рис. 4 приведена электронная копия
экрана с примером исходных данных по
некоторому предприятию за 11 лет.

Рис. 4 – Исходные данные
по предприятию
На первом этапе
необходимо задать интервалы, в которых
планируется определить частоты появления
случайной величины. Выберем ширину
интервала длиной в 20 единиц и поместим
границы в столбец С (рис. 5). В данном
случае значение левой границы интервального
ряда составляет 122, а правой 242, поскольку
значение чистой прибыли не меньше 123,7
усл. ед., и не больше 235,6 усл. ед.

Рис. 5 – Задание границ
интервалов
Для расчета частот,
соответствующих данным интервалам,
необходимо выделить диапазон ячеек
D2:D9,
а в строке формул ввести следующую
функцию: «=ЧАСТОТА(B2:B12;C2:C8)» и закончить
ввод нажатием комбинации клавиш
[Ctrl]+[Shift]+[Enter].
MS
Excel
автоматически заключит введенную
формулу в фигурные скобки: {
=ЧАСТОТА(B2:B12;C2:C8)}. Такой
способ ввода применен в связи с тем, что
функция ЧАСТОТА возвращает массив
значений и ее необходимо вводить как
формулу массива. При этом, количество
элементов в возвращаемом массиве будет
на единицу больше числа элементов в
массиве интервалов.
В результате в ячейки диапазона D2:D9
будут помещены частоты, соответствующие
интервалам (рис. 6).

Рис. 6 – Размещение
частот
Теперь с помощью мастера
диаграмм можно построить соответствующий
график: гистограмму или полигон частот
(рис. 7).

Рис. 7 – Построение
гистограммы распределения
Аналогичное построение
гистограммы можно выполнить с помощью
функции, имеющейся в пакете Анализ
данных. Для этого
в меню последовательно выбирается
Сервис,
Анализ данных.
Появившемся окне (рис. 
Гистограмма.
Затем в следующем окне (рис. 9) необходимо
задать исходные данные для построения
гистограммы.

Рис. 8 – Окно выбора
функции

Рис. 9 – Окно задания
исходных данных для построения гистограммы
Назначение параметров
диалогового окна Гистограмма
приведены в таблице 2.
Таблица 2
Параметры диалогового
окна Гистограмма
|
Параметр |
Назначение |
|
Входной |
В |
|
Интервал |
В Если |
|
Метки |
Ставится |
|
Выходной |
Вводится |
|
Новый |
Переключатель |
|
Новая |
Переключатель |
|
Парето |
При |
|
Интегральный |
Рассчитываются |
|
Вывод |
Устанавливается |
Результаты построения
диаграммы с помощью пакета Анализа
данных приведены на рис. 10.

Рис. 10 – Результат
построения гистограммы
Следует отметить, что
ни один из графиков, рассмотренных выше,
не является универсальным. Гистограмма
– наиболее легкая для восприятия форма,
поэтому ее обычно предпочитают, если
изображается не более одного распределения.
Но если необходимо сравнить два или
более распределений, то для этой цели
лучше всего подходит полигон частот
(или полигон относительных частот).
Сглаженные кривые накопленных частот
имеют много преимуществ, которыми не
обладают другие представления. Например,
можно оценить с высокой степенью точности
различные параметры распределений или
сравнивать несколько групп данных на
одном графике.
Существуют и другие
формы представления статистических
данных, например круговые диаграммы,
диаграммы с областями, лепестковые или
поверхностные диаграммы и другие,
подробно о которых можно узнать в
[1,2,3].
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Здравствуйте на этой странице я собрала теорию и практику с примерами решения задач по предмету эконометрика в программе Microsoft Excel с решением по каждой теме, чтобы вы смогли освежить знания!
Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!
Эконометрика
Становление эконометрики как научной дисциплины представляет значительный интерес с точки зрения как определения объектов исследования, так и формирования набора методов. Сам термин «эконометрика» сформировался из двух частей: «эконо-» – от «экономика» и «-метрика» – от «измерение». Поэтому статистический анализ экономических данных называется эконометрикой, что буквально означает «наука об экономических измерениях».
Эконометрика – это наука, связанная с эмпирическим выводом экономических законов.
Статистические ряды данных
Методы систематизации, обработки и использования статистических данных, выявление закономерностей являются основой эконометрических исследований. Пусть требуется исследовать какой-нибудь признак, свойственный большой группе однородных объектов. Напомним основные понятия и характеристики статистических данных.
Возможно эта страница вам будет полезна:
Генеральной совокупностью (генеральной выборкой) называется совокупность значений признака всех объектов данного типа, а их число 

Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов, а её объем обозначается 
Статистические исследования позволяют распространить выводы, сделанные на основе случайной выборки, на всю генеральную совокупность исследуемых случайных величин. Это является основой выборочного метода.
Графическое представление статистических данных
Пусть из генеральной совокупности извлекается выборка объема 




Статистическим распределением выборки называется перечень наблюдаемых значений и соответствующих им частот 

Упорядоченный в порядке возрастания или убывания ряд значений признака с соответствующими ему частотами называют вариационным рядом.
В целях наглядности строятся различные графики статистического распределения.
Полигоном частот (относительных частот) называется ломаная линия, которая соединяет точки с координатами 

Для построения гистограммы частот (относительных частот) необходимо найти границы интервалов признаков. Если данные наблюдений представляют в виде рядов с равными интервалами, то их величина находится по формуле Стэрд-жесса:

где 

По оси абсцисс откладываются границы интервалов так, чтобы они покрыли все значения вариационного ряда, а по оси ординат откладываются абсолютная плотность распределения 

Аналогом функции распределения 

по оси абсцисс откладывают значения признака, а по оси ординат — накопленные частоты или частости. Такую кривую иногда называют кумулятой: по данным интервального ряда на оси абсцисс откладывают точки, являющиеся верхними границами интервалов, а на оси ординат накопленные частоты (частости) соответствующих интервалов. Часто добавляют ещё одну точку, абсцисса которой соответствует левой границе первого интервала, а ордината равна нулю.
Числовые характеристики статистических распределений
Для описания статистических распределений обычно используют три вида характеристик:
- средние, или характеристики центральной тенденции;
- характеристики изменения вариант (рассеяния);
- характеристики, отражающие дополнительные особенности распределений, в частности их форму.
Все эти характеристики вычисляются по результатам наблюдений и построенных вариационных рядов.
Основным видом средних характеристик является средняя арифметическая (среднее выборочное значение), определяемая по формуле:

где 

Довольно часто в статистическом анализе применяют структурные или порядковые средние:

1) медиана 

2) мода 
Величины моды и медианы определяются по интерполяционным формулам, непосредственно из их определения, которые можно найти в дополнительной литературе.
Средние характеристики должны быть дополнены изменением вариации признака (рассеянием). Для этого рассчитываются квадраты отклонений вариант от среднего арифметического значения. Средний квадрат отклонений по данной выборке называется дисперсией и вычисляется по формуле:

На базе дисперсии вводятся две характеристики:
1) среднее квадратическое отклонение 
2) коэффициент вариации, равный процентному отношению среднего квадратического отклонения к значению средней арифметической исследуемой случайной величины, помогает решить вопрос об однородности выборки:

Величина о является чаще всего применяемой характеристикой рассеяния. Для характеристики формы распределения вводятся моменты к-того порядка, впервые предложенные Чебышсвым П. Л.:

которые называются центральными моментами к-того порядка. Чем больше моментов для данного признака вычислено, тем точнее можно описать свойства распределения. Однако с ростом К растет влияние случайных погрешностей, поэтому на практике используются моменты до четвертого порядка.
Центральный момент третьего порядка называется асимметрией 

Инструмент анализа описательная статистика и гистограмма в Excel
Наиболее полный анализ статистических данных позволяет выполнить пакет Анализ данных из меню Сервис. Если команда Анализ данных отсутствует в меню Сервис, выберите Надстройки и в появившемся списке отметьте Analysis ToolPak (Пакет анализа). В случае отсутствия этого пункта в Надстройках, вам придется установить его вручную с помощью Microsoft Excel Setup (меню Сервис > Надстройки > подключите Пакет Анализа).
При выполнении этой лабораторной работы будут использоваться инструменты Описательная статистика и Гистограмма из Анализа данных. Надо сказать, что в Excel есть набор встроенных статистических функций, которыми можно пользоваться, если нет необходимости во всех характеристиках исследуемых данных. Для вызова нужной функции необходимо выполнить действия: из меню Вставка и выбрать команду Функция и перейти к категории Статистические.
Возможно эта страница вам будет полезна:
Пример с решением №1.1.
При обследовании 50 семей получены данные о количестве детей, которые имеют БИНОМРАСЩ) с числом испытаний равным 10 и вероятностью успеха 0,3 (сгенерировать с помощью пакета Анализа данных). Определите средний размер семьи. Охарактеризуйте колеблемость размера семьи с помощью показателя вариации. Постройте гистограмму и функцию распределения.
Данные для решения примера задают изначально в виде таблиц и их надо поместить на лист Excel; или можно воспользоваться инструментом Анализа данных Генерация случайных чисел.
Генерация случайных чисел позволяет быстро получить нужное количество значений одной или нескольких вариант, имеющих одно из распределений: Равномерное, Нормальное, Бернулли, Биномиальное, Пуассона и другие. Надо помнить, что каждое распределение имеет свои параметры, которые задаются пользователем. Достоверность полученных выводов в этом случае мала.
- В меню Сервис выберите Анализ данных, а затем выделите инструмент анализа Генерация случайных чисел (найти его можно с помощью линейки прокрутки). Выделите в диалоговом окне нужный инструмент и нажмите ОК (рис. 1.1).
- Заполните поля диалогового окна так же как на рис. 1.2 и нажмите ОК. Результатом является набор из пятидесяти чисел, которые располагаются в столбце В рис 1.3.
- Примените инструмент Описательная статистика для поиска числовых характеристик выборочных данных, расположенных в диапазоне В2:В51. Для этого выберите инструмент анализа Описательная статистика в диалоговом окне Анализ данных рис. 1.1. В одноименном диалоговом окне надо указать: входной интервал (В2:В51), ячейку левого верхнего угла для вывода итогов D1, обязательно включите опцию Итоговая Статистика. Результат применения инструмента Описательная статистика показан на рис. 1.3. в диапазоне D1:Е18.
Значения в диапазоне Е2: Е18 не обновляются в случае изменения исходных данных В2:В51.

В столбце 

Построение гистограммы и функции распределения можно выполнить, выбрав инструмент, Гистограмма (рис. 1.1). Перед использованием этого инструмента надо решить вопрос об интервале разбиения (

Описание результатов.
Описательная статистика содержит три результата средней характеристики исследования числа детей в пятидесяти семьях: Среднее (3,34), Моду (3) и Медиану (3). Найдем значение коэффициента вариации по формуле (1.4):

Так как 43% > 35%, можно сделать вывод, что изучаемая совокупность семей является неоднородной, чем и объясняется высокая колеблемость количества детей в семьях. В виду неоднородности семей, попавших в выборку, можно в качестве среднего использовать моду или медиану
Стандартное отклонение (1,44) — наиболее широко используемая характеристика изменения данных — измеряется в тех же единицах, что и исходные данные.
Стандартная ошибка является характеристикой достоверности среднего выборочного значения и используется в статистических исследованиях (0,20).
Эксцесс и Асснметрнн позволяют сделать вывод о незначительных отклонениях гистограммы частостей от нормально распределенной случайной величины, характеризующей количество детей в семьях с средним равным 3,34 и средним квад-ратическим отклонением 1,44.
Напомним, что эталоном этих величин являются нормальное распределение (рис. 1.5), для которого Ассиметрия равна нулю, а центральный момент четвертого порядка (1.5) равен трем.
Ассиметрия имеет отрицательное значение. Это означает, что гистограмма не симметрична по отношению к среднему значению выборки и имеет скос вправо, то есть количество семей имеющих менее трех детей больше, чем семей количество детей в которых больше трех.
Эксцесс тоже имеет отрицательное значение. То есть значение гистограммы в точке 
Математическая статистика статистические оценки
Имеется случайная величина 

Числовые характеристики генеральной совокупности, как правило, неизвестны. Их называют параметрами генеральной совокупности (среднее, дисперсия, среднее квадратическое отклонение, доля признака генеральной совокупности объема 
Из генеральной совокупности извлекается выборка объёма 

Обозначим через 









Несмещенной называют оценку, для которой выполняется условие:

Состоятельной называется оценка, удовлетворяющая условию:

Для выполнения условия 2.2 достаточно, чтобы:

Эффективной считается оценка, которая при заданном объеме выборки имеет наименьшую возможную дисперсию.
Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней и вычисляется по формуле (1.1).
Выборочная дисперсия найденная по формуле (1.2) является смещенной оценкой для дисперсии генеральной совокупности.
Вводится понятие исправленной выборочной дисперсии, которая является несмещенной оценкой генеральной дисперсии и вычисляется по формуле:

Исправленное выборочное средне квадратическое отклонение будет равно:

Теоретическое обоснование использования этих выборочных оценок для определения характеристик генеральной совокупности дают закон больших чисел и предельные теоремы.
Основные виды распределения и функции excel, позволяющие проводить статистическое оценивание
Чтобы построить модели статистических закономерностей возникает необходимость использовать известные виды распределения. Каждое распределение характеризует некоторую случайную величину — результат определенного вида испытаний. С функциями, задающими эти распределения, а также их параметрами можно познакомиться в любом учебнике по теории вероятностей. Выбранное распределение может рассматриваться только как теоретическое (генеральное), а результат опыта — как статистическое (выборочное) распределение. Последнее, в силу ограниченности числа наблюдений, будет лишь приближенно характеризовать теоретическое распределение.
По виду гистограммы и полученным числовым характеристикам выборки делается предположение о теоретическом виде распределения исследуемого признака. Если это удается, то можно найти оценки числовых характеристик и сделать выводы о параметрах генеральной совокупности. Если закон распределения не возможно установить, то подбирается кривая, наилучшим образом сглаживающая данные статистического ряда. Распределения делятся на дискретные и непрерывные.
Дискретные распределения описываются конечные набором чисел и соответствующими им частотами. Например, оценки, которые может получить студент на экзамене, описываются множеством (2, 3, 4, 5). Поэтому случайная величина 
Непрерывные распределения описывают случайные величины с непрерывной областью значений. Для непрерывных распределений вероятность сопоставляется не с отдельным значением, а интервалом чисел. Непрерывные распределения в теории вероятностей задаются функцией плотности распределения 

Площадь фигуры, ограниченной 






Нормальное распределение
Чаще других в статистических исследованиях применяется нормальное распределение. Теоретическим основанием к его применению служит центральная предельная теорема Ляпунова. Оно имеет два параметра: среднее (а) и стандартное отклонение 

Синтаксис функции:
Значение функции распределения случайной величины 

Графики плотности распределения и функции распределения случайной величины 
Вероятность попадания случайной величины 


Если случайная величина нормально распределена и имеет среднее арифметическое равное нулю и среднее квадратическое отклонение равное единицы, то её называют стандартизованной а для вычисления вероятности попадания в интервал таких случайных величин в Excel существует функция:

которая возвращает интегральное стандартное распределение.

При статистических исследованиях оценок довольно часто приходится решать обратную задачу: находить значение варианты 

Распределения, связанные с нормальным распределением
Несмотря на широкое распространение нормального распределения, в некоторых случаях при построении статистических моделей возникает необходимость в использовании других распределений. Приведем примеры некоторых функций в Excel.
Логнормальное распределение
Свидетельством близости распределения к логнормальному является значительная ассиметрия, обусловленная ограничением 
Функция ЛОГНОРМРАСП(


Хи-квадрат распределение
Чаще всего это распределение используется для определения критического значения статистики с заданным уровнем значимости 


Если задано значение вероятности, то функция ХИ20БР позволяет найти значение 

В функции ХИ20БР для поиска применяется метод итераций. Если поиск не закончится после 100 итераций, функция возвращает сообщение об ошибке #Н/Д.
Распределение стьюдента t
Это распределение имеет важное значение для статистических выводов. Функция СТЬЮДРАСП возвращает вероятностную меру «хвостов» распределения. Её синтаксис:


Если «хвосты» = 1, то функция СТЬЮДРАСП возвращает одностороннее распределение (вероятность правого хвоста).
Если «хвосты» = 2, то функция СТЬЮДРАСП возвращает двухстороннее распределение.
При этом значение 
Так как функция симметричная относительно нуля, то справедливо следующие равенства:
Функция СТЬЮДРАСПОБР(вероятность; степени свободы) является обратной для распределения Стьюдента и соответствует положительному значению 
РАСПРЕДЕЛЕНИЕ ФИШЕРА Эту функцию можно использовать, чтобы определить, имеют ли два множества данных различные степени разброса результатов. Например, можно проанализировать результаты тестирования старшеклассников и определить, различается ли разброс результатов для мальчиков и девочек.


Обратное значение для 
Распределения дискретной случайной величины в excel биномиальное распределение
Распределение используется для моделирования случайной величины с конечным числом испытанной. В каждом испытании случайная величина может принимать только два значения: успех или неуспех (0 или 1). Вероятность успеха постоянна и не зависит от результатов других испытаний. Биномиальное распределение описывает общее число успехов при указанном числе испытаний. Данное распределение требует указать два параметра: число испытаний 

Пример с решением №2.1.
Группа из 20 студентов сдает экзамен. Вероятность сдать экзамен по данным прошлых лет равна 0,3. Отобрано 5 человек составьте закон распределения случайной величины 
В ячейку В7 помещена функция БИНОМРАСЩА7; SBS1; $В$2; 0) (рис 2.3.). Скопируйте формулу для остальных ячеек столбца В, как показано на рис. 2.2. Чтобы получить данные столбца С надо в качестве аргумента интегральная поставить единицу.
С помощью функции БИНОМРАСП можно получить только вероятности равные числу успеха к (интегральная равна нулю) или не большие к (интегральная равна единицы). Для вычисления других вероятностей надо воспользуйтесь значениями столбцов 



Для построение диаграммы биномиального распределения выделите ячейки В7:В12 и нажмите кнопку мастер диаграмм на стандартной панели инструментов. Отформатируйте её как показано на рис. 2.2.
В качестве обратной функции к БИНОМРАСП в Exccl рассматривается функция КРИТБИНОМ. Её синтаксис:


Гипергеометрическое распределение
Распределение возвращает вероятность заданного количества успехов в выборке, если заданы: размер выборки 




Синтаксис:
ГИПЕРГЕОМЕТ (числоуспеховввыборке; размер выборки; числоуспеховвсовокупности; размерсовокумности)
Распределение Пуассона
Обычное применение распределения Пуассона состоит в предсказании количества событий, происходящих за определенное время, например: количество машин, появляющихся за 1 минуту на станции техобслуживания.
Синтаксис: ПУАССОН(

среднее — ожидаемое численное значение.
интегральная — логическое значение, определяющее форму возвращаемого распределения вероятностей.
Если аргумент «интегральная» имеет значение ИСТИНА, то функция ПУАССОН возвращает интегральное распределение Пуассона, то есть вероятность того, что число случайных событий будет от 0 до 
Если этот аргумент имеет значение ЛОЖЬ, то вычисляется значение функции плотности распределения Пуассона, то есть вероятность того, что событий появится равно 
Интервальные оценки
Величина оценки 


где 


Значение 


Если стандартное отклонение находится по выборке, то рассматривают два случая:
1) 

2) 
Если раскрыть модуль в уравнении (2.7), то получим неравенство:

Числа 


Границы доверительного интервала симметричны относительно точечной оценки 

Так как 



Рассмотрим на примерах, как строятся доверительные интервалы для математического ожидания, дисперсии и среднего квадратического отклонения нормально распределенного количественного признака 
Доверительный интервал для математического ожидания с известной дисперсией
При построении доверительного интервала используется функция НОРМОБР для 

где 
Пример с решением №2.2.
Спонсоры телевизионных программ хотят знать, сколько времени дети проводят за экраном телевизора. После опроса 100 человек оказалось, что среднее число часов в неделю соответствует 27,5 часов, а средне квадратическое отклонение равно 8,0 часов. Найдите 95% доверительный интервал для оценки среднего количества часов в неделю, которое дети проводят за просмотром телепередач
На основании исследований с 95% вероятностью можно утверждать, что за просмотром телевизора дети проводят от 25,93 до 28,65 часов. Формулы для вычисления приведены на рис 2.4.

Доверительный интервал для математического ожидания с неизвестной дисперсией
Как правило, дисперсия оцениваемого параметра является величиной неизвестной. Тогда находят исправленную выборочную дисперсию, а доверительный интервал строится с помощью 
Функция СТЬЮДРАСПОБРО возвращает значение 

где 

Пример с решением №2.3.
Владелец таксопарка хочет спрогнозировать свои расходы на следующий год. Основной статьей расходов является покупка топлива. Так как бензин стоит дорого, владелец стал использовать газ. Были выбраны восемь такси, и оказалось, что число миль на галлон соответственно равно 28,1, 33,6, 41,1, 37,5, 27,6,36,8, 39,0 и 29,4. Оцените с доверительной вероятностью 95% средний пробег на один галлон газа для всех такси в парке, предполагая, что он распределен нормально.

После исследования оказалось, что средний пробег на один галлон для всех такси в парке находится между 29,71 и 38,81 миль на галлон. Формулы для вычисления приведены на рис.2.5.
Доверительный интервал для дисперсии и среднего квадратического отклонения
Рассмотрим нормально распределенную случайную величину, дисперсия 




Теперь с доверительной вероятностью 


Доверительный интервал для дисперсии запишется в виде неравенства:

Выборочня исправленная дисперсия несмещенная оценка генеральной дисперсии равна:

Так как 

имеет 





Тогда уравнение 2.9 примет вид:

из которого доверительный интервал для 

С помощью функции ХИ20БР можно найти верхнюю и нижнюю границы 



Подставив найденные значения в уравнения:

получим верхнюю и нижнюю границы доверительного интервала для дисперсии:

Доверительный интервал для среднего выборочного значения а получится, если извлечь корень из каждой части предыдущего неравенства.
Доверительный интервал для доли признака генеральной совокупности
Проводится серия из 




Если 


Зададим доверительную вероятность 



Интервал 


При большом числе испытаний Бернулли 

где 
a 
Тогда доверительный интервал генеральной доли признака можно найти, используя функцию Лапласа:
Откуда

Рассматривают два случая: большое количество проведенных испытаний и малое. В случае малого объема выборки найти 

Проверка статистических гипотез о числовых значениях параметров нормального распределения
Данные выборочных обследований часто являются основой для принятия одного из нескольких решений. При этом любое суждение о генеральной совокупности будет сопровождаться случайной погрешностью и поэтому может рассматриваться лишь как предположительное.
Под статистической гипотезой понимается всякое высказывание о виде неизвестного распределения, или параметрах генеральной совокупности известных распределений, или о равенстве параметров двух распределений, или о независимости выборок, которое можно проверить статистически, то есть опираясь на результаты случайных наблюдений.
Наиболее часто формулируются и проверяются гипотезы о числовых значениях параметров генеральной совокупности, подчиняющихся одному из известных законов распределения: нормальному, Стьюдента, Фишера и др.
Основные понятия статистической гипотезы
Подлежащая проверке гипотеза называется основной (нулевой) обозначают её 
Каждой основной гипотезе противопоставляется альтернативная (конкурирующая) гипотеза 

Статистическая проверка гипотез, основанная на результатах выборки, связана с риском, принять ложное решение. Если по выборочным данным основная гипотеза отвергнута, в то время как для генеральной совокупности она справедлива, то говорят об ошибке первого рода. Вероятность допустить такую ошибку принято называть уровнем значимости и обозначать а (10%, 9%,… 1%).
Рассматривается и ошибка второго рода, когда основная гипотеза принимается, в действительности же верной оказывается альтернативная гипотеза. В таком случае говорят об ошибке второго рода, а вероятность допустить эту ошибку обозначают 

Поскольку ошибки первого и второго рода исключить невозможно, то в каждом конкретном случае пытаются минимизировать потери от этих ошибок. Увеличение объема выборки является одним из таких путей.
Критерии проверки. Критическая область
Вывод о соответствии выборочных данных с проверяемой гипотезой делается на основе некоторого критерия. Критерий проверки гипотезы реализуют с помощью некоторой статистики 








После выбора критерия множество всех его возможных значений разбивают на два непересекающихся подмножества. Одно содержит значения критерия, при которых нулевая гипотеза отклоняется, это множество значений называют критической областью. Другое, называют областью принятия гипотезы — содержит совокупность значений, при которых нулевая гипотеза принимается.
Вычисленное по выборке значение критерия (




Если 
Общая схема проверки гипотезы
Проверка гипотезы с помощью уровня значимости.
- Формулируется нулевая гипотеза и альтернативная ей.
- Выбирается уровень значимости.
- Определяется критическая область и область принятия гипотезы.
- Выбирают критерий, и находят его расчетное значение по выборочным данным.
- Вычисляют критические точки.
- Принимается решение.
Другим способом проверки гипотезы является вывод р-значения (значения вероятности). В этом случае не указывается уровень значимости и не принимается решения об отбрасывании нулевой гипотезы. Вместо этого проверяем насколько правдоподобно, что полученная оценка соответствует значению генеральной совокупности. При левостороннем или правостороннем критерии рассчитываются вероятности попадания статистики 0 в критическую область. Если применяется двухсторонний критерий, то оценивается разность между выборочным средним и предполагаемым средним совокупности по модулю. Если р-значснис мало, то выборочное среднее значительно отличается от среднего совокупности.
Проверка гипотезы о математическом ожидании нормально распределенной (m0) случайной величины при известной дисперсии
Пусть генеральная совокупность имеет нормальное распределение, причем её математическое ожидание равно 



На рис. 2.6. приведены возможные варианты проверки нулевой гипотезы. Результаты проверки включают в себя решение о принятии нулевой или альтернативной гипотез, основанные на уровне значимости альфа и р-значении.
Пример с решением №2.4.
Клиенты банка в среднем снимают со своего счета 100$ при среднем квадратическом отклонении 
На каждого клиента банк резервирует сумму в 160$. По выборочным данным эта сумма составляет 100$.
Проверим гипотезу, может ли банк снизить свои резервы, то есть основная гипотеза может быть записана

В качестве альтернативной гипотезы рассмотрим ситуацию: «банк сможет обеспечить клиентов, если расчетная сумма выплат для каждого клиента будет снижена до 100$», тогда

Принимается гипотеза 

С надежностью 95% можно гарантировать, что у банка имеется остаток более 6000$.
Проверка гипотезы о математическом ожидании при неизвестной дисперсии
Пусть генеральная совокупность имеет нормальное распределение, причем её дисперсия неизвестна. Данная ситуация более реалистична, чем предыдущая. Пусть есть основания утверждать, что 
По результатам выборки найдем 

где 

которая имеет распределение Стьюдента с 
Пример с решением №2.5.
Производитель выпускает стальные стержни. Для улучшения качества планируется внедрить новую технологию, которая получить стержни по средней прочности лучшие на излом. Текущий стандарт прочности на излом составлял 500 фунтов.
Характеристики прочности стержней, произведенных по новой технологии, представлены в D3:D14 рис. 2.9. сформулируем гипотезу об увеличении прочности стержней.
Если
Возьмем выборочное среднее 
Новая технология позволит улучшить среднюю прочность стержней. Так как 
Построим сравнительные графики новой технологии и стандарта (рис2.10).
Большинство наблюдений превышает стандартную прочность излома стержней. Такая ситуация практически невозможна, если случайная величина имеет нормальное распределение со средним значением 500 фунтов следовательно по данным выборки можно предположить, что новая технология дает увеличение прочности.
Проверка гипотезы относительно доли признака
Рассматривается два основных типа задач:
1) сравнение выборочной доли признака 
Для проверки этой гипотезы используют статистику :

которая имеет нормальное распределение 
Критическое значение этой статистики можно найти по заданному уровню значимости 
2) для сравнения долей признака двух выборок 


Для больших выборок вводится статистика 

Используют функцию НОРМРАСПОБР для поиска критического значения по уровню значимости альфа, и сравнивают с расчетным значением

Малые выборки (
Оценка среднего по двум выборкам
При анализе экономических показателей довольно часто приходится сравнивать две генеральные совокупности. Например, можно сравнить два варианта инвестирования по размерам средних дивидендов, качество знаний студентов двух университетов — по среднему баллу на комплексном тестовом экзамене. Если дисперсии известны, то можно использовать Двухвыборочный z-тест для средних. Кроме этого существуют три варианта Двухвыборочный t-тестов. Эти три средства допускают следующие условия: равные дисперсии генерального распределения, дисперсии выборок не равны, а также представление двух выборок до и после наблюдения по одному и тому же субъекту.
Для запуска этих инструментов анализа данных надо выполнить действия меню Сервис/Анализ данных выберите из списка нужный вам пункт.
Для выполнения таких проверок инструментами анализа Excel требуется наличие двух выборок, оценка полагаемой разницы между средними значениями выборок и альфа — уровень значимости. Все перечисленные критерии предполагают, что рассматриваемые совокупности нормально распределены, и выборки получены случайно.
Случай равных дисперсий
Рассмотрим данный критерий на примере.
Пример с решением №4.1.
На заводе проводится эксперимент по оценке новой технологии сборки устройств. Рабочие делятся на две группы; одна обучается новой технологии, другая — стандартной. В конце обучения измеряется время (в минутах), необходимое рабочему для сборки устройства. Результаты приведены в диапазоне A L:В10 рис 4.1. Можно ли сделать вывод, исходя из данных выборок, что время сборки по новой технологии меньше, чем по стандартной.
На листе Exccl постройте графики для выборок Стандартная и Новая. Разброс (дисперсии равны) данных практически одинаковый, этот вывод можно сделать, изучив амплитуды колебания графиков (рис. 4.1). Маркеры графика Новая расположены ниже, поэтому можно предположить, что среднее время сбора устройств по новой технологии меньше.
Выдвигаем гипотезу: «Среднее время сборки по новой технологии не изменилось», . эту гипотезу можно записать в виде:

В диалоговом окне Анализ данных и выберите Двухвыборочный t-тест с одинаковыми дисперсиями. Заполните поля, как показано на рис.3.2. и нажмите кнопку ОК. результат появится на листе Excel в диапазоне D4: F16, как на рис 3.3.
Описание полученных результатов сравнения средних двух выборок (рис.3.3).
Объединенная дисперсия — это взвешенное среднее выборочных дисперсий, со степенями свободы каждой дисперсии в качестве весов (8). Она является оценкой общей дисперсии двух выборок и используется для определения стандартной ошибки разности средних.









Найденное расчетное значение 


Если бы рассматривалась левосторонняя гипотеза, то:

Можно построить доверительный интервал для разности средних значений выборок (результат в диапазоне Н3:18 рис. 3.4).
Среднее разности находится как разность ЕЗ — F3,


Половина длины равна произведению 
Доверительный интервал для разности средних значений равен (-1,046; 8,379) с вероятностью 95%.
Случай разных дисперсий
В данном случае не предполагается равенство дисперсий выборок, но сохраняется требование их нормальности и независимости.
Для принятия решения в таких случаях надо использовать Двухвыборочный t-тест с различными дисперсиями.
Пример с решением №3.2.
Для производства нового продукта предлагается две схемы размещения рабочих. Шесть случайно отобранных рабочих собирают изделие по схеме А, а другие восемь — по схеме В. Время сборки записывается соответственно в столбец А и В рис 3.5. Можно ли сделать вывод с 5% уровнем значимости, что время сборки различаются в схемах, при условии, что они нормальные.
Построим диаграммы данных выборок и сравним среднее время сборки и разброс.
Сравнивая графики для схем 


Выдвинем гипотезу: «Размещение рабочих не влияет на время сборки изделий:
В качестве альтернативной гипотезы выдвинем предположение: «время сборки изделий по схеме 

Для проверки этой гипотезы следует применить двухсторонний критерий. Инструкции по использованию 
Сравнивая расчетное значение 


Используя 
Парный выборочный критерий
Критерий используется в случае, когда одна и та же группа наблюдается дважды. Обычно это происходит при измерении характеристик до и после эксперимента. Например, студенты могут тестироваться дважды до и после курса по некоторой дисциплине. Можно использовать критерий и для других естественных пар наблюдений.
Пример с решением №3.3.
Исследователь хочет определить, имеется ли разница в успешности автомобильных сделок при их проведении продавцами женского и мужского пола. Для этого были выбраны восемь продавщиц и определена комиссия, заработанная каждой в прошедшем году. Так как опытность влияет на размер комиссии, то исследователь записала и стаж работы для каждой из восьми женщин. Данные приведены в столбцах 

Нулевая гипотеза состоит в том, что разность средних совокупностей равна нулю. Однако по результатам выборок получено среднее значение разности и она равна 2,25 тыс. рублей. Тогда в качестве альтернативной гипотезы рассмотрим утверждение, что продавцы различных полов имеют различные показатели. Для проверки гипотез применим Двухвыборочных парный t-тест для средних. После его запуска в диапазоне F1 :Н 14 будут помещены результаты применения этого критерия. Они практически ничем не отличаются от предыдущих результатов (пример 4.1, пример 4.2), только в ячейке G7 содержится коэффициент корреляции.
Принимая решение, для данного теста мы вынуждены принять гипотезу о равенстве средних значений комиссии у продавцов мужчин и женщин. Об этом говорят значения 

В случае проверки с гипотезы с помощью 

В диапазоне J1:K7 представлены вычисления 95% доверительного интервала для разности средних выборок.
Анализ дисперсий

Двухсторонний критерий применяется в случае, если альтернативная гипотеза состоит в том, что дисперсии выборок различны. Для этого составляется отношение дисперсий, которое сравнивается с единицей.
Если альтернативная гипотеза проверяет утверждение о том, что дисперсия одной выборки строго больше дисперсии другой выборки, применяется односторонний критерий.
Напомним, что заданный уровень значимости альфа для двухстороннего критерия делится пополам.
В примере 3.2. проверялась гипотеза о равенстве средних значений выборок, представляющих две схемы размещения рабочих мест. При этом предполагалось, что дисперсии этих выборок не равны. Воспользуемся данными этого примера и проверим гипотезу о равенстве дисперсий. Применим двухсторонний 





Можно не использовать двухвыборочный 

Значение статистики 
Критерий хи-квадрат (критерий согласия)
Этот критерий используют для проверки гипотезы о виде распределения выборки. Её проверка состоит в том, чтобы на основе сравнения фактических и теоретических частот сделать вывод о соответствии фактического распределения аредполагаемому. В критерии используется статистика:

где 



Статистика 6.1 подчиняется ХИ-квадрат распределению с 


В некоторых случаях сравнение может проводиться с заранее данным распределением, или с распределением у которого часть параметров указана (а не рассчитывается по выборочным данным). В этом случае число к (параметров генерального распределения) уменьшается.
Для применения критерия ХИ-квадрат требуется выполнение условий:
- экспериментальные данные должны быть независимыми;
- объем выборки должен быть достаточно большим (не менее 50);
- частота в каждой группе должна быть не менее 5. Если это условие не выполняется, то проводят объединение малочисленных интервалов, при этом частоты объединенных интервалов суммируются.
При полном совпадении теоретического и фактического распределений 



которое находится по заданному уровню значимости. Гипотеза 

Основанием для выдвижения гипотезы о виде распределения генеральной совокупности могут служить:
- формальные свойства числовых характеристик выборочных данных:
a. равенство нулю ассиметрии и эксцесса является признаком нормального распределения;
b. дисперсия и среднее значение выборки равны является признаком распределения Пуассона и т.д;
- графический анализ выборочных данных: полигон, гистограмма, функция накопленных частот их сравнение с теоретическими функциями известных распределений.
Если статистический ряд не является интервальным, то его данные подвергаются группировке и представляются в виде q интервалов равной длины. Далее находят количество вариант, попавших в каждый частичный интервал. Если значения статистического ряда являются равноотстоящими вариантами с заданными частотами, то данные можно и не группировать.
Проверка гипотезы о нормальном распределении генеральной совокупности
В предыдущих примерах мы пользовались тем, что значения выборки распределены по нормальному закону распределения. Рассмотрим применение критерия согласия, проверяющего справедливость гипотезы о наличии нормального распределения в совокупности на примере.
Пример с решением №5.1.
Чтобы установить гарантийный срок на товар, производитель хочет проверить является ли срок службы выпускаемого товара нормально распределенным. Случайным образом отобранные 200 единиц товара при проверке распределились следующим образом по количеству отработанных часов:

Запишем нулевую и альтернативную гипотезы:


Проверку будем проводить с помощью встроенных функций Excel. Для этого внесем данные, как показано на рис. 5.1 в ячейки А7:В11.
ШАГ 1. Найдите среднее значение и дисперсию интервального ряда по формулам 1.1 и 1.2. Для этого в ячейки D15:D19 занесите середины интервалов. Середина первого интервала определяется по формуле:

где пять половина длины следующего интервала. Аналогично вычисляется середина последнего интервала, только учитывается половина длины предшествующего интервала. В диапазон Е15:Е19 скопируйте фактические частоты. В ячейку Е20 запишите формулу: =СУММ(Е15:Е19).
В ячейку F15 поместите произведениех^ =D15*E15 и скопируйте в остальные ячейки диапазона F15:F 19. Теперь можете воспользоваться формулой 1.1 для определения среднего, значение которого поместите в ячейку В4.
Дисперсию найдите самостоятельно, для этого лучше воспользоваться формулой:

Сначала выполните следующие действия в ячейках G 15:G19 найдите 


ШАГ 2. В столбце «Вероятность» (рис.5.1) находится вероятность попадания случайной величины в соответствующий интервал. Для вычисления этих значений использовалась функция НОРМРАСП. Для первого интервала левым концом является минус бесконечность, поэтому в ячейку С8 запишите формулу:

Для последнего интервала находим

поэтому вычисление проводится по формуле:

Для вычисления вероятности попадания в интервал 

ШАГ 3. Диапазон «Ожидаемая частота» вычисляется как произведение соответствующих значений столбца «Вероятность» на объем выборки (200). ШАГ 4. Столбец 

В примере рассматривается пять интервалов, а количество параметров предполагаемого распределения два (среднее и стандартное отклонение) рассчитывается по выборке, поэтому число степеней свободы (СС) равно двум (5-2-1=2). В ячейки А14:В19 введите формулы согласно рис. 5.2.

В ячейке В19 делается вывод, что распределение часов работы, выпускаемого товара нормальное, это же подтверждает и р-значение.
Проверка гипотезы о распределении генеральной совокупности но закону Пуассона
Параметром этого распределения является 


Пример с решением №5.2.
Проведено наблюдение за числом вызовов такси в праздничные дни. Для этого анализировалось 100 случайно выбранных одно минутных интервалов времени. Число вызовов такси в минуту распределилось следующим образом:

Проверить, используя критерий Хи-квадрат, гипотезу о том, что число вызовов согласуется с законом Пуассона с уровнем значимости 
ШАГ 1. Внесите данные на лист Excel и найдите теоретические частоты (диапазон D2:D7), как показано на рис 5.3.
ШАГ2. Найдите слагаемые формулы 5.1. Для этого скопируйте значения фактических и теоретических частот, как показано на рис. 5.4, в ячейку С12 запишите формулу:


Можно сделать вывод о том, что число вызовов такси в праздничные дни имеет распределение Пуассона.
Проверка гипотезы о распределении генеральной совокупности но равномерному закону
Пусть случайная величина 


Пример с решением №6.3.
На рис.6.5 приведена частота появление на остановке автобусов определенного маршрута, имеющих интервал движения, пять минут 

При проверке гипотезы, так же как и в случае нормального распределения найдено критическое значение (рис. 5.2) и р-значение, которое характеризует вероятность выполнения гипотезы 
Проверка гипотезы о распределении генеральной совокупности но показательному закону
Как и в предыдущих проверках, выборочные данные сгруппируйте и запишите в виде последовательности частичных интервалов и соответствующих им частот. Найдите выборочное среднее значение 


Вероятности попадания случайной величины в интервалы определите с помощью функции ЭКСПРАСП.
Выполните расчеты как показано на рис. 5.6. Столбцы Е, F заполните как в примере 5.1. В столбце вероятность:
В ячейку D4 запишите =ЭКСПРАСП(В4;$Р$19;1);
В ячейку D5 поместите =ЭКСПРАСП(В5;$Р$ 19; 1 )-ЭКСГ1РАСП(A5;$F$ 19; 1), скопируйте её в остальные ячейки столбца D.
Сравнивая критическое и расчетное значение статистики ХИ-квадрат при 5% уровне значимости, можно сделать вывод, что нет оснований отвергать гипотезу 
Проверка гипотезы о распределении генеральной совокупности но биномиальному закону распределения
Пример с решением №5.4.
В библиотеке отобрано 200 партий по пять книг для обучения студентов в семестре. Каждому студенту было предложено заполнить опросный лист числа повреждений в книге. В итоге был получен вариационный ряд:

При уровне значимости 5% проверьте гипотезу о биномиальном распределении числа повреждений в книгах.
Биномиальное распределение имеет один неизвестный параметр — 


Выделенные ячейки следует объединить в одну группу, тогда количество рассматриваемых интервалов равно четырем.
Относительная частота находится по формуле

Прежде чем перейти к столбцу вероятность найдите оценку 


Столбец вероятность заполните с помощью формул :
Остальные ячейки заполняем, копируя полученную формулу.
Вывод: можно считать число повреждений в книге подчиняется биномиальному закону распределения.
Использование статистики ХИ-квадрат для изучения зависимостей двух переменных
Одним из приложений критерия 
Пример с решением №5.5.
Компания продает четыре сорта колы в Москве. Чтобы определить, будет ли успешным тот же способ распространения в Ростове и Краснодаре, фирма анализирует связь между предпочтениями и городом потребителя. Аналитик распределяет покупателей на четыре класса по предпочтениям сортов колы: обычная, без кофеина и сахара, только без кофеина, только без сахара. Опрашивают 250 случайно выбранных потребителей колы из трех городов и записывают их предпочтения. В результате получается таблица частот.

Так как аналитик определяет связь между городом и предпочтением определенного вида колы, то нулевая и альтернативная гипотезы следующие: 

На лист Excel поместим данные о распространении сортов кофе в диапазон В5:Е7 (рис 6.8). Расчет ожидаемых частот проводится в предположении, что нулевая гипотеза выполняется, то есть переменные независимые, а значит вероятность их произведения равна произведению вероятностей каждой их них. Поэтому таблица ожидаемых частот строится по формуле:

Ожидаемые частоты поместите в диапазон В12:Е 14. Для их вычисления, воспользуйтесь смешанной и абсолютной ссылками на ячейки сумма по строке, сумма по столбцу, общая сумма. Результаты вычисления приведены на рис. 6.9.
Для сравнения ожидаемых и фактических частот воспользуемся ХИ2ТЕСТОМ (рис. 5.8). В ячейку В17 внесите формулу:

Получите р-значение равное 0,00000013, которое определяет вероятность выполнения нулевой гипотезы. Можно сделать вывод, что нулевая гипотеза отвергается, то есть люди из разных городов предпочитают различные сорта колы.
Проверим эту же гипотезу с помощью статистики ХИ-квадрат. Слагаемые формулы 6.1 найдем с помощью Фактических и Ожидаемых частот. Для этого в ячейку В21 введите формулу:

и скопируйте её для всего диапазона B21:F23 (рис.5.9).

- Сумму слагаемых ХИ-квадрат поместите в ячейку В25 (рис.5.9).
- В ячейке В27 задайте уровень значимости (альфа равно 0,01).
- Число степеней свободы (СС) найдите по формуле:

- Критическое значение (В29) найдем с помощью

- В ячейку ВЗО помести функцию:

Так как ХИ-квадрат больше критического значения, то принимается гипотеза 

Критерии Колмогорова-Смирнова
Этот критерий является альтернативой критерию ХИ-квадрат. Его применение не требует вычисления ожидаемых частот и может использоваться для малых выборок. Данные должны представлять случайную выборку и обязательно должна быть сформулирована гипотеза о распределении генеральной совокупности. Нулевая гипотеза утверждает, что генеральная совокупность имеет выбранное распределение с определенным уровнем значимости.
Применение критерия Колмогорова-Смирнова основано на оценке разности функции накопленных частот 


где 



Если D больше критического значения, взятого из таблицы соответствующего критерия для объема выборки п и уровня значимости 
Если необходимо проверить нулевую гипотезу о принадлежности двух выборок (объема 


где 

Статистика сравнивается с критическим значением 

Пример с решением №6.1.
Получена случайная выборка о среднем дневном заработке, руб/день, для пяти работников: 288, 231, 249, 146, 291. можно ли считать на 10% уровне значимости, что выборка проведена из нормально распределенной генеральной совокупности со средним значением





ШАГ 1. Заполните диапазон А5:А9 выборочными данными и отсортируйте их по возрастанию.
ШАГ 2. Найдите относительные частоты для перечисленных вариант и поместите их в столбец В.
ШАГ 3. Для определения значений функции накопленных частот в ячейку С5 внесите формулу: = В5, в ячейку С6 запишите: =С5+В6 и скопируйте её для ячеек диапазона С7:С9.
ШАГ 3. Для заполнения столбца D, внесите в ячейку D5 формулу:

и скопируйте её на остальные ячейки диапазона D6: D9.
ШАГ 4. В ячейку Е5 внесите формулу: =ABS(C5-D5) и скопируйте для остальных ячеек диапазона Е5:Е9
ШАГ 5. Найдите максимальное значение статистики D и сравните с критическим, взятым из таблицы при уровне значимости 10% и числе степеней свободы равном пяти. Сравнивая эти можно сделать вывод, что выборка взята из нормально распределенной генеральной совокупности с

Линейная регрессия и корреляция
Регрессия и корреляция широко используется при анализе связей между явлениями. Прежде всего, в экономике — исследование зависимости объемов производства от целого ряда факторов: размера основных фондов, обеспеченности предприятия квалифицированным персоналом и других; зависимости спроса или потребления населения от уровня дохода, цен на товары и т.д. Экономические показатели являются многомерными случайными величинами.
В большинстве случаев между переменными, характеризующими экономические величины, существуют зависимости, отличающиеся от функциональных. Она возникает, когда один из факторов зависит не только от другого, но и от ряда случайных условий, оказывающих влияние на один или оба фактора. В этом случае ее называют стохастической (корреляционной) и говорят, что переменные коррелируют. Виды стохастических связей между факторами могут быть линейными и нелинейными, положительными или отрицательными. Возможна такая ситуация, когда между факторами невозможно установить какую-либо зависимость.
Однако при изучении влияния одного явления на другое удобно работать именно с функциями, связывающими эти явления. Задачи построения функциональной зависимости между факторами, анализа полученных результатов и прогнозирования решаются с помощью регрессионного анализа.
В пособии приводятся решения задач содержащих небольшое количество данных, для того чтобы пользователь мог быстро ввести значения в таблицу Excel. Каждое решение содержит подробную инструкцию. Сначала рассмотрите пример и проверьте результаты. Затем примените пошаговые инструкции к собственному множеству данных.
Корреляционная зависимость
Для изучения зависимости между двумя числовыми переменными (

Теперь можно выдвинуть предположение о существовании линейной или нелинейной зависимости между переменными. Для этого найдите коэффициент корреляции и проверьте его значимость.
Тесноту линейной зависимости изучаемых явлений оценивает линейный коэффициент парной корреляции 

где 
Ковариация является мерой взаимосвязи случайных величин и может служить для определения направления их изменения:
если 
если 
Очевидными свойствами ковариации являются:
Коэффициент корреляции (1.1) является величиной безразмерной. Случайные величины 







В пакете Анализ данных есть инструменты Ковариации и Корреляция, позволяющие сделать вывод о линейной зависимости случайных величин.
Пример с решением №7.1.
Для анализа зависимости объема потребления 



Постройте график рассеяния и сделайте вывод о виде функциональной зависимости между объемом потребления и ежемесячным доходом в семье.
Инструкции по выполнению задания
- Расположите данные в столбцах таблицы так, чтобы значения х были слева, а у справа (рис. 1.1).
- Выделите диапазон ячеек.
- Щелкните мышью по кнопке Мастер диаграмм и выберите тип Точечная. Для форматирования диаграммы удобно использовать контекстное меню, которое вызывается щелчком правой кнопки мыши на форматируемом объекте.
- Дайте название диаграмме Корреляционное поле.
- Расположите диаграмму на листе, содержащем данные, как показано на рис.
Применим встроенную функцию КОРРЕЛ(диапазон 

Проверим значимость коэффициента корреляции. Для этого сформулируем основную и альтернативную гипотезы:



Для проверки гипотезы воспользуемся 

Сравнивая эти значения, сделаем вывод о том, что основная гипотеза отклоняется в пользу альтернативной, т.е. коэффициент корреляции значим. По расположению точек на рис. 1.1 можно предположить, что между 



Корреляционный анализ данных
При выполнении многомерного анализа данных изучают корреляцию между каждой парой переменных. Эти результаты представляют в виде корреляционной матрицы. Инструмент анализа Корреляция позволяет определить парные корреляции для многих переменных. После его запуска получится нижняя треугольная часть матрицы, на диагонали которой будут стоять единицы 

Если надо изучить зависимость между переменными при условии управления одной или несколькими переменными, то находят коэффициенты частной корреляции. Частные коэффициенты корреляции могут оказаться полезными при определении ложных связей.
Например, изучается зависимость 







Надо найти частные коэффициенты корреляции, т.е. элиминировать один из факторов (устранить его влияние). В случае трех факторов корреляцию между 



Подобным образом находят и остальные коэффициенты частной корреляции.
Пример с решением №7.2.
Формируется три портфеля из десяти акций. Первый состоит из 10 акций вида 





Имеется ли зависимость между акциями 


Инструкции по выполнению задания
- Введите данные в ячейки A1: C11, как показано на рис. 1.2.
- В меню сервис выберите Анализ данных / инструмент Корреляция. Заполните поля диалогового окна, как показано на рис. 1.3. и нажмите ОК.
- Аналогично найдите матрицу парных ковариаций.
Описание результатов
Коэффициенты корреляции не очень высокие:

Акции плохо коррелируют между собой, то есть между дивидендами по акциям существует слабая линейная зависимость.
Так как коэффициент ковариации для дивидендов по акциям 




Если рынок ценных бумаг устойчивый, то желательно исключить акции вида 

Акции 


Дисперсии для первого портфеля :

Для второго:


Третий портфель имеет дисперсию:

Вывод: наименьший риск получается при покупке акций 

Чтобы принять окончательное решение надо построить множество Парето, характеризующее зависимость доходности портфеля от его риска, т.е. математического ожидания и дисперсии:

Построение тренда для двух рядов данных
Задача построения функциональной зависимости может быть выполнена с помощью команды Добавить линию тренда. В этом случае необходимо визуально исследовать зависимость между х и у и выбрать график элементарной функции, который даст лучшее приближение к экспериментальным данным. Форматирование графиков выполняется с помощью меню Диаграмма. Напомним, что форматируемый объект должен быть выделен.
Существуют и другие способы форматирования: контекстное меню — вызывается для объекта с помощью правой клавиши мыши.
Прежде всего, надо исследовать корреляционное поле и сделать вывод о характере зависимости между переменными. Затем выполните действия (тренд построен для данных примера 1.1):
- На диаграмме (рис. 1.1) выделите маркеры, щелкнув по любой из точек данных.
- В меню диаграмма выберите Добавить линию тренда (можно воспользоваться контекстным меню).
- Перейдите на вкладку Тип диалогового окна Линия тренда, как показано на рис. 1.5 и выделите пиктограмму Линейный.
- Откройте вкладку Параметры (рис. 1.6) включите опции Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации
.

На вкладке параметры имеются и другие типы функциональных зависимостей. Предлагается самостоятельно построить остальные виды тренда и записать их уравнения. Не забывайте включать опции из пункт 4, приведенной выше инструкции.
Инструмент анализа регрессия
Дает возможность провести более полный анализ, полученного уравнения линейного тренда с использованием методов математической статистики.
Коэффициенты уравнения линейной регрессии находятся по выборочным данным и являются величинами случайными, поэтому надо провести анализ их значимости (значимости). Надо определить значимость всего уравнения регрессии и самое главное построить прогноз по построенному уравнению, а затем провести его оценку значимости.
При построении линейного тренда предполагается, что линейная модель наилучшим образом характеризует зависимость между 


где 


Уравнение прямой (1.2), коэффициенты которого находят по выборочным данным, называют уравнением регрессии и обозначают 

Коэффициенты регрессии 




индекс 
• случайные отклонения имеют нормальный закон распределения;
• отсутствуют ошибки спецификации;
• число наблюдений достаточно большое: как минимум в шесть раз превышает число объясняющих факторов и другие.
Оценку 
Можно установить зависимость между коэффициентом регрессии и коэффициентом корреляции:

В качестве меры рассеивания фактического значения у относительно теоретического значения 

Оценка качества полученного уравнения регрессии содержит следующие пункты:
- Оценка значимости коэффициентов регрессии;
- Построение доверительных интервалов для каждого коэффициента;
- Оценка значимости всего уравнения регрессии;
- Построение прогнозного значения и доверительного интервала к ним. Для определения статистической значимости коэффициентов регрессии и корреляции необходимо рассчитать
-статистики Стьюдента лучше всего это сделать с помощью встроенной функции СТЬДРАСПОБР [1].
Оценка значимости коэффициентов регрессии и корреляции
Устанавливает надежность полученных результатов. Случайные ошибки коэффициента корреляции и оценок параметров линейной модели вычисляются по формулам:

стандартное отклонение коэффициента 

стандартное отклонение коэффициента 

стандартное отклонение коэффициента корреляции.
Любое стандартное отклонение иногда называют стандартной ошибкой соответствующего коэффициента.
Рассматривается основная гипотеза о равенстве параметров регрессии нулю.





Критическое значение 



Выдвинутая гипотеза:
Часто при проверке качества коэффициентов используют «грубое правило»:
• если 
• если 
• если 

• если 
Каждая оценка дополняется доверительным интервалом. Для этого определяют предельную ошибку [1] для каждого коэффициента:

откуда границы доверительных интервалов находятся по формуле:

Коэффициент детерминации для парной регрессии совпадает с квадратом коэффициента корреляции 




Разделив обе части уравнения на общую сумму квадратов отклонений, получим:

Таким образом, коэффициент детерминации 





Корень квадратный из коэффициента детерминации называется индексом корреляции и обозначают 
Для проверки общего качества уравнения регрессии выдвигается предположение, что коэффициенты 





При выполнении условий МНК статистика имеет распределение Фишера с числом степеней свободы 



■ если 


■ если 

В случае линейной регрессии проверка нулевой гипотезы для 


Можно доказать равенство:

Самостоятельную значимость коэффициент 
Поиск прогнозного значения и его оценка
Прогнозное значение 


Границы доверительного интервала для параметра 

Чтобы найти стандартную ошибку 





Доверительный интервал для отдельного значения 


Доверительный интервал для условного среднего не учитывает дисперсию для всего уравнения регрессии (1.4), поэтому формула для вычисления ошибки прогноза имеет вид:

Пример с решением №7.3.
Воспользуемся данными примера 1.1 для выполнения следующих заданий:
- по данным выборок постройте линейную модель
;
a. оценить параметры уравнения регрессии 
b. оценить статистическую значимость коэффициентов регрессии;
c. оценить силу линейной зависимости между 

d. спрогнозируйте потребление при доходе 
- постройте модель, не содержащую свободный член
.
a. найдите коэффициент регрессии 
b. оценить статистическую значимость коэффициента 
c. оценить силу общее качество уравнения регрессии;
- значимо или нет различаются коэффициенты
на?
- какую модель вы выбираете?
Инструкции для выполнения примера с помощью инструмента Регрессия пакета анализ.
Для задания 1.
- Наберите исходные данные на лист Excel, как и раньше по столбцам (рис 1.1).
- Найдите инструмент Регрессия в пакете Анализ данных и нажмите ОК. появится диалоговое окно (рис. 1.8)
- Входной интервал
: введите ссылки на значения переменной
, включая метки диапазона.
- Входной интервал
: введите ссылки на значения переменной
, включая метки диапазона.
- Включите опцию Метки.
- Включите опцию Уровень надежности и введите в поле значение 98.
- Установите параметр вывода результатов, имя ячейки.
- Включите опцию вывод остатков для получения теоретических значений
.
- Нажмите ОК.
- Появятся итоговые результаты (рис 1.9).
- Выделите диапазон Вывод остатков и перенесите его, как показано на рис. 1.9.
Все оценки по умолчанию проводятся в excel с уровнем значимости
Описание результатов поданным примера 1.1
Рисунок 1.9. состоит из четырех блоков: Регрессионная статистика, Дисперсионный анализ, данных для коэффициентов регрессии и их оценок, вывод остатков. Опишем более подробно полученные результаты.
Регрессионная статистика содержит строки, характеризующие построенное уравнение регрессии:
Для парной регрессии Множественный 



Строка 







Дисперсионный анализ
Он позволяет исследовать общую дисперсию у (строка ИТОГО), дисперсию для теоретических данных (строка Регрессия) и остаточную дисперсию (строка Остаток).
Второй столбец 
В третьем столбе 
Четвертый столбец 

В пятом столбце вычисляется по выборочным данным значение статистика 


с уровнем значимости 0,05. С его помощью можно оценить значимость всего уравнения регрессии. Это значение можно считать вероятностью выполнения гипотезы 
Построение уравнения регрессии и оценка значимости ее коэффициентов
Этот блок состоит из трех строк:
названия столбцов — первая строка





используя их можно записать уравнение линейной регрессии:

Столбец Стандартная ошибка содержит значения

В столбце 

По «грубому правилу» можно сделать вывод, что 

Подтвердить эти выводы можно с помощью данных столбца 

которое можно считать вероятностью выполнения гипотезы 


Доверительные интервалы строятся для коэффициентов по умолчанию с доверительной вероятностью 95%. Границы интервалов находятся в столбцах Нижнее 95%, Верхнее 95%:

Так как нами была включена опция уровень надежности 98%, то получены доверительные интервалы и для этого значения 

Описания, приведенные выше, практически позволили ответить на все вопросы задания 1, кроме построения прогнозного значения и доверительного интервала для него. Выполнить это задание можно с помощью блока вывод остатков и функции ТЕНДЕЦИЯ() или непосредственно по формулам (1.14-1.18).
Прогнозируемое потребление при доходе 

Границы доверительного интервала условного среднего значения 

Таким образом, среднее потребление при доходе 160 у.е. с надежностью 95% будет находиться в интервале (152,8993; 15464624).
Для определения границ интервала, в котором сосредоточено не менее 95% возможных объемов потребления при неограниченно большом числе наблюдений и уровне дохода 

Получим границы интервала для прогнозного значения (151,4791; 155,61409). Нетрудно заметить, что он включает в себя интервал для среднего потребления.
Коэффициент 
Свободный член 



Следует помнить, что полученное уравнение регрессии отражает лишь общую тенденцию в поведении рассматриваемых переменных. Индивидуальные значения могут отклоняться от модельных.
Задание2.
Рассмотрим модельное уравнение, не содержащее свободного члена:

тогда соответствующее ему уравнение регрессии:

Проведем исследование этого уравнения, так же как и в задании 1. Запустим инструмент Регрессия. Для заполнения полей диалогового окна (рис. 1.8) повторите действия 3 — 6 из задания 1; обязательно включите опцию Константа ноль и измените параметры выходного интервала так, чтобы вывод итогов задания 1 и задания 2 не пересекались.
Вывод итогов в этом случае представлен на рис 1.12. Строка, соответствующая свободному члену уравнения, содержит запись #Н/Д, так как он отсутствует в уравнении.
Проведите описание результатов самостоятельно для полученного уравнения регрессии 
Обратите внимание, что столбцы Верхнее 95% и Нижнее 95% повторяются, так как опция уровень надежности отключена.
Задание 3.
Проверим значимо или нет, различаются коэффициенты 



Для проверки гипотезы построим статистику

Сравним наблюдаемое значение с критическим при уровне значимости 

Найдем критическое значение с помощью встроенной функции Стьюдента 

Задание 4.
Необходимо сравнить коэффициенты детерминации двух уравнений, значения которых возьмите из отчетов Вывод Итогов (рис. 1.9, рис. 1.10):
для первого уравнения

для второго уравнения

Так как для первого уравнения это значение больше, чем для второго, то можно предположить, что первое уравнение

описывает поведение зависимой переменной лучше, чем второе

так как её коэффициент детерминации больше. Сравнение двух уравнений регрессии с помощью 
Множественная линейная регрессия
Как правило, на изучаемый фактор 

Пусть зависимая переменная 



или для индивидуальных наблюдений 

Уравнение регрессии для индивидуальных наблюдений:












Тогда уравнение (1.18) можно записать в матричном виде:

а так же уравнение (1.20):

Чтобы найти коэффициенты линейной регрессии (1.20), надо решить уравнение (1.22) относительно матрицы В. Для этого умножают обе части матричного уравнения (1.22) на транспонированную матрицу 

Полученное решение справедливо для уравнений регрессии с произвольным количеством объясняющих факторов 


Решение (1.23) уравнения регрессии (1.22) можно найти:
- с использованием методов матричной алгебры;
- с помощью встроенных функций Excel для работы с массивами: МОБР(), ТРАНСП(), МУМНОЖ();
- применить инструмент анализа Регрессия.
Первый способ изучается в курсе Математика и для его реализации необходимо записать все матрицы, характеризующие уравнение 1.23.
Для реализации второго способа коэффициенты этих матриц надо занести на лист Excel, а затем применить правила работы с массивами данных. Необходимо помнить, что матрицы для этих методов имеют вид:

Матрица 

Наиболее простым является последний способ поиска коэффициентов регрессии 1.20. Рассмотрим его применение на примере.
Пример с решением №7.4.
Анализируется объем сбережений 






Задание:
1) найдите коэффициенты линейной регрессии
2) оцените статистическую значимость найденных коэффициентов регрессии
3) оцените силу влияния факторов на объем сбережений населения;
4) постройте 95% -е доверительные интервалы для найденных коэффициентов;
5) вычислите коэффициент детерминации 

6) рассчитайте коэффициенты частной корреляции;
7) определите, какой процент разброса зависимой переменной объясняется данной регрессией;



9) оцените предельную склонность граждан к сбережению. Существенно ли отличается она от 0,5?
10) определите, увеличивается или уменьшается объем сбережений с ростом процентной ставки; будет ли ответ статистически обоснованным;
11) спрогнозируйте средний объем сбережений в 2011 году, если предполагаемый доход составит 270 тыс. руб., а процентная ставка будет равна 5,5%.
12) выводы по качеству построенной модели;
Все расчеты выполним с помощью ППП Excel.
Инструкции для выполнения
- Наберите исходные данные на лист Excel, как и раньше по столбцам (рис 1.13).
- Найдите инструмент Регрессия в пакете Анализ данных и нажмите
, появится диалоговое окно (рис. 1.8)
- Входной интервал
: введите ссылки на значения переменной в столбце
, включая метки диапазона.
- Входной интервал
: введите ссылки на значения переменной в столбцах
и
, включая метки диапазона.
- Включите опцию Метки.
- Включите опцию Уровень надежности и введите в поле значение 99.
- Установите параметр вывода результатов, имя ячейки.
- Включите опцию вывод остатков для получения теоретических значений
.
- Нажмите
.
- Появятся итоговые результаты (рис 1.14).

Описание результатов уравнение линейной регрессии
Используя столбец Коэффициенты, запишем уравнение регрессии:

При изменении доходов в предшествующем году на одну тысячу рублей сбережения увеличатся на 120 рублей, если экономическая ситуация будет стабильной. При увеличении процентной ставки на 1% сбережения могут увеличиться на 350 рублей.

Значимость коэффициентов регрессии
Значение 

Используя «грубое правило», можно сделать вывод, что коэффициенты 


Этот же вывод получите, если исследуете показания столбца 


Значение 

Сравнение коэффициентов регрессии
Простое сопоставление коэффициентов регрессии по модулю не может оценить силу влияния факторов на признак у: такое сопоставление лишено смысла. Однако их можно нормировать (стандартизировать), используя формулу:

где 




Нормированные коэффициенты можно сравнивать и делать вывод о влиянии факторов на переменную 


Уравнение регрессии в стандартизованном масштабе имеет вид:

это означает, что влияние процентной ставки 


Доверительные интервалы для коэффициентов
Находятся в столбцах нижнее/верхнее 95%:

Можно построить доверительные интервалы с уровнем надежности 97% (Рис. 1.14).
Коэффициент детерминации
Коэффициент детерминации находится по формуле (1.11):

Он характеризует долю разброса значений зависимой переменной 

Скорректированный коэффициент детерминации
В случае множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных, т.е. добавление новой переменной увеличивает значение 

■ 



■



Заметим, что несмещенная оценка объясненной дисперсии 



Все суммы можно найти в столбце 


Для нашего примера 
Можно получить формулу, устанавливающую связь между скорректированным коэффициентом детерминации и коэффициентом детерминации:

Очевидно, что:






Коэффициент корректируется с ростом числа объясняющих переменных. Доказано, что скорректированный коэффициент корреляции увеличивается при добавлении новой переменной тогда и только тогда, когда 
В пакете Анализ данных приводятся значения 



Индекс множественной корреляции
Теснота линейной взаимосвязи в линейной регрессии выполняется с помощью индекса корреляции:

Если 




Для нашего примера 
Коэффициенты частной корреляции
Используются для выделения определяющего фактора и второстепенных. Необходимо определить частные зависимости между 




Воспользуйтесь инструкциями примера 1.2. и найдите коэффициенты парной корреляции для вычисления коэффициентов частной корреляции.

Анализируя, полученные данные можно сказать, что факторы 







Доверительный интервал прогноза
Если уравнение регрессии имеет вид:

то прогнозное значение вычисляется так же как в случае парной регрессии. Необходимо подставить заданные значения прогноза

в уравнение регрессии.
Найдем средний объем сбережений в 2011 году, если предполагаемый доход в 2010 году составит 270 тыс. рублей, а процентная ставка вырастет до 5,5%. Подставив эти значения в уравнение регрессии, получим средний объем сбережений в 2011 году:
Точечная оценка объема сбережений в 2011 году может быть дополнена интервальной оценкой, полученной по формуле 1.15:

где

Используя встроенные функции Excel, найдем матричное произведение:

Подставив все значения в 1.28, найдем интервальные оценки среднего сбережения населения в 2011 году:

Склонность населения к сбережению в данной модели отражается через коэффициент 

Для анализа, существенно или нет коэффициент 
Построим 



Так как

то 
Рост процентной ставки увеличивает объем сбережений
Эта зависимость характеризуется коэффициентом 
Анализ качества уравнения регрессии
Первое построенное по выборке уравнение редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей задачей эконометрического анализа является проверка качества уравнения регрессии. Эта проверка проводится по следующим этапам:
■ проверка статистической значимости коэффициентов регрессии;
■ проверка общего качества уравнения регрессии;
■ проверка свойств данных: проверка выполнимости МНК.
По всем показателям нашего примера 1.3 модель может быть признана удовлетворительной:
■ высокие 
■ коэффициент детерминации близок к единице;
Это означает, что модель может быть использована для целей анализа и прогнозирования. Мы не проверили выполнимость МНК и значимость коэффициента детерминации.
Анализ значимости 
Проверяется гипотеза об одновременном равенстве нулю всех объясняющих переменных — уравнение считается незначимым:

Если данная гипотеза не отклоняется, то делается вывод, что совокупное влияние всех m объясняющих переменных на зависимую переменную 
Проверка данной гипотезы проводится на основе дисперсионного анализа, при этом сравниваются объясненная и остаточная дисперсии.

Для проверки гипотезы строится 

которая при выполнении МНК имеет распределение Фишера с числом степеней свободы

Критическое значение находится с помощью:

при уровне значимости 
■ Если 


■ Если 

На практике вместо указанной гипотезы проверяется, связанная с ней гипотеза о статистической значимости коэффициента детерминации 

Очевидно, что если 





Для проверки этой гипотезы числитель и знаменатель формулы 1.29 поделим на общую сумму квадратов отклонений 

Вернемся к результатам нашего примера 1.3. (рис. 1.14).Найдем по таблице распределения Фишера критическую точку для уровня значимости 






Проверка качества двух коэффициентов детерминации
Статистику 

Использовать лучше 

Пусть первоначально построенное по п наблюдениям уравнение регрессии имело вид:

и скорректированный коэффициент детерминации равен 
Исключим из уравнения 



скорректированный коэффициент детерминации, для которого равен 
Необходимо определить существенно ли ухудшилось качество описания зависимой переменной 



которая имеет распределения Фишера с числом степеней свободы

где




Сравним критическое значение 

■ Если 



■ Если 



Аналогично проверяется гипотеза о добавлении к объясняющих переменных в уравнение регрессии. В этом случае составляется статистика:

Исключим фактор 



Коэффициенты и все остальные характеристики для этого уравнения регрессии можно посмотреть на рис 1.16. Сравним новое уравнений с уравнением полученным ранее.

В ячейке N18 находится значение 

Сравнивая эти два значения делаем вывод, что гипотеза 

Проверка качества двух коэффициентов детерминации
Необходимо сравнить два уравнения регрессии для отдельных групп наблюдений, т.е. будет одним и тем же уравнение регрессии для этих выборок. Для проверки этой гипотезы используется тест Чоу.
Пусть имеются две выборки объемом 


Суммы квадратов отклонений 


Выдвинем гипотезу о равенстве соответствующих коэффициентов регрессии

Объединим обе выборки в одну. Для выборки объема 



которая имеет распределение Фишера с числом степеней свободы
Если 



Данные исследования отвечают на вопрос, можно ли за рассматриваемый период времени построить единое уравнение регрессии или же нужно разбить его на части и для каждого временного интервала построить свое уравнение регрессии.
Проверка выполнимости мнк. Автокорреляция остатков. Статистика дарбина-уотсона
Все предыдущие рассуждения основаны на том, что выполняются предпосылки МНК: мы предполагали, что случайные отклонения являются независимыми случайными величинами со средней, равной нулю. При работе с фактическими данными, такое допущение не всегда выполняется. Например, если вид функции выбран неудачно, то отклонения от регрессии вряд ли будут независимыми. В этом случае замечается концентрация положительных или отрицательных отклонений от регрессии и можно сомневаться в их случайном характере.
Если последовательные значения 
МНК в случае автокорреляции дает несмещенные и состоятельные оценки, однако полученные в этом случае доверительные интервалы имеют мало смысла в силу своей ненадежности. Значительная автокорреляция говорит о том, что спецификация модели неправильная. Проверка остатков на автокорреляцию должна выполняться обязательно. Наиболее простым приемом обнаружения автокорреляции является метод Дарбина-Уотсона (



Статистика 

При условии что 


тогда после преобразования получим:

Очевидно, что 
■ 

■ 
■ 

Возникает вопрос, какие значения 







Статистику 

Для вычисления этой статистики запустите инструмент Регрессия, включив опции Остатки и График остатков, как показано на рис. 1.18. В результате получите значение случайных отклонений е, и их графики, которые Excel строит для каждой независимой переменной, как показано на рис. 1.20 и 1.21. Чтобы найти 
Если зависимость между 




Для проверки статистической значимости 


Можно считать, что автокорреляция отсутствует, так как найденная статистика попадает в критический интервал: 1,604<

Мультиколлинеарность
Увеличение числа переменных в уравнении множественной регрессии повышает точность описания взаимосвязи, однако при этом должно выполняться условие, что 
Под мулыиколлинеарностью понимают взаимосвязь объясняющих переменных регрессии. Если между переменными 


При строгой мультиколлинеарности решение матричного уравнения 1.22 становится невозможным, так как матрица 
Если же мультиколлинеарность нестрогая, то решение матричного уравнения формально можно найти, однако все оценки мало надежны.
Чтобы обнаружить мультиколлинеарность надо найти определитель матрицы 
Устранение мультиколлинеарности заключается в исключении одной из двух, находящихся во взаимосвязи переменных, либо путем пересмотра структуры уравнения регрессии. Для оценки влияния факторов на результирующий фактор 

где 
Гомоскедастичность (постоянство дисперсии случайных отклонений)
Для применения МНК требуется, чтобы дисперсия остатков была величиной постоянной. Невыполнимость этого условия называется гетероскедастичностью и влечёт смещенность дисперсий оценок, так как стандартная ошибка регрессии (1.4) становится смещенной.
Обнаружение гетероскедастичности является сложной задачей потому что необходимо знать распределение 




- Все
наблюдений упорядочивают по величине.
- Упорядоченная выборка разбивается на три подвыборки размерностью
,
и
соответственно.
- Центральные наблюдения исключаются из дальнейшего рассмотрения.
- Строят регрессии для первой и последней групп и находят остаточные суммы квадратов
и
соответственно. Если условие гомоскедастичности выполняется, то
, в противном случае
.
- Построенная
-статистика, имеет распределение Фишера с
степенями свободы, где
число объясняющих переменных в уравнении регрессии.
- Чем больше
превышает значение
, тем более нарушена предпосылка о равенстве остаточных дисперсий.
- НЕЛИНЕЙНАЯ РЕГРЕССИЯ
Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих функций:

a) квадратичная функция (полином любой степени);
b) равносторонняя гипербола;
c) степенная;
d) показательная и др.
Кроме указанных функций для описания связи двух переменных можно использовать и другие типы кривых:

Различают два класса нелинейных уравнений:
1) регрессии, нелинейные относительно включенных объясняющих переменных,
но линейные по оцениваемым параметрам;
2) регрессии, нелинейные по оцениваемым параметрам.
К первому классу — нелинейные по переменным — относятся кривые а и b (рис 2.1). Нелинейными по параметрам (второй класс) являются зависимости c и d на рис. 2.1.
Линейные по параметру
Такие модели легко приводятся к линейному виду — линеаризуются. Для линейных но параметру моделей вводят новую переменную (таблица 2.1) и переходят к построению линейной регрессии по преобразованным данным. Применяя инструмент Регрессия, к преобразованным данным можно найти все оценки параметров преобразованных моделей и оценить их качество.
Качество исходной модели можно оценить, используя индекс корреляции (1.26). Оценка статистической значимости индекса корреляции проводится с помощью 

и оценивает по модулю величину отклонений расчетных значений от фактических. Допустимый предел значений средней ошибки аппроксимации не более 8-10%.
Приведем примеры использования нелинейных моделей, перечисленных в таблице 2.1.
Полиномиальная модель (1) может отражать зависимость между объемом выпуска 



Гиперболическая модель (2) — классическим примером этой модели является кривая Филлипса 









Полулогарифмические модели (3) используются, когда необходимо определить темп роста или прироста экономических показателей. Например, при анализе банковского вклада по процентной ставке, при исследовании зависимости прироста объема выпуска продукции от процентного увеличения затрат на расходы, бюджетного дефицита от темпа роста ВВП, темп роста инфляции от объема денежной массы и т.д.
Нелинейные по параметру
Уравнения нелинейные по параметру можно разделить на:
- внутренне линейные — можно привести к линейному виду путем преобразований;
- внутренне нелинейные, которые не могут быть сведены к линейной модели.
Степенная модель:

Если прологарифмировать обе части уравнения 2.2, получится модель, легко приводящаяся к линейному виду:

Надо сделать замену:

получим линейную модель (1.1).
Коэффициент модели 





Так как 
В случае парной регрессии использование обоснование использования степенной модели достаточно просто. Надо построить корреляционное поле для точек 
Данная модель легко обобщается на большее число переменных. Наиболее известная — производственная функция Кобба-Дугласа: 



Лог-линейные модели широко используются в банковском и финансовом анализе:

где 



Прологарифмируем обе части этой модели

Введя замену

получим полулогарифмическую модель:

Коэффициент 






Умножив 


определяет мгновенный темп прироста, а

характеризует темп прироста сложного процента.
Показательные модели используются, когда анализируется изменение переменной 


Если провести логарифмирование, то получится уравнение аналогичное 2.5 В общем виде показательная модель имеет вид:

но в силу равенства

сводится к уравнению 2.8.
Коэффициент эластичности
Рассматривая степенную модель, мы ввели понятие эластичности функции: предел отношения относительных приращений независимой переменной и зависимой называется эластичностью функции

показывает на сколько процентов изменится в среднем результат, если фактор х изменится на 1%.
Для других форм связи Э зависит от значения фактора 



Несмотря на широкое использование в экономике коэффициентов эластичности, возможны случаи, когда они не имеют экономического смысла. Составьте таблицу коэффициентов эластичности для всех рассмотренных нелинейных моделей самостоятельно.
2.4. ПОСТРОЕНИЕ НЕЛИНЕЙНЫХ РЕГРЕССИЙ
Можно воспользоваться командой Добавить линию тренда, так же как в случае линейного тренда (раздел 1.3): необходимо построить корреляционное поле 
Использовать инструмент Регрессия можно только для преобразованных данных. Этот способ дает много не нужной информации.
Пример 3.1. По семи территориям Южного федерального округа за 2001 год известны значения двух признаков:

Задание
- Постройте уравнения регрессии для модели:
a) линейной;
b) степенной;
c) экспоненциальной;
d) логарифмической; гиперболы.
- Оцените каждую модель через среднюю ошибку аппроксимации
и
-критерий Фишера.
Проще всего построить поле корреляции, а затем добавить линии тренда (см. параграф 1.З.). Для полученных уравнений надо найти коэффициент аппроксимации и проверить 
1а. Уравнение линейной регрессии:


Вариация результата на 12% объясняется вариацией фактора 

Так как

то параметры линейного уравнения и показатель тесноты связи между 


l.b. Степенная модель


Подставляя в уравнение регрессии фактические значения 


и среднюю ошибку аппроксимации:

Характеристики степенной модели указывают, что она не намного лучше линейной функции описывает связь между 

1с. Аналогично l.b. для показательной модели

сначала нужно выполнить линеаризацию

и после замены переменных

рассмотрим линейное уравнение:

Используя столбцы для 


и уравнение

После потенциирования запишем уравнение в обычной форме:

Все эти расчеты можно не делать, если воспользоваться для вычисления параметров 



Тесноту связи оценим с помощью индекса корреляции

который вычисляется по формуле (1.26). Связь между 




l.d. Аналогичные расчеты надо провести и для равносторонней гиперболы 

Для этого уравнения в таблицу исходных значений надо добавить столбец 

Получена наибольшая оценка тесноты связи по сравнению с линейной, степенной и показательной регрессиями, а 


- Введем гипотезу
: уравнение регрессии статистически незначимо и рассмотрим статистику (1.30):



Гипотеза 


Возможно эти страницы вам будут полезны:
- Курсовая работа по эконометрике
- Заказать работу по эконометрике
- Лабораторная работа по эконометрике
- Помощь по эконометрике
- Системы эконометрических уравнений































































.
;
.
на?
: введите ссылки на значения переменной
: введите ссылки на значения переменной 






, появится диалоговое окно (рис. 1.8)
: введите ссылки на значения переменной в столбце
, включая метки диапазона.
: введите ссылки на значения переменной в столбцах
.




,
и
и
соответственно. Если условие гомоскедастичности выполняется, то
, в противном случае
.
степенями свободы, где
, тем более нарушена предпосылка о равенстве остаточных дисперсий.

