Построение полиномиальных регрессий
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

 

Одним из обобщений приема, приведенного в предыдущем подразделе, на случай, когда диаграмма рассеивания имеет сложный вид и линейная регрессия плохо описывает конфигурацию облака, называется метод полиномиальных регрессий.

В этом случае делается попытка подобрать коэффициенты многочлена вида , аппроксимирующего облако с минимальной невязкой. В зависимости от выбранного порядка многочлена n получившуюся кривую называют квадратичной регрессией (при n = 2), кубической регрессией (при n = 3) и пр. Пример использования квадратичной регрессии см. на рис. 5.2.

Рис. 5.2. Пример квадратичной регрессии

 

Формально задача отыскания вектора коэффициентов  записывается следующим образом:

                     .                      

Т.е. регрессионная кривая должна проходить так, чтобы сумма квадратов ошибок аппроксимации была минимальна. Соответственно, метод решения оптимизационной задачи (5.3) называется методом наименьших квадратов (МНК). Введем вспомогательную матрицу  и вспомогательный вектор  следующим образом:

, .

Тогда набор коэффициентов полинома, находится по МНК из следующего выражения:

                                          .                                      

 

Анализ временных рядов

 

Описанный в подразделе 5.3 подход может быть использован также при анализе временных рядов. По определению, временным рядом называется совокупность зафиксированных в определенные моменты времени (как правило, отстоящие на равные интервалы ) значений исследуемого процесса. В этом случае выборка состоит из элементов вида , где  - момент фиксирования i-го отсчета процесса ( ),  - его значение (см. Примеры 16 и 17). В общем случае si могут являться зависимыми случайными величинами.

Через облако, образованное множеством точек , может быть проведена регрессионная кривая, именуемая также кривой тренда. В случае, если был использован полином первого порядка, говорят, что был вычислен линейный тренд случайного процесса. Тренд позволяет выявить общие, крупномасштабные тенденции в анализируемом процессе.

 

Пример 20[7].

Построим график колебания отношения курса евро к курсу доллара за последние 16 лет и аппроксимируем его регрессией 5-го порядка (см. рис. 5.3) [10].

Рис. 5.3. График колебания курса евро к доллару и тренд 5-го порядка

Полином, описывающий тренд, был получен в результате применения выражения (5.4) и имеет следующий вид (здесь x – номер дня, начиная с 01.01.1999):

Можно видеть, что тренд отражает основные вехи в мировой экономике за последние годы: спад европейской экономики, связанный с кризисом 2002 года, кризис 2008 года, приведший к ослаблению курса доллара, напряженная политическая ситуация в Европе в 2014-2015 гг.

 

В случае, если временной ряд демонстрирует неизменное поведение на длительном интервале времени[8], полезным инструментом для его анализа является выборочная корреляционная функция (ВКФ):

.

Здесь  и  - стандартные оценки математического ожидания и дисперсии по выборке , . ВКФ показывает, на сколько быстро убывает коэффициент корреляции между значениями случайного процесса в моменты  и  с ростом . Иными словами, по характеру ВКФ можно определить, на сколько события, произошедшие с объектом исследования в один момент, связаны с его поведении через момент времени .

 

Пример 21.

Вычтем из графика колебания отношения курса евро к курсу доллара аппроксимирующую его регрессию 5-го порядка (см. Пример 20). Получившийся график приведен на рис. 5.5.

Рис. 5.5. График колебаний курса евро к доллару относительно тренда

 

Если тренд отражал глобальные мировые события, то данный график характеризует в основном локальные события (на уровне отдельных государств и отраслей промышленности). Видно, что характер полученного случайного процесса остается практически неизменным на протяжении последних 16 лет. Построим его ВКФ (см. рис. 5.6).

Рис. 5.6. ВКФ локальных колебаний курса евро к доллару

 

Из полученной зависимости следует, что при  года коэффициент корреляции равен приблизительно -0.4, что говорит о том, что за локальным подъемом курса одной из валют приблизительно через 1.5 года с высокой вероятностью последует его локальный спад. Также можно видеть, что  лет коэффициент корреляции не превышает 0.1. Из этого можно сделать тот вывод, что при прогнозировании динамики курсов указанных валют достаточно ограничить анализом лишь последних 4 лет.

 

Вопросы для самопроверки

 

1. Используя МНК вывести формулы для расчета коэффициентов линейной регрессии через значения элементов выборки в явном виде.

2. Вывести формулу для расчёта коэффициентов полиномиальной регрессии (5.4).

3. Объяснить принцип метода наименьших квадратов.

4. Пояснить, почему диаграмма рассеяния, приведенная на рис. 5.1в соответствует нулевой корреляции между случайными величинами.

5. Дана совместная плотность вероятности для пары случайных величин  и : , где . Выбрать коэффициент a исходя из условий нормировки плотности вероятности. Найти коэффициент корреляции между  и .

6. Дана совместная плотность вероятности для пары случайных величин  и : , где . Выбрать коэффициент a исходя из условий нормировки плотности вероятности. Найти коэффициент корреляции между  и .

7. Дана совместная плотность вероятности для пары случайных величин  и : , где . Выбрать коэффициент a исходя из условий нормировки плотности вероятности. Найти коэффициент корреляции между  и .

8. Дана совместная плотность вероятности для пары случайных величин  и : , где . Выбрать коэффициент a исходя из условий нормировки плотности вероятности. Найти коэффициент корреляции между  и .

9. Дана система случайных величин , равномерно распределенных внутри окружности с единичным радиусом. Являются ли эти величины зависимыми? Являются ли они коррелированными? Проверить факт наличия или отсутствия корреляции методом моделирования.

10. Для задачи №17 построить график зависимости дисперсии оценки коэффициента корреляции от объема выборки.

11. Привести пример системы из двух дискретных случайных величин, коэффициент корреляции между которыми равен 0, но случайные величины являются зависимыми.

12. Привести пример системы из двух непрерывных случайных величин, коэффициент корреляции между которыми равен 0, но случайные величины являются зависимыми.

13. Построить график колебаний уровня безработицы по данным, загруженным из источника [10] (код «UNRATE»). Подобрать порядок и коэффициенты полиномиальной регрессии по МНК.

14. Построить график колебаний коэффициента эффективности бюджетных вложений безработицы по данным, загруженным из источника [10] (код «FEDFUNDS»). Подобрать порядок и коэффициенты полиномиальной регрессии по МНК.

15. Построить график роста валового внутреннего продукта (ВВП) по данным, загруженным из источника [10] (код «GDP»). Подобрать порядок и коэффициенты полиномиальной регрессии по МНК.

16. Построить график зависимости государственного долга США как процент от ВВП по данным, загруженным из источника [10] (код «GFDEGDQ188S»). Подобрать порядок и коэффициенты полиномиальной регрессии по МНК.

17. Дано:  – последовательность независимых, одинаково распределенных случайных величин,  – случайные величины, рассчитанные по формуле . Найти корреляционную функцию процесса  теоретически. Выполнить проверку методом моделирования.

18. Дано:  – последовательность независимых, одинаково распределенных случайных величин,  – случайные величины, рассчитанные по формуле . Найти корреляционную функцию процесса  теоретически. Определить, как зависит ширина корреляционной функции от параметра .

19. Дано:  – последовательность независимых, одинаково распределенных случайных величин с ,  – случайные величины, рассчитанные по формуле: . Найти корреляционную функцию данного процесса и определить, как зависит ширина корреляционной функции от параметра .

20. Подбрасываются два игральных кубика, на первом выпадает значение , на втором – . Вводим случайные величины  и  такие, что  и . Найти коэффициент корреляции между величинами  и .


6. Библиографический список

 

1. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. И.И. Елисеевой. — 5-е изд., перераб. и доп. — М.: Финансы и статистика, 2004.

2. Фарафонов В. Г., Устимов В. И. Теория вероятностей и математическая статистика: учебное пособие. Ч. 1, Ч. 2. СПб. : Изд-во ГУАП, 2009.

3. Крамер Г. Математические методы статистики. М.: Мир. 1975 г.

4. Вентцель Е. С. Теория вероятности. М.: Наука. 1969 г.

5. Лагутин М.Б. Наглядная математическая статистика. М.: Бином. 2009 г.

6. T. S. Ferguson. An Inconsistent Maximum Likelihood Estimate. Journal of the American Statistical Association, Vol. 77, No. 380. 1982.

7. Чернова Н.И. Математическая статистика. Новосибирск: Изд-во СибГУТИ, 2009.

8. A. C. Cullen, H. C. Frey. Probabilistic Techniques in Exposure Assessment. A Handbook for Dealing with Variability and Uncertainty in Models and Inputs. New-York, Plenum Press, 1999.

9. Мишулина О. А. Статистический анализ и обработка временных рядов. М.: МИФИ, 2004.

10.  Информационный ресурс Федерального резервного банка: https://research.stlouisfed.org/fred2/


[1] Авторы хотели бы выразить благодарность студентке группы 4116 Фроловой А.Ю. за помощь в подготовке материала, лежащего в основе данного пособия.

[2] Выборка одинаково распределенных случайных величин называется однородной. При этом элементы однородной выборки могут быть, как зависимы, так и независимы.

[3] При составлении исходной системы уравнений можно использовать как начальные, так и центральные моменты.

[4] При k < 1 основная доля отказов приходится на первое время после начала эксплуатации, k > 1 массовые отказы возникают, начиная с определенного срока эксплуатации

[5] В выражении для дисперсии оценки  - (1-k) квантиль распределения

[6] Зачастую точная верхняя грань эквивалентна максимуму. Таким образом, неформально, теорема Гливенко-Кантелли утверждает, что максимальная ошибка в оценке интегральной функции распределения стремится к нулю с ростом объема выборки.

[7] Данный пример подготовлен студентом гр. 4216 Сафоновым М.В.

[8] Строгое определение стационарных случайных процессов см. в работах [2,4,9].



Дата: 2019-07-24, просмотров: 191.