Сайт о телевидении

Сайт о телевидении

» » Временные ряды, многомерные методы статистики и методы теории катастроф. Определение порядка полинома методом последовательных разностей. Модели случайной составляющей временного ряда

Временные ряды, многомерные методы статистики и методы теории катастроф. Определение порядка полинома методом последовательных разностей. Модели случайной составляющей временного ряда

Виды и методы анализа временных рядов

Временной ряд представляет собой совокупность последовательных измерений переменной, проведенных через одинаковые интервалы времени . Анализ временных рядов позволяет решать следующие задачи:

  • исследовать структуру временного ряда, включающую, как правило, тренд - закономерные изменения среднего уровня, а также случайные периодические колебания;
  • исследовать причинно-следственные взаимосвязи между процессами, определяющие изменения рядов, которые проявляются в корреляционных связях между временными рядами;
  • построить математическую модель процесса, представленного временным рядом;
  • преобразовать временной ряд средствами сглаживания и фильтрации;
  • прогнозировать будущее развития процесса.

Значительная часть известных методов предназначена для анализа стационарных процессов, статистические свойства которых, характеризуемые при нормальном распределении средним значением и дисперсией, постоянны, не меняются с течением времени.

Но ряды часто имеют нестационарный характер. Нестационарность можно устранить следующим образом:

  • вычесть тренд, т.е. изменения среднего значения, представленного некоторой детерминированной функцией, которую можно подобрать путем регрессионного анализа;
  • выполнить фильтрацию специальным нестационарным фильтром.

Для стандартизации временных рядов в целях единообразия методов

анализа целесообразно провести их общее или посезонное центрирование путем деления на среднюю величину, а так же нормирование путем деления на стандартное отклонение.

Центрирование ряда удаляет ненулевое среднее значение, которое может затруднить интерпретацию результатов, например, при спектральном анализе. Цель нормирования - избежать в вычислениях операций с большими числами, что может привести к снижению точности расчетов.

После указанных предварительных преобразований временного ряда может быть построена его математическая модель, по которой осуществлено прогнозирование, т.е. получено некоторое продолжение временного ряда.

Чтобы результат прогноза можно было сопоставить с исходными данными, над ним следует произвести преобразования, обратные выполненным.

На практике наиболее часто используют методы моделирования и прогнозирования, а корреляционный и спектральный анализ рассматривают как вспомогательные методы. Это заблуждение. Методы прогнозирования развития средних тенденций позволяют получить оценки с существенными погрешностями, что весьма затрудняет прогнозирование будущих значений переменной, представленной временным рядом.

Методы корреляционного и спектрального анализа позволяют выявить различные, в том числе инерционные свойства системы, в которой идет развитие изучаемых процессов. Применение этих методов позволяет по текущей динамике процессов с достаточной уверенностью установить, как и с какой задержкой, известная динамика скажется на будущем развитии процессов. Для долгосрочного прогнозирования эти виды анализа позволяют получить ценные результаты.

Анализ и прогнозирование тренда

Анализ тренда предназначен для исследования изменений среднего значения временного ряда с построением математической модели тренда и с прогнозированием на этой основе будущих значений ряда. Анализ тренда выполняют путем построения моделей простой линейной или нелинейной регрессии.

Используемые исходные данные представляют собой две переменные, одна из которых - значения временного параметра, а другая - собственно значения временного ряда. В процессе анализа можно:

  • опробовать несколько математических моделей тренда и выбрать ту, которая с большей точностью описывает динамику изменения ряда;
  • построить прогноз будущего поведения временного ряда на основании выбранной модели тренда с определенной доверительной вероятностью;
  • удалить тренд из временного ряда в целях обеспечения его стационарности, необходимой для корреляционного и спектрального анализа, для этого после расчета регрессионной модели необходимо сохранить остатки для выполнения анализа.

В качестве моделей трендов используют различные функции и сочетания, а так же степенные ряды, иногда называемые полиномиальными моделями. Наибольшую точность обеспечивают модели в виде рядов Фурье, однако не многие статистические пакеты позволяют использовать такие модели.

Проиллюстрируем получение модели тренда ряда. Используем ряд данных о валовом национальном продукте США на период 1929-1978 гг. в текущих ценах. Построим полиномиальную регрессионную модель. Точность модели повышалась, пока степень полинома не достигла пятой:

У = 145,6 - 35,67* + 4,59* 2 - 0,189* 3 + 0,00353х 4 + 0,000024* 5 ,

(14,9) (5,73) (0,68) (0,033) (0,00072) (0,0000056)

где У - ВНП, млрд дол.;

* - годы, отсчитываемые от первого 1929 г.;

под коэффициентами указаны их стандартные ошибки.

Стандартные ошибки коэффициентов модели малы, не достигают величин, равных половине значений коэффициентов модели. Это свидетельствует о хорошем качестве модели.

Коэффициент детерминации модели, равный квадрату приведенного коэффициента множественной корреляции составил 99%. Это означает, что модель объясняет данные на 99%. Стандартная ошибка модели оказалась равна 14,7 млрд, а уровень значимости нулевой гипотезы - гипотезы об отсутствии связи - менее 0,1%.

С помощью полученной модели можно дать прогноз, который в сопоставлении с фактическими данными приведен в табл. ПЗ. 1.

Прогноз и фактический размер ВНП США, млрд дол.

Таблица ПЗ.1

Прогноз, полученный с помощью полиномиальной модели, не слишком точен, о чем свидетельствуют данные, приведенные в таблице.

Корреляционный анализ

Корреляционный анализ необходим для выявления корреляций и их лагов - задержек их периодичности. Связь в одном процессе получила название автокорреляции, а связь между двумя процессами, характеризуемыми рядами - кросскорреляции. Высокий уровень корреляции может служить индикатором причинно-следственных связей, взаимодействий внутри одного процесса, между двумя процессами, а величина лага указывает временную задержку в передаче взаимодействия.

Обычно в процессе расчета значений корреляционной функции на к -м шаге вычисляется корреляция между переменными по длине отрезка / = 1,..., (п - к) первого ряда X и отрезка / = к ,..., п второго ряда К Длина отрезков, таким образом, меняется.

В результате получается некоторая трудная для практической интерпретации величина, напоминающая параметрический коэффициент корреляции, но не идентичная ему. Поэтому возможности корреляционного анализа, методику которого используют во многих статистических пакетах, ограничены узким кругом классов временных рядов, которые нехарактерны для большинства экономических процессов.

Экономистов в корреляционном анализе интересует исследование лагов в передаче воздействия от одного процесса к другому или влияния начального возмущения на последующее развитие того же самого процесса. Для решения таких задач была предложена модификация известного метода, названная интервальной корреляцией ".

Кулаичев А.П. Методы и средства анализа данных в среде Vindows. - М.: Информатика и компьютеры, 2003.

Интервальная корреляционная функция представляет собой последовательность коэффициентов корреляции, вычисленных между фиксированным отрезком первого ряда заданного размера и положения и равными им по размеру отрезками второго ряда, выбранных с последовательными сдвигами от начала ряда.

В определение добавляется два новых параметра: длина сдвигаемого фрагмента ряда и его начальное положение, а также используется принятое в математической статистике определение коэффициента корреляции Пирсона. Благодаря этому вычисляемые значения становятся сравнимы между собой и просто интерпретируемы.

Обычно для выполнения анализа необходимо выбрать одну или соответственно две переменные для автокорреляционного или кросскорреляцион-ного анализа, а так же задать следующие параметры:

Размерность временного шага анализируемого ряда для согласования

результатов с реальной временной шкалой;

Длину сдвигаемого фрагмента первого ряда, в виде числа включаемых в

него элементов ряда;

Сдвиг этого фрагмента относительно начала ряда.

Разумеется, необходимо выбрать вариант интервальной корреляции или иной корреляционной функции.

Если для анализа выбрана одна переменная, то вычисляются значения автокорреляционной функции для последовательно увеличивающихся лагов. Автокорреляционная функция позволяет определить, в какой степени динамика изменения заданного фрагмента воспроизводится в сдвинутых во времени его же отрезках.

Если для анализа выбраны две переменные, то вычисляются значения кросскорреляционной функции для последовательно увеличивающихся лагов - сдвигов второй из выбранных переменных относительно первой. Кросскорреляционная функция позволяет определить, в какой степени изменения фрагмента первого ряда воспроизводятся в сдвинутых во времени фрагментах второго ряда.

Результаты анализа должны включать оценки критического значения коэффициента корреляции г 0 для гипотезы «г 0 = 0» на определенном уровне значимости. Это позволяет не принимать во внимание статистически незначимые коэффициенты корреляции. Необходимо получить значения корреляционной функции с указанием лагов. Весьма полезны и наглядны графики авто- или кросскорреляционных функций.

Проиллюстрируем применение кросскорреляционного анализа на примере. Оценим взаимосвязи темпов прироста ВНП США и СССР за 60 лет с 1930 по 1979 гг. Для получения характеристик долгосрочных тенденций сдвигаемый фрагмент ряда выбран длиной 25 лет. В результате были получены коэффициенты корреляции при разных лагах.

Единственный лаг, при котором корреляция оказывается значимой - 28 лет. Коэффициент корреляции при этом лаге составляет 0,67, тогда как пороговое, минимальное значение - 0,36. Оказывается, что цикличность долгосрочного развития экономики СССР с лагом величиной 28 лет была тесно связана с цикличностью долгосрочного развития экономики США.

Спектральный анализ

Общепринятый способ анализа структуры стационарных временных рядов - это использование дискретного преобразования Фурье для оценки спектральной плотности или спектра ряда. Этот метод можно применять:

  • для получения описательных статистик одного временного ряда или описательных статистик зависимостей между двумя временными рядами;
  • для выявления периодических и квазипериодических свойств рядов;
  • для проверки адекватности моделей, построенных другими методами;
  • для сжатого представления данных;
  • для интерполяции динамики временных рядов.

Точность оценок спектрального анализа можно повысить за счет применения специальных методов - использования сглаживающих окон и методов усреднения.

Для анализа необходимо выбрать одну или две переменные, при этом должны быть заданы следующие параметры:

  • размерность временного шага анализируемого ряда, необходимая для согласования результатов с реальной временной и частотной шкалами;
  • длина к анализируемого отрезка временного ряда, в виде числа включаемых в него данных;
  • сдвиг очередного отрезка ряда к 0 относительно предыдущего;
  • тип временного окна сглаживания для подавления в спектре так называемого эффекта вытекания мощности ;
  • тип усреднения частотных характеристик, вычисленных на последовательных отрезках временного ряда.

Результаты анализа включают спектрограммы - значения характеристик амплитудно-частотной спектра и значения фазочастотных характеристик. В случае кросс-спектрального анализа результаты - это также значения передаточной функции и функции когерентности спектра. Результаты анализа могут включать и данные периодограмм.

Амплитудно-частотная характеристика кросс-спектра, называемая также кросс-спектральной плотностью, представляет зависимость амплитуды взаимного спектра двух взаимосвязанных процессов от частоты. Такая характеристика наглядно показывает, на каких частотах наблюдается синхронные и соответствующие по величине изменения мощности в двух анализируемых временных рядах или где находятся области их максимальных совпадений и максимальных несовпадений.

Проиллюстрируем применение спектрально анализа на примере. Проанализируем волны экономической конъюнктуры в Европе в период начала индустриального развития. Для анализа используем не сглаженный временной ряд индексов цен на пшеницу, усредненных Бевериджем по данным 40 рынков Европы за 370 лет с 1500 по 1869 г. Получим спектры

ряда и отдельных его отрезков продолжительностью 100 лет через каждые 25 лет.

Спектральный анализ позволяет оценить мощность каждой гармоники спектра. Наиболее мощными оказываются волны с 50-летним периодом, которые, как известно, были открыты Н. Кондратьевым 1 и получили его имя. Анализ позволяет установить, что сформировались они не в конце XVII - начале XIX в., как полагают многие экономисты. Они сформировались с 1725 по 1775 г.

Построение моделей авторегрессии и проинтегрированного скользящего среднего (ARIMA) считаются полезными для описания и прогнозирования стационарных временных рядов и нестационарных рядов, обнаруживающих однородные колебания вокруг изменяющегося среднего значения.

Модели ARIMA представляют собой комбинации двух моделей: авторегрессии {AR) и скользящего среднего (moving average - МА).

Модели скользящего среднего (МА) представляют стационарный процесс в виде линейной комбинации последовательных значений так называемого «белого шума». Такие модели оказываются полезными как в качестве самостоятельных описаний стационарных процессов, так и в качестве дополнения к моделям авторегрессии для более детального описания шумовой составляющей.

Алгоритмы вычисления параметров модели МА очень чувствительны к неправильному выбору числа параметров для конкретного временного ряда, особенно в сторону их увеличения, что может выражаться в отсутствии сходимости вычислений. Рекомендуется не выбирать на начальных этапах анализа модель скользящего среднего с большим числом параметров.

Предварительное оценивание - первый этап анализа с использованием модели ARIMA. Процесс предварительного оценивания прекращается по принятию гипотезы об адекватности модели временному ряду или по исчерпанию допустимого числа параметров. В итоге результаты анализа включают:

  • значения параметров авторегрессионой модели и модели скользящего среднего;
  • для каждого шага прогнозирования указываются - среднее значение прогноза, стандартная ошибка прогноза, доверительный интервал прогноза для определенного уровня значимости;
  • статистику оценки уровня значимости гипотезы не коррелированное™ остатков;
  • графики временного ряда с указанием стандартной ошибки прогноза.
  • Значительная часть материалов раздела ПЗ основана на положениях книг: Басовский Л.Е. Прогнозирование и планирование в условиях рынка. - М.: ИНФРА-М, 2008. Гилмор Р. Прикладная теория катастроф: В 2 кн. Кн. 1/ Пер. с англ. М.: Мир, 1984.
  • Жан Батист Жозеф Фурье (Jean Baptiste Joseph Fourier ; 1768-1830) - французский математик и физик.
  • Николай Дмитриевич Кондратьев (1892-1938) - русский и советский экономист.

Вопрос 1: «ОСНОВНЫЕ ЭЛЕМЕНТЫ ВРЕМЕННОГО РЯДА»

Можно построить эконометрическую модель, используя два типа исходных данных:

· данные, характеризующие совокупность различных объектов в определенный момент (период) времени;

· данные, характеризующие один объект за ряд последовательных моментов (периодов) времени.

Модели, построенные по данным первого типа, называются пространственными моделями. Модели, построенные на основе второго типа данных, называютсямоделями временных рядов.

Временной ряд - это совокупность значений какого-либо показателя за несколько последовательных моментов или периодов времени. Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые условно можно подразделить на три группы:

· факторы, формирующие тенденцию ряда;

· факторы, формирующие циклические колебания ряда;

· случайные факторы.

При различных сочетаниях в изучаемом явлении или процессе этих факторов зависимость уровней ряда от времени может принимать различные формы.

Во-первых, большинство временных рядов экономических показателей имеют тенденцию, характеризующую совокупное долговременное воздействие множества факторов на динамику изучаемого показателя. Очевидно, что эти факторы, взятые в отдельности, могут оказывать разнонаправленное воздействие на исследуемый показатель. Однако в совокупности они формируют его возрастающую или убывающую тенденцию. На рис. 6.1 а) показан гипотетический временной ряд, содержащий возрастающую тенденцию.

Во-вторых, изучаемый показатель может быть подвержен циклическим колебаниям. Эти колебания могут носить сезонный характер, поскольку экономическая деятельность ряда отраслей экономики зависит от времени года (например, цены на сельскохозяйственную продукцию в летний период выше, чем в зимний; уровень безработицы в курортных городах в зимний период выше по сравнению с летним). При наличии больших массивов данных за длительные промежутки времени можно выявить циклические колебания, связанные с общей динамикой конъюнктуры рынка, а также с фазой-бизнес цикла, в которой находится экономика страны. На рис. 6.1 б) представлен гипотетический временной ряд, содержащий только сезонную компоненту.

Некоторые временные ряды не содержат тенденции и циклической компоненты, а каждый следующий их уровень образуется как сумма среднего уровня ряда и некоторой (положительной или отрицательной) случайной компоненты. Пример ряда, содержащего только случайную компоненту, приведен на рис. 6.1 в).

Очевидно, что реальные данные не следуют целиком и полностью из каких-либо описанных выше моделей. Чаще всего они содержат все три компоненты. Каждый их уровень формируется под воздействием тенденции, сезонных колебаний и случайной компоненты.


В большинстве случаев фактический уровень временного ряда можно представить как сумму или произведение трендовой, циклической и случайной компонент. Модель, в которой вре­менной ряд представлен как сумма перечисленных компонент, называется аддитивной моделью временного ряда. Модель, в которой временной ряд представлен как произведение перечисленных компонент, называется мультипликативной моделью временного ряда. Основная задача эконометрического исследования от дельного временного ряда - выявление и придание количественного выражения каждой из перечисленных выше компонент с тем, чтобы использовать полученную информацию для прогно­зирования будущих значений ряда или при построении моделей взаимосвязи двух или более временных рядов

Рис. 6.1. «Основные компоненты временного ряда: а – возрастающая тенденция; б – сезонная компонента, в – случайная компонента.

Вопрос 2: «АВТОКОРРЕЛЯЦИЯ УРОВНЕЙ ВРЕМЕННОГО РЯДА И ВЫЯВЛЕНИЕ ЕГО СТРУКТУРЫ»

При наличии во временном ряде тенденции и циклических колебаний значения каждого последующего уровня ряда зависят от предыдущих. Корреляционную зависимость между последовательными уровнями временного ряда называютавтокорреляцией уровней рада.

Количественно ее можно измерить с помощью линейного коэффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутыми на несколько шагов во времени. Рассмотрим пример.

Пример 6.1 Расчет коэффициентов автокорреляции уровней для временного ряда расходов на конечное потребление.

Пусть имеются следующие условные данные о средних расходах на конечное потребление y t (д.е.) за 8 лет. Табл. 6.1

Расчет коэффициента автокорреляции первого порядка для временного ряда расходов на конечное потребление, д.е.

t ()* ()
1 7 - - - - - -
2 8 7 -3,29 -3,00 9,86 10,80 9,00
3 8 8 -3,29 -2,00 6,57 10,80 4,00
4 10 8 -1,29 -2,00 2,57 1,65 4,00
5 11 10 -0,29 0,00 0,00 0,08 0,00
6 12 11 0,71 1,00 0,71 0,51 1,00
7 14 12 2,71 2,00 5,43 7,37 4,00
8 16 14 4,71 4,00 18,86 22,22 16,00
Итого 86 70 0 0 44,00 53,42857 38

Расходы на конечное потребление в текущем году зависят от расходов на конечное потребление предыдущих лет.

Определим коэффициент корреляции между рядами и и измерим тесноту связи между расходами на конечное потребление текущего и предыдущего годов. Добавим в таблицу 6.1 временно й ряд

Одна из рабочих формул для расчета коэффициента корреляции имеет вид:

В качестве переменной х мы рассмотрим ряд ; в качестве переменной y – ряд . Тогда приведенная выше формула примет вид

Эту величину называют коэффициентом автокорреляции уровней первого порядка, т.к. он измеряет зависимость между соседними уровнями ряда t и t-1 , т.е. при лаге 1.

Для данных пример 6.1 соотноешния (6.2) составят:

Используя формулу (6.1), получаем коэффициент автокорреляции первого порядка:

Полученное значение свидетельствует об очень тесной зависимости между расходами на конечное потребление текущего и непосредственно предшествующего годов, и, следовательно, о наличии во временном ряде расходов на конечное потребление сильной линейное тенденции.

Аналогично можно определить коэффициенты автокорреляции второго и более высоких порядков. Так, коэффициент автокорелляции второго порядка характеризует тесноту связи между уровнями и и определяется по формуле:

Для данных из примера 6.1 получим:

Построим таблицу 6.2 подставив полученные значения в формулу (6.3), имеем:

Таблица 6.2

Расчет коэффициента автокорреляции второго порядка для временного ряда расходов на конечное потребление, д.е.

t
1 7 - - - - - -
2 8 - - - - - -
3 8 7 -3,833 -2,333 8,944 14,694 5,444
4 10 8 -1,833 -1,333 2,444 3,361 1,778
5 11 8 -0,833 -1,333 1,111 0,694 1,778
6 12 10 0,167 0,667 0,111 0,028 0,444
7 14 11 2,167 1,667 3,611 4,694 2,778
8 16 12 4,167 2,667 11,111 17,361 7,111
Итого 86 56 0,000 0,000 27,333 40,833 19,333

Полученные результаты еще раз подтверждают вывод о том, что ряд расходов на конечное потребление содержит линейную тенденцию.

Число периодов, по которым рассчитывается коэффициент автокорреляции, называют лагом. С увеличением лага число пар значений, по которым рассчитывается коэффициент автокорреляции, уменьшается.

Необходимо отметить два важных свойства коэффициента корреляции.

Во-первых, он строится по аналогии с линейным коэффициентом корреляции и таким образом характеризует тесноту только линейной связи текущего и предыдущего уровней ряда. Поэтому по коэффициенту автокорреляции можно судить о наличии линейной (или близкой к линейной) тенденции. Для некоторых временных рядов, имеющих сильную нелинейную тенденцию (например, параболу второго порядка или экспоненту), коэффициент автокорреляции уровней исходного ряда может приближаться к нулю.

Во-вторых , по знаку коэффициента автокорреляции нельзя делать вывод о возрастающей или убывающей тенденции в уровнях ряда. Большинство временных рядов экономических данных содержит положительную автокорреляцию уровней, однако при этом могут иметь убывающую тенденцию.

Последовательность коэффициентов автокорреляции уровней первого, второго и т. д. порядков называютавтокорреляционной функцией временного рада. График зависимости ее значений от величины лага (порядка коэффициента автокорреляции) на­зываетсякоррелограммой.

Анализ автокорреляционной функции и коррелограммы позволяет определить лаг, при котором автокорреляция наиболее высокая, а, следовательно, и лаг, при котором связь между текущим и предыдущими уровнями ряда наиболее тесная, т. е. при помощи анализа автокорреляционной функции и коррелограммы можно выявить структуру ряда.

Если наиболее высоким оказался коэффициент автокорреляции первого порядка, исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка t , ряд содержит циклические колебания с перио­дичностью в t моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, можно сделать одно из двух предположений относительно структуры этого ряда: либо ряд не содержит тенденции и циклических колебаний и имеет структуру, сходную со структурой ряда, изображенного на рис. 6.1 в), либо ряд содержит сильную нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ. Поэтому коэффициент автокорреляции уровней и автокорреляционную функцию целесообразно использовать для выявления во временном ряде наличия или отсутствия трендовой компоненты и циклической (сезонной) компоненты.

Временной ряд расходов на конечное потребление, рассмотренный нами в примере 6.1, содержит только тенденцию, так как коэффициенты автокорреляции его уровней высокие.

Пример 6.2. Автокорреляционная функция и выявление структуры ряда.

Пусть имеются условные данные об объемах потребления электроэнергии жителями региона за 16 кварталов. (табл. 6.3).

Потребление электроэнергии жителями региона, млн. кВт*ч

t
1 6,0 - - - -
2 4,4 6,0 - - -
3 5,0 4,4 6,0 - -
4 9,0 5,0 4,4 6,0 -
5 7,2 9,0 5,0 4,4 6,0
6 4,8 7,2 9,0 5,0 4,4
7 6,0 4,8 7,2 9,0 5,0
8 10 6,0 4,8 7,2 9,0
9 8,0 10 6,0 4,8 7,2
10 5,6 8,0 10 6,0 4,8
11 6,4 5,6 8,0 10 6,0
12 11,0 6,4 5,6 8,0 10
13 9,0 11,0 6,4 5,6 8,0
14 6,6 9,0 11,0 6,4 5,6
15 7,0 6,6 9,0 11,0 6,4
16 10,8 7,0 6,6 9,0 11,0

Нанесем эти значения на график 6.2

Рис. 6.2. «Потребление электроэнергии жителями региона»

Определим коэффициент автокорреляции первого порядка (добавим 6.3 и воспользуемся формулой расчета линейного коэффициента корреляции). Он составит: . Отметим, что расчет этого коэффициента производился по 15, а не по 16 парам наблюдений. Это значение свидетельствует о слабой зависимости текущих уровней ряда от непосредственно им предшествующих уровней. Однако, как следует из графика, структура этого ряда такова, что каждый следующий уровень зависит от уровня и в гораздо большей степени, чем от уровня . Построим ряд (см. табл. 6.3). Рассчитав коэффициент автокорреляции второго порядка , получим количественную характеристику корреляционной связи рядов , ,: . Продолжив расчеты аналогичным образом, получим автокорреляционную функцию этого ряда. Ее значения и коррелограмма приведены в таблице 6.4. Аналогично рассчитываем и другие автокорреляции

Анализ значений автокорреляционной функции позволяет сделать вывод о наличии в изучаемом временно м ряде, во-первых, линейной тенденции, во-вторых, сезонных колебаний периодичностью в четыре квартала. Данный вывод подтверждается и графическим анализом структуры ряда (см. рис. 6.2).

Аналогично, если, например, при анализе временно го ряда наиболее высоким оказался коэффициент автокорреляции уровней второго порядка, ряд содержит циклические колебания в два периода времени, т.е. имеет пилообразную структуру.


Вопрос 3: «Моделирование тенденции временного ряда»

Одним из наиболее распространенных способов моделирования тенденции временного ряда является построение аналитической функции, характеризующей зависимость уровней ряда от времени, или тренда. Этот способ называютаналитическим выравниванием временного ряда.

Поскольку зависимость от времени может принимать разные формы, для ее формализации можно использовать различные виды функций. Для построения трендов чаще всего применяются следующие функции:

Линейный тренд

Гипербола: ;

Экспоненциальный тренд:

Тренд в форме степенной функции:

Парабола второго и более высоких порядков:

Параметры каждого из перечисленных выше трендов можно определить обычным МНК, используя в качестве независимой переменной время t = 1, 2, …, n, а в качестве зависимой переменной - фактические уровни временного ряда у t . Для нелинейных трендов предварительно проводят стандартную процедуру их линеаризации.

Существует несколько способов определения типа тенденции. К числу наиболее распространенных способов относятся качественный анализ изучаемого процесса, построение и визуаль­ный анализ графика зависимости уровней ряда от времени, расчет некоторых основных показателей динамики. В этих же целях можно использовать и коэффициенты автокорреляции уровней ряда. Тип тенденции можно определить путем сравнения коэффициентов автокорреляции первого порядка, рассчитанных по исходным и преобразованным уровням ряда. Если временной ряд имеет линейную тенденцию, то его соседние уровни и тесно коррелируют. В этом случае коэффициент автокорреляции первого порядка уровней исходного ряда должен быть высоким. Если временной ряд содержит нелинейную тенденцию, например, в форме экспоненты, то коэффициент автокорреляции первого порядка по логарифмам уровней исходного ряда будет выше, чем соответствующий коэффициент, рассчитанный по уровням ряда. Чем сильнее выражена нелинейная тенденция в изучаемом временном ряде, тем в большей степени будут различаться значения указанных коэффициентов

Выбор наилучшего уравнения в случае, если ряд содержит нелинейную тенденцию, можно осуществить путем перебора основных форм тренда, расчета по каждому уравнению скорректированного коэффициента детерминации R 2 и выбора уравнения тренда с максимальным значением скорректированного коэффициента детерминации. Реализация этого метода относительно проста при компьютерной обработке данных.

Вопрос 4: «Моделирование сезонных и циклических колебаний»

Существует несколько подходов к анализу структуры временных рядов, содержащих сезонные или циклические колебания.

Простейший подход - расчет значений сезонной компонен­ты методом скользящей средней и построение аддитивной или мультипликативной модели временного ряда. Общий вид адди­тивной модели следующий:

Y=T+S+E (6.5)

Эта модель предполагает, что каждый уровень временного ряда может быть представлен как сумма трендовой (T), сезонной (S) и случайной (Е) компонент. Общий вид мультипликативной модели выгладит так:

Y=T*S*E (6.6)

Эта модель предполагает, что каждый уровень временного ряда может бьггь представлен как произведение трендовой (T), сезонной (S) и случайной (E) компонент. Выбор одной из двух моделей осуществляется на основе анализа структуры сезонных колебаний. Если амплитуда колебаний приблизительно постоян­на, строят аддитивную модель временного ряда, в которой значения сезонной компоненты предполагаются постоянными для различных циклов. Если амплитуда сезонных колебаний возрас­тает или уменьшается, строят мультипликативную модель временного ряда, которая ставит уровни ряда в зависимость от значений сезонной компоненты.

Построение аддитивной и мультипликативной моделей сводится к расчету значений T, S и E для каждого уровня ряда.

Процесс построения модели включает в себя следующие шаги.

1. Выравнивание исходного ряда методом скользящей средней.

2. Расчет значений сезонной компоненты S.

3. Устранение сезонной компоненты из исходных уровней ряда и получение выравненных данных (Т+ Е) в аддитивной или (Т*Е) в мультипликативной модели.

4. Аналитическое выравнивание уровней (Т+Е) или (Т*Е) и расчет значений Т с использованием полученного уравнения тренда.

5. Расчет полученных по модели значений (Т + S) или (T * S).

6. Расчет абсолютных и/или относительных ошибок.

Если полученные значения ошибок не содержат автокорреляции, ими можно заменить исходные уровни ряда и в дальнейшем использовать временной ряд ошибок Е для анализа взаимосвязи исходного ряда и других временных рядов.

Подробнее методику построения каждой из моделей рассмотрим на примерах.

Пример 6.4. Построение аддитивной модели временного ряда.

Обратимся к данным об объеме потребления электроэнергии жителями района за последние четыре года, представленным в табл. 6.3.

В примере 6.2 было показано, что данный временной ряд содержит сезонные колебания периодичностью 4. Объемы потребления электроэнергии в осенне-зимний период времени (I и IV кварталы) выше, чем весной и летом (II иIII кварталы). По графику, этого ряда (рис. 6.2) можно установить наличие приблизительно равной амплитуды колебаний. Это свидетельствует о воз­можном существовании в ряде аддитивной модели. Рассчитаем ее компоненты.

Шаг 1. Проведем выравнивание исходных уровней ряда методом скользящей средней. Для этого:

а. просуммируем уровни ряда последовательно за каждые четыре квартала со сдвигом на один момент времени и определим условные годовые объемы потребления электроэнергии (гр. 3 табл. 6.5);

б. разделив полученные суммы на 4, найдем скользящие средние (гр. 4 табл. 6.5). Отметим, что полученные таким образом выравненные значения уже не содержат сезонной компоненты;

в. приведем эта значения в соответствие с фактическими моментами времени, для чего найдем средние значения из двух последовательных скользящих средних - центрированные скользящие средние (гр. 5 табл. 6.5).

Расчет оценок сезонной компонентности в аддитивной модели

№ квартала, t Потребление электроэнергии, Итого за четыре квартала Скользящая средняя за четыре квартала Центрированная скользящая средняя Оценка сезонной компоненты
1 2 3 4 5 6
1 6 - - - -
2 4,4 24,40 6,100 - -
3 5 25,60 6,400 6,250 -1,250
4 9 26,00 6,500 6,450 2,550
5 7,2 27,00 6,750 6,625 0,575
6 4,8 28,00 7,000 6,875 -2,075
7 6 28,80 7,200 7,100 -1,100
8 10 29,60 7,400 7,300 2,700
9 8 30,00 7,500 7,450 0,550
10 5,6 31,00 7,750 7,625 -2,025
11 6,4 32,00 8,000 7,875 -1,475
12 11 33,00 8,250 8,125 2,875
13 9 33,60 8,400 8,325 0,675
14 6,6 33,40 8,375 -1,775
15 7
16 10,8

Шаг 2. Найдем оценки сезонной компоненты как разность между фактическими уровнями рада и центрированными скользящими средними (гр. 6 табл. 6.5). Используем эти оценки для расчета значений сезонной компоненты S (табл. 6.6). Для этого найдем средние за каждый квартал (по всем годам) оценки сезонной компоненты. В моделях с сезонной компонентой обычно предполагается, что сезонные воздействия за период взаимопогашаются. В аддитивной модели это выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна нулю.

Расчет значений сезонной компоненты в аддитивной модели

Для данной модели имеем:

0,6-1,958-1,275+2,708=0,075

Определим корректирующий коэффициент:

К=0,075/4 = 0,01875

Рассчитаем скорректированные значения сезонной компоненты как разность между ее средней оценкой и корректирующим коэффициентом k:

Где i =1:4

Проверим условие равенства нулю суммы значений сезонной компоненты:

0,581-1,977-1,294+2,960=0

Таким образом, получены следующие значения сезонной компоненты:

I квартал: = 0.581

II квартал: = -1,979

III квартал: = -1,294

IV квартал: = 2,690

Занесем полученные значения в табл. 6.6 для соответствующих кварталов каждого года (стр.3)

Шаг 3. Элиминируем влияние сезонной компоненты, вычитая ее значение из каждого уровня исходного временного ряда. Получим величины Т+E=Y-S (гр.4 табл. 6.7). Эти значения рассчитываются за каждый период времени и содержат только тенденцию и случайную компоненту.

Расчет выравненных значений Т и ошибок Е в аддитивной модели

t T T+S E 2
1 6,0 0,581 5,419 5,902 6,483 -0,483 0,2333
2 4,4 -1,977 6,337 6,088 4,111 0,289 0,0835
3 5,0 -1,294 6,294 6,275 4,981 0,019 0,0004
4 9,0 2,690 6,310 6,461 9,151 -0,151 0,0228
5 7,2 0,581 6,619 6,648 7,229 -0,029 0,0008
6 4,8 -1,977 6,777 6,834 4,857 -0,057 0,0032
7 6,0 -1,294 7,294 7,020 5,727 0,273 0,0745
8 10,0 2,690 7,310 7,207 9,896 0,104 0,0108
9 8,0 0,581 7,419 7,393 7,974 0,026 0,0007
10 5,6 -1,977 7,577 7,580 5,603 -0,030 0,0009
11 6,4 -1,294 7,694 7,766 6,472 -0,072 0,0052
12 11,0 2,690 8,310 7,952 10,642 0,358 0,1282
13 9,0 0,581 8,419 8,139 8,720 0,258 0,0784
14 6,6 -1,977 8,577 8,325 6,348 0,252 0,0635
15 7,0 -1,294 8,294 8,519 7,218 -0,218 0,0475
16 10,8 2,690 8,110 8,698 11,388 -0,588 0,3457

Шаг 4. Определим компоненту Т данной модели. Для этого проведем аналитическое выравнивание ряда (Т+Е) с помощью линейного тренда. Результаты аналитического выравнивания следующие:

Константа 5,715416

Коэффициент регрессии 0,186421

Стандартная ошибка коэффициента регрессии 0,015188

R-квадрат 0,914971

Число наблюдений 16

Число степеней свободы 14

Таким образом, имеем следующий линейный тренд:

Т=5,715+0,186*t

Подставляя в это уравнение значения t=1, …, 16, найдем уровни Т для каждого момента времени (гр. 5 табл. 6.7). График уравнения тренда приведен на рис. 6.3.

Рис. 6.3. «Потребление электроэнергии жителями района (фактическое, выравненные и полученные по аддитивной модели значения уровней ряда)

Шаг 5. Найдем значения уровней ряда, полученные по аддитивной модели. Для этого прибавим к уровням Т значения сезонной компоненты для соответствующих кварталов. Графически значения (Т+S) представлены на рис. 6.3.

Шаг 6. В соответствии с методикой построения аддитивной модели расчет ошибки производится по формуле

E=Y-(T+S) (6.8)

Это абсолютная ошибка. Численные значения абсолютных ошибок приведены в гр. 7 табл. 6.7.

По аналогии с моделью регрессии для оценки качества построения модели или для выбора наилучшей модели можно применять сумму квадратов полученных абсолютных ошибок. Для данной аддитивной модели сумма квадратов абсолютных ошибок равна 1,10. По отношению к общей сумме квадратов отклонений уровней ряда от его среднего уровня, равной 71,59 , эта величина составляет чуть более 1,5%

(1-1,10/71,59)*100=1,536

Следовательно, можно сказать, что аддитивная модель объясняет 98,5% общей вариации уровней временно го ряда потребления электроэнергии за последние 16 кварталов.

Вопрос 5: «Моделирование тенденции временного ряда при наличии структурных изменений».

От сезонных и циклических колебаний следует отличать единовременные изменения характера тенденции временно го ряда, вызванные структурными изменениями в экономике или иными факторами. В этом случае, начиная с некоторого момента времени , происходит изменение характера динамики изучаемого показателя, что приводит к изменению параметров тренда, описывающего эту динамику. Схематично такая ситуация изображена на рис. 6.4

Рис. 6.4. «Изменение характера тенденции временного ряда».

Момент (период) времени сопровождается значительными изменениями ряда факторов, оказывающих сильное воздействие на изучаемый показатель . Чаще всего эти изменения вызваны изменениями в общеэкономической ситуации или факторами (событиями) глобального характера, приведшими к изменению структуры экономики (например, начало крупных экономических реформ, изменение экономического курса, нефтяные кризисы и прочие факторы). Если исследуемый временной ряд включает в себя соответствующий момент (период) времени, то одной из задач его изучения становится выяснение вопроса о том, значимо ли повлияли общие структурные изменения на характер этой тенденции.

Если это влияние значимо, то для моделирования тенденции данного временного ряда следует использовать кусочно-линейные модели регрессии , т.е. разделить исходную совокупность на две подсовокупности (до момента времени и после момента ) и построить отдельно по каждой подсовокупности уравнения линейной регрессии (на рис. 6.4 этим уравнением соответствуют прямые (1) и (2)). Если структурные изменении незначительно повлияли на характер тенденции ряда , то ее можно описать с помощью единого для всей совокупности данных уравнения тренда (на рис. 6.4 этому уравнению соответствует прямая (3)).

Каждый из описанных выше подходов имеет свои положительные и отрицательные стороны. При построении кусочно-линейной модели происходит снижение остаточной суммы квадратов по сравнению с единым для всей совокупности уравнением тренда. Однако разделение исходной совокупности на две части ведет к потере числа наблюдений, и, следовательно, к снижению числа степеней свободы в кажодм уравнении кусочно-линейной модели. Построение единого для всей совокупности уравнения тренда, напротив, позволяет, сохранить число наблюдений n исходной совокупности, однако остаточная сумма квадратов по этому уравнению будет выше по сравнению с кусочно-линейной модели. Построение единого для всей совокупности уравнения тренда, напротив, позволяет сохранить число наблюдений n исходной совокупности, однако остаточная сумма квадратов по этому уравнению будет выше по сравнению с кусочно-линейной моделью. Очевидно, что выбор одной из двух моделей (кусочно-линейной или единого уравнения тренда) будет зависеть от соотношения между снижением остаточной дисперсии и потерей числа степеней свободы при переходе от единого уравнения регрессии к кусочно-линейной модели.

№ уравнения Вид уравнения Число наблюдений в совокупности Остаточная сумма квадратов Число параметров в уравнении 1 Число степеней свободы остаточной дисперсии

Кусочно-линейная модель

(1)
(2)

Уравнение тренда по всей совокупности

(3)

1 В рассматриваемой нами формулировке число параметров всех уравнений k 1 =k 2 =k 3 =2. В общем случае число параметров в каждом уравнении может различаться.

Формальный статистический тест для оценки этого соотношения был предложен Грегори Чоу. Применение этого теста предполагает расчет параметров уравнений трендов, графики которых изображены на рис. 6.5 (1), (2), (3). Введем систему обозначений, приведенную в табл. 6.8

Выдвинем гипотезу Н 0 о структурной стабильности тенденции изучаемого временного ряда.

Остаточную сумму квадратов по кусочно-линейной модели () можно найти как сумму и

Соответствующее ей число степеней свободы зависит:

Тогда сокращение остаточной дисперсии при переходе от единого уравнения тренда к кусочно-линейной модели можно определить следующим образом:

Число степеней свободы, соответствующее , с учетом соотношения 6.10 будет равно

Найденное значение сравнивают с табличным, полученным по таблицам распределения Фишера для уровня значимости и числа степеней свободы и

Пример 6.2. Расчет параметров тренда.

Имеются помесячные данные о темпах роста номинальной заработной платы в РФ за 10 месяцев 2010 года в процентах к уровню предыдущего месяца 2009 г. (Табл. 6.3). Требуется выбрать наилучший тип тренда и определить его параметры.

Построим график данного временного ряда

Рис. 6.2. Динамика темпов роста номинальной заработной платы за 10 мес. 2010г.

На графике рис. 6.2. заметно наличие возрастающего тренда (тенденции). Возможно существование линейной зависимости.






Http://homekid.ru/kidinspb2010/kid2010part2.htm

Метод прогнозирования - способ создания прогноза через практические и теоретические действия. Существует большое количество методов прогнозирования. Единой классификации методов прогнозирования не существует .

Прогнозирование временного ряда - вычисление величины его будущих значений либо характеристик, позволяющих определить эту величину, на основании анализа известных значений. Величина, подлежащая прогнозу, называется прогнозируемой величиной (ПВ) .

Данные, представленные в виде временных рядов, интерпретируются в качестве последовательностей измерений, упорядоченных в неслучайные моменты времени. В отличие от анализа случайных выборок, анализ временных рядов основывается на предположении, что последовательные значения данных наблюдаются через равные промежутки времени (тогда как в других методах не важна и часто неинтересна привязка наблюдений ко времени). Задача прогнозирования временных рядов заключается в предсказании будущего поведения системы (вычисления будущих, неизвестных значений того или иного временного ряда) по имеющейся последовательности ее предыдущих состояний.

Прогнозирование временных рядов является важной научно-технической проблемой, т.к. позволяет предсказать поведение различных факторов в экологических, экономических, социальных и иных системах. Таким образом, основной целью любого прогнозирования является создание некой «машины времени», которая позволяет заглянуть в будущее и оценить тенденции в изменениях того или иного фактора. Такая «машина времени» в большинстве случаев базируется на методах математического моделирования, в частности, на построении модельной авторегрессии, скользящей по временному ряду и позволяющей осуществлять экстраполирование на несколько шагов вперед.

Существует множество методов прогнозирования. Одним из них является многослойный персептрон. Многослойный персептрон - это полносвязная модель без обратных связей. Количество слоев и нейронов в них обычно обусловлено постановкой задачи и вычислительными способностями ЭВМ.

Схему решения задачи прогнозирования можно представить в виде последовательности этапов (рис. 5.1).

Если временной ряд порождается динамической системой, т.е. значения {a(t)} - произвольная функция состояния такой системы, существует такое число d, что d предыдущих значений временного ряда однозначно определяет следующее значение. На практике большинство прогнозируемых временных рядов порождаются сложными динамическими системами, для которых велико значение d. Кроме того, в самом временном ряде может присутствовать случайная составляющая. Поэтому на этапе предварительных преобразований выполняются предварительные преобразования исходных данных, позволяющие уменьшить ошибку прогнозирования .

Предварительные преобразования (ПП) - получение для момента времени ti набора из определяющих факторов и соответствующего им значения ПВ. Определяющие факторы представляют собой некую функцию от прошлых значений временного рядя. После выполнения ПП для различных моментов времени t, временной ряд представляется в виде множества значений функции зависимости от определяющих факторов. Из множества полученных наборов выделяются два непересекающиеся подмножества. Одно из них представляет собой исходные данные (обучающую выборку). Другое подмножество представляет собой контрольную выборку, используется для проверки качества прогноза. Таким образом, прогнозирование временного ряда сводится к задаче интерполяции функции многих переменных. Система прогнозирования используется для восстановления этой функции по множеству наборов, входящих в состав обучающей выборки .

Определенной сложностью является формирование обучающей выборки, которая должна выполнять требования к полноте (выборка не должна содержать пропуски, должна содержать все допустимые примеры исследуемого диапазона) и непротиворечивости (выборка не должна содержать противоречивых примеров). Для проверки обучающей выборки на соответствие требованиям необходима оценка их качества, непосредственно определение понятий качества выборки, критериев оценки качества и разработки математического аппарата для их однозначной оценки. Для повышения прогностической способности допустимы (иногда необходимы) дополнительные преобразования, такие как методы фильтрации и восстановления данных (например, вейвлет-преобразование) .

Очевидно, с увеличением количества входных переменных погрешность растет. Также следует отметить, что погрешность слабо разнится у систем с одинаковой размерностью входных данных. Несмотря на достаточно высокие показатели погрешности, целесообразно проверить полученные результаты на тестовой выборке и сравнить с реальными показателями.

Например, искусственная нейронная сеть показывают хорошие результаты, когда размер обучающей выборки имеет приблизительно 200-300 значений. В случаях, когда временной ряд содержит тысячи, десятки тысяч значений, оптимальным было бы сократить его до нужного размера, при этом, не потеряв его значимости, отразив всю нужную информацию, т.е. осуществить сегментацию таким образом, чтобы временной ряд имел более компактное представление, но при этом ошибка прогноза по преобразованным данным не была недопустимой (рис. 5.2).

К сожалению, в работах большинства авторов основное внимание уделено выбору архитектуры алгоритма, способу обучения нейронных сетей, а этап ПП рассматривается лишь в контексте конкретной практической задачи, либо не рассматривается вообще. Как правило приводится описание определенного типа ПП и результатов, полученных от его использования в той или иной области, а сравнительного анализа с другими типами ПП и критериев, по которым можно было бы их сравнить, не приводится. Тем не менее, ПП влияет на результат решения задачи прогнозирования, т.к. результат ПП является исходными данными для алгоритмов прогнозирования. Корректно проведенный этап ПП может значительно уменьшить ошибку прогноза. Использование в качестве предварительного преобразования сверток исходных данных позволит описать ситуацию меньшим количеством признаков без потери или с допустимой потерей точности. Это также приводит к сокращению времени обучения нейронной сети .

Итак, необходимо разработать алгоритм, который позволит сформировать выборку по временному ряду таким образом, что потеря точности будет в допустимых пределах, а уменьшение количества значений не повлечет за собой увеличение ошибки алгоритма прогнозирования. Следовательно, входными данными будет являться временной ряд, выходными - выборка, которая в последствии будет являться входными данными для алгоритмов прогнозирования.

Данный алгоритм должен удовлетворять следующим требованиям:

  • -- возможность восстановления будущих значений ВР с требуемой точностью;
  • -- описывать ситуацию меньшим количеством признаков без потери или с допустимой потерей точности;
  • -- исключать избыточность;
  • -- обеспечивать стационарность ряда признаков;
  • -- обеспечить непротиворечивость ряда признаков.

Введение

В данной главе рассматриваются задачи описания упорядоченных данных, полученных последовательно (во времени). Вообще говоря, упорядоченность может иметь место не только во времени, но и в пространстве, например, диаметр нити как функция её длины (одномерный случай), значение температуры воздуха как функция пространственных координат (трёхмерный случай).

В отличие от регрессионного анализа, где порядок строк в матрице наблюдений может быть произвольным, во временных рядах важна упорядоченность, а следовательно, интерес представляет взаимосвязь значений, относящихся к разным моментам времени.

Если значения ряда известны в отдельные моменты времени, то такой ряд называют дискретным , в отличие от непрерывного , значения которого известны в любой момент времени. Интервал между двумя последовательными моментами времени назовём тактом (шагом) . Здесь будут рассматриваться в основном дискретные временные ряды с фиксированной протяжённостью такта, принимаемой за единицу счёта. Заметим, что временные ряды экономических показателей, как правило, дискретны.

Значения ряда могут быть измеряемыми непосредственно (цена, доходность, температура), либо агрегированными (кумулятивными) , например, объём выпуска; расстояние, пройдённое грузоперевозчиками за временной такт.

Если значения ряда определяются детерминированной математической функцией, то ряд называют детерминированным . Если эти значения могут быть описаны лишь с привлечением вероятностных моделей, то временной ряд называют случайным .

Явление, протекающее во времени, называют процессом , поэтому можно говорить о детерминированном или случайном процессах. В последнем случае используют часто термин “стохастический процесс” . Анализируемый отрезок временного ряда может рассматриваться как частная реализация (выборка) изучаемого стохастического процесса, генерируемого скрытым вероятностным механизмом.

Временные ряды возникают во многих предметных областях и имеют различную природу. Для их изучения предложены различные методы, что делает теорию временных рядов весьма разветвленной дисциплиной. Так, в зависимости от вида временных рядов можно выделить такие разделы теории анализа временных рядов:

– стационарные случайные процессы, описывающие последовательности случайных величин, вероятностные свойства которых не изменяются во времени. Подобные процессы широко распространены в радиотехнике, метереологии, сейсмологии и т. д.

– диффузионные процессы, имеющие место при взаимопроникновении жидкостей и газов.

– точечные процессы, описывающие последовательности событий, таких как поступление заявок на обслуживание, стихийных и техногенных катастроф. Подобные процессы изучаются в теории массового обслуживания.

Мы ограничимся рассмотрением прикладных аспектов анализа временных рядов, которые полезны при решении практических задач в экономике, финансах. Основной упор будет сделан на методы подбора математической модели для описания временного ряда и прогнозирования его поведения.

1.Цели, методы и этапы анализа временных рядов

Практическое изучение временного ряда предполагает выявление свойств ряда и получение выводов о вероятностном механизме, порождающем этот ряд. Основные цели при изучении временного ряда следующие:

– описание характерных особенностей ряда в сжатой форме;

– построение модели временного ряда;

– предсказание будущих значений на основе прошлых наблюдений;

– управление процессом, порождающим временной ряд, путем выборки сигналов, предупреждающих о грядущих неблагоприятных событиях.

Достижение поставленных целей возможно далеко не всегда как из-за недостатка исходных данных (недостаточная длительность наблюдения), так из-за изменчивости со временем статистической структуры ряда.

Перечисленные цели диктуют в значительной мере, последовательность этапов анализа временных рядов:

1) графическое представление и описание поведения ряда;

2) выделение и исключение закономерных, неслучайных составляющих ряда, зависящих от времени;

3) исследование случайной составляющей временного ряда, оставшейся после удаления закономерной составляющей;

4) построение (подбор) математической модели для описания случайной составляющей и проверка ее адекватности;

5) прогнозирование будущих значений ряда.

При анализе временных рядов используются различные методы, наиболее распространенными из которых являются:

1) корреляционный анализ, используемый для выявления характерных особенностей ряда (периодичностей, тенденций и т. д.);

2) спектральный анализ, позволяющий находить периодические составляющие временного ряда;

3) методы сглаживания и фильтрации, предназначенные для преобразования временных рядов с целью удаления высокочастотных и сезонных колебаний;

5) методы прогнозирования.

2.Структурные компоненты временного ряда

Как уже отмечалось, в модели временного ряда принято выделять две основные составляющие: детерминированную и случайную (рис.). Под детерминированной составляющей временного ряда понимают числовую последовательность , элементы которой вычисляются по определенному правилу как функция времени t . Исключив детерминированную составляющую из данных, мы получим колеблющийся вокруг нуля ряд, который может в одном предельном случае представлять чисто случайные скачки, а в другом – плавное колебательное движение. В большинстве случаев будет нечто среднее: некоторая иррегулярность и определенный систематический эффект, обусловленный зависимостью последовательных членов ряда.

В свою очередь, детерминированная составляющая может содержать следующие структурные компоненты:

1) тренд g, представляющий собой плавное изменение процесса во времени и обусловленный действием долговременных факторов. В качестве примера таких факторов в экономике можно назвать: а) изменение демографических характеристик популяции (численности, возрастной структуры); б) технологическое и экономическое развитие; в) рост потребления.

2) сезонный эффект s , связанный с наличием факторов, действующих циклически с заранее известной периодичностью. Ряд в этом случае имеет иерархическую шкалу времени (например, внутри года есть сезоны, связанные с временами года, кварталы, месяцы) и в одноименных точках ряда имеют место сходные эффекты.


Рис. Структурные компоненты временного ряда.

Типичные примеры сезонного эффекта: изменение загруженности автотрассы в течение суток, по дням недели, временам года, пик продаж товаров для школьников в конце августа - начале сентября. Сезонная компонента со временем может меняться, либо носить плавающий характер. Так на графике объема перевозок авиалайнерами (см рис.) видно, что локальные пики, приходящиеся на праздник Пасхи «плавают» из-за изменчивости ее сроков.

Циклическая компонента c , описывающая длительные периоды относительного подъема и спада и состоящая из циклов переменной длительности и амплитуды. Подобная компонента весьма характерна для рядов макроэкономических показателей. Циклические изменения обусловлены здесь взаимодействием спроса и предложения, а также наложением таких факторов, как истощение ресурсов, погодные условия, изменения в налоговой политике и т. п. Отметим, что циклическую компоненту крайне трудно идентифицировать формальными методами, исходя только из данных изучаемого ряда.

«Взрывная» компонента i , иначе интервенция, под которой понимают существенное кратковременное воздействие на временной ряд. Примером интервенции могут служить события «черного вторника» 1994г., когда курс доллара за день вырос на несколько десятков процентов.

Случайная составляющая ряда отражает воздействие многочисленных факторов случайного характера и может иметь разнообразную структуру, начиная от простейшей в виде «белого шума» до весьма сложных, описываемых моделями авторегрессии-скользящего среднего (подробнее дальше).

После выделения структурных компонент необходимо специфицировать форму их вхождения во временной ряд. На верхнем уровне представления с выделением лишь детерминированной и случайной составляющих обычно используют аддитивную либо мультипликативную модели.

Аддитивная модель имеет вид

мультипликативная –

где - значение ряда в момент t ;

Значение детерминированной составляющей;

Значение случайной составляющей.

В свою очередь, детерминированная составляющая может быть представлена как аддитивная комбинация детерминированных компонент:

как мультипликативная комбинация:


,

либо как смешанная комбинация, например,

3.Модели компонентов детерминированной составляющей временного ряда

3.1.Модели тренда

Тренд отражает действие постоянных долговременных факторов и носит плавный характер, так что для описания тренда широко используют полиномиальные модели, линейные по параметрам

где значения степени k полинома редко превышает 5.

Наряду с полиномиальными моделями экономические данные, описывающие процессы роста, часто аппроксимируются следующими моделями:

– экспоненциальной

Эта модель описывает процесс с постоянным темпом прироста, то есть

– логистической

У процесса, описываемого логистической кривой, темп прироста изучаемой характеристики линейно падает с увеличением y , то есть

– Гомперца

.

Эта модель описывает процесс, в котором темп прироста исследуемой характеристики пропорционален ее логарифму

.

Две последние модели задают кривые тренда S -образной формы, представляя процессы с нарастающим темпом роста в начальной стадии с постепенным замедлением в конце.

При подборе подходящей функциональной зависимости, иначе спецификации тренда, весьма полезным является графическое представление временного ряда.

Отметим также, что тренд, отражая действие долговременных факторов, является определяющим при построении долговременных прогнозов.

3.2 Модели сезонной компоненты

Сезонный эффект во временном ряде проявляется на «фоне» тренда и его выделение оказывается возможным после предварительной оценки тренда. (Здесь не рассматриваются методы спектрального анализа, позволяющего выделить вклад сезонной компоненты в спектр без вычисления других компонент ряда). Действительно, линейно растущий ряд помесячных данных будет иметь схожие эффекты в одноименных точках – наименьшее значение в январе и наибольшее в декабре; однако вряд ли здесь уместно говорить о сезонном эффекте: исключив линейный тренд, мы получим ряд, в котором сезонность полностью отсутствует. В то же время ряд, описывающий помесячные объемы продаж новогодних открыток, хотя и будет иметь такую же особенность (минимум продаж в январе и максимум в декабре) будет носить скорее всего колебательный характер относительно тренда, что позволяет специфицировать эти колебания как сезонный эффект.

В простейшем случае сезонный эффект может проявляться в виде строго периодической зависимости.

Для любого t , где t - период сезонности.

В общем случае значения, отстоящие на t могут быть связаны функциональной зависимостью, то есть

К примеру, сезонный эффект сам может содержать трендовую составляющую, отражающую изменение амплитуды колебаний.

Если сезонный эффект входит в ряд аддитивно, то модель сезонного эффекта можно записать как


где - булевы, иначе индикаторные, переменные, по одной на каждый такт внутри периода t сезонности. Так, для ряда месячных данных =0 для всех t , кроме января каждого года, для которого =1 и так далее. Коэффициент при показывает отклонение январских значений от тренда, - отклонение февральских значений и так далее до . Чтобы снять неоднозначность в значениях коэффициентов сезонности , вводят дополнительное ограничение, так называемое условие репараметризации, обычно

В том случае, когда сезонный эффект носит мультипликативный характер, то есть

модель ряда с использованием индикаторных переменных можно записать в виде

Коэффициенты , в этой модели принято называть сезонными индексами.

Для полностью мультипликативного ряда


обычно проводят процедуру линеаризации операцией логарифмирования

Условимся называть представленные модели сезонного эффекта «индикаторными». Если сезонный эффект достаточно «гладкий» – близок к гармонике, используют «гармоническое» представление

,

где d - амплитуда, w - условия частоты (в радианах в единицу времени), a - фаза волны. Поскольку фаза обычно заранее неизвестна. Последнее выражение записывают как

Параметры А и В можно оценить с помощью обычно регрессии. Угловая частота w считается известной. Если качество подгонки окажется неудовлетворительным, наряду с гармоникой w основной волны в модель включают дополнительно первую гармонику (с удвоенной основной частотой 2w ), при необходимости и вторую и так далее гармоники. В принципе, из двух представлений: индикаторного и гармоничного – следует выбирать то, которое потребует меньшего числа параметров.

3.3 Модель интервенции

Интервенция, представляющая собой воздействие, существенно превышающее флуктуации ряда, может носить характер «импульса» или «ступеньки».

Импульсное воздействие кратковременно: начавшись, оно почти тут же заканчивается. Ступенчатое воздействие длительно, носит устойчивый характер. Обобщенная модель интервенции имеет вид

где - значение детерминированной компоненты ряда, описываемой как интервенция;

Коэффициенты типа скользящего среднего;

Экзогенная переменная одного из двух типов;

(«ступень»), или («импульс»)

где -- фиксированный момент времени, называемый моментом интервенции.

4.Методы выделения тренда

Приведенные в п.3.1 спецификации ряда являются параметрическими функциями времени. Оценивание параметров может быть проведено по методу наименьших квадратов так же, как в регрессионном анализе. Хотя статистические предпосылки регрессионного анализа (см п.) во временных рядах часто не выполняются (особенно п.5 – некоррелированность возмущений), тем не менее оценки тренда оказываются приемлемыми, если модель специфицирована правильно и среди наблюдений нет больших выбросов. Нарушение предпосылок регрессионного анализа сказывается не столько на оценках коэффициентов, сколько на их статистических свойствах, в частности, искажаются оценки дисперсии случайной составляющей и доверительные интервалы для коэффициентов модели.

В литературе описываются методы оценивания в условиях коррелированности возмущений, однако их применение требует дополнительной информации о корреляции наблюдений.

Главная проблема при выделении тренда состоит в том, что подобрать единую спецификацию для всего временного часто невозможно, поскольку меняются условия протекания процесса. Учет этой изменчивости особенно важен, если тренд вычисляется для целей прогнозирования. Здесь сказывается особенность именно временных рядов: данные относящиеся к «далекому прошлому» будут неактуальными, бесполезными или даже «вредными» для оценивания параметров модели текущего периода. Вот почему при анализе временных рядов широко используются процедуры взвешивания данных.

Для учета изменчивости условий модель ряда часто наделяют свойством адаптивности, по крайней мере, на уровне оценок параметров. Адаптивность понимается в том смысле, что оценки параметров легко пересчитываются по мере поступления новых наблюдений. Конечно, и обычному методу наименьших квадратов можно придать черты адаптивности, пересчитывая оценки каждый раз, вовлекая в процесс вычислений старые данные плюс свежие наблюдения. Однако при этом каждый новый пересчет ведет к изменению прошлых оценок, тогда как адаптивные алгоритмы свободны от этого недостатка.

4.1 Скользящие средние

Метод скользящих средних – один из самых старых и широко известных способов выделения детерминированной составляющей временного ряда. Суть метода состоит в усреднении исходного ряда на интервале времени, длина которого выбрана заранее. При этом сам выбранный интервал скользит вдоль ряда, сдвигаясь каждый раз на один такт вправо (отсюда название метода). За счет усреднения удается существенно уменьшить дисперсию случайной составляющей.

Ряд новых значений становится более гладким, вот почему подобную процедуру называют сглаживанием временного ряда.

Процедуру сглаживания рассмотрим вначале для ряда, содержащего лишь трендовую составляющую, на которую аддитивно наложен случайных компонент.

Как известно, гладкая функция может быть локально представлена в виде полинома с довольно высокой степенью точности. Отложим от начала временного ряда интервал времени длиной (2m +1) точек и построим полином степени m для отобранных значений и используем этот полином для определения значения тренда в (m +1 )-й, средней, точке группы.

Построим для определенности полином 3-го порядка для интервала из семи наблюдений. Для удобства дальнейших преобразований занумеруем моменты времени внутри выбранного интервала так, чтобы его середина имела нулевое значение, т.е. t = -3, -2, -1, 0, 1, 2, 3. Запишем искомый полином:


Константы находим методом наименьших квадратов:

Дифференцируем по коэффициентам :

;

Суммы нечетных порядков t от -3 до +3 равны 0, и уравнения сводятся к виду:


Используя первое и третье из уравнений, получаем при t=0:

Следовательно, значение тренда в точке t = 0 равно средневзвешенному значению семи точек с данной точкой в качестве центральной и весами

, которые в силу симметрии можно записать короче:

.

Для того чтобы вычислить значение тренда в следующей, (m+2)-й точке исходного ряда (в нашем случае пятой), следует воспользоваться формулой (1), где значения наблюдений берутся из интервала, сдвинутого на такт вправо, и т.д. до точки N - m .

количество точек формула

9 .

Свойства скользящих средних:

1) сумма весов равна единице (т.к. сглаживание ряда, все члены которого равны одной и той же константе, должно приводить к той же константе);

2) веса симметричны относительно серединного значения;

3) формулы не позволяют вычислить значения тренда для первых и последних m значений ряда;

4) можно вывести формулы для построения трендов на четном числе точек, однако при этом были бы получены значения трендов в серединах временных тактов. Значение тренда в точках наблюдений можно определить в этом случая как полусумма двух соседних значений тренда.

Следует отметить, что при четном числе 2m тактовв интервале усреднения (двадцать четыре часа в сутки, четыре недели в месяце, двенадцать месяцев в году), широко практикуется простое усреднение с весами . Пусть имеются, например, наблюдения на последний день каждого месяца с января по декабрь. Простое усреднение 12 точек с весами дает значение тренда в середине июля. Чтобы получить значение тренда на конец июля надо взять среднее значение тренда в середине июля и середине августа. Оказывается, это эквивалентно усреднению 13-месячных данных, но значения на краях интервала берут с весами . Итак, если интервал сглаживания содержит четное число 2m точек, в усреднении задействуют не 2m , а 2m +1 значений ряда:

Скользящие средние, сглаживая исходный ряд, оставляют в нем трендовую и циклическую составляющие. Выбор величины интервала сглаживания должен делаться из содержательных соображений. Если ряд содержит сезонный компонент, то величина интервала сглаживания выбирается равной или кратной периоду сезонности. В отсутствии сезонности интервал сглаживания берется обычно в диапазоне три-семь

Эффект Слуцкого-Юла

Рассмотрим, как влияет процесс сглаживания на случайную составляющую ряда, относительно которой будем полагать, что она центрирована и соседние члены ряда некоррелированы.

Скользящее среднее случайного ряда x есть:

.

В силу центрированности x и отсутствия корреляций между членами исходного ряда имеем:

И .

Из полученных соотношений видно, что усреднение приводит к уменьшению дисперсии колебаний. Кроме того члены ряда, полученные в результате усреднения, не являются теперь независимыми. Производный, сглаженный, ряд имеет ненулевые автокорреляции (корреляции между членами ряда, разделенных k-1 наблюдениями) вплоть до порядка 2m. Таким образом производный ряд будет более гладким, чем исходный случайный ряд, и в нем могут проявляться систематические колебания. Этот эффект называется эффектом Слуцкого-Юла.

4.2 Определение порядка полинома методом последовательных разностей

Если имеется ряд, содержащий полином (или локально представляемый полиномом) с наложенным на него случайным элементом, то было бы естественно исследовать, нельзя ли исключить полиномиальную часть вычислением последовательных разностей ряда. Действительно, разности полинома порядка k представляют собой полином порядка k-1. Далее, если ряд содержит полином порядка p , то переход к разностям, повторенный (p+1) раз, исключает его и оставляет элементы, связанные со случайной компонентой исходного ряда.

Рассмотрим, к примеру, переход к разностям в ряде, содержащим полином третьего порядка.

0 1 8 27 64 125

6 12 18 24

6 6 6

0 0

Взятие разностей преобразует случайную составляющую ряда.

В общем случае получаем:

;

.

Из последнего соотношения получаем

Следовательно, метод последовательных разностей переменной состоит в вычислении первых, вторых, третьих и т.д. разностей, определении сумм квадратов, делении на и т.д. и обнаружения момента, когда это отношение становится постоянным. Таким образом мы получаем оценки порядка полинома, содержащегося в исходном ряде, и дисперсии случайного компонента.

4.3.Методы экспоненциального сглаживания

Методы построения функций для описания наблюдений до сих пор основывался на критерии наименьших квадратов, в соответствии с которым все наблюдения имеют равный вес. Однако, можно предположить, что недавним точкам следует придавать в некотором смысле больший вес, а наблюдения, относящиеся к далекому прошлому, должны иметь по сравнению с ними меньшую ценность. До некоторой степени мы учитывали это в скользящих средних с конечной длиной отрезка усреднения, где значения весов, приписываемых группе из 2m+1 значений, не зависят от предшествующих значений. Теперь обратимся к другому методу выделения более «свежих» наблюдений.

Рассмотрим ряд весов, пропорциональных множителю b, а именно и т.д. Так как сумма весов должна равняться единице, т.е. , весами фактически будут и т.д. (предполагается, что 0

4.3.1 Простое экспоненциальное сглаживание

Рассмотрим простейший ряд , равный сумме постоянной (уровень) и случайной компоненты :

.

В приведенном выражении расхождения между наблюденными значениями ряда и оценкой уровня берутся с экспоненциально убывающими весами в зависимости от возраста данных.

; ; .

Полученную оценку на момент t обозначим (t ). Сглаженное значение в момент t можно выразить через сглаженное значение в прошлый момент t -1 и новое наблюдение :

Полученное соотношение

Перепишем несколько иначе, введя так называемую постоянную сглаживания (0 £a £1).

Из полученного соотношения видно, что новое сглаженное значение получается из предыдущего коррекцией последнего на долю ошибки, рассогласования, между новым и прогнозным значениями ряда. Происходит своего рода адаптация уровня ряда к новым данным.

4.3.2 Экспоненциальное сглаживание высоких порядков

Обобщим метод экспоненциального сглаживания на случай, когда модель процесса определяется линейной функцией . Как и прежде, при заданном b минимизируем:

.

(Здесь для удобства представления знаки ~ и Ù опущены).

,

С учетом того что

, ,

получаем

Запишем: .

Эту операцию можно рассматривать как сглаживание 1-го порядка. По аналогии построим сглаживание 2-го порядка:

; .

Рассмотренную выше процедуру можно обобщить на случай полиномиальных трендов более высокого порядка n , при этом алгебраические выражения будут сложнее. Например, если модель описывается параболой, то используется метод тройного экспоненциального сглаживания.

5. Оценивание и исключение сезонной компоненты

Сезонные компоненты могут представлять самостоятельный интерес либо выступать в роли мешающего фактора. В первом случае необходимо уметь выделять их из ряда и оценивать параметры соответствующей модели. Что же касается удаления сезонной компоненты из ряда, то здесь возможны несколько способов.

Рассмотрим сначала процедуру оценивания сезонных эффектов. Пусть исходный ряд является полностью аддитивным, то есть

.

Необходимо оценить по наблюденным . Иными словами, необходимо получить оценки коэффициентов индикаторной модели.

Как уже отмечалось, сезонный эффект проявляется на фоне тренда, поэтому вначале необходимо оценить трендовую составляющую одним из рассмотренных методов. Затем для каждого сезона вычисляют все относящиеся к нему разности

где, как обычно, - наблюденное значение ряда, - оцененное значение тренда.

Каждая из этих разностей дает совместную оценку сезонного эффекта и случайного компонента, отличного, правда, от исходного в силу взятия разностей.

Производя усреднение полученных разностей, получают оценки эффектов. Полагая, что исходный ряд содержит целое число k периодов сезонности и ограничиваясь простым средним, имеем

С учетом условия репараметризации, требующим, чтобы сумма сезонных эффектов равнялась нулю, получаем скорректированные оценки

.

В случае мультипликативного сезонного эффекта, когда модель ряда имеет вид

,

вычисляют уже не разности, а отношения

.

В качестве оценки сезонного индекса выступает среднее

.

На практике считается, что для оценки сезонных эффектов временной ряд должен содержать не менее пяти-шести периодов сезонности.

Перейдем теперь к способам удаления сезонного эффекта из ряда. Таких способов два. Первый из них назовем «послетрендовый». Он является логическим следствием рассмотренной выше процедуры оценивания. Для аддитивной модели удаление сезонной компоненты сводится к вычитанию оцененной сезонной компоненты из исходного ряда. Для мультипликативной модели значения ряда делят на соответствующие сезонные индексы.

Второй способ не требует предварительной оценки ни трендовой, ни сезонной компонент, а основывается на использовании разностных операторов.

Разностные операторы.

При исследовании временных рядов часто имеется возможность представить детерминированные функции времени простыми рекуррентными уравнениями. К примеру, линейный тренд

можно записать как

Последнее соотношение получается из (1) сравнением двух значений ряда для соседних моментов t -1 и t . Учитывая, что соотношение (2) справедливо и для моментов t -2 и t - 1, так что , модель (1) можно записать и в виде


Модель (3) не содержит явно параметров, описывающих тренд. Более компактно описанные преобразования можно описать, используя операторы взятия разности назад

Модели (2) и (3) можно записать как

Выходит, разность второго порядка полностью исключает из исходного ряда линейный тренд. Легко видеть, что разность порядка d исключает из ряда полиномиальный тренд порядка d -1. Пусть теперь ряд содержит сезонный эффект с периодом t , так что

Процедура перехода от ряда (t = 1,2,...,T ) к ряду называется взятием первой сезонной разности, а оператор сезонным разностным оператором с периодом t . Из (4) следует, что

Выходит, взятие сезонной разности исключает из временного ряда любую детерминированную сезонную компоненту.

Иногда оказываются полезными сезонные операторы более высоких порядков. Так, сезонный оператор второго порядка с периодом t есть

Если ряд содержит и тренд, и сезонную составляющую, их можно исключить, последовательно применяя операторы и .

Легко показать, что порядок применения этих операторов не существенен:

Отметим также, что детерминированный тренд, состоящий из тренда и сезонной компоненты, после применения операторов и полностью вырождается, то есть . Однако записав последнее уравнение в рекуррентной форме, получаем

Из последнее соотношения видно, каким образом ряд можно неограниченно продолжать, имея вначале по крайней мере t +1 последовательных значения.

6. Модели случайной составляющей временного ряда

линейный ряд временной система

Для удобства изложения условимся обозначать здесь случайные величины так, как это принято в математической статистике – строчными буквами.

Случайным процессом X ( t ) на множестве Т называют функцию, значения которой случайны при каждом t ÎT. Если элементы Т счетные (дискретное время), то случайный процесс часто называют случайной последовательностью.

Полное математическое описание случайного процесса предполагает задание системы функций распределения:

– для каждого t ÎT, (1)

– для каждой пары элементов

и вообще для любого конечного числа элементов

Функции (1),(2),(3) называют конечномерными распределениями случайного процесса.

Построить такую систему функции для произвольного случайного процесса практически невозможно. Обычно случайные процессы задают с помощью априорных предположений о его свойствах, таких как независимость приращений, марковский характер траекторий и т. п.

Процесс, у которого все конечномерные распределения нормальны, называется нормальным (гауссовским). Оказывается, что для полного описания такого процесса достаточно знания одно- и двумерного распределений (1), (2), что важно с практической точки зрения, поскольку позволяет ограничиться исследованием математического ожидания и корреляционной функцией процесса.

В теории временных рядов используются ряд моделей случайной составляющей, начиная от простейшей – «белого шума», до весьма сложных типа авторегрессии – скользящего среднего и других, которые строятся на базе белого шума.

Прежде чем определять процесс белого шума рассмотрим последовательность независимых случайных величин, для которой функция распределения есть

Из последнего соотношения следует, что все конечномерные распределения последовательности определяются с помощью одномерных распределений.

Если к тому же в такой последовательности составляющие ее случайные величины X (t ) имеют нулевое математическое ожидание и распределены одинаково при всех t ÎT, то это – «белый шум». В случая нормальности распределения X (t ) говорят о гауссовском белом шуме. Итак, гауссовский белый шум – последовательность независимых нормально распределенных случайных величин с нулевым математическим ожиданием и одинаковой (общей) дисперсией.

Более сложными моделями, широко используемыми в теории и практике анализа временных рядов, являются линейные модели: процессы скользящего среднего, авторегрессии и смешанные.

Процесс скользящего среднего порядка q представляет собой взвешенную сумму случайных возмущений:

где – независимые одинаково распределенные случайные величины (белый шум);

– числовые коэффициенты.

Легко видеть из определения, что у процесса скользящего среднего порядка q (сокращенно CC(q )) статистически зависимыми являются (q +1) подряд идущих величин X (t ), X (t -1),..., X (t - q ). Члены ряда, отстоящие друг от друга больше чем на (q +1) такт, статистически независимы, поскольку в их формировании участвуют разные слагаемые .

где – случайное возмущение, действующее в текущий момент t ;

– числовые коэффициенты.

Выражая последовательно в соответствии с соотношением (5) X (t-1) через X (t-2), . . . , X (t-p-1), затем X (t-2) через X (t-3), . . . , X (t-p-2) и т.д. получим, что X (t) есть бесконечная сумма прошлых возмущений Из этого следует, члены процесса авторегрессии X(t) и X (t-k) статистически зависимы при любомk .

Процесс АР(1) часто называют процессом Маркова, АР(2) – процессом Юла. В общем случае марковским называют такой процесс, будущее которого определяется только его состоянием в настоящем и воздействиями на процесс, которые будут оказываться в будущем, тогда как его состояние до настоящего момента при этом несущественно. Процесс АР(1)

является марковским, поскольку его состояние в любой момент определяется через значения процесса , если известна величина в момент . Формально процесс авторегресси произвольного порядка также можно считать марковским, если его состоянием в момент t считать набор

(X (t),X (t-1), . . . , X (t-p-1)) .

Более полно модели СС, АР, а также их композиция: модели авторегрессии – скользящего среднего рассматриваются далее (п.10.1.5). Заметим только, что все они представляются частными случаями общей линейной модели

где – весовые коэффициенты, число которых, вообще-то говоря, бесконечно.

Среди моделей случайной составляющей выделим важный класс – стационарные процессы, такие, свойства которых не меняются во времени. Случайный процесс Y(t) называется стационарным, если для любых n , распределения случайных величин и одинаковы. Иными словами, функции конечномерных распределений не меняются при сдвиге времени:


Образующие стационарную последовательность случайные величины распределены одинаково, так что определенный выше процесс белого шума является стационарным.

7.Числовые характеристики случайной составляющей

При анализе временных рядов используются числовые характеристики, аналогичные характеристикам случайных величин:

– математическое ожидание (среднее значение процесса)

;

– автоковариационная функция

– дисперсия

– стандартное отклонение

– автокорреляционная функция

– частная автокорреляционная функция

Заметим, что в операторе функции усреднение происходит при неизменном t , то есть имеется математическое ожидание по множеству реализаций (вообще-то говоря, потенциальных поскольку «в реку времени нельзя войти дважды»).

Рассмотрим введенные числовые характеристики для стационарных процессов. Из определения стационарности следует, что для любых s , t и

положив = - t , получаем

(1)

Выходит, у стационарного процесса математическое ожидание и дисперсия одинаковы при любом t , а автоковариационная и автокорреляционная функции зависят не от момента времени s илиt , а лишь от их разности (лага).

Отметим, что выполнение свойств (1) еще не влечет стационарности в смысле определения из п.6. Тем не менее постоянство первых двух моментов, а также зависимость автокорреляционной функции только от лага определенно отражает некоторую неизменность процесса во времени. Если выполнены условия (1), то говорят о стационарности процесса в широком смысле, тогда как выполнение условий () означает стационарность в узком (строгом) смысле.

Данное выше определение белого шума надо трактовать в узком смысле. На практике часто ограничиваются белым шумом в широком смысле, под которым понимают временной ряд (случайный процесс), у которого =0 и

Отметим, что гаусовский процесс, стационарный в узком смысле, стационарен и в широком смысле.

О стационарности в широком смысле судить гораздо проще. Для этого используют различные статистические критерии, базирующиеся на одной реализации случайного процесса.

8.Оценивание числовых характеристик временного ряда

Оценивание числовых характеристик случайного временного ряда в каждый момент времени требует набора реализаций (траекторий) соответствующего случайного процесса. Хотя время и не воспроизводимо, однако условия протекания процесса иногда можно считать повторяющимися. Особенно это характерно для технических приложений, например, колебания напряжения в электрической сети в течении суток. Временные ряды, наблюдаемые в разные сутки, можно считать независимыми реализациями одного случайного процесса.

Иная ситуация при исследовании процессов социально-экономической природы. Как правило, здесь доступна единственная реализация процесса, повторить которую не представляется возможным. Следовательно, получить оценки среднего, дисперсии, ковариации нельзя. Однако для стационарных процессов подобные оценки все-таки возможны. Пусть наблюденные значения временного ряда в моменты соответственно. Традиционная оценка среднего может служить оценкой математического ожидания стационарного (в широком смысле) случайного процесса.

Ясно, что такая оценка для стационарного ряда будет несмещенной. Состоятельность этой оценки устанавливается теоремой Слуцкого, которая в качестве необходимого и достаточного условия требует чтобы

,

где – автокорреляционная функция процесса.

Точность оценивания среднего зависит от длины N ряда. Считается, что длина N всегда должна быть не меньше так называемого времени корреляции, под которым понимают величину

Величина Т дает представление о порядке величины промежутка времени , на котором сохраняется заметная корреляция между двумя значениями ряда.

Рассмотрим теперь получение оценок значений автокорреляционной функции. Как и прежде, – наблюденные значения временного ряда. Образуем (N -1) пар . Эти пары можно рассматривать как выборку двух случайных величин, для которых можно определить оценку стандартного коэффициента корреляции . Затем составим (N -2) пар и определим оценку и т.д. Поскольку при подсчете очередного объем выборки меняется, меняется значение среднего и стандартного отклонения для соответствующего набора значений. Для упрощения принято измерять все переменные относительно среднего значения всего ряда и заменять дисперсионные члены в знаменателе на дисперсию ряда в целом, то есть

,

где - среднее, равное .

При больших N расхождение в оценках незначительные. На практике k берут не выше N /4.

Если ряд рассматривается как генеральная совокупность бесконечной длины, то говорят об автокорреляциях (теоретических) и обозначают их . Массив коэффициентов или соответствующих им выборочных коэффициентов содержат весьма ценную информацию о внутренней структуре ряда. Совокупность коэффициентов корреляции, нанесенная на график с координатами k (лаг) по оси абсцисс и либо по оси ординат, называют коррелограммой (теоретической или выборочной соответственно).

Точностные характеристики оценки получены для гауссовских процессов. В частности, для гаусовского белого шума, у которого все корреляции равны нулю, . Математическое ожидание для гауссовского белого шума оказывается не равным нулю, а именно, , то есть оценка оказывается смещенной. Величина смещения убывает с ростом объема выборки и не столь существенна в прикладном анализе.

Оценка асимптотически нормальна при , что дает основание для построения приблизительного доверительного интервала. Широко применяемый 95%-интервал есть .

Границы доверительного интервала, нанесенные на график, называют доверительной трубкой. Если коррелограмма некоторого случайного процесса не выходит за пределы доверительной трубки, то этот процесс близок к белому шуму. Правда, это условие можно считать лишь достаточным. Нередко выборочная коррелограмма гауссовского белого шума содержит один, а то и два выброса среди первых 20 оценок , что естественно затрудняет интерпретацию подобной коррелограммы.

Наряду с автокорреляционной функцией при анализе структуры случайного временного ряда используется частная автокорреляционная функция, значения которой суть частные коэффициенты корреляции.

9. Свободные от закона распределения критерии проверки ряда на случайность

Простейшей гипотезой, которую можно выдвинуть относительно колеблющегося ряда, не имеющего явно выраженного тренда, является предположение, что колебания случайны. В случайных рядах, согласно гипотезе, наблюдения независимы и могут следовать в любом порядке. Для проверки на случайность желательно использовать критерий, не требующий каких-либо ограничений на вид распределения совокупности, из которой, по предположению, извлекаются наблюдаемые значения.

1. Критерий поворотных точек состоит в подсчёте пиков (величин, которые больше двух соседних) и впадин (величин, которые меньше двух соседних). Рассмотрим ряд y 1 ,...,y N .

пик впадина

y t-1 < y t > y t+1 y t-1 > y t < y t+1


y t-1 y t y t+1 y t-1 y t y t+1

Рис. Поворотные точки.

Для определения поворотной точки требуются три последовательных значения. Начальное и конечное значения не могут быть поворотными точками, т. к. неизвестно y 0 и y N+1 . Если ряд случаен, то эти три значения могут следовать в любом из шести возможных порядков с равной вероятностью. Только в четырёх из них будет поворотная точка, а именно, когда наибольшее или наименьшее из трёх значений находится в середине. Следовательно, вероятность обнаружения поворотной точки в любой группе из трёх значений равна 2/3.


Рис. Варианты взаимного расположения трёх точек.

Для группы из N величин определим счётную переменную Х.

ì 1, если y t-1 < y t > y t+1 или y t-1 > y t < y t+1

î 0, в противном случае.

Тогда число поворотных точек р в ряде есть просто , а их математическое ожидание есть М[p]=2/3(N-2). Дисперсия числа поворотных точек вычисляется по формуле D[p]=(16N-29)/90, а само распределение близко к нормальному.

2. Критерий, основанный на определении длины фазы

Интервал между двумя поворотными точками называется фазой. Для того, чтобы установить наличие фазы длины d (например, восходящей) , нужно обнаружить d+3 членов, содержащих падение от первого члена ко второму,затем последовательный подъем до (d+2)-го члена и падение к (d+3)-ему члену.


1 2 3 4 d+1 d+2 d+3 N

рис. 3. Фаза длины d.

Рассмотрим группу из d+3 чисел, расположенных в порядке возрастания. Если, не трогая двух крайних членов, извлечь пару чисел из оставшихся d+1 и одно из них поставить в начало, а другое в конец, получим фазу длины d. Существует способов такого выбора пары чисел и каждый член пары может быть поставлен в любой конец, следовательно число восходящих фаз равно d(d+1).

Кроме того, поворотные точки будут иметь место, если первый член последовательности поставить в конец, а любой из оставшихся, за исключением второго, поместить в начало. Число таких последовательностей составит ( d +1) . Еще столько же последовательностей получиться если последний член в исходной, возрастающей, последовательности поставить в начало, а любой другой, кроме последнего, в конец. Во избежании двойного счета следует исключить случай, когда первый член ставится на последнее место, а последний на первое. Таким образом, в последовательности из ( d +3) чисел с фазой длиной d число случаев роста составит

d (d +1)+2(d +1)-1 =+3d +1 .

Число возможных последовательностей из ( d +3) чисел равняется числу перестановок ( d +3) !, так что вероятность либо восходящей, либо нисходящей фазы равна

В ряде длины N последовательно можно выделить N-2-d групп по d+3 членов. Т.о. математическое ожидание числа фаз длины d

.

Можно показать, что математическое ожидание общего числа фаз длины от 1 до N-3

.

3 .Критерий, основанный на знаках разностей

Данный критерий состоит в подсчете числа положительных разностей первого порядка в ряде, иначе говоря, числа точек возрастания ряда. Для ряда из N членов получаем N-1 разностей. Определим счетную переменную как

Если теперь обозначить через с число точек возрастания случайного ряда, то

.

Распределение довольно быстро стремится к нормальному с дисперсией

.

В основном данный критерий рекомендуется для проверки наличия линейного тренда. С другой стороны, критерий, основанный на поворотных точках, плохо подходит для обнаружения тренда, т.к. наложение заметных случайных колебаний на умеренный тренд приводит примерно к тому же множеству поворотных точек, что и при отсутствии тренда. .Более совершенным, но более сложным критерием для обнаружения линейного тренда являются регрессия y на t и проверка значимости регрессионного коэффициента.

4.Критерий, основанный на ранговых сравнениях

Идею сравнения соседних значений ряда можно развить до сравнения всех значений. Для данного ряда подсчитаем число случаев, когда очередной член ряда превышает все последующие. Всего для сравнения имеется N(N-1) пар. Пусть n общее число случаев превышения. Подсчитывают ранговый коэффициент корреляции Кендэла

.

Если этот коэффициент значим и положителен, то ряд возрастающий, если отрицателен, то - убывающий.

10.Теоретический анализ стационарной случайной составляющей линейного вида

Рассматривается общая линейная модель стохастического процесса

где – белый шум

– весовые коэффициенты.

Напомним, что=0, ,

Введем оператор сдвига на один шаг назад В :

Многократное (для определенности j -кратное) применения оператора В , обозначаем как , дает С учетом введенных обозначений общую линейную модель можно записать как

где – линейный оператор.

Найдем математическое ожидание, дисперсию и автоковариационную функцию для процесса (1):

;

Для того чтобы модель имела смысл, дисперсия должна быть конечной, то есть предполагается, что ряд сходится.

Кроме этого предполагают, что имеет место так называемое условие обратимости:

,

где вместо В фигурируют комплексные числа. Из этого условия вытекает существование обратного оператора

где , то есть такого, что

Раскрывая произведение в последнем выражении, группируя однородные по члены и приравнивая их к нулю, получают выражения для определения коэффициентов . Так, и так далее.

Умножая () на слева, получим, что обратимый процесс может быть записан в виде

Запись (2) соответствует авторегрессионой схеме бесконечного порядка. Это же соотношение можно трактовать как линейный предиктор для по всем прошлым значениям временного ряда, а слагаемое – как случайную ошибку этого предиктора. Если известны все прошлые значения ряда, то по форме (2) можно спрогнозировать будущее значение ряда.

10.1\. Модели авторегрессии

Рассмотрим более подробно модели случайной составляющей, являющиеся частными случаями общей линейной модели, а именно модели авторегрессии, скользящего среднего и смешанные, широко применяемые на практике.

Модель АР(1) имеет вид

В модель примет вид

Рассматривая как сумму бесконечно убывающей геометрической прогрессии со знаменателем а В получаем, что

Таким образом, марковский процесс есть частный случай общей линейной модели, коэффициенты которой меняются по закону геометрической прогрессии, то есть .

Выражение (2) можно получить и из (1) непосредственно, выражая через , через и т.д.

Дисперсия в соответствие с () есть

Выходит, белый шум с дисперсией порождает в схеме Маркова случайный процесс с возросшей дисперсией, равной .

Для нахождения автоковариационной функции Марковского процесса можно воспользоваться общим выражением (). Однако более нагляден следующий путь. Домножим уравнение (1) марковского процесса на и возьмем математическое ожидание

Поскольку второе слагаемое в правой части равно нулю в силу некоррелированности возмущения в текущий момент с прошлыми значениями ряда , получаем

( в силу стационарности )

Из последнего соотношения имеем

,

то есть а совпадает с коэффициентом автокорреляции средних членов ряда. Умножим теперь (1) на и возьмем математическое ожидание:

Заменяя а на и деля на , получаем

Придавая k значения 2,3,… получим

Итак, в марковском процессе все автокорреляции можно выразить через первую автокорреляцию. Поскольку , автокорреляционная функция марковского процесса экспоненциально убывает при росте k .

Рассмотрим теперь частную автокорреляционную функцию марковского процесса. Мы получили, что корреляция между двумя членами ряда, отстоящими на два такта, то есть между и выражается величиной . Но зависит от , а от . Возникает вопрос, сохранится ли зависимость между и , если зависимость от срединного члена устранена. Соответствующий частный коэффициент корреляции есть

.

Поскольку , числитель равен нулю. Аналогично можно показать, что частные коэффициенты корреляции для членов ряда, отстоящих на 3,4 и так далее тактов, также равны нулю. Таким образом, автокорреляция существует только благодаря корреляции соседних членов, что впрочем следует из математической модели марковского процесса.

Завершая рассмотрение модели АР(1), отметим, что она весьма часто используется в экономико-математических исследованиях для описания остатков линейной регрессии, связывающей экономические показатели.

С использованием оператора сдвига В модель запишется как

,

Свойства модели зависят от корней и полинома

который можно записать также в виде

(1-В )(1-В )=0.

Для стационарности процесса (1) необходимо, чтобы корни и лежали внутри единичной окружности (случай комплексных корней), либо были меньше единицы (случай действительных корней), что обеспечивается при .

Пусть и действительны и различны. Разложим на простые дроби

, (3)

где .

Рассматривая отдельные слагаемые в (3) как суммы бесконечных геометрических прогрессий, получим


Выходит АР(2) есть частный случай общей линейной модели () с коэффициентами

Рассмотрим теперь автокорреляционную функцию процесса Юла. Умножим (1) по очереди на и , возьмем математические ожидания и разделим на . В итоге получим

Этих уравнений достаточно для определения через первые две автокорреляции и, наоборот, по известным можно найти .

Умножая теперь (1) на получим рекуррентное уравнение

из которого можно найти автокорреляции высоких порядков через первые автокорреляции. Тем самым, полностью определяется коррелограмма процесса Юла.

Исследуем вид коррелограммы процесса АР(2).

Выражение (4) можно рассматривать как разностное уравнение второго порядка относительно r с постоянными коэффициентами.

Общее решение такого уравнения имеет вид

,

где – корни характеристического уравнения

(5)

Легко видеть, что уравнения (2) и (5) эквивалентны с точностью до замены В на z и деления обоих частей на , так что корни этих уравнений совпадают, то есть

Общее решение разностного уравнения (4) есть

(6)

где коэффициенты А и В находят из граничных условий при j =0 и j =1.

Таким образом, в случае действительных корней коррелограмма АР(2) представляет собой, как видно из (6), смесь двух затухающих экспонент.

В случае комплектности корней и коррелограмма процесса АР(2) оказывается затухающей гармоникой.

Рассмотрим теперь как ведет себя частная автокорреляционная функция процесса Юла. Отличным от нуля оказывается лишь коэффициент , равный . Частные корреляции более высоких порядков равны нулю (подробнее этот процесс рассматривается дальше). Таким образом, частная коррелограмма процесса отрывается сразу после лага, равного единице.

В заключении отметим, что модели АР(2) оказались приемлемыми при описании поведения циклической природы, прообразом которого служит маятник, на который воздействуют малые случайные импульсы. Амплитуда и фаза такого колебательного процесса будут все время меняться.

Решение разностного относительно y выражения (1) или () состоит из двух частей: общего решения, содержащего р произвольных констант, и частного решения. Общее решение есть

где – есть постоянные коэффициенты,

(j =1,2,...,р ) – корни характеристического уравнения.

Стационарность ряда (2) имеет место, если корни уравнения (3) имеют модуль меньше единицы. Другими словами, корни должны лежать внутри единичного круга. Считая, что ряд имеет достаточно длинную предысторию, общим решением (2) можно пренебречь вследствие затухания.

Частое решение, как видно из (), есть

Последнее соотношение есть форма представления авторегрессионного процесса в виде общей линейной модели.

Последовательно умножим уравнение (1) на , возьмем математическое ожидание и разделим на . Получим систему уравнений относительно коэффициентов корреляции:

, k =1, 2, ..., p (4)

Учитывая, что , и вводя матричные обозначения

,

запишем (4) в виде

Pa = r (5)

Систему уравнений (5) называют системой Юла-Уокера. Из нее находим, что

a = r (6)

Таким образом, зная первые р автокорреляций временного ряда, можно найти по (3) автокорреляции более высокого порядка, то есть полностью восстановить автокорреляционную функцию (что уже отмечалось при анализе процессов АР(1) и АР(2)).

Поведение автокорреляционной функции зависит от корней характеристического полинома. Обычно коррелограмма процесса АР(р ) состоит из совокупности затухающих синусоид.

Если у процесса АР(2) частная автокорреляция членов ряда, разделенных 2-мя или большим числом членов, равна нулю, то у процесса АР(р ) нулю равны автокорреляции порядка р и выше. Выходит, частная коррелограмма процесса АР(р ) должна равняться нулю, начиная с некоторого момента. Правда, надо заметить, что этот факт имеет место для бесконечного ряда. Для конечных реализаций указать место обрыва коррелограммы часто затруднительно.

Итак, для процесса АР(р ) частная автокорреляционная функция обрывается на лаге р , тогда как автокорреляционная функция плавно спадает.

10.1.4 Процессы скользящего среднего

Обобщенная линейная модель для процессов скользящего среднего содержит лишь конечное число членов, то есть в (): =0 k > q .

Модель приобретает вид

(1)

(В (1) коэффициенты переобозначены через.)

Соотношение (1) определяет процесс скользящего среднего порядка q , или сокращенно СС(q ). Условие обратимости () для процесса СС(q ) выполняется, если корни многочлена b (В ) лежат вне единичного круга.

Найдем дисперсию процесса СС(q ):

Все смешанные произведения вида равны нулю в силу некоррелированности возмущений в разные моменты времени. Для нахождения автокорреляционной функции процесса СС(q ) последовательно умножим (1) на и возьмем математическое ожидание

В правой части выражения (2) останутся только те члены, которые отвечают одинаковым временным тактам (см. рис)


Следовательно, выражение (2) есть

(3)

поделив (3) на , получим

(4)


Тот факт, что автокорреляционная функция процесса СС(q) имеет конечную протяженность (q тактов) – характерная особенность такого процесса. Если известны, то (4) можно в принципе разрешить относительно параметров . Уравнения (4) нелинейные и в общем случае имеют несколько решений, однако условие обратимости всегда выделяет единственное решение.

Как уже отмечалось, обратимые процессы СС можно рассматривать как бесконечные АР- процессы -АР(¥). Следовательно, частная автокорреляцонная функция процесса СС(р ) имеет бесконечную протяженность. Итак, у процесса СС(q ) автокорреляционная функция обрывается на лаге q , тогда как частная автокорреляционная функция плавно спадает.

Хотя модели АР(р ) и СС(q ) позволяют описывать многие реальные процессы, число оцениваемых параметров может оказываться значительным. Для достижения большей гибкости и экономичности описания при подборе моделей к наблюдаемым временным рядам весьма полезными оказались смешанные модели, содержащие в себе и авторегрессию и скользящее среднее. Эти модели были предложены Боксом и Дженкинсом и получили название модели авторегрессии - скользящего среднего (сокращенно АРСС(р, q )):

С использованием оператора сдвига В модель (1) может быть представлена более компактно:


, ()

b (В )-оператор скользящего среднего порядка q .

Модель () может быть записаны и так:

Рассмотрим простейший смешанный процесс АРСС(1,1)

Согласно

(2)

Из соотношения (2) видно, что модель АРСС(1,1) является частным случаем общей линейной модели () с коэффициентами (j >0)

Из (2) легко получить выражение для дисперсии :

Для получения корреляционной функции воспользуемся тем же приемом, что и при анализе моделей авторегрессии. Умножим обе части модельного представления процесса АРСС(1,1)

на и возьмем математическое ожидание:

или (с учетом того, что второе слагаемое в правой части равенства равно нулю)

Поделив ковариации на дисперсию получаем выражения для автокорреляции

полученные соотношения показывают, что экспоненциально убывает от начального значения , зависящего от и при этом, если > , то затухание монотонное; при < – затухание колебательное.

Аналогично может быть построена автокорреляционная функция для общей модели АРСС(р, q ).

Умножим все члены (1) на . Возьмем математическое ожидание и в результате получим следующее разностное уравнение.

Где - взаимная ковариационная функция между y и . Поскольку возмущения в момент t и значения ряда в прошлые моменты (см(2)) не коррелируют, 0 при k>0.

Отсюда следует, что для значений q +1 автоковариации и автокорреляции удовлетворяют тем же соотношениям, что и в модели АР(р ):

В итоге оказывается, что при q вся автокорреляционная функция будет выражаться совокупностью затухающих экспонент и / или затухающих синусоидальных волн, а при q > p будет q - p значений , выпадающих из данной схемы.

Модель АРСС допускает обобщение на случай, когда случайный процесс является нестационарным. Ярким примером такого процесса являются «случайные блуждания»:

С использованием оператора сдвига модель (1) принимает вид

(2)

Из (2) видно, что процесс (1) расходящийся, поскольку. Характеристическое уравнение этого процесса имеет корень, равный единице, то есть имеет место пограничный случай, когда корень характеристического уравнения оказался на границе единичной окружности. В то же время, если перейти к первым разностям , то процесс окажется стационарным.

В общем случае полагается, что нестационарный авторегрессионный оператор в модели АРСС имеет один или несколько корней, равных единице. Иными словами, является нестационарным оператором авторегрессии порядка p + d ; d корней уравнения =0 равны единице, а остальные р корней лежат вне единичного круга. Тогда можно записать, что

,

где a (B ) – стационарный оператор авторегрессии порядка р (с корнями вне единичного круга).

Введем оператор разности , такой что =(1-B ) , тогда нестационарный процесс АРСС запишется как

, (3)

где b (B ) – обратимый оператор скользящего среднего (вне его корни лежат вне единичного круга).

Для разности порядка d , то есть модель

описывает уже стационарный обратимый процесс АРСС(р, q ).

Для того чтобы от ряда разностей вернуться к исходному ряду требуется оператор s , обратный :

Этот оператор называют оператором суммирования, поскольку

Если же исходной является разность порядка d , то для восстановления исходного ряда понадобится d - кратная итерация оператора s , иначе d - кратное суммирование (интегрирование). Поэтому процесс (3) принято называть процессом АРИСС, добавляя к АРСС термин интегрированный. Кратко модель (3) записывают как АРИСС(р, d , q ), где р – порядок авторегрессии, d – порядок разности, q – порядок скользящего среднего. Ясно, что при d =0 модель АРИСС переходит в модель АРСС.

На практике d обычно не превышает двух, то есть d .

Модель АРИСС допускает представление, аналогичное общей линейной модели, а так же в виде «чистого » процесса авторегрессии (бесконечного порядка). Рассмотрим, к примеру, процесс АРИСС (1, 1, 1):

Из (4) следует, что

В выражении (5) коэффициенты, начиная с третьего, вычисляются по формуле .

Представление (5) интересно тем, что веса, начиная с третьего, убывают по экспоненциальному закону. Поэтому, хотя формально зависит от всех прошлых значений, однако реальный вклад в текущее значение внесут несколько «недавних» значений ряда. Поэтому уравнение (5) более всего подходит для прогнозирования.

11.Прогнозирование по модели АРИСС

Как уже отмечалось, процессы АРИСС допускают представление в виде обобщенной линейной модели, то есть

Естественно искать будущее (прогнозное) значение ряда в момент в виде

Ожидаемое значение , которое мы будем обозначать как

=

Первая сумма в правой части последнего соотношения содержат лишь будущие возмущения (прогноз делается в момент t , когда известны прошлые значения и ряда и возмущений) и для них математическое ожидание равно 0 по определению. Что же касается второго слагаемого, то возмущения здесь уже состоялись, так что

Таким образом

Ошибка прогноза, представляющая расхождение между прогнозным значением и его ожиданием есть

=

Дисперсия ошибки отсюда есть

Прогнозирование по соотношению (1) в принципе возможно, однако затруднительно поскольку требует знания всех прошлых возмущений. К тому же для стационарных рядов скорость затухания часто оказывается недостаточной, не говоря уже о нестационарных процессах, для которых ряды расходятся.

Поскольку модель АРИСС допускает и другие представления, рассмотрим возможности их использования для прогнозирования. Пусть модель задана непосредственно разностным уравнением

По известным значениям ряда (результатам наблюдений) и оцененным значениям возмущений , опираясь на рекуррентную формулу (3) можно оценить ожидаемое значение ряда в момент t +1:


При прогнозировании на два такта следует вновь воспользоваться рекуррентным соотношением (3), где в качестве наблюденного значения ряда в момент t +1 следует взять предсказанную по (4) величину , то есть и так далее.

Наконец, возможно прогнозирование опираясь на представление процесса АРИСС в виде авторегрессии (). Как уже отмечалось, несмотря на то что порядок авторегрессии бесконечен, весовые коэффициенты в представлении ряда убывают довольно быстро, поэтому для вычисления прогноза достаточно умеренное число прошлых значений ряда.

Дисперсия ошибки прогноза на шагов вперед есть

и согласно выражению (2) дается выражением

В предположении, что случайные возмущения являются гаусовским белым шумом, то есть можно рассматривать доверительный интервал для прогнозного значения ряда стандартным образом.

12.Технология построения моделей АРИСС

Описанные выше теоретические схемы строились в предположении, что временной ряд имеет бесконечную предысторию, тогда как реально исследователю доступен ограниченный объем наблюдений. Модель приходится подбирать экспериментально, подгоняя ее к имеющимся в распоряжении данным. Поэтому с позиций теоретического применения теории анализа временных рядов определяющее значение имеют вопросы корректной спецификации модели АРИСС(p , d , q ) (ее идентификации) и последующего оценивания ее параметров.

На этапе идентификации наблюденные данные используются для определения подходящего класса моделей и делаются предварительные оценки ее параметров, то есть строится пробная модель. Затем пробная модель подгоняется к данным более тщательно; при этом первичные оценки, полученные на этапе идентификации выступают в качестве начальных значений в итеративных алгоритмах оценивания параметров. И наконец, на третьем этапе полученная модель подвергается диагностической проверке для выявления возможной неадекватности модели и выработки подходящих изменений в ней.Рассмотрим перечисленные этапы подробнее.

Идентификация модели

Цель идентификации – получить некоторое представление о величинах p , d , q и о параметрах модели. Идентификация модели распадается на две стадии

1. Определение порядка разности d исходного ряда .

2. Идентификация модели АРСС для ряда разностей .

Основной инструмент, используемый на обеих стадиях – автокорреляционная и частная автокорреляционная функции.

В теоретической части мы видели, что у стационарных моделей автокоррелящии спадают с ростом k весьма быстро (по корреляционному закону). Если же автокорреляционная функция затухает медленно и почти линейно, то это свидетельствует о нестационарности процесса, однако, возможно, его первая разность стационарно.

Построив коррелограмму для ряда разностей, вновь повторяют анализ и так далее. Считается, что порядок разности d , обеспечивающий стационарность, достигнут тогда, когда автокорреляционная функция процесса падает довольно быстро. На практике и достаточно просмотреть порядка 15-20 первых значений автокорреляции исходного ряда, его первые и вторые разности.

После того как будет получен стационарный ряд разностей, порядка d, изучают общий вид автокорреляционной и частной автокорреляционной функций этих разностей. Опираясь на теоретические свойства этих функций можно выбрать значения p и q для АР и СС операторов. Далее при выбранных p и q строятся начальные оценки параметров авторегрессии и скользящего среднего b =(). Для авторегрессионных процессов используются уравнения Юла-Уокера, где теоретические автокорреляции заменены на их выборочные оценки. Для процессов скользящего среднего порядка q только первые q автокорреляций отличны от нуля и могут быть выражены через параметры (см.). Заменяя их выборочными оценками и решая получающиеся уравнения относительно , получим оценку . Эти предварительные оценки можно использовать как начальные значения для получения на следующих шагах более эффективных оценок.

Для смешанных процессов АРСС процедура оценивания усложняется. Так для рассмотренного в п. процесса АРСС(1,1) параметры и , точнее их оценки, получаются из () с заменой и их выборочными оценками.

В общем случае вычисление начальных оценок процесса АРСС(p , q ) представляет многостадийную процедуру и здесь не рассматривается. Отметим только, что для практики особый интерес имеют АР и СС процессы 1-го и 2-го порядков и простейший смешанный процесс АРСС(1,1).

В заключение заметим, что оценки автокорреляций, на основе которых строятся процедуры идентификации могут иметь большие дисперсии (особенно в условиях недостаточного объема выборки – несколько десятков наблюдений) и быть сильно коррелированны. Поэтому говорить о строгом соответствии теоретической и эмпирической автокорреляционных функций не приходится. Это приводит к затруднениям при выборе p , d , q , поэтому для дальнейшего исследования могут быть выбраны несколько моделей.

линейный ряд система временной ряд

Размещено на http://www.

Преобразование данных

Задание выходной переменной выделения компонента из переменной даты/времени

Рисунок 8-29

Выделение части переменной даты/времени, шаг 2

E Введите имя в поле Выходная переменная. Оно не может быть именем существующей переменной.

E Если Вы выделяете компонент даты или времени из переменной даты/времени, то в списке Формат выходной переменной необходимо выбрать формат. В тех случаях, когда выходной формат не требуется, список Формат выходной переменной будет недоступен.

Дополнительно Вы можете:

 Задать описательную метку для новой переменной.

Преобразования временных рядов

Есть несколько способов преобразования данных, которые полезны при анализе временных рядов:

Генерация переменных, содержащих даты, для задания периодичности и разделения периодов обучения, контроля и предсказания.

Создание новых переменных как функций существующих переменных временных рядов.

Замена системных или пользовательских пропущенных значений оценками (имеются несколько методов).

Временной ряд представляет собой измерения переменной (или совокупности переменных) в течение некоторого периода времени. Преобразования временных рядов предполагают такую структуру файла данных, в которой каждая строка (наблюдение)

представляет набор характеристик в определенный момент времени, а интервалы времени между наблюдениями равны

Задать даты

Процедура Задать даты генерирует переменные, которые могут быть использованы для выделения периодических компонент временного ряда , а также в качестве меток вывода в анализе временных рядов.

Рисунок 8-30

Диалоговое окно Задать даты

Наблюдения - это. Здесь задаются единицы времени, которые будут использоваться для создания дат.

При выборе пункта Без даты все ранее введенные переменные, содержащие даты, удаляются. Уничтожаются переменные со следующими именами:year_ ,quarter_ ,month_ ,week_ ,day_ ,hour_ ,minute_ ,second_ иdate_ .

 Выбор пункта Настраиваемая означает, что существуют специальные переменные, содержащие даты, созданные с помощью командного синтаксиса (например, четырехдневная рабочая неделя). Этот пункт просто отражает текущее состояние активного набора данных. Выбор его из списка не даст никакого результата.

Первое наблюдение. Здесь задается значение начальной даты, которое будет присвоено первому наблюдению. Последующим наблюдениям будут присвоены последовательные значения, основанные на заданном интервале времени.

Периодичность более высокого уровня. Указывает на циклы, например, число месяцев в году или число дней в неделе. Выведенное значение указывает максимальное число, которое можно ввести. Для часов, минут и секунд максимум - это отображаемое значение минус один.

Для каждой компоненты, которая используется для задания дат, создается новая числовая переменная. Имена новых переменных оканчиваются знаком подчеркивания. На основе всех компонент создается описательная текстовая переменная date_ . Например, если Вы

Преобразование данных

выберете Недели, дни, часы , то создается четыре новых переменных:week_ ,day_ ,hour_ иdate_ .

Если переменные дат уже существуют, то при задании новых дат, новые переменные дат заменят существующие переменные дат, имеющие такие же имена.

Как задать даты для Данных временного ряда

E Выберите в меню:

Данные > Задать даты...

E Выберите временной интервал из списка Наблюдения - это.

E Введите значения даты в поля Первое наблюдение. Введенные значения задают дату, присваиваемую первому наблюдению.

Переменные, созданные процедурой Задать даты, и переменные, имеющие тип даты

Переменные, созданные процедурой Задать даты, не следует путать с переменными, имеющими формат типа Дата, который определяется при задании свойств переменных. Переменные, созданные процедурой Задать даты, служат для определения периодичностей временного ряда. Переменные, имеющие формат Дата, представляют даты и/или времена, отображаемые в различных форматах. Значения переменных, созданных процедурой Задать даты, - это целые положительные числа, каждое из которых представляет количество дней, недель, часов или других единиц времени, прошедших с заданного пользователем начального момента времени. Значения же большей части переменных в формате Дата представляют собой количества секунд, прошедших с 14 октября 1582 года.

Создать временной ряд

Диалоговое окно Создать временной ряд используется для создания новых переменных, которые являются функциями существующих переменных, образующих временной ряд . Эти новые переменные полезны во многих процедурах анализа временных рядов.

По умолчанию имя новой переменной создается следующим образом: берутся шесть символов имени исходной переменной, добавляется подчеркивание (‘_’), затем добавляется порядковый номер. Например, для переменной price новая переменная будетprice_1 . Новые переменные сохраняют все метки значений исходных переменных.

Функции, предназначенные для создания временных рядов, включают разности, скользящие средние, скользящие медианы, функции задержки (лаги) и опережения.

Рисунок 8-31

Диалоговое окно Создать временной ряд

Как создать новую переменную, представляющую временной ряд

E Выберите в меню:

Преобразовать > Создать временной ряд...

E Выберите функцию, которую Вы хотите использовать для преобразования существующих переменных в новые.

E Выберите переменные, из которых Вы хотите создать новые временные ряды. Допускается использование только числовых переменных.

Дополнительно Вы можете:

Ввести имена новых переменных, если Вам не подходят имена, присваиваемые автоматически.

Изменить функцию для выбранной переменной.

Функции преобразования временных рядов

Разность. Несезонная разность между последовательными значениями ряда. Порядок здесь - это число предшествующих значений, используемых для вычисления разности. Поскольку для каждого следующего порядка одно наблюдение теряется, в начале ряда появляются системные пропущенные значения. Например, если порядок равен 2, то для новой переменной первые 2 наблюдения будут системными пропущенными значениями.

Сезонная разность. Разность между значениями ряда, отстоящими друг от друга на постоянный интервал. Величина этого интервала основана на текущей заданной периодичности. Чтобы вычислить сезонные разности, Вы должны сначала определить

Преобразование данных

переменные, содержащие даты и включающие периодические компоненты (например, месяцы). Порядок здесь - это число сезонных периодов, используемых для вычисления разностей. Число наблюдений с системным пропущенным значением в начале ряда равно периоду, умноженному на порядок дифференцирования. Например, если текущий период равен 12, а порядок равен 2, то для новой переменной первые 24 наблюдения будут системными пропущенными значениями.

Центрированное скользящее среднее. Среднее на промежутке значений ряда,

окружающем и включающем текущее значение. Протяженность - это число значений ряда, используемых для вычисления среднего. Если это число четное, то скользящее среднее вычисляется путем усреднения каждой пары нецентрированных средних. Количество наблюдений с системным пропущенным значением в начале и в конце получаемого ряда для протяженности n равноn /2 для четного n и (n –1)/2 - для нечетного. Например, если протяженность равна 5, число наблюдений с системным пропущенным значением в начале и в конце ряда равно 2.

Опережающее скользящее среднее. Интервал усреднения предшествует текущему значению. Протяженность - это число значений ряда, используемых для вычисления среднего. Число наблюдений с системным пропущенным значением в начале получаемого ряда равно протяженности.

Скользящая медиана. Медиана на интервале значений ряда, окружающих и включающих текущее значение. Протяженность - это число значений ряда, используемых для вычисления медианы. Если данное число четное, то медиана вычисляется путем усреднения каждой пары не центрированных медиан. Количество наблюдений с системным пропущенным значением в начале и в конце получаемого ряда для протяженностиn равноn /2 для четного n и (n –1)/2 - для нечетного. Например, если протяженность равна 5, число наблюдений с системным пропущенным значением в начале и в конце ряда равно 2.

Кумулятивная сумма. Кумулятивная сумма значений ряда вплоть до текущего значения включительно.

Лаг. Значение предшествующего наблюдения, отстоящего на заданное число отсчетов от текущего момента. Порядок - число наблюдений между текущим наблюдением и наблюдением, из которого получается значение. Число наблюдений с системным пропущенным значением в начале получаемого ряда равно значению порядка.

Опережение. Значение последующего наблюдения, в соответствии с заданным порядком опережения. Порядок - число наблюдений между текущим наблюдением и наблюдением, из которого получается значение. Число наблюдений с системным пропущенным значением в конце получаемого ряда равно значению порядка.

Сглаживание. Новые значения ряда, основанные на комбинированном сглаживании данных. Процесс сглаживания начинается со скользящей медианы ширины 4, которая центрирована скользящей медианой ширины 2. Эти значения затем повторно сглаживаются с применением скользящей медианы ширины 5, скользящей медианы ширины 3, и ханнинга (скользящих взвешенных средних). Остатки вычисляются путем вычитания сглаженного рядаизисходного. Весьэтотпроцессзатемповторяетсянавычисленныхостатках. Наконец, сглаженные остатки вычисляются путем вычитания сглаженных значений, полученных в первый раз в начале процесса. Иногда этот процесс называютсглаживанием T4253H .