Выявление структуры статистических взаимозависимостей в системе переменных в ППК MATHCAD.
Выявление структуры статистических взаимозависимостей в системе переменных в ППК MATHCAD.
Аннотация
Код статьи
S265838870004835-1-1
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Тараканова Ираида Васильевна 
Должность: Научный сотрудник
Аффилиация: Центральный экономико-математический институт РАН
Адрес: Москва, Варшавское шоссе, дом 144, кор.2, кв.401
Аннотация

В работе предложен специальный подход к отбору небольшого числа наиболее информативных показателей для построения линейных прогнозов одних переменных по другим. Предложены три программы перебора и расчёта регрессий в пакете MATHCAD, позволяющие выявлять структуру непосредственных связей для заданного набора анализируемых переменных. Приводится конкретный пример использования программ.

Ключевые слова
множественные регрессии, таблица Стьюдента, программирование, корреляция.
Классификатор
Получено
22.04.2019
Дата публикации
02.07.2019
Всего подписок
91
Всего просмотров
1759
Оценка читателей
0.0 (0 голосов)
Цитировать Скачать pdf
Доступ к дополнительным сервисам
Дополнительные сервисы только на эту статью
Дополнительные сервисы на все выпуски за 2019 год
1 Введение
2 При изучении различных социально-экономических явлений исследователю часто приходится иметь дело с большим числом взаимозависимых переменных, которые характеризуются так называемой структурой непосредственных связей. Для каждой переменой из всей совокупностей структура указывает те переменные, по которым её можно прогнозировать. Использование простых корреляций для прогноза явно недостаточно. Поэтому желательно моделировать множественные зависимости, наиболее эффективный прогноз будет, когда для него используются непосредственные связи [3].
3 При выполнении гауссовости распределения такие связи могут оцениваться с помощью частных корреляций или множественных регрессий [2,3]. Однако это условие не всегда выполняется, поэтому в некоторых случаях приходится дополнительно проверять, нельзя ли улучшить возможность прогнозирования по каким-то другим регрессиям.
4 Поскольку желательно иметь «работающую» регрессию с двумя - тремя независимыми переменными, необходимо перебрать все пары или тройки регрессоров и выбрать те, которые наилучшим образом объясняют зависимую переменную. Именно так оценивалась структура взаимосвязей показателей общественного мнения в работе [3].
5 В пакете «MATHCAD» удобно моделировать экономические процессы, определяемые фиксированными параметрами, которые, в свою очередь, оцениваются статистически. Однако в нём имеется возможность проводить лишь простейшие статистические расчёты, но нет встроенных функций для нахождения линейной множественной регрессии, что желательно для вариативности возможных наборов статистических зависимостей.
6 Представленная в данной работе программа позволяет вычислять такие регрессии для любого заданного количества показателей с произвольным выбором зависимой и независимых переменных. С её помощью можно при моделировании оперативно менять как исходные данные, так и виды зависимостей.
7 Для работы с программой необходимо задать матрицу показателей – X, а также вектор-строку названий этих показателей pok. Зависимая переменная задаётся номером её столбца – m0 в матрице X.
8 В файле с программой необходимо иметь таблицу t – распределений Стьюдента. Используется два столбца таблицы, в первом столбце фиксировано число степеней свободы, второй столбец указывает критическое значение t – статистики tкр., обеспечивающее 5% - ое p-значение ошибки.. Оно зависит от числа степеней свободы, которое равно IJ (размерность матрицы показателей, где I – число наблюдений, J – число коэффициентов модели). При tрас > tкр, делается вывод, что данный показатель значим.
9 Формулы для нахождения коэффициентов регрессии – b и коэффициент детерминации - R2 были взяты из [1].
10 При желании можно из имеющейся большой матрицы собрать новую - малую матрицу, присваивая её столбцам номера основной матрицы X. Например, так:
11

12 и, соответственно, для названий выбранных столбцов:
13

14 Далее представлены программы для расчёта регрессий любой размерности, а также пересчёт «малых регрессий» по 2 (программа2) и по 3 (программа3) независимых показателей, для нахождения наилучших значимых.
15

Программа1 расчёта большой регрессии и таблица Стьюдента

16 Обращение к программе: .
17 Результат: ,
18 где R2 =RR, а название зависимой переменной = Завис.
19 Для построения таблицы результатов производятся следующие действия:
20
21 В результате получаем следующую таблицу:
22 Таб.1.
23
R2= b t tрас. – tкр.
X1
X2
X3
X4
…..
24 Далее представлена программа, позволяющая для выбранной зависимой переменной – m0 из исходной матрицы X производить перебор любой пары в качестве независимых и выбирать наилучший результат. Отбор происходит по наибольшему значению R2 , задаваемому в самой программе. Сначала берётся наибольший R2, например, 0.92. Если ответ “пустой”, пробуем смягчить требование.
25 Обращение к программе: По_2(m0) =. В скобках пишем номер зависимой переменной.
26 .Программа2 перебора для нахождения двух независимых переменных для выбранного зависимого
27

28 Результат выдаётся в виде столбца в таком порядке:
29 m0, x11, x21, R12, m0, x12, x22, R22,…
30 Например:
31

32 В программе задавалось условие выдавать те сочетания независимых переменных, у которых R2 ≥0.89. Если взять это значение меньше, появятся и другие сочетания с более худшим R2.
33 Программа3 перебора трёх независимых переменных
34

35 Обращение к программе: По_3(m0) =.
36 Программа2, также как и Программа3, при работе только подготавливает данные (X и pok), перебирая различные сочетания независимых переменных. Сами же регрессии вычисляются Программой1.
37 Пример расчёта исходной и итоговой регрессий с применением программ.
38 Заданы:
39 Таб.2. исходная матрица X 13-ти показателей
40

41 и названия этих показателей – pok:
42

43 Пусть нас интересует прогноз показателя Y1 по всем остальным. После такого обращения к программе получаем результат (Таб.1).
44 При расчёте парных корреляций можно отметить, что наибольшие парные корреляции этот показатель имеет с Y2, X3, Y4. Коэффициенты множественной регрессии от них, расчитанные программой1, оказываются незначимыми, хотя R2=0.969 (Таб.3).
45 Таб.3.
46

47 Поэтому желательно найти такую тройку регрессоров, которая будет лучше других определять Y1.
48 В результате перебора всех С73=35 троек мы получаем табл.2, в которой самой “наилучшей” тройкой оказывается тройка – X1, X 2, Y2. Для неё R2 =0.933, что определяет наилучшую регрессию; он минимально отличается от регрессии по всем переменным.
49 Таб.4 Решение программой перебора по 3.
50

51 Заключение
52 В статье предложена программа для статистического анализа в пакете Маткад, когда необходимо подобрать регрессионную зависимость основной переменной от небольшого числа регрессоров. Естественно выявить такую группу переменных, которая обеспечивает наибольший коэффициент детерминации со значимыми коэффициентами регрессии.
53 Перебор большого числа регрессий требует использование специальных средств. Предложенные программы рассчитаны для случая 2 или 3 независимых переменных, что особенно важно, когда объём выборки не очень велик. Данные программы показали свою эффективность для нахождения структуры непосредственных связей [3].

Библиография

1. Доугерти К. (2009), Введение в эконометрику: учебник. 3-е изд. М.: ИНФРА-М.

2. Ю.Н.Гаврилец, А.В.Кудров, И.В.Тараканова (2018), Анализ внутренней структуры экономического потенциала роста. Вестник ЦЭМИ РАН, том 1, № 1.

3. Ю.Н.Гаврилец, C,.А. Никитин, И.В.Тараканова, М.В. Черненков(2019) Статистический анализ внутренней структуры общественного мнения России. (в печати)

Комментарии

Сообщения не найдены

Написать отзыв
Перевести