Identification of the structure of statistical interdependencies in the system of variables in the PC MATHCAD.
Table of contents
Share
Metrics
Identification of the structure of statistical interdependencies in the system of variables in the PC MATHCAD.
Annotation
PII
S265838870004835-1-1
DOI
10.33276/S265838870004835-1
Publication type
Article
Status
Published
Authors
Iraida Tarakanova 
Occupation: Research fellow
Affiliation: CEMI RAS
Address: Moskow, Varshavskoe sh., 144-2-401
Edition
Abstract

The paper proposes a special approach to the selection of a small number of the most informative indicators for the construction of linear forecasts of some variables on the other. Three programs of search and calculation of regressions in the MATHCAD package are proposed, which allow to reveal the structure of direct connections for a given set of analyzed variables. A specific example of the use of programs is given.

Keywords
multiple regressions, student table, programming, correlation.
Received
22.04.2019
Date of publication
02.07.2019
Number of characters
6493
Number of purchasers
21
Views
292
Readers community rating
0.0 (0 votes)
Cite Download pdf

To download PDF you should sign in

1 Введение
2 При изучении различных социально-экономических явлений исследователю часто приходится иметь дело с большим числом взаимозависимых переменных, которые характеризуются так называемой структурой непосредственных связей. Для каждой переменой из всей совокупностей структура указывает те переменные, по которым её можно прогнозировать. Использование простых корреляций для прогноза явно недостаточно. Поэтому желательно моделировать множественные зависимости, наиболее эффективный прогноз будет, когда для него используются непосредственные связи [3].
3 При выполнении гауссовости распределения такие связи могут оцениваться с помощью частных корреляций или множественных регрессий [2,3]. Однако это условие не всегда выполняется, поэтому в некоторых случаях приходится дополнительно проверять, нельзя ли улучшить возможность прогнозирования по каким-то другим регрессиям.
4 Поскольку желательно иметь «работающую» регрессию с двумя - тремя независимыми переменными, необходимо перебрать все пары или тройки регрессоров и выбрать те, которые наилучшим образом объясняют зависимую переменную. Именно так оценивалась структура взаимосвязей показателей общественного мнения в работе [3].
5 В пакете «MATHCAD» удобно моделировать экономические процессы, определяемые фиксированными параметрами, которые, в свою очередь, оцениваются статистически. Однако в нём имеется возможность проводить лишь простейшие статистические расчёты, но нет встроенных функций для нахождения линейной множественной регрессии, что желательно для вариативности возможных наборов статистических зависимостей.
6 Представленная в данной работе программа позволяет вычислять такие регрессии для любого заданного количества показателей с произвольным выбором зависимой и независимых переменных. С её помощью можно при моделировании оперативно менять как исходные данные, так и виды зависимостей.
7 Для работы с программой необходимо задать матрицу показателей – X, а также вектор-строку названий этих показателей pok. Зависимая переменная задаётся номером её столбца – m0 в матрице X.
8 В файле с программой необходимо иметь таблицу t – распределений Стьюдента. Используется два столбца таблицы, в первом столбце фиксировано число степеней свободы, второй столбец указывает критическое значение t – статистики tкр., обеспечивающее 5% - ое p-значение ошибки.. Оно зависит от числа степеней свободы, которое равно IJ (размерность матрицы показателей, где I – число наблюдений, J – число коэффициентов модели). При tрас > tкр, делается вывод, что данный показатель значим.
9 Формулы для нахождения коэффициентов регрессии – b и коэффициент детерминации - R2 были взяты из [1].
10 При желании можно из имеющейся большой матрицы собрать новую - малую матрицу, присваивая её столбцам номера основной матрицы X. Например, так:
11

12 и, соответственно, для названий выбранных столбцов:
13

14 Далее представлены программы для расчёта регрессий любой размерности, а также пересчёт «малых регрессий» по 2 (программа2) и по 3 (программа3) независимых показателей, для нахождения наилучших значимых.
15

Программа1 расчёта большой регрессии и таблица Стьюдента

16 Обращение к программе: .
17 Результат: ,
18 где R2 =RR, а название зависимой переменной = Завис.
19 Для построения таблицы результатов производятся следующие действия:
20
21 В результате получаем следующую таблицу:
22 Таб.1.
23
R2= b t tрас. – tкр.
X1
X2
X3
X4
…..
24 Далее представлена программа, позволяющая для выбранной зависимой переменной – m0 из исходной матрицы X производить перебор любой пары в качестве независимых и выбирать наилучший результат. Отбор происходит по наибольшему значению R2 , задаваемому в самой программе. Сначала берётся наибольший R2, например, 0.92. Если ответ “пустой”, пробуем смягчить требование.
25 Обращение к программе: По_2(m0) =. В скобках пишем номер зависимой переменной.
26 .Программа2 перебора для нахождения двух независимых переменных для выбранного зависимого
27

28 Результат выдаётся в виде столбца в таком порядке:
29 m0, x11, x21, R12, m0, x12, x22, R22,…
30 Например:
31

32 В программе задавалось условие выдавать те сочетания независимых переменных, у которых R2 ≥0.89. Если взять это значение меньше, появятся и другие сочетания с более худшим R2.
33 Программа3 перебора трёх независимых переменных
34

35 Обращение к программе: По_3(m0) =.
36 Программа2, также как и Программа3, при работе только подготавливает данные (X и pok), перебирая различные сочетания независимых переменных. Сами же регрессии вычисляются Программой1.
37 Пример расчёта исходной и итоговой регрессий с применением программ.
38 Заданы:
39 Таб.2. исходная матрица X 13-ти показателей
40

41 и названия этих показателей – pok:
42

43 Пусть нас интересует прогноз показателя Y1 по всем остальным. После такого обращения к программе получаем результат (Таб.1).
44 При расчёте парных корреляций можно отметить, что наибольшие парные корреляции этот показатель имеет с Y2, X3, Y4. Коэффициенты множественной регрессии от них, расчитанные программой1, оказываются незначимыми, хотя R2=0.969 (Таб.3).
45 Таб.3.
46

47 Поэтому желательно найти такую тройку регрессоров, которая будет лучше других определять Y1.
48 В результате перебора всех С73=35 троек мы получаем табл.2, в которой самой “наилучшей” тройкой оказывается тройка – X1, X 2, Y2. Для неё R2 =0.933, что определяет наилучшую регрессию; он минимально отличается от регрессии по всем переменным.
49 Таб.4 Решение программой перебора по 3.
50

51 Заключение
52 В статье предложена программа для статистического анализа в пакете Маткад, когда необходимо подобрать регрессионную зависимость основной переменной от небольшого числа регрессоров. Естественно выявить такую группу переменных, которая обеспечивает наибольший коэффициент детерминации со значимыми коэффициентами регрессии.
53 Перебор большого числа регрессий требует использование специальных средств. Предложенные программы рассчитаны для случая 2 или 3 независимых переменных, что особенно важно, когда объём выборки не очень велик. Данные программы показали свою эффективность для нахождения структуры непосредственных связей [3].

References

1. Dougerti K. (2009), Vvedenie v ehkonometriku: uchebnik. 3-e izd. M.: INFRA-M.

2. Yu.N.Gavrilets, A.V.Kudrov, I.V.Tarakanova (2018), Analiz vnutrennej struktury ehkonomicheskogo potentsiala rosta. Vestnik TsEhMI RAN, tom 1, № 1.

3. Yu.N.Gavrilets, C,.A. Nikitin, I.V.Tarakanova, M.V. Chernenkov(2019) Statisticheskij analiz vnutrennej struktury obschestvennogo mneniya Rossii. (v pechati)