/ / Регресия в Excel: уравнение, примери. Линейна регресия

Регресия в Excel: уравнение, примери. Линейна регресия

Регресионният анализ е статистически методПроучване, което показва зависимостта на даден параметър от една или повече независими променливи. В епохата на предкомпютъра, използването му беше доста трудно, особено когато става въпрос за големи количества данни. Днес, след като научите как да изградите регресия в Excel, можете да разрешите сложни статистически проблеми само за няколко минути. По-долу са дадени конкретни примери от областта на икономиката.

Видове регресия

Самата концепция е въведена в математиката от Франсис Галтън през 1886 г. Регресията се случва:

  • линеен;
  • параболична;
  • закон за властта;
  • експоненциално;
  • хиперболичен;
  • експоненциално;
  • логаритмична.

Пример 1

Нека разгледаме проблема с определянето на зависимостта на броя на пенсионираните членове на колектива от средната работна заплата в 6 промишлени предприятия.

Задачата. Шест предприятия анализираха средната месечна заплата и броя на служителите, които напуснаха собствената си воля. В табличен вид имаме:

А

B

C

1

X

Брой подадени оставки

заплата

2

ш

30000 рубли

3

1

60

35 000 рубли

4

2

35

40000 рубли

5

3

20

45 000 рубли

6

4

20

50 000 рубли

7

5

15

55 000 рубли

8

6

15

60000 рубли

За проблема за определяне на зависимостта на броя на служителите, останали на средната работна заплата при 6 предприятия, регресионният модел има формата на уравнението Y = a0 + а1х1 + ... + aкхк, където xаз - повлияване на променливите, aаз - коефициенти на регресия и k - брой фактори.

За тази задача Y е индикаторът на служителите, които са напуснали, а факторът, който влияе върху тях, е заплатата, която е означена с X.

Използване на процесор за таблици в Excel

Анализът на регресията в Excel трябва да бъде предхожданприлагане на вградените функции към наличните данни. За тези цели обаче е по-добре да използвате много полезната добавка "Пакет за анализ". За да го активирате, трябва:

  • От раздела "Файл" отидете в секцията "Опции";
  • в отворения прозорец изберете реда "Добавки";
  • Кликнете върху бутона "Отиди", разположен долу, вдясно от линията "Управление";
  • сложите отметка до "допълнителният модул" и потвърдите действието си, като натиснете "ОК".

Ако е направено правилно, правилният бутон се появява в дясната част на раздела Данни, разположен над работния лист на Excel.

Линейна регресия в Excel

Сега, когато разполагаме с всички необходими виртуални инструменти, за да приложим иконометрични изчисления, можем да започнем да решаваме нашия проблем. За да направите това:

  • кликнете върху бутона "Анализ на данните";
  • в отворения прозорец кликнете върху бутона "Регресия";
  • в съответния раздел вписваме диапазона от стойности за Y (броя на останалите служители) и за X (заплатата им);
  • потвърждаваме действията си, като кликнете върху бутона "ОК".

В резултат на това програмата автоматично ще се попълнинов регресионен анализ на данните от процесора на табл. таблица. Обърнете внимание! В Excel има възможност самостоятелно да определите мястото, което предпочитате за тази цел. Например, това може да бъде един и същ лист като стойностите Y и X или дори нова книга, специално предназначена за съхранение на такива данни.

Анализ на резултатите от регресията за R-квадрата

В Excel данните, получени по време на обработката на данните от въпросния пример, имат формата:

регресия в Excel

На първо място, е необходимо да се обърне вниманиестойността на R-квадрата. Това е коефициентът на определяне. В този пример R-квадрата = 0.755 (75.5%), т.е. изчислените параметри на модела обясняват зависимостта между разглежданите параметри с 75.5%. Колкото по-висока е стойността на коефициента на определяне, избраният модел се счита за по-приложим за определена задача. Смята се, че правилно описва реалната ситуация с R-квадратна стойност над 0.8. Ако R-квадрата е <0.5, тогава такъв анализ на регресията в Excel не може да се счита за разумен.

Анализ на коефициентите

Номерът 64.1428 показва каква ще бъде стойността на Y,ако всички променливи xi в разглеждания модел се нулират. С други думи, може да се твърди, че стойността на анализирания параметър е повлияна от други фактори, които не са описани в конкретен модел.

Следният коефициент е -0.166285, разположен вБ18 клетка показва ефекта от теглото на променливата X на Y. Това означава, че средното възнаграждение на служители в модел отразява броя на оставка от теглото на -0.16285, т. Е. степента на неговото въздействие е доста малък. Знакът "-" показва, че коефициентът има отрицателна стойност. Това е очевидно, тъй като всеки знае, че колкото по-висока е заплатата в предприятието, толкова по-малко хора изразяват желание да прекратят трудовия договор или да напуснат.

Многократна регресия

С това понятие имаме предвид уравнението на връзката с няколко независими променливи на формата:

y = f (х1+ х2+ ... xm) + ε, където y е резултантният атрибут (зависима променлива) и x1, х2, ... xm - това са признаци-фактори (независими променливи).

Оценка на параметрите

За множествена регресия (MP), тя се изпълнява с метода на най-малките квадрати (OLS). За линейни уравнения с форма Y = a + b1х1 + ... + bmхm+ ε изграждаме система от нормални уравнения (виж по-долу)

множествена регресия

За да разберете принципа на метода, разгледайте случая с два фактора. След това имаме ситуация, описана от формулата

регресивен коефициент

Оттук получаваме:

регресионно уравнение в Excel

където σ е отклонението на съответната характеристика, отразена в индекса.

OLS е приложима към уравнението на MP в стандартизиран мащаб. В този случай получаваме уравнението:

линейна регресия в Excel

в която tш, tх1, ...тXM - стандартизирани променливи, за които средните стойности са 0; βаз - стандартизирани регресионни коефициенти, а стандартното отклонение е 1.

Обърнете внимание, че всички βаз В този случай те се дават като нормализирани ицентрализирано, така че сравнението между тях се счита за правилно и допустимо. Освен това е обичайно да се изясняват факторите, като се изхвърлят тези, които имат най-ниските стойности на βi.

Проблемът с използването на уравнението за линейна регресия

Да предположим, че има таблица на ценовата динамика на дадена стока N през последните 8 месеца. Необходимо е да се вземе решение за целесъобразността от закупуването на партидата на цена от 1850 рубли на тон.

А

B

C

1

месечен номер

име на месеца

цена на стоката N

2

1

януари

1750 рубли на тон

3

2

февруари

1755 рубли на тон

4

3

март

1767 рубли на тон

5

4

април

1760 рубли на тон

6

5

май

1770 рубли на тон

7

6

юни

1790 рубли на тон

8

7

юли

1810 рубли на тон

9

8

август

1840 рубли на тон

За да разрешите този проблем в табличен процесорОт "Excel" се изисква да използва вече известния инструмент "Анализ на данните". След това изберете секцията "Регресия" и задайте параметрите. Ние трябва да помним, че в "Input обхват Y» трябва да се въведе в диапазон от стойности на зависимата променлива (в този случай цената на стоките в определени месеци от годината) и в "Input интервал X» - за независима (месец). Потвърдете действието, като кликнете върху "Ok". На новия лист (ако е посочено) получават данните за регресията.

На тях изграждаме линейно уравнение с формата y = ax + b, къдетопараметрите на a и b са коефициентите на реда с името на числото на месеца и коефициентите и линиите "Y-пресичане" от листа с резултатите от регресионния анализ. По този начин линейната регресионна уравнение (VR) за проблем 3 е написана като:

Цената на стоката N = 11,714 * е числото на месеца + 1727,54.

или в алгебрична нотация

у = 11.714 х + 1727.54

Анализ на резултатите

За да решите дали резултантното уравнениелинейна регресия, коефициентите на множествена корелация (KMC) и определяне, както и критерият Fisher и теста на Student. В таблицата в Excel с регресионни резултати те се показват под имената на множество R, R-квадрат, F-статистика и t-статистика, съответно.

KMK R дава възможност за оценка на плътносттаВероятностна връзка между независими и зависими променливи. Неговата висока стойност показва относително силна връзка между променливите "Номер на месеца" и "Цената на стоките N в рубли на 1 тон". Въпреки това, естеството на тези отношения остава неизвестно.

Квадратът на коефициента на определяне R2(RI) е цифрова характеристикапроцентът на общия разсейване и показва разсейване на експерименталната част данни, т.е. Стойностите на зависимата променлива съответстват на уравнението на линейната регресия. В този проблем, тази стойност е 84.8%, т.т.. Е. статистика с висока степен на точност, получен са описани SD.

Ф-статистиката, наричана още критерий на Фишър, се използва, за да се оцени значението на линейната зависимост, опровергавайки или потвърждавайки хипотезата за нейното съществуване.

Стойността на t-статистиката (Студентски тест) помага да се оцени значението на коефициента за неизвестен или свободен срок на линейната зависимост. Ако стойността на t-теста> tкр, тогава хипотезата за незначимостта на свободния термин на линейното уравнение се отхвърля.

В разглеждания проблем за свободния срокизползвайки инструментите на Excel, беше установено, че t = 169.20903 и p = 2.89E-12, т.е. имаме нулевата вероятност правилната хипотеза за незначителността на свободния срок да бъде отхвърлена. За коефициента с неизвестен t = 5.79405 и p = 0.001158. С други думи, вероятността правилната хипотеза за незначителността на коефициента за неизвестното да бъде отхвърлена е 0,12%.

По този начин може да се твърди, че полученото линейно регресионно уравнение е адекватно.

Проблемът за целесъобразността на купуването на блок акции

Многократната регресия в Excel се изпълнява, като се използва същият инструмент "Анализ на данните". Нека разгледаме конкретно приложен проблем.

Управляващото дружество "NNN" трябва да вземе решениеза целесъобразността от закупуването на 20% от MMM. Цената на пакета (SP) е 70 милиона щатски долара. Специалисти от "NNN" събират данни за подобни сделки. Беше решено да се оцени стойността на участието в такива параметри, изразени в милиони щатски долари, като:

  • дължими сметки (VK);
  • обем на годишния оборот (VO);
  • вземания (VD);
  • стойност на дълготрайните активи (SOF).

Освен това, параметърът за просрочия на заплатите в предприятието (V3 P) се използва в хиляди долари.

Решение, използващо електронна таблица в Excel

На първо място, трябва да създадете таблица с входни данни. Тя има следната форма:

как да създадете регресия в Excel

Напред:

  • Обадете се в прозореца "Данни за анализ";
  • изберете секцията "Регресия";
  • В полето "Въведете интервал Y" въведете диапазона от стойности на зависимите променливи от графа G;
  • кликнете върху иконата с червената стрелка отдясно на прозореца "Интервал на въвеждане X" и изберете диапазона от всички стойности от колони B, C, D, F на листа.

Маркирайте елемента "Нов работен лист" и кликнете върху "Ok".

За тази задача се получава регресионен анализ.

примери за регресия в Excel

Резултати от проучването и заключения

"Събиране" от закръглените данни, представени по-горе в работния лист на Excel, уравнението на регресията:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

В по-позната математическа форма тя може да бъде записана като:

у = 0.103 * х1 + 0.541 * х2 - 0.031 * х3 + 0.405 * х4 + 0.691 * х5 - 265.844

Данните за МММ са, както следва:

SOF, USD

VO, USD

VK, USD

VD, USD

VZP, USD

JV, USD

102,5

535,5

45,2

41,5

21,55

64,72

Заместването им в регресионното уравнение ставацифрата от 64,72 милиона щатски долара. Това означава, че акциите на MMM не трябва да бъдат закупени, тъй като тяхната стойност от 70 милиона щатски долара е доста по-голяма.

Както виждате, използването на табличния процесор на Excel и регресионното уравнение позволиха да се вземе информирано решение за осъществимостта на много конкретна транзакция.

Сега знаете каква е регресията. Примерите в Excel, обсъдени по-горе, ще ви помогнат при решаването на практически проблеми от областта на иконометрията.

Прочетете повече: