От Мохамед Зейн Амин

1. Въведение

В тази публикация ще изследваме линейния регресионен и корелационен модел за изучаване на прогнозно моделиране. Линейната регресия е много прост алгоритъм за машинно обучение за намиране на връзката между две непрекъснати променливи.

  • Една променлива, обозначена като X, се счита за предсказващаили независима променлива.
  • Другата променлива, обозначена като Y, се счита за променлива отговорили зависима.

Линейната регресия установява връзка между зависима променлива (Y) и независима променлива (X) с помощта на регресионна линия.

Общата форма за регресионната линия е

Тук a е пресечната точка, b е наклонът на линията и e е грешката.

1.1 Формула за изчисление на наклона на линията „b“:

Тук „n“ е броят на двойките, „Σx“е сбор от X, „Σy“ е сбор от Y, „ Σxy” Сума от XY продукти, “ Σx²” Сума от квадратни стойности X, “ (Σx)² ”Сума от X стойности на квадрат.

1.2 Формула за пресмятане на „a“:

2. Пример:

Данните за регресионен анализ са под формата на двойки (X,Y), които могат да бъдат изброени в две колони, за да образуват таблица с данни. В следния пример честотите на оперкуларното дишане (в броене в минута) на златни рибки са измерени в лабораторията по биология. Преброяването се извършва при различни температури, вариращи от 9°C до 27°C. Целта е да се проектира модел, който може да предвиди скоростта на дишане, ако се изследва температурата. Данните са представени на фигурата по-долу.

Точкова диаграма на данните

Както обсъдихме по-горе, данните в линейната регресия са под формата на (X,Y) двойки. (X,Y) двойките са:-

(9,48.5), (12,46), ( 15,59.8), (18,86), (21,86.5), (24,110), (27,124)

3. Изчислете регресионната линия

1) Изчислете наклона:

2) Изчисление на прихващане:

Тези два резултата ни дават уравнението на регресионната линия, която е

Прогнози с помощта на регресионна линия

Регресионното уравнение може да се използва за прогнозиране на скоростта на дишане на златните рибки в определени разумни граници. Например, ако температурата е 19,5°C (= X), прогнозата за честотата на дишане (= Y) ще бъде

По същия начин, ако X е 11, прогнозата за Y ще бъде

И в двата случая желаната стойност беше в обхвата на стойностите на X. Прогнозирането на междинни стойности Y (Честота на дишане)по този начин се нарича интерполация.

4. Корелация

Корелацията се използва за предоставяне на информация за връзката между X и Y. Когато се изчислява регресионното уравнение, резултатите от корелацията показват естеството и силата на връзката.

Коефициент на корелация

Коефициентът на корелация, r, показва естеството и силата на връзката между X и Y. Стойностите на r варират от -1 до +1. Коефициент на корелация 0 означава, че има нулева връзка. Стойност -1 е съвършен отрицателен коефициент на корелация, а стойност на корелация +1 показва перфектна положителна корелация.

Изчислете коефициента на корелация на горния пример

Стойността на r, получена от горното изчисление, е .97 показва много силна положителна връзка между променливите X и Y >.

5. Изчисляване на остатъчна дисперсия

За изчисляване на остатъчната дисперсия се използват някои допълнителни формули. Те са изброени в следващата таблица.

Информация, използвана при изчисляване на остатъчната дисперсия.

Формулата за остатъчната дисперсия е дадена по-долу, както и изчислението за извадката.

Така че остатъчната дисперсия е 56,1365714. Като се вземе корен квадратен от тази дисперсия, се получава стойност от 7,492434279.

Кодът е наличен в Github:

Изчислих всичко на ръка. Кажете ми вашите отзиви. Ако ви харесва, препоръчайте и споделете. Благодаря ти.