От Мохамед Зейн Амин
1. Въведение
В тази публикация ще изследваме линейния регресионен и корелационен модел за изучаване на прогнозно моделиране. Линейната регресия е много прост алгоритъм за машинно обучение за намиране на връзката между две непрекъснати променливи.
- Една променлива, обозначена като X, се счита за предсказващаили независима променлива.
- Другата променлива, обозначена като Y, се счита за променлива отговорили зависима.
Линейната регресия установява връзка между зависима променлива (Y) и независима променлива (X) с помощта на регресионна линия.
Общата форма за регресионната линия е
Тук a е пресечната точка, b е наклонът на линията и e е грешката.
1.1 Формула за изчисление на наклона на линията „b“:
Тук „n“ е броят на двойките, „Σx“е сбор от X, „Σy“ е сбор от Y, „ Σxy” Сума от XY продукти, “ Σx²” Сума от квадратни стойности X, “ (Σx)² ”Сума от X стойности на квадрат.
1.2 Формула за пресмятане на „a“:
2. Пример:
Данните за регресионен анализ са под формата на двойки (X,Y), които могат да бъдат изброени в две колони, за да образуват таблица с данни. В следния пример честотите на оперкуларното дишане (в броене в минута) на златни рибки са измерени в лабораторията по биология. Преброяването се извършва при различни температури, вариращи от 9°C до 27°C. Целта е да се проектира модел, който може да предвиди скоростта на дишане, ако се изследва температурата. Данните са представени на фигурата по-долу.
Точкова диаграма на данните
Както обсъдихме по-горе, данните в линейната регресия са под формата на (X,Y) двойки. (X,Y) двойките са:-
(9,48.5), (12,46), ( 15,59.8), (18,86), (21,86.5), (24,110), (27,124)
3. Изчислете регресионната линия
1) Изчислете наклона:
2) Изчисление на прихващане:
Тези два резултата ни дават уравнението на регресионната линия, която е
Прогнози с помощта на регресионна линия
Регресионното уравнение може да се използва за прогнозиране на скоростта на дишане на златните рибки в определени разумни граници. Например, ако температурата е 19,5°C (= X), прогнозата за честотата на дишане (= Y) ще бъде
По същия начин, ако X е 11, прогнозата за Y ще бъде
И в двата случая желаната стойност беше в обхвата на стойностите на X. Прогнозирането на междинни стойности Y (Честота на дишане)по този начин се нарича интерполация.
4. Корелация
Корелацията се използва за предоставяне на информация за връзката между X и Y. Когато се изчислява регресионното уравнение, резултатите от корелацията показват естеството и силата на връзката.
Коефициент на корелация
Коефициентът на корелация, r, показва естеството и силата на връзката между X и Y. Стойностите на r варират от -1 до +1. Коефициент на корелация 0 означава, че има нулева връзка. Стойност -1 е съвършен отрицателен коефициент на корелация, а стойност на корелация +1 показва перфектна положителна корелация.
Изчислете коефициента на корелация на горния пример
Стойността на r, получена от горното изчисление, е .97 показва много силна положителна връзка между променливите X и Y >.
5. Изчисляване на остатъчна дисперсия
За изчисляване на остатъчната дисперсия се използват някои допълнителни формули. Те са изброени в следващата таблица.
Информация, използвана при изчисляване на остатъчната дисперсия.
Формулата за остатъчната дисперсия е дадена по-долу, както и изчислението за извадката.
Така че остатъчната дисперсия е 56,1365714. Като се вземе корен квадратен от тази дисперсия, се получава стойност от 7,492434279.
Кодът е наличен в Github:
Изчислих всичко на ръка. Кажете ми вашите отзиви. Ако ви харесва, препоръчайте и споделете. Благодаря ти.