Изследване на техники за намаляване на размерността в науката за данни

Науката за данни е интердисциплинарна област, която се занимава с извличане на знания от сложни и големи набори от данни. В много приложения от реалния свят данните са многоизмерни, което означава, че съдържат голям брой функции. Такива набори от данни могат да бъдат трудни за анализиране, визуализиране и моделиране и могат да доведат до пренастройване или лошо обобщение. Техниките за намаляване на размерността са набор от методи, които имат за цел да се справят с този проблем чрез намаляване на броя на характеристиките, като същевременно запазват съществената информация в данните.

В тази статия ще разгледаме някои от най-популярните техники за намаляване на размерността, използвани в науката за данни, включително примери в Python.

Анализ на главните компоненти (PCA)

PCA е линейна техника, която има за цел да намери нискоразмерно представяне на данните, което улавя най-значимото количество променливост в оригиналния набор от данни. PCA постига това чрез идентифициране на основните компоненти на данните, които са посоките в пространството на характеристиките, по които данните варират най-много. Чрез проектиране на данните върху тези основни компоненти, PCA може да намали размерността на данните, като същевременно запази основната им структура.

В Python PCA може да се реализира с помощта на класа PCA от модула sklearn.decomposition:

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

t-разпределено стохастично съседно вграждане (t-SNE)

t-SNE е нелинейна техника, която е особено полезна за визуализиране на данни с големи размери. t-SNE има за цел да намери нискоразмерно представяне на данните, което запазва разстоянията по двойки между точките от данни в пространството с високи измерения. t-SNE постига това чрез минимизиране на различията между две вероятностни разпределения: едно, което измерва приликите по двойки в пространството с високи измерения и друго, което измерва приликите по двойки в пространството с ниски измерения.

В Python t-SNE може да се реализира с помощта на класа TSNE от модула sklearn.manifold:

from sklearn.manifold import TSNE

tsne = TSNE(n_components=2)
X_tsne = tsne.fit_transform(X)

Автоенкодери

Автоенкодерите са модели на невронни мрежи, които могат да научат компресирано представяне на данните чрез обучение за реконструиране на оригиналния вход от представяне с по-ниско измерение. Автоенкодерите могат да бъдат обучени чрез неконтролирано или контролирано обучение и могат да се използват както за намаляване на размерите, така и за обучение на функции.

В Python автокодерите могат да бъдат реализирани с помощта на класа Sequential от модула keras.models:

from keras.models import Sequential
from keras.layers import Dense

model = Sequential()
model.add(Dense(256, activation='relu', input_dim=n_features))
model.add(Dense(128, activation='relu'))
model.add(Dense(64, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(16, activation='relu'))
model.add(Dense(2, activation='linear'))
model.add(Dense(16, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(64, activation='relu'))
model.add(Dense(128, activation='relu'))
model.add(Dense(256, activation='relu'))
model.add(Dense(n_features, activation='linear'))
model.compile(optimizer='adam', loss='mse')
model.fit(X, X, epochs=100, batch_size=32)
X_autoencoder = model.predict(X)

Заключение

Техниките за намаляване на размерността са мощни инструменти за опростяване на анализа, визуализацията и моделирането на данни с големи размери. В тази статия проучихме някои от най-популярните техники, използвани в науката за данни, включително PCA, t-SNE и автоенкодери, с примери в Python. Тези техники са само върхът на айсберга и има много други методи за намаляване на размерността, които могат да се използват в зависимост от конкретния проблем и набор от данни. Чрез усвояването на тези техники учените по данни могат да получат ценна информация от сложни и големи набори от данни.

Вижте също:

Нови материали

Работа с Hebbian Learning част 2 (машинно обучение)

Моделиране и контрактивност на невронно-синаптичните мрежи с Hebbian Learning (arXiv) Автор: Вероника Ченторино , Франческо Було , Джовани Русо Резюме: Този документ се занимава с..

Как да обедините речници в Python

Три стратегии за консолидиране на речници Обединяването на данни - често наричано операция за обединение - е често срещана задача в програмирането. Когато става въпрос за обединяване на..

Локално разсъждение в Swift

Локално разсъждение в Swift Swift е невероятно изразителен и мощен език за програмиране. Ще проучим някои от езиковите функции на Swift, които могат да направят вашия код по-лесен за четене...

10 умопомрачителни C# хакове

Здравейте! Като страстен разработчик на C#, аз винаги съм търсил начини да подобря уменията си за кодиране. Вълнувам се да споделя с вас някои умопомрачителни хакове и прозрения, които ми..

Electron с база данни Sqlite3

Electron е рамка за изграждане на междуплатформени настолни приложения с HTML, CSS JavaScript. Electron е написан на C++, Javascript, Objective C, Python и т.н. Днес Electron е супер готин и..

Системи за препоръчване в машинното обучение

Какво представляват двигателите за препоръки? Това е най-мощното и полезно приложение на технологията за машинно обучение в бизнеса. Тези дни. Днес всеки голям гигант като Google, Amazon,..

Топ 5 Python IDE / текстови редактори

Какви IDE на Python трябва да гледам? 1. Pycharm Традиционният пълноценен редактор за Python от JetBrains. PyCharm предоставя широк набор от основни инструменти, тясно интегрирани за..

Етикети

Machine Learning JavaScript Data Science Artificial Intelligence Coding Software Development Web Development Python Deep Learning AI React Java Software Engineering Computer Science Algorithms Nodejs Typescript Data Development Productivity Programming Languages Learning To Code Computer Vision Neural Networks Front End Development Reactjs NLP Angular Javascript Tips Mathematics CSS Tutorial ChatGPT Tech Statistics API Towards Data Science Big Data