Библиотека scikit-learn, sklearn, описание

Библиотека scikit-learn

Возможности

  • препроцессинг, предобработка;
  • выбор модели;
  • регрессии;
  • классификации;
  • кластерный анализ;
  • уменьшение размерности.

Задачи подготовки данных к ML: стандартизация, нормализация данных, кодирование категориальных переменных.

Выбор модели

Возможности: перекрестная проверка, настройка гиперпараметров моделей с помощью поиска по сетке и др.

Вычисление и подготовка показателей производительности, таких как:

- отчет о классификации;

- среднеквадратичная ошибка;

- матрица ошибок;

- коэффициент детерминации;

- показатель отклонения с пояснением;

- f-показатели и др.

 

Поддерживаемые методы регрессии:

- линейная регрессия;

-  регрессия опорных векторов;

- метода k-ближайших соседей посредством полиномиальной регрессии;

- деревья принятия решений;

- сложные методы (random forest, градиентный бустинг);

и др

Классификация:

  • Линейный дискриминантный анализ (Linear Discriminant Analysis);
  • Логистическая регрессия (Logistic Regression);
  • Метод k-ближайших соседей (K-Nearest Neighbors);
  • Классификатор дерева решений (Decision Tree Classifier) / Случайный лес (Random Forests);
  • Метод опорных векторов (Support Vector Machines);
  • Наивный байесовский метод (Naive Bayes);
  • Дерево принятия решений
  • Комплексные решения: random forest, AdaBoost, градиентный бустинг

Кластерный анализ:

метод k-средних

метод распространения близости

спектральная кластеризация

агломеративная кластеризация

Примеры:

sklearn.preprocessing.StandardScaler делает среднее значение каждого столбца (элемента) = 0, а стандартное отклонение = 1. 

sklearn.preprocessing.OneHotEncoder преобразование категориальных анные в числа

анализ основных компонентов (PCA) для уменьшения размерности

sklearn.model_selection.train_test_split () выбор модели, разбивка на подмножества

sklearn.datasets.load_boston () отображает один из готовых наборов данных о недвжимости (можно использовать, например, для для многовариантной регрессии)

sklearn.datasets.load_wine () отображает один из готовых наборов данных о вине (подходит для классификации)

Подробнее https://datastart.ru/blog/read/chto-takoe-scikit-learn-gayd-po-populyarn...

Язык и производные:

Тип команды, объекта: