Библиотека scikit-learn
Возможности
Задачи подготовки данных к ML: стандартизация, нормализация данных, кодирование категориальных переменных.
Выбор модели
Возможности: перекрестная проверка, настройка гиперпараметров моделей с помощью поиска по сетке и др.
Вычисление и подготовка показателей производительности, таких как:
- отчет о классификации;
- среднеквадратичная ошибка;
- матрица ошибок;
- коэффициент детерминации;
- показатель отклонения с пояснением;
- f-показатели и др.
Поддерживаемые методы регрессии:
- линейная регрессия;
- регрессия опорных векторов;
- метода k-ближайших соседей посредством полиномиальной регрессии;
- деревья принятия решений;
- сложные методы (random forest, градиентный бустинг);
и др
Классификация:
Кластерный анализ:
метод k-средних
метод распространения близости
спектральная кластеризация
агломеративная кластеризация
Примеры:
sklearn.preprocessing.StandardScaler делает среднее значение каждого столбца (элемента) = 0, а стандартное отклонение = 1.
sklearn.preprocessing.OneHotEncoder преобразование категориальных анные в числа
анализ основных компонентов (PCA) для уменьшения размерности
sklearn.model_selection.train_test_split () выбор модели, разбивка на подмножества
sklearn.datasets.load_boston () отображает один из готовых наборов данных о недвжимости (можно использовать, например, для для многовариантной регрессии)
sklearn.datasets.load_wine () отображает один из готовых наборов данных о вине (подходит для классификации)
Подробнее https://datastart.ru/blog/read/chto-takoe-scikit-learn-gayd-po-populyarn...