Терминология. Введение

Обучающая выборка - база данных, на которой будет обучаться компьютер.

В строках таблицы - объекты (экземпляры), в столбцах — признаки (features).

Целевой признак (target) - признак который нужно предсказать.

1. При обучении с учителем (supervised learning) «Учитель» выбирает вопросы (признаки) и указывает ответы (целевой признак).

А. Задачи классификации, в т.ч. двоичной, бинарной (для категориальных признаков).

Б. Задачи регрессии (для количественных признаков). 

2. При обучении без учителя готовый ответ не предоставляют (целевой признак не указывают).

3. При частичном обучении ответцелевой признак известен только для части данных.

4. Рекомендации касаются пользователей и рекомендуемых им товаров, услуг.

Если информации слишком много можно получить переобучение модели; если слишком мало — недообучение.

Моделирование

Модели машинного обучения (решающее дерево и др)

В результате обучение модели с помощью алгоритмов обучения получают способную к прогнозированию обученную модель, которая может работать уже без обучающего набора данных и алгоритмов.

И обученная модель, и алгоритм обучения являются программами.

Пример работы на практике:

Создают переменные, используя столбцы, которые будут использованы как признаки (features) и целевой признак (target).

Модель сохраняют в переменной model.

Обучение выполняется методом fit().

Затем признаки новых объектов записывают в переменной с произвольным именем, например, new_features.

Затем с помощью predict() предсказывают целевой признак.

Для оценки качества работы модели используют тестовые, контрольные выборки, валидационные выборки.

Валидационную выборку можно выделить из основной до обучения.

Размер валидационной выборки выбирают с учетом:

- количества объектов (экземпляров, строк);

- количества признаков (столбцов);

- вариативности данных.