Порядок работы с текстами для классифкации

  1. Предобработка: токенизация (на слова и добавление маркеров начала и конца предложения), лемматизация к начальной форме, удаление стоп-слов. 
  2. Перевод токенов в векторы заданной длины (с помощью словаря токенов
  3. Передают векторы (признаки) модели, прогнозируют эмоциональную окраску текста — 0 («отрицательная») или 1 («положительная»).