Cентимент-анализ, TF-IDF, тональности текста

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.feature_extraction.text import CountVectorizer

#список слов

test_name = list(df['text_col'])       

#настройка стоп-слов

from nltk.corpus import stopwords

import nltk

nltk.download('stopwords')

list_stop_words = set(stopwords.words('russian'))

#собственно TF-IDF 

tf_idf_counter = TfidfVectorizer(stop_words=list_stop_words)

tf_idf = tf_idf_counter.fit_transform(text_name)

Для опредления тональности решаем задачу классификации

 Признаки — набор слов и их величины TF-IDF в тексте

таргет показывает тональность, обычно «1» для положительного текста,  «0» для отрицательного.

Команда: