Опубликовано чт, 11/19/2020 - 22:38 пользователем Ksenia
Предобработка текста:
1)токенизация (разбиение текста на текстовые единицы, например, слова, предложения, фразы, символы)
2)удаление стоп-слов import nltk nltk.download('stopwords') from nltk.corpus import stopwords stopwords.words("russian")
3)стемминг (нахождения основы слова) from nltk.stem import SnowballStemmer snowball_stemmer_ru = SnowballStemmer(language="russian")
4)лемматизация (приведение слова к его словарной форме (лемме))
а) from pymystem3 import Mystem
m = Mystem()
m.lemmatize("лемматизируй этот текст")