Опубликовано чт, 11/19/2020 - 22:52 пользователем Ksenia
from nltk.stem import SnowballStemmer
snowball_stemmer_ru = SnowballStemmer('russian')
words_list = [....]
for name in names_list:
for word in name.split():
stemmed_short_word = snowball_stemmer_ru.stem(word)
if stemmed_short_word == 'smth':
print(name)
split() создает список из набора слов, разбивает строку на массив из отдельных слов по разделителю, указанному в параметре.
Подробнее https://www.geeksforgeeks.org/python-string-split/
Опубликовано чт, 11/19/2020 - 22:38 пользователем Ksenia
Предобработка текста:
1)токенизация (разбиение текста на текстовые единицы, например, слова, предложения, фразы, символы)
2)удаление стоп-слов import nltk nltk.download('stopwords') from nltk.corpus import stopwords stopwords.words("russian")
3)стемминг (нахождения основы слова) from nltk.stem import SnowballStemmer snowball_stemmer_ru = SnowballStemmer(language="russian")
4)лемматизация (приведение слова к его словарной форме (лемме))
а) from pymystem3 import Mystem
m = Mystem()
m.lemmatize("лемматизируй этот текст")