nltk

Стемминг, split(), stem()

from nltk.stem import SnowballStemmer
snowball_stemmer_ru = SnowballStemmer('russian')
words_list = [....]
for name in names_list:
for word in name.split():
stemmed_short_word = snowball_stemmer_ru.stem(word)
if stemmed_short_word == 'smth':
print(name)

split() создает список из набора слов, разбивает строку на массив из отдельных слов по разделителю, указанному в параметре.
Подробнее https://www.geeksforgeeks.org/python-string-split/

Предобработка и анализ текста

Предобработка текста:

1)токенизация (разбиение текста на текстовые единицы, например, слова, предложения, фразы, символы)

2)удаление стоп-слов import nltk nltk.download('stopwords') from nltk.corpus import stopwords stopwords.words("russian")

3)стемминг (нахождения основы слова) from nltk.stem import SnowballStemmer snowball_stemmer_ru = SnowballStemmer(language="russian")

4)лемматизация (приведение слова к его словарной форме (лемме))

а) from pymystem3 import Mystem

m = Mystem()

m.lemmatize("лемматизируй этот текст")

Подписка на RSS - nltk