nltk

Стемминг, split(), stem()

Опубликовано чт, 11/19/2020 - 22:52 пользователем Ksenia

from nltk.stem import SnowballStemmer
snowball_stemmer_ru = SnowballStemmer('russian')
words_list = [....]
for name in names_list:
for word in name.split():
stemmed_short_word = snowball_stemmer_ru.stem(word)
if stemmed_short_word == 'smth':
print(name)

split() создает список из набора слов, разбивает строку на массив из отдельных слов по разделителю, указанному в параметре.
Подробнее https://www.geeksforgeeks.org/python-string-split/

Подробнее о Стемминг, split(), stem()
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Предобработка и анализ текста

Опубликовано чт, 11/19/2020 - 22:38 пользователем Ksenia

Предобработка текста:

1)токенизация (разбиение текста на текстовые единицы, например, слова, предложения, фразы, символы)

2)удаление стоп-слов import nltk nltk.download('stopwords') from nltk.corpus import stopwords stopwords.words("russian")

3)стемминг (нахождения основы слова) from nltk.stem import SnowballStemmer snowball_stemmer_ru = SnowballStemmer(language="russian")

4)лемматизация (приведение слова к его словарной форме (лемме))

а) from pymystem3 import Mystem

m = Mystem()

m.lemmatize("лемматизируй этот текст")

Подробнее о Предобработка и анализ текста
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Главное меню

Навигация

nltk

Стемминг, split(), stem()

Предобработка и анализ текста

Полезная информация

Главное меню

Вы здесь

Навигация

nltk

Стемминг, split(), stem()

Предобработка и анализ текста

Полезная информация