Предобработка и анализ текста

Опубликовано чт, 11/19/2020 - 22:38 пользователем Ksenia

Предобработка текста:

1)токенизация (разбиение текста на текстовые единицы, например, слова, предложения, фразы, символы)

2)удаление стоп-слов import nltk nltk.download('stopwords') from nltk.corpus import stopwords stopwords.words("russian")

3)стемминг (нахождения основы слова) from nltk.stem import SnowballStemmer snowball_stemmer_ru = SnowballStemmer(language="russian")

4)лемматизация (приведение слова к его словарной форме (лемме))

а) from pymystem3 import Mystem

m = Mystem()

m.lemmatize("лемматизируй этот текст")

pymystem3 - библиотека, разработанная сотрудниками Яндекса

б)pymorphy2 (python morphology)

в)UDPipe (universal dependencies pipeline)

Главное меню