Опубликовано ср, 11/25/2020 - 20:23 пользователем Ksenia
#приводим к нижнему регистру методом .lower()
df.lower()
#в Pandas метод str.lower()
df.str.lower()
#перевод в нижний регистр с сохранением в новом столбце
df['new_col_lower'] = df['col'].str.lower()
Опубликовано чт, 11/19/2020 - 18:34 пользователем Ksenia
Для избавления от полных дубликатов duplicated() и drop_duplicates()
1) duplicated()
df.duplicated().sum()
возвращает количество дубликатов
df['col'].duplicated().sum()
возвращает количество дубликатов в столбце col
2) .value_counts()
анализирует столбец, выбирает каждое уникальное значение и подсчитывает частоту его встречаемости в списке
df['col'].value_counts()
Покажет все уникальные значения в столбце "col", а также, сколько раз встречается каждое из них.