Предобработка

Группировка по столбцу

df.groupby('column_to_group')['column_to_show']

Вывод части таблицы, head()

Метод head() выводит на экран первые первые 5 строк
Метод tail() выводит на экран последние строки таблицы

Пропуски, Nan, isnull

Поиск строк с пропусками, NaN с помощью isnull() и подсчет количества строк с пропусками

DataFrame.isnull()

df['source_column_name'].isnull()
Оставляет строки df, в которых в столбце source_column_name - значение NaN

print(df[df['source_column_name'].isnull()])
Вывод таблицы из строк пропусками

print(df[df['source_column_name'].isnull()].count())
Вывод количества строк с пропусками в столбце

См также
DataFrame.dropna
isna

Подсчет количества уникальных значений столбца и количества их упоминаний методом value_counts()

value_counts() возвращает объект, содержащий количество уникальных значений;

name.value_counts(subset=None, normalize=False, sort=True, ascending=False)

name.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)

print(df['column_source_name'].value_counts())

normalize (считать ли частоту появления значения или количество)

dropna ( учитывать ли пропущенные значения)

sort (сортировать ли по количеству появления значения)

Подписка на RSS - Предобработка