функция

Функция для предобработки

Опубликовано пн, 04/12/2021 - 20:04 пользователем Ksenia

def show_rows(data_frame):
for column in data_frame.columns:
print('Уникальные значения столбца', column)
print(data_frame[column].unique())
print('Количество пропусков в каждом столбце')
print(data_frame.isna().mean())

Подробнее о Функция для предобработки
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Функция для представления информации о таблице

Опубликовано вс, 03/14/2021 - 13:06 пользователем Ksenia

def df_info_describe(df):
    print (80*'_')
    print ('Дубликатов в таблице')
    print('')
    print(df.duplicated().sum())
    print('')
    print ('Пропусков в столбцах')
    print('')
    print(df.isna().sum().sort_values(ascending=False))
    print (80*'_')
    print('')
    print ('Столбцы с наибольщим количеством попусков')
    print (80*'_')
    print(df.isna().sum().sort_values(ascending=False).head(20))
    print (80*'_')
    print('')
    print('Всего пропусков в таблице')
    nan_sum = df.isna().sum()
    total_nan = pd.Series(nan_sum).sum()
    print (total_nan)

Подробнее о Функция для представления информации о таблице
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Метрики качества. Метрики классификации. Подсчет количества ошибок, доли правильных ответов, точности, полноты.

Опубликовано ср, 01/27/2021 - 12:35 пользователем Ksenia

Метрики качества.

I. Доля правильных ответов (accuracy)

II. Точность (precision)

III. Полнота (recall)

IV. F-мера (агрегирующая метрика)

I. Доля правильных ответов (accuracy)

Подробнее о Метрики качества. Метрики классификации. Подсчет количества ошибок, доли правильных ответов, точности, полноты.
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Внесение результата работы функции в таблицу с помощью метода .apply ()

Опубликовано пт, 11/20/2020 - 12:07 пользователем Ksenia

1) создаем функцию для разделения на категории
(она возвращает название категории в зависимости от соответствия условию)
(*отступы могут отображаться некорректно)

def my_function_name(smth_to_enter_in_function):

Подробнее о Внесение результата работы функции в таблицу с помощью метода .apply ()
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Пропуски, Nan, isnull

Опубликовано вт, 11/17/2020 - 11:26 пользователем Ksenia

Поиск строк с пропусками, NaN с помощью isnull() и подсчет количества строк с пропусками

DataFrame.isnull()

df['source_column_name'].isnull()
Оставляет строки df, в которых в столбце source_column_name - значение NaN

print(df[df['source_column_name'].isnull()])
Вывод таблицы из строк пропусками

print(df[df['source_column_name'].isnull()].count())
Вывод количества строк с пропусками в столбце

См также
DataFrame.dropna
isna

Подробнее о Пропуски, Nan, isnull
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Подсчет количества уникальных значений столбца и количества их упоминаний методом value_counts()

Опубликовано вт, 11/17/2020 - 11:03 пользователем Ksenia

value_counts() возвращает объект, содержащий количество уникальных значений;

name.value_counts(subset=None, normalize=False, sort=True, ascending=False)

name.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)

print(df['column_source_name'].value_counts())

normalize (считать ли частоту появления значения или количество)

dropna ( учитывать ли пропущенные значения)

sort (сортировать ли по количеству появления значения)

Подробнее о Подсчет количества уникальных значений столбца и количества их упоминаний методом value_counts()
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Главное меню

Навигация

Функция для предобработки

Функция для представления информации о таблице

Метрики качества. Метрики классификации. Подсчет количества ошибок, доли правильных ответов, точности, полноты.

Внесение результата работы функции в таблицу с помощью метода .apply ()

Пропуски, Nan, isnull

Подсчет количества уникальных значений столбца и количества их упоминаний методом value_counts()

Полезная информация

Главное меню

Вы здесь

Навигация

функция

Функция для предобработки

Функция для представления информации о таблице

Метрики качества. Метрики классификации. Подсчет количества ошибок, доли правильных ответов, точности, полноты.

Внесение результата работы функции в таблицу с помощью метода .apply ()

Пропуски, Nan, isnull

Подсчет количества уникальных значений столбца и количества их упоминаний методом value_counts()

Полезная информация