Часто используемые команды

Опубликовано ср, 11/18/2020 - 22:53 пользователем Ksenia

print(name.head(100))
df.info()
df.describe()
del df
df['col'].sum()

df.groupby('col1')['col2'].sum()) (группировка по col1, сумма для col2)

df.groupby('col1')['col2'].mean()) (группировка по col1, среднее для col2)

df['col'] = df['col'].drop_duplicates() (удаление дубликатов)

df['col'] = df['col'].dropna().reset_index(drop=True) (удаление пропусков и настройка индексов)

вместо df2 = df1 можно df2 = df1.copy()
или
from copy import deepcopy
df2 = deepcopy(df1)

категоризация https://data-scientists.ru/node/45

внесение в таблицу с .apply () https://data-scientists.ru/node/46
def my_function_name(smth_to_enter_in_function):

--------if smth_to_enter_in_function > ...:
----------------return 'какой-то ответ, какое-то значение'
--------if smth_to_enter_in_function <= ...:
----------------return 'какой-то другой ответ'
--------return 'сюда можно еще добавить третий вариант ответа'
df['col_new'] = df['col_with_smth_to_enter_in_function'].apply(my_function_name)
df['col_new'].value_counts()

Создать две категории (например для двоичной бинарной классификации для машинного обучения)

df.loc[df['col1'] <= 10, 'col2'] = 0.0

df.loc[df['col1'] > 10, 'col2'] = 1.0

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Главное меню

Навигация

Часто используемые команды

Полезная информация

Главное меню

Вы здесь

Навигация

Часто используемые команды

Полезная информация