python

Вероятность классов

Опубликовано чт, 02/18/2021 - 16:23 пользователем Ksenia

Функция sklearn predict_proba().

Подходит для решающего дерева,случайного леса, логистической регрессии.

count_probabilities = model.predict_proba(df)

Подробнее о Вероятность классов
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Перемешивание строк shuffle

Опубликовано чт, 02/18/2021 - 12:14 пользователем Ksenia

from sklearn.utils import shuffle
df = shuffle(df)
или
df.iloc[np.random.permutation(len(df))]

df_shuffled.reset_index(drop=True) # чтобы сохранить индекс

или

df1_new, df2_new = shuffle(df1_old, df2_old, random_state=56789)

Подробнее о Перемешивание строк shuffle
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Объединение разных строк в единую таблицу. Объединение таблиц.

Опубликовано ср, 02/17/2021 - 08:38 пользователем Ksenia

pd.concat([name1, name2])

Подробнее о Объединение разных строк в единую таблицу. Объединение таблиц.
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Количество истинно положительных ответов TP, истинно отрицательных TN, ложных FP, FN

Опубликовано вт, 02/09/2021 - 14:41 пользователем Ksenia

1. Количество истинно положительных ответов TP

import pandas as pd

target = pd.Series([0, 1, ... 0, 1, 1])
predictions = pd.Series([1, 1 ... 1, 0, 1])

((target == 1) & (predictions == 1)).sum()

2. Количество истинно отрицательных ответов TN

((target == 0) & (predictions == 0)).sum())

3. Количество ложноположительных ответов FP

((target == 0) & (predictions == 1)).sum()

4. Количество ложноотрицательных ответов FN

((target == 1) & (predictions == 0)).sum()

Подробнее о Количество истинно положительных ответов TP, истинно отрицательных TN, ложных FP, FN
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Проверить тип данных

Опубликовано пн, 02/08/2021 - 12:39 пользователем Ksenia

print(df.dtypes)

Подробнее о Проверить тип данных
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Ранжирование признаков

Опубликовано ср, 01/27/2021 - 17:52 пользователем Ksenia

features importance

Подробнее о Ранжирование признаков
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Гистограмма плотности

Опубликовано чт, 12/17/2020 - 20:00 пользователем Ksenia

import pandas as pd
x = pd.Series([1, 2, 3, 4, 5, 6, 2, 4])
x.hist(density=True, bins=8)

Подробнее о Гистограмма плотности
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Круговая диаграмма plot() и matplotlib

Опубликовано вс, 12/13/2020 - 23:27 пользователем Ksenia

import matplotlib.pyplot as plt
df.plot(kind='pie', y = 'count', figsize = (20, 8))
plt.legend(bbox_to_anchor=(0.75,0.75), loc="center right", fontsize=10,
---- bbox_transform=plt.gcf().transFigure)
plt.show()

Подробнее о Круговая диаграмма plot() и matplotlib
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Выбросы

Опубликовано ср, 12/02/2020 - 02:08 пользователем Ksenia

Подсчет количества:
print(len(data.query('col < 15')) / len(data))

Поиск групп с аномальными значениями и подсчет количества по группе, убираем группы с большим количеством выбросов:
df['too_many'] = data['col_how_many'] < 20

mean_stat = df.pivot_table(index="col1", values="too_many")

good_id = mean_stat.query('too_many < 0.2')

best_data = df.query('col1_id in @good_id.index')
print (len(df))
print (len(best_data))

Подробнее о Выбросы
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Срезы, query()

Опубликовано вт, 12/01/2020 - 23:57 пользователем Ksenia

print(df.query('col1 == "smth"'))

df.query('col1 == True or col2 == True')

df.query('col1 == "smth" and (col2 == True or col3 == False)')

Порядок операций:
not, and, or.

Срез с условием и математической операцией:
df.query('col1 > 3 * col2 ')

Срез с методом:
df.query('col1 < col2.mean()')

Срезы с внешними параметрами не из датафрейма:
df.query('col1 <= @existing_name')

Срезы для избавления от выбросов:
data.query('col1 < 10')

Подробнее о Срезы, query()
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Страницы