🚀 CatBoost Cheat Sheet

📄 Documentação Oficial

#	Comando / Função / Parâmetro	O que faz	Exemplo
1	`pip install catboost`	Instala a biblioteca via terminal	`!pip install catboost`
2	`CatBoostClassifier()`	Modelo para problemas de classificação	`model = CatBoostClassifier()`
3	`CatBoostRegressor()`	Modelo para problemas de regressão	`model = CatBoostRegressor()`
4	`Pool()`	Estrutura de dados otimizada do CatBoost	`train_pool = Pool(X, y, cat_features=ids)`
5	`iterations=`	Número máximo de árvores (n_estimators)	`iterations=1000`
6	`learning_rate=`	Taxa de aprendizado (eta)	`learning_rate=0.03`
7	`depth=`	Profundidade das árvores (1 a 16)	`depth=6`
8	`l2_leaf_reg=`	Coeficiente de regularização L2	`l2_leaf_reg=3.0`
9	`cat_features=`	Lista de índices das colunas categóricas	`cat_features=[0, 3, 5]`
10	`loss_function=`	Métrica a ser minimizada no treino	`loss_function='Logloss'`
11	`custom_loss=`	Métricas extras para monitorar	`custom_loss=['AUC', 'Accuracy']`
12	`eval_metric=`	Métrica usada para overfitting detector	`eval_metric='F1'`
13	`random_seed=`	Semente para reprodutibilidade	`random_seed=42`
14	`early_stopping_rounds=`	Para o treino se a métrica não melhorar	`early_stopping_rounds=50`
15	`use_best_model=`	Usa a árvore com melhor score do eval_set	`use_best_model=True`
16	`od_type=`	Tipo de detector de overfitting ('IncToDec', 'Iter')	`od_type='Iter'`
17	`od_wait=`	Número de iterações para o detector esperar	`od_wait=20`
18	`task_type='GPU'`	Habilita treinamento via placa de vídeo	`task_type='GPU'`
19	`devices=`	IDs das GPUs a serem utilizadas	`devices='0:1'`
20	`thread_count=`	Número de threads paralelas (CPU)	`thread_count=-1`
21	`bootstrap_type=`	Método de amostragem (Bayesian, Bernoulli, MVS)	`bootstrap_type='MVS'`
22	`subsample=`	Porcentagem de dados para cada árvore	`subsample=0.8`
23	`model.fit()`	Treina o modelo nos dados	`model.fit(X_train, y_train)`
24	`model.predict()`	Faz predições (classes ou valores)	`model.predict(X_test)`
25	`model.predict_proba()`	Retorna probabilidades das classes	`model.predict_proba(X_test)`
26	`model.save_model()`	Exporta o modelo para um arquivo	`model.save_model('cat.bin')`
27	`model.load_model()`	Carrega um modelo salvo	`model.load_model('cat.bin')`
28	`model.get_feature_importance()`	Retorna a importância das colunas	`model.get_feature_importance()`
29	`model.best_iteration_`	Retorna o índice da melhor iteração	`print(model.best_iteration_)`
30	`model.get_params()`	Mostra os parâmetros atuais do modelo	`model.get_params()`
31	`plot=True`	Gera gráficos de treino em tempo real	`model.fit(..., plot=True)`
32	`get_object_importance()`	Calcula impacto de cada linha no modelo	`model.get_object_importance(pool)`
33	`calc_feature_statistics()`	Estatísticas detalhadas de uma feature	`model.calc_feature_statistics(df, 'col')`
34	`one_hot_max_size=`	Limite para usar One-Hot Encoding	`one_hot_max_size=10`
35	`text_features=`	Identifica colunas com texto livre	`text_features=['comentario']`
36	`tokenizers=`	Configuração de tokenização de texto	`tokenizers=[{'tokenizer_id': 'Space'}]`
37	`dictionaries=`	Configurações de dicionário para texto	`dictionaries=[{'dict_id': 'Word'}]`
38	`cv()`	Cross-validation integrada	`catboost.cv(pool, params)`
39	`grid_search()`	Busca exaustiva de hiperparâmetros	`model.grid_search(params, X, y)`
40	`randomized_search()`	Busca aleatória de hiperparâmetros	`model.randomized_search(params, X, y)`
41	`nan_mode=`	Como tratar valores nulos ('Min', 'Max', 'Forbidden')	`nan_mode='Min'`
42	`'Logloss'`	Classificação binária padrão	`loss_function='Logloss'`
43	`'MultiClass'`	Classificação multiclasse	`loss_function='MultiClass'`
44	`'MAE'`	Erro absoluto médio (Regressão)	`loss_function='MAE'`
45	`'RMSE'`	Raiz do erro quadrático médio (Regressão)	`loss_function='RMSE'`
46	`'Poisson'`	Para dados de contagem	`loss_function='Poisson'`
47	`'Tweedie'`	Para seguros ou dados com muitos zeros	`loss_function='Tweedie'`
48	`leaf_estimation_method=`	Método p/ calcular valores das folhas	`leaf_estimation_method='Newton'`
49	`grow_policy=`	Estratégia de crescimento (SymmetricTree, Depthwise, Lossguide)	`grow_policy='Depthwise'`
50	`min_data_in_leaf=`	Mínimo de amostras em cada folha	`min_data_in_leaf=1`
51	`max_leaves=`	Máximo de folhas (usado em Lossguide)	`max_leaves=31`
52	`'YetiRank'`	Função de perda para ranqueamento	`loss_function='YetiRank'`
53	`group_id=`	Identificador de grupos para Ranking	`group_id=[1, 1, 2, 2]`
54	`type='ShapValues'`	Extrai valores SHAP	`model.get_feature_importance(data, type='ShapValues')`
55	`type='Interaction'`	Calcula interação entre features	`model.get_feature_importance(type='Interaction')`
56	`format='cpp'`	Exporta modelo para código C++	`model.save_model('m.cpp', format='cpp')`
57	`format='python'`	Exporta modelo para código Python puro	`model.save_model('m.py', format='python')`
58	`format='onnx'`	Exporta para formato ONNX	`model.save_model('m.onnx', format='onnx')`
59	`verbose=`	Frequência de logs (True, False ou int)	`verbose=100`
60	`logging_level=`	Nível de log ('Silent', 'Verbose', 'Info', 'Debug')	`logging_level='Silent'`
61	`metric_period=`	Intervalo para calcular métricas de eval	`metric_period=10`
62	`ignored_features=`	Colunas que o modelo deve ignorar	`ignored_features=[1, 10]`
63	`allow_writing_files=`	Criação de arquivos de log no disco	`allow_writing_files=False`
64	`train_dir=`	Diretório para salvar logs de treino	`train_dir='logs/'`
65	`border_count=`	Número de divisões para variáveis numéricas	`border_count=254`
66	`feature_weights=`	Dá pesos diferentes para colunas específicas	`feature_weights=[1, 1, 5]`
67	`class_weights=`	Pesos para classes desbalanceadas	`class_weights=[1, 10]`
68	`auto_class_weights=`	Balanceamento automático ('Balanced', 'SqrtBalanced')	`auto_class_weights='Balanced'`
69	`scale_pos_weight=`	Peso para a classe positiva (Binário)	`scale_pos_weight=2.5`
70	`bagging_temperature=`	Intensidade do bootstrap Bayesiano	`bagging_temperature=1`
71	`random_strength=`	Força da aleatoriedade nos splits	`random_strength=1`
72	`mvs_reg=`	Regularização para MVS sampling	`mvs_reg=0.1`
73	`posterior_sampling=`	Uso de amostragem posterior (Incerteza)	`posterior_sampling=True`
74	`model_size_reg=`	Regularização do tamanho do modelo final	`model_size_reg=0.5`
75	`has_time=`	Respeita a ordem temporal dos dados	`has_time=True`
76	`eval_set=`	Dados de validação para monitoramento	`eval_set=(X_val, y_val)`
77	`baseline=`	Valor base inicial para as predições	`baseline=[...]`
78	`name=`	Nome amigável para o modelo	`name='MeusDados'`
79	`feature_names=`	Define nomes customizados para colunas	`feature_names=['idade', 'renda']`
80	`per_float_feature_quantization=`	Configura quantização por coluna	`per_float_feature_quantization=['0:border_count=1024']`
81	`text_processing=`	Pipeline completo de processamento de texto	`text_processing=['NaiveBayes+Word']`
82	`embedding_features=`	Indices de colunas com vetores/embeddings	`embedding_features=[12]`
83	`get_all_params()`	Dicionário com todos os hiperparâmetros	`model.get_all_params()`
84	`get_metadata()`	Recupera metadados do arquivo do modelo	`model.get_metadata()`
85	`is_fitted()`	Verifica se o modelo já foi treinado	`model.is_fitted()`
86	`shrink()`	Reduz o número de árvores do modelo	`model.shrink(100)`
87	`get_scale_and_bias()`	Escala e viés interno do modelo	`model.get_scale_and_bias()`
88	`set_feature_names()`	Atribui nomes às colunas após treino	`model.set_feature_names(names)`
89	`eval_metrics()`	Calcula métricas sobre um pool	`model.eval_metrics(data, ['AUC'])`
90	`to_classifier()`	Converte objeto base em classificador	`model.to_classifier()`
91	`to_regressor()`	Converte objeto base em regressor	`model.to_regressor()`
92	`compare()`	Utilitário para comparar dois modelos	`model1.compare(model2)`
93	`virtual_ensembles_count=`	Número de modelos virtuais para incerteza	`virtual_ensembles_count=10`
94	`prediction_type=`	Tipo de output ('Probability', 'Class', 'RawFormulaVal')	`prediction_type='Class'`
95	`ntree_start=`	Árvore inicial para predição	`ntree_start=0`
96	`ntree_end=`	Árvore final para predição	`ntree_end=500`
97	`thread_count=`	Threads para predição paralela	`thread_count=4`