🚀 XGBoost Cheat Sheet

📄 Documentação Oficial

#	Comando / Parâmetro	O que faz	Exemplo
1	`pip install xgboost`	Instala a biblioteca via gerenciador de pacotes	`!pip install xgboost`
2	`import xgboost as xgb`	Importação padrão da biblioteca	`import xgboost as xgb`
3	`xgb.XGBClassifier()`	Estimador para problemas de classificação (API Scikit-Learn)	`model = xgb.XGBClassifier()`
4	`xgb.XGBRegressor()`	Estimador para problemas de regressão (API Scikit-Learn)	`model = xgb.XGBRegressor()`
5	`xgb.DMatrix()`	Estrutura de dados interna otimizada do XGBoost	`dtrain = xgb.DMatrix(X, label=y)`
6	`.fit(X, y)`	Treina o modelo com os dados fornecidos	`model.fit(X_train, y_train)`
7	`.predict(X)`	Realiza predições de classe ou valor	`preds = model.predict(X_test)`
8	`.predict_proba(X)`	Retorna probabilidades das classes (apenas classificação)	`probs = model.predict_proba(X_test)`
9	`.set_params()`	Define parâmetros do estimador	`model.set_params(max_depth=5)`
10	`.get_booster()`	Acessa o objeto Booster subjacente	`booster = model.get_booster()`
11	`n_estimators`	Número de árvores (iterações de boosting)	`n_estimators=100`
12	`learning_rate` (eta)	Taxa de aprendizado/encolhimento dos pesos	`learning_rate=0.1`
13	`max_depth`	Profundidade máxima de cada árvore	`max_depth=6`
14	`min_child_weight`	Soma mínima de pesos de instância necessária em um nó	`min_child_weight=1`
15	`gamma`	Redução mínima de perda para criar uma nova partição	`gamma=0.2`
16	`subsample`	Fração de amostras usadas para treinar cada árvore	`subsample=0.8`
17	`colsample_bytree`	Fração de colunas usadas por árvore	`colsample_bytree=0.8`
18	`colsample_bylevel`	Fração de colunas usadas por nível da árvore	`colsample_bylevel=0.7`
19	`colsample_bynode`	Fração de colunas usadas por cada split de nó	`colsample_bynode=0.7`
20	`lambda` (reg_lambda)	Termo de regularização L2 nos pesos	`reg_lambda=1.0`
21	`alpha` (reg_alpha)	Termo de regularização L1 nos pesos	`reg_alpha=0`
22	`tree_method`	Algoritmo de construção de árvore ('auto', 'exact', 'approx', 'hist')	`tree_method='hist'`
23	`scale_pos_weight`	Balanceamento de classes positivas e negativas	`scale_pos_weight=99`
24	`max_delta_step`	Ajuda na convergência em classes muito desbalanceadas	`max_delta_step=1`
25	`objective`	Função de perda a ser minimizada	`objective='binary:logistic'`
26	`eval_metric`	Métrica para validação dos dados	`eval_metric='auc'`
27	`early_stopping_rounds`	Para o treino se não houver melhora após N rounds	`early_stopping_rounds=10`
28	`random_state`	Semente para reprodutibilidade	`random_state=42`
29	`n_jobs`	Número de threads paralelas para rodar	`n_jobs=-1`
30	`verbosity`	Nível de mensagens verbosas (0 silêncio, 1 aviso, 2 info)	`verbosity=1`
31	`multi:softmax`	Objetivo para classificação multiclasse	`objective='multi:softmax'`
32	`multi:softprob`	Multiclasse retornando probabilidades	`objective='multi:softprob'`
33	`reg:squarederror`	Regressão com erro quadrático	`objective='reg:squarederror'`
34	`reg:logistic`	Regressão logística	`objective='reg:logistic'`
35	`binary:hinge`	Perda hinge para classificação binária	`objective='binary:hinge'`
36	`xgb.plot_importance()`	Plota a importância das features	`xgb.plot_importance(model)`
37	`xgb.plot_tree()`	Plota uma árvore individual do modelo	`xgb.plot_tree(model, num_trees=0)`
38	`xgb.to_graphviz()`	Converte árvore para formato Graphviz	`xgb.to_graphviz(model)`
39	`feature_importances_`	Atributo que contém o peso de cada feature	`model.feature_importances_`
40	`xgb.cv()`	Validação cruzada nativa do XGBoost	`xgb.cv(params, dtrain, nfold=5)`
41	`xgb.train()`	Interface de treinamento de baixo nível	`xgb.train(params, dtrain)`
42	`evals`	Lista de monitoramento para o `xgb.train`	`evals=[(dtest, 'eval')]`
43	`num_boost_round`	Equivalente a n_estimators no `xgb.train`	`num_boost_round=50`
44	`.save_model()`	Salva o modelo em arquivo (.json ou .bin)	`model.save_model('xgb.json')`
45	`.load_model()`	Carrega um modelo salvo	`model.load_model('xgb.json')`
46	`missing`	Valor que deve ser interpretado como dado faltante	`missing=np.nan`
47	`use_label_encoder`	(Legado) Encoder de labels no Classifier	`use_label_encoder=False`
48	`enable_categorical`	Habilita suporte nativo para tipos categóricos	`enable_categorical=True`
49	`max_cat_to_onehot`	Threshold para conversão one-hot de categorias	`max_cat_to_onehot=4`
50	`grow_policy`	Controla como novos nós são adicionados ('depthwise', 'lossguide')	`grow_policy='lossguide'`
51	`max_leaves`	Número máximo de nós (relevante para 'lossguide')	`max_leaves=31`
52	`max_bin`	Número máximo de buckets para o método hist	`max_bin=256`
53	`predictor`	Tipo de algoritmo preditor ('auto', 'cpu_predictor', 'gpu_predictor')	`predictor='gpu_predictor'`
54	`sampling_method`	Método de amostragem ('uniform', 'gradient_based')	`sampling_method='uniform'`
55	`monotone_constraints`	Força relação crescente/decrescente de features	`monotone_constraints="(1, -1)"`
56	`interaction_constraints`	Restringe quais colunas podem interagir	`interaction_constraints="[[0, 1]]"`
57	`importance_type`	Tipo de importância ('weight', 'gain', 'cover')	`importance_type='gain'`
58	`base_score`	Valor inicial de predição (viés global)	`base_score=0.5`
59	`validate_parameters`	Se deve validar parâmetros desconhecidos	`validate_parameters=True`
60	`disable_default_eval_metric`	Desabilita métrica padrão do objetivo	`disable_default_eval_metric=True`
61	`eval_set`	Dados para monitorar durante o fit	`eval_set=[(X_val, y_val)]`
62	`num_parallel_tree`	Usado para Random Forest dentro do XGBoost	`num_parallel_tree=1`
63	`booster`	Tipo de booster ('gbtree', 'gblinear' ou 'dart')	`booster='dart'`
64	`sample_type` (DART)	Tipo de amostragem para dropouts	`sample_type='uniform'`
65	`normalize_type` (DART)	Tipo de normalização de dropout	`normalize_type='tree'`
66	`rate_drop` (DART)	Taxa de dropout das árvores	`rate_drop=0.1`
67	`one_drop` (DART)	Sempre dropar pelo menos uma árvore	`one_drop=True`
68	`skip_drop` (DART)	Probabilidade de pular o dropout no round	`skip_drop=0.5`
69	`updater`	Sequência de updaters de árvore a executar	`updater='grow_colmaker'`
70	`refresh_leaf`	Se as folhas devem ser atualizadas	`refresh_leaf=True`
71	`process_type`	Tipo de processo ('default', 'update')	`process_type='default'`
72	`gpu_id`	ID da GPU a ser utilizada	`gpu_id=0`
73	`single_precision_histogram`	Usa histogramas de precisão simples na GPU	`single_precision_histogram=True`
74	`deterministic_histogram`	Garante histogramas determinísticos na GPU	`deterministic_histogram=True`
75	`feature_types`	Especifica tipos de features manualmente	`feature_types=['q', 'q', 'c']`
76	`max_cached_hist_node`	Limite de cache de histogramas	`max_cached_hist_node=65536`
77	`on_ext_mem`	Se o DMatrix deve carregar de memória externa	`on_ext_mem=True`
78	`ext_mem_cache_prefix`	Prefixo para arquivos de cache externos	`ext_mem_cache_prefix='cache'`
79	`feature_names`	Nomes customizados para as features	`feature_names=['idade', 'renda']`
80	`label_lower_bound`	Limite inferior para labels (survival)	`label_lower_bound=0`
81	`label_upper_bound`	Limite superior para labels (survival)	`label_upper_bound=10`
82	`multi_strategy`	Estratégia para multiclasse ('one_output_per_tree')	`multi_strategy='multi_output_tree'`
83	`max_cat_threshold`	Número máximo de categorias por split	`max_cat_threshold=64`
84	`categorical_feature`	Indica quais índices são categóricos	`categorical_feature=[0, 4]`
85	`callbacks`	Lista de funções executadas após cada round	`callbacks=[my_callback]`
86	`iteration_range`	Range de árvores para o predict	`iteration_range=(0, 10)`
87	`output_margin`	Prediz a margem bruta (antes da função ativadora)	`output_margin=True`
88	`validate_features`	Valida se as features no predict batem com o fit	`validate_features=True`
89	`base_margin`	Ajuste base inicial para cada amostra	`dtrain.set_base_margin(margin)`
90	`weight`	Pesos individuais para cada amostra	`dtrain.set_weight(weights)`
91	`group`	Informação de grupos para modelos de Ranking	`dtrain.set_group(group_sizes)`
92	`rank:pairwise`	Objetivo de ranking (LTR)	`objective='rank:pairwise'`
93	`rank:ndcg`	Otimização direta de NDCG	`objective='rank:ndcg'`
94	`survival:cox`	Análise de sobrevivência (Cox Proportional Hazards)	`objective='survival:cox'`
95	`count:poisson`	Regressão de Poisson para contagens	`objective='count:poisson'`
96	`tweedie_variance_power`	Controla a variância na distribuição Tweedie	`tweedie_variance_power=1.5`
97	`base_estimator`	Estimador base (geralmente None para gbtree)	`base_estimator=None`
98	`n_iter_no_change`	Sinônimo para early stopping no sklearn	`n_iter_no_change=5`
99	`best_iteration`	Recupera o melhor round do treino	`model.best_iteration`
100	`best_score`	Melhor pontuação atingida na validação	`model.best_score`
101	`feature_names_in_`	Nomes das colunas vistos durante o fit	`model.feature_names_in_`
102	`evals_result()`	Retorna o histórico de erros do treinamento	`model.evals_result()`
103	`intercept_`	Intercepção para boosters lineares	`model.intercept_`
104	`coef_`	Coeficientes para boosters lineares	`model.coef_`
105	`tree_limit`	(Legado) Limita número de árvores no predict	`tree_limit=50`