| 1 | pip install xgboost | Instala a biblioteca via gerenciador de pacotes | !pip install xgboost |
| 2 | import xgboost as xgb | Importação padrão da biblioteca | import xgboost as xgb |
| 3 | xgb.XGBClassifier() | Estimador para problemas de classificação (API Scikit-Learn) | model = xgb.XGBClassifier() |
| 4 | xgb.XGBRegressor() | Estimador para problemas de regressão (API Scikit-Learn) | model = xgb.XGBRegressor() |
| 5 | xgb.DMatrix() | Estrutura de dados interna otimizada do XGBoost | dtrain = xgb.DMatrix(X, label=y) |
| 6 | .fit(X, y) | Treina o modelo com os dados fornecidos | model.fit(X_train, y_train) |
| 7 | .predict(X) | Realiza predições de classe ou valor | preds = model.predict(X_test) |
| 8 | .predict_proba(X) | Retorna probabilidades das classes (apenas classificação) | probs = model.predict_proba(X_test) |
| 9 | .set_params() | Define parâmetros do estimador | model.set_params(max_depth=5) |
| 10 | .get_booster() | Acessa o objeto Booster subjacente | booster = model.get_booster() |
| 11 | n_estimators | Número de árvores (iterações de boosting) | n_estimators=100 |
| 12 | learning_rate (eta) | Taxa de aprendizado/encolhimento dos pesos | learning_rate=0.1 |
| 13 | max_depth | Profundidade máxima de cada árvore | max_depth=6 |
| 14 | min_child_weight | Soma mínima de pesos de instância necessária em um nó | min_child_weight=1 |
| 15 | gamma | Redução mínima de perda para criar uma nova partição | gamma=0.2 |
| 16 | subsample | Fração de amostras usadas para treinar cada árvore | subsample=0.8 |
| 17 | colsample_bytree | Fração de colunas usadas por árvore | colsample_bytree=0.8 |
| 18 | colsample_bylevel | Fração de colunas usadas por nível da árvore | colsample_bylevel=0.7 |
| 19 | colsample_bynode | Fração de colunas usadas por cada split de nó | colsample_bynode=0.7 |
| 20 | lambda (reg_lambda) | Termo de regularização L2 nos pesos | reg_lambda=1.0 |
| 21 | alpha (reg_alpha) | Termo de regularização L1 nos pesos | reg_alpha=0 |
| 22 | tree_method | Algoritmo de construção de árvore ('auto', 'exact', 'approx', 'hist') | tree_method='hist' |
| 23 | scale_pos_weight | Balanceamento de classes positivas e negativas | scale_pos_weight=99 |
| 24 | max_delta_step | Ajuda na convergência em classes muito desbalanceadas | max_delta_step=1 |
| 25 | objective | Função de perda a ser minimizada | objective='binary:logistic' |
| 26 | eval_metric | Métrica para validação dos dados | eval_metric='auc' |
| 27 | early_stopping_rounds | Para o treino se não houver melhora após N rounds | early_stopping_rounds=10 |
| 28 | random_state | Semente para reprodutibilidade | random_state=42 |
| 29 | n_jobs | Número de threads paralelas para rodar | n_jobs=-1 |
| 30 | verbosity | Nível de mensagens verbosas (0 silêncio, 1 aviso, 2 info) | verbosity=1 |
| 31 | multi:softmax | Objetivo para classificação multiclasse | objective='multi:softmax' |
| 32 | multi:softprob | Multiclasse retornando probabilidades | objective='multi:softprob' |
| 33 | reg:squarederror | Regressão com erro quadrático | objective='reg:squarederror' |
| 34 | reg:logistic | Regressão logística | objective='reg:logistic' |
| 35 | binary:hinge | Perda hinge para classificação binária | objective='binary:hinge' |
| 36 | xgb.plot_importance() | Plota a importância das features | xgb.plot_importance(model) |
| 37 | xgb.plot_tree() | Plota uma árvore individual do modelo | xgb.plot_tree(model, num_trees=0) |
| 38 | xgb.to_graphviz() | Converte árvore para formato Graphviz | xgb.to_graphviz(model) |
| 39 | feature_importances_ | Atributo que contém o peso de cada feature | model.feature_importances_ |
| 40 | xgb.cv() | Validação cruzada nativa do XGBoost | xgb.cv(params, dtrain, nfold=5) |
| 41 | xgb.train() | Interface de treinamento de baixo nível | xgb.train(params, dtrain) |
| 42 | evals | Lista de monitoramento para o xgb.train | evals=[(dtest, 'eval')] |
| 43 | num_boost_round | Equivalente a n_estimators no xgb.train | num_boost_round=50 |
| 44 | .save_model() | Salva o modelo em arquivo (.json ou .bin) | model.save_model('xgb.json') |
| 45 | .load_model() | Carrega um modelo salvo | model.load_model('xgb.json') |
| 46 | missing | Valor que deve ser interpretado como dado faltante | missing=np.nan |
| 47 | use_label_encoder | (Legado) Encoder de labels no Classifier | use_label_encoder=False |
| 48 | enable_categorical | Habilita suporte nativo para tipos categóricos | enable_categorical=True |
| 49 | max_cat_to_onehot | Threshold para conversão one-hot de categorias | max_cat_to_onehot=4 |
| 50 | grow_policy | Controla como novos nós são adicionados ('depthwise', 'lossguide') | grow_policy='lossguide' |
| 51 | max_leaves | Número máximo de nós (relevante para 'lossguide') | max_leaves=31 |
| 52 | max_bin | Número máximo de buckets para o método hist | max_bin=256 |
| 53 | predictor | Tipo de algoritmo preditor ('auto', 'cpu_predictor', 'gpu_predictor') | predictor='gpu_predictor' |
| 54 | sampling_method | Método de amostragem ('uniform', 'gradient_based') | sampling_method='uniform' |
| 55 | monotone_constraints | Força relação crescente/decrescente de features | monotone_constraints="(1, -1)" |
| 56 | interaction_constraints | Restringe quais colunas podem interagir | interaction_constraints="[[0, 1]]" |
| 57 | importance_type | Tipo de importância ('weight', 'gain', 'cover') | importance_type='gain' |
| 58 | base_score | Valor inicial de predição (viés global) | base_score=0.5 |
| 59 | validate_parameters | Se deve validar parâmetros desconhecidos | validate_parameters=True |
| 60 | disable_default_eval_metric | Desabilita métrica padrão do objetivo | disable_default_eval_metric=True |
| 61 | eval_set | Dados para monitorar durante o fit | eval_set=[(X_val, y_val)] |
| 62 | num_parallel_tree | Usado para Random Forest dentro do XGBoost | num_parallel_tree=1 |
| 63 | booster | Tipo de booster ('gbtree', 'gblinear' ou 'dart') | booster='dart' |
| 64 | sample_type (DART) | Tipo de amostragem para dropouts | sample_type='uniform' |
| 65 | normalize_type (DART) | Tipo de normalização de dropout | normalize_type='tree' |
| 66 | rate_drop (DART) | Taxa de dropout das árvores | rate_drop=0.1 |
| 67 | one_drop (DART) | Sempre dropar pelo menos uma árvore | one_drop=True |
| 68 | skip_drop (DART) | Probabilidade de pular o dropout no round | skip_drop=0.5 |
| 69 | updater | Sequência de updaters de árvore a executar | updater='grow_colmaker' |
| 70 | refresh_leaf | Se as folhas devem ser atualizadas | refresh_leaf=True |
| 71 | process_type | Tipo de processo ('default', 'update') | process_type='default' |
| 72 | gpu_id | ID da GPU a ser utilizada | gpu_id=0 |
| 73 | single_precision_histogram | Usa histogramas de precisão simples na GPU | single_precision_histogram=True |
| 74 | deterministic_histogram | Garante histogramas determinísticos na GPU | deterministic_histogram=True |
| 75 | feature_types | Especifica tipos de features manualmente | feature_types=['q', 'q', 'c'] |
| 76 | max_cached_hist_node | Limite de cache de histogramas | max_cached_hist_node=65536 |
| 77 | on_ext_mem | Se o DMatrix deve carregar de memória externa | on_ext_mem=True |
| 78 | ext_mem_cache_prefix | Prefixo para arquivos de cache externos | ext_mem_cache_prefix='cache' |
| 79 | feature_names | Nomes customizados para as features | feature_names=['idade', 'renda'] |
| 80 | label_lower_bound | Limite inferior para labels (survival) | label_lower_bound=0 |
| 81 | label_upper_bound | Limite superior para labels (survival) | label_upper_bound=10 |
| 82 | multi_strategy | Estratégia para multiclasse ('one_output_per_tree') | multi_strategy='multi_output_tree' |
| 83 | max_cat_threshold | Número máximo de categorias por split | max_cat_threshold=64 |
| 84 | categorical_feature | Indica quais índices são categóricos | categorical_feature=[0, 4] |
| 85 | callbacks | Lista de funções executadas após cada round | callbacks=[my_callback] |
| 86 | iteration_range | Range de árvores para o predict | iteration_range=(0, 10) |
| 87 | output_margin | Prediz a margem bruta (antes da função ativadora) | output_margin=True |
| 88 | validate_features | Valida se as features no predict batem com o fit | validate_features=True |
| 89 | base_margin | Ajuste base inicial para cada amostra | dtrain.set_base_margin(margin) |
| 90 | weight | Pesos individuais para cada amostra | dtrain.set_weight(weights) |
| 91 | group | Informação de grupos para modelos de Ranking | dtrain.set_group(group_sizes) |
| 92 | rank:pairwise | Objetivo de ranking (LTR) | objective='rank:pairwise' |
| 93 | rank:ndcg | Otimização direta de NDCG | objective='rank:ndcg' |
| 94 | survival:cox | Análise de sobrevivência (Cox Proportional Hazards) | objective='survival:cox' |
| 95 | count:poisson | Regressão de Poisson para contagens | objective='count:poisson' |
| 96 | tweedie_variance_power | Controla a variância na distribuição Tweedie | tweedie_variance_power=1.5 |
| 97 | base_estimator | Estimador base (geralmente None para gbtree) | base_estimator=None |
| 98 | n_iter_no_change | Sinônimo para early stopping no sklearn | n_iter_no_change=5 |
| 99 | best_iteration | Recupera o melhor round do treino | model.best_iteration |
| 100 | best_score | Melhor pontuação atingida na validação | model.best_score |
| 101 | feature_names_in_ | Nomes das colunas vistos durante o fit | model.feature_names_in_ |
| 102 | evals_result() | Retorna o histórico de erros do treinamento | model.evals_result() |
| 103 | intercept_ | Intercepção para boosters lineares | model.intercept_ |
| 104 | coef_ | Coeficientes para boosters lineares | model.coef_ |
| 105 | tree_limit | (Legado) Limita número de árvores no predict | tree_limit=50 |