| 1 | pip install catboost | Instala a biblioteca via terminal | !pip install catboost |
| 2 | CatBoostClassifier() | Modelo para problemas de classificação | model = CatBoostClassifier() |
| 3 | CatBoostRegressor() | Modelo para problemas de regressão | model = CatBoostRegressor() |
| 4 | Pool() | Estrutura de dados otimizada do CatBoost | train_pool = Pool(X, y, cat_features=ids) |
| 5 | iterations= | Número máximo de árvores (n_estimators) | iterations=1000 |
| 6 | learning_rate= | Taxa de aprendizado (eta) | learning_rate=0.03 |
| 7 | depth= | Profundidade das árvores (1 a 16) | depth=6 |
| 8 | l2_leaf_reg= | Coeficiente de regularização L2 | l2_leaf_reg=3.0 |
| 9 | cat_features= | Lista de índices das colunas categóricas | cat_features=[0, 3, 5] |
| 10 | loss_function= | Métrica a ser minimizada no treino | loss_function='Logloss' |
| 11 | custom_loss= | Métricas extras para monitorar | custom_loss=['AUC', 'Accuracy'] |
| 12 | eval_metric= | Métrica usada para overfitting detector | eval_metric='F1' |
| 13 | random_seed= | Semente para reprodutibilidade | random_seed=42 |
| 14 | early_stopping_rounds= | Para o treino se a métrica não melhorar | early_stopping_rounds=50 |
| 15 | use_best_model= | Usa a árvore com melhor score do eval_set | use_best_model=True |
| 16 | od_type= | Tipo de detector de overfitting ('IncToDec', 'Iter') | od_type='Iter' |
| 17 | od_wait= | Número de iterações para o detector esperar | od_wait=20 |
| 18 | task_type='GPU' | Habilita treinamento via placa de vídeo | task_type='GPU' |
| 19 | devices= | IDs das GPUs a serem utilizadas | devices='0:1' |
| 20 | thread_count= | Número de threads paralelas (CPU) | thread_count=-1 |
| 21 | bootstrap_type= | Método de amostragem (Bayesian, Bernoulli, MVS) | bootstrap_type='MVS' |
| 22 | subsample= | Porcentagem de dados para cada árvore | subsample=0.8 |
| 23 | model.fit() | Treina o modelo nos dados | model.fit(X_train, y_train) |
| 24 | model.predict() | Faz predições (classes ou valores) | model.predict(X_test) |
| 25 | model.predict_proba() | Retorna probabilidades das classes | model.predict_proba(X_test) |
| 26 | model.save_model() | Exporta o modelo para um arquivo | model.save_model('cat.bin') |
| 27 | model.load_model() | Carrega um modelo salvo | model.load_model('cat.bin') |
| 28 | model.get_feature_importance() | Retorna a importância das colunas | model.get_feature_importance() |
| 29 | model.best_iteration_ | Retorna o índice da melhor iteração | print(model.best_iteration_) |
| 30 | model.get_params() | Mostra os parâmetros atuais do modelo | model.get_params() |
| 31 | plot=True | Gera gráficos de treino em tempo real | model.fit(..., plot=True) |
| 32 | get_object_importance() | Calcula impacto de cada linha no modelo | model.get_object_importance(pool) |
| 33 | calc_feature_statistics() | Estatísticas detalhadas de uma feature | model.calc_feature_statistics(df, 'col') |
| 34 | one_hot_max_size= | Limite para usar One-Hot Encoding | one_hot_max_size=10 |
| 35 | text_features= | Identifica colunas com texto livre | text_features=['comentario'] |
| 36 | tokenizers= | Configuração de tokenização de texto | tokenizers=[{'tokenizer_id': 'Space'}] |
| 37 | dictionaries= | Configurações de dicionário para texto | dictionaries=[{'dict_id': 'Word'}] |
| 38 | cv() | Cross-validation integrada | catboost.cv(pool, params) |
| 39 | grid_search() | Busca exaustiva de hiperparâmetros | model.grid_search(params, X, y) |
| 40 | randomized_search() | Busca aleatória de hiperparâmetros | model.randomized_search(params, X, y) |
| 41 | nan_mode= | Como tratar valores nulos ('Min', 'Max', 'Forbidden') | nan_mode='Min' |
| 42 | 'Logloss' | Classificação binária padrão | loss_function='Logloss' |
| 43 | 'MultiClass' | Classificação multiclasse | loss_function='MultiClass' |
| 44 | 'MAE' | Erro absoluto médio (Regressão) | loss_function='MAE' |
| 45 | 'RMSE' | Raiz do erro quadrático médio (Regressão) | loss_function='RMSE' |
| 46 | 'Poisson' | Para dados de contagem | loss_function='Poisson' |
| 47 | 'Tweedie' | Para seguros ou dados com muitos zeros | loss_function='Tweedie' |
| 48 | leaf_estimation_method= | Método p/ calcular valores das folhas | leaf_estimation_method='Newton' |
| 49 | grow_policy= | Estratégia de crescimento (SymmetricTree, Depthwise, Lossguide) | grow_policy='Depthwise' |
| 50 | min_data_in_leaf= | Mínimo de amostras em cada folha | min_data_in_leaf=1 |
| 51 | max_leaves= | Máximo de folhas (usado em Lossguide) | max_leaves=31 |
| 52 | 'YetiRank' | Função de perda para ranqueamento | loss_function='YetiRank' |
| 53 | group_id= | Identificador de grupos para Ranking | group_id=[1, 1, 2, 2] |
| 54 | type='ShapValues' | Extrai valores SHAP | model.get_feature_importance(data, type='ShapValues') |
| 55 | type='Interaction' | Calcula interação entre features | model.get_feature_importance(type='Interaction') |
| 56 | format='cpp' | Exporta modelo para código C++ | model.save_model('m.cpp', format='cpp') |
| 57 | format='python' | Exporta modelo para código Python puro | model.save_model('m.py', format='python') |
| 58 | format='onnx' | Exporta para formato ONNX | model.save_model('m.onnx', format='onnx') |
| 59 | verbose= | Frequência de logs (True, False ou int) | verbose=100 |
| 60 | logging_level= | Nível de log ('Silent', 'Verbose', 'Info', 'Debug') | logging_level='Silent' |
| 61 | metric_period= | Intervalo para calcular métricas de eval | metric_period=10 |
| 62 | ignored_features= | Colunas que o modelo deve ignorar | ignored_features=[1, 10] |
| 63 | allow_writing_files= | Criação de arquivos de log no disco | allow_writing_files=False |
| 64 | train_dir= | Diretório para salvar logs de treino | train_dir='logs/' |
| 65 | border_count= | Número de divisões para variáveis numéricas | border_count=254 |
| 66 | feature_weights= | Dá pesos diferentes para colunas específicas | feature_weights=[1, 1, 5] |
| 67 | class_weights= | Pesos para classes desbalanceadas | class_weights=[1, 10] |
| 68 | auto_class_weights= | Balanceamento automático ('Balanced', 'SqrtBalanced') | auto_class_weights='Balanced' |
| 69 | scale_pos_weight= | Peso para a classe positiva (Binário) | scale_pos_weight=2.5 |
| 70 | bagging_temperature= | Intensidade do bootstrap Bayesiano | bagging_temperature=1 |
| 71 | random_strength= | Força da aleatoriedade nos splits | random_strength=1 |
| 72 | mvs_reg= | Regularização para MVS sampling | mvs_reg=0.1 |
| 73 | posterior_sampling= | Uso de amostragem posterior (Incerteza) | posterior_sampling=True |
| 74 | model_size_reg= | Regularização do tamanho do modelo final | model_size_reg=0.5 |
| 75 | has_time= | Respeita a ordem temporal dos dados | has_time=True |
| 76 | eval_set= | Dados de validação para monitoramento | eval_set=(X_val, y_val) |
| 77 | baseline= | Valor base inicial para as predições | baseline=[...] |
| 78 | name= | Nome amigável para o modelo | name='MeusDados' |
| 79 | feature_names= | Define nomes customizados para colunas | feature_names=['idade', 'renda'] |
| 80 | per_float_feature_quantization= | Configura quantização por coluna | per_float_feature_quantization=['0:border_count=1024'] |
| 81 | text_processing= | Pipeline completo de processamento de texto | text_processing=['NaiveBayes+Word'] |
| 82 | embedding_features= | Indices de colunas com vetores/embeddings | embedding_features=[12] |
| 83 | get_all_params() | Dicionário com todos os hiperparâmetros | model.get_all_params() |
| 84 | get_metadata() | Recupera metadados do arquivo do modelo | model.get_metadata() |
| 85 | is_fitted() | Verifica se o modelo já foi treinado | model.is_fitted() |
| 86 | shrink() | Reduz o número de árvores do modelo | model.shrink(100) |
| 87 | get_scale_and_bias() | Escala e viés interno do modelo | model.get_scale_and_bias() |
| 88 | set_feature_names() | Atribui nomes às colunas após treino | model.set_feature_names(names) |
| 89 | eval_metrics() | Calcula métricas sobre um pool | model.eval_metrics(data, ['AUC']) |
| 90 | to_classifier() | Converte objeto base em classificador | model.to_classifier() |
| 91 | to_regressor() | Converte objeto base em regressor | model.to_regressor() |
| 92 | compare() | Utilitário para comparar dois modelos | model1.compare(model2) |
| 93 | virtual_ensembles_count= | Número de modelos virtuais para incerteza | virtual_ensembles_count=10 |
| 94 | prediction_type= | Tipo de output ('Probability', 'Class', 'RawFormulaVal') | prediction_type='Class' |
| 95 | ntree_start= | Árvore inicial para predição | ntree_start=0 |
| 96 | ntree_end= | Árvore final para predição | ntree_end=500 |
| 97 | thread_count= | Threads para predição paralela | thread_count=4 |