📖 Site oficial do Gensim (Documentação)
| # | Comando / Função | O que faz | Exemplo / Instalação |
|---|---|---|---|
| 1 | pip install gensim | Instala a biblioteca Gensim | pip install gensim |
| 2 | corpora.Dictionary() | Cria um mapeamento entre palavras e IDs | dct = corpora.Dictionary(textos) |
| 3 | doc2bow() | Converte documento para formato Bag-of-Words | dct.doc2bow(["olá", "mundo"]) |
| 4 | simple_preprocess() | Tokenização e limpeza básica de texto | simple_preprocess(texto) |
| 5 | Dictionary.filter_extremes() | Remove palavras muito raras ou muito comuns | dct.filter_extremes(no_below=5) |
| 6 | Dictionary.save() | Salva o dicionário em disco | dct.save('dict.gensim') |
| 7 | models.LdaModel() | Treina modelo Latent Dirichlet Allocation | lda = models.LdaModel(corpus, num_topics=10) |
| 8 | get_document_topics() | Retorna tópicos de um documento específico | lda.get_document_topics(bow) |
| 9 | print_topics() | Exibe as palavras mais relevantes de cada tópico | lda.print_topics(num_words=5) |
| 10 | update() | Atualiza o modelo com novos documentos | lda.update(novo_corpus) |
| 11 | models.LdaMulticore() | Versão paralela (mais rápida) do LDA | models.LdaMulticore(corpus, workers=4) |
| 12 | models.Word2Vec() | Treina modelo de vetores de palavras | w2v = models.Word2Vec(sentencas, min_count=1) |
| 13 | wv.most_similar() | Encontra palavras mais semanticamente próximas | w2v.wv.most_similar("rei") |
| 14 | wv.similarity() | Calcula o cosseno de similaridade entre duas palavras | w2v.wv.similarity("homem", "mulher") |
| 15 | wv.doesnt_match() | Identifica qual palavra não pertence à lista | w2v.wv.doesnt_match(["café", "chá", "carro"]) |
| 16 | wv.save_word2vec_format() | Salva vetores no formato padrão do C | w2v.wv.save_word2vec_format('vetores.bin') |
| 17 | models.Doc2Vec() | Treina vetores para parágrafos/documentos | d2v = models.Doc2Vec(docs, vector_size=100) |
| 18 | infer_vector() | Infere o vetor de um texto não visto no treino | d2v.infer_vector(["novo", "texto"]) |
| 19 | models.TfidfModel() | Aplica pesos TF-IDF ao corpus Bag-of-Words | tfidf = models.TfidfModel(corpus) |
| 20 | models.LsiModel() | Latent Semantic Indexing (SVD) | lsi = models.LsiModel(corpus, num_topics=20) |
| 21 | models.FastText() | Treina FastText (lida com palavras fora do vocabulário) | ft = models.FastText(sentences=textos) |
| 22 | similarities.MatrixSimilarity() | Calcula similaridade entre documentos em memória | index = MatrixSimilarity(tfidf_corpus) |
| 23 | similarities.Similarity() | Cria índice de similaridade fragmentado em disco | index = Similarity('temp/', corpus, num_features) |
| 24 | num_topics= | Número de tópicos a serem extraídos | num_topics=50 |
| 25 | id2word= | Dicionário para mapear IDs de volta para palavras | id2word=dictionary |
| 26 | passes= | Número de vezes que o modelo percorre o corpus | passes=10 |
| 27 | vector_size= | Dimensionalidade dos vetores de palavras | vector_size=300 |
| 28 | window= | Distância máxima entre palavra atual e vizinhas | window=5 |
| 29 | min_count= | Ignora palavras com frequência total menor que esta | min_count=2 |
| 30 | workers= | Número de núcleos do processador para usar | workers=4 |
| 31 | sg= | Algoritmo de treino (0 para CBOW, 1 para Skip-gram) | sg=1 |
| 32 | alpha= | Hiperparâmetro de densidade de tópicos/documentos | alpha='auto' |
| 33 | utils.get_tmpfile() | Gera caminho para arquivo temporário seguro | utils.get_tmpfile("meu_modelo") |
| 34 | models.KeyedVectors.load() | Carrega apenas os vetores (sem o modelo completo) | wv = KeyedVectors.load("vetores.kv") |
| 35 | downloader.load() | Baixa modelos pré-treinados (ex: GloVe) | api.load("glove-twitter-25") |