🏺 Gensim Cheat Sheet

📖 Site oficial do Gensim (Documentação)

# Comando / Função O que faz Exemplo / Instalação
1pip install gensimInstala a biblioteca Gensimpip install gensim
2corpora.Dictionary()Cria um mapeamento entre palavras e IDsdct = corpora.Dictionary(textos)
3doc2bow()Converte documento para formato Bag-of-Wordsdct.doc2bow(["olá", "mundo"])
4simple_preprocess()Tokenização e limpeza básica de textosimple_preprocess(texto)
5Dictionary.filter_extremes()Remove palavras muito raras ou muito comunsdct.filter_extremes(no_below=5)
6Dictionary.save()Salva o dicionário em discodct.save('dict.gensim')
7models.LdaModel()Treina modelo Latent Dirichlet Allocationlda = models.LdaModel(corpus, num_topics=10)
8get_document_topics()Retorna tópicos de um documento específicolda.get_document_topics(bow)
9print_topics()Exibe as palavras mais relevantes de cada tópicolda.print_topics(num_words=5)
10update()Atualiza o modelo com novos documentoslda.update(novo_corpus)
11models.LdaMulticore()Versão paralela (mais rápida) do LDAmodels.LdaMulticore(corpus, workers=4)
12models.Word2Vec()Treina modelo de vetores de palavrasw2v = models.Word2Vec(sentencas, min_count=1)
13wv.most_similar()Encontra palavras mais semanticamente próximasw2v.wv.most_similar("rei")
14wv.similarity()Calcula o cosseno de similaridade entre duas palavrasw2v.wv.similarity("homem", "mulher")
15wv.doesnt_match()Identifica qual palavra não pertence à listaw2v.wv.doesnt_match(["café", "chá", "carro"])
16wv.save_word2vec_format()Salva vetores no formato padrão do Cw2v.wv.save_word2vec_format('vetores.bin')
17models.Doc2Vec()Treina vetores para parágrafos/documentosd2v = models.Doc2Vec(docs, vector_size=100)
18infer_vector()Infere o vetor de um texto não visto no treinod2v.infer_vector(["novo", "texto"])
19models.TfidfModel()Aplica pesos TF-IDF ao corpus Bag-of-Wordstfidf = models.TfidfModel(corpus)
20models.LsiModel()Latent Semantic Indexing (SVD)lsi = models.LsiModel(corpus, num_topics=20)
21models.FastText()Treina FastText (lida com palavras fora do vocabulário)ft = models.FastText(sentences=textos)
22similarities.MatrixSimilarity()Calcula similaridade entre documentos em memóriaindex = MatrixSimilarity(tfidf_corpus)
23similarities.Similarity()Cria índice de similaridade fragmentado em discoindex = Similarity('temp/', corpus, num_features)
24num_topics=Número de tópicos a serem extraídosnum_topics=50
25id2word=Dicionário para mapear IDs de volta para palavrasid2word=dictionary
26passes=Número de vezes que o modelo percorre o corpuspasses=10
27vector_size=Dimensionalidade dos vetores de palavrasvector_size=300
28window=Distância máxima entre palavra atual e vizinhaswindow=5
29min_count=Ignora palavras com frequência total menor que estamin_count=2
30workers=Número de núcleos do processador para usarworkers=4
31sg=Algoritmo de treino (0 para CBOW, 1 para Skip-gram)sg=1
32alpha=Hiperparâmetro de densidade de tópicos/documentosalpha='auto'
33utils.get_tmpfile()Gera caminho para arquivo temporário seguroutils.get_tmpfile("meu_modelo")
34models.KeyedVectors.load()Carrega apenas os vetores (sem o modelo completo)wv = KeyedVectors.load("vetores.kv")
35downloader.load()Baixa modelos pré-treinados (ex: GloVe)api.load("glove-twitter-25")