🏺 Gensim Cheat Sheet

📖 Site oficial do Gensim (Documentação)

#	Comando / Função	O que faz	Exemplo / Instalação
1	`pip install gensim`	Instala a biblioteca Gensim	`pip install gensim`
2	`corpora.Dictionary()`	Cria um mapeamento entre palavras e IDs	`dct = corpora.Dictionary(textos)`
3	`doc2bow()`	Converte documento para formato Bag-of-Words	`dct.doc2bow(["olá", "mundo"])`
4	`simple_preprocess()`	Tokenização e limpeza básica de texto	`simple_preprocess(texto)`
5	`Dictionary.filter_extremes()`	Remove palavras muito raras ou muito comuns	`dct.filter_extremes(no_below=5)`
6	`Dictionary.save()`	Salva o dicionário em disco	`dct.save('dict.gensim')`
7	`models.LdaModel()`	Treina modelo Latent Dirichlet Allocation	`lda = models.LdaModel(corpus, num_topics=10)`
8	`get_document_topics()`	Retorna tópicos de um documento específico	`lda.get_document_topics(bow)`
9	`print_topics()`	Exibe as palavras mais relevantes de cada tópico	`lda.print_topics(num_words=5)`
10	`update()`	Atualiza o modelo com novos documentos	`lda.update(novo_corpus)`
11	`models.LdaMulticore()`	Versão paralela (mais rápida) do LDA	`models.LdaMulticore(corpus, workers=4)`
12	`models.Word2Vec()`	Treina modelo de vetores de palavras	`w2v = models.Word2Vec(sentencas, min_count=1)`
13	`wv.most_similar()`	Encontra palavras mais semanticamente próximas	`w2v.wv.most_similar("rei")`
14	`wv.similarity()`	Calcula o cosseno de similaridade entre duas palavras	`w2v.wv.similarity("homem", "mulher")`
15	`wv.doesnt_match()`	Identifica qual palavra não pertence à lista	`w2v.wv.doesnt_match(["café", "chá", "carro"])`
16	`wv.save_word2vec_format()`	Salva vetores no formato padrão do C	`w2v.wv.save_word2vec_format('vetores.bin')`
17	`models.Doc2Vec()`	Treina vetores para parágrafos/documentos	`d2v = models.Doc2Vec(docs, vector_size=100)`
18	`infer_vector()`	Infere o vetor de um texto não visto no treino	`d2v.infer_vector(["novo", "texto"])`
19	`models.TfidfModel()`	Aplica pesos TF-IDF ao corpus Bag-of-Words	`tfidf = models.TfidfModel(corpus)`
20	`models.LsiModel()`	Latent Semantic Indexing (SVD)	`lsi = models.LsiModel(corpus, num_topics=20)`
21	`models.FastText()`	Treina FastText (lida com palavras fora do vocabulário)	`ft = models.FastText(sentences=textos)`
22	`similarities.MatrixSimilarity()`	Calcula similaridade entre documentos em memória	`index = MatrixSimilarity(tfidf_corpus)`
23	`similarities.Similarity()`	Cria índice de similaridade fragmentado em disco	`index = Similarity('temp/', corpus, num_features)`
24	`num_topics=`	Número de tópicos a serem extraídos	`num_topics=50`
25	`id2word=`	Dicionário para mapear IDs de volta para palavras	`id2word=dictionary`
26	`passes=`	Número de vezes que o modelo percorre o corpus	`passes=10`
27	`vector_size=`	Dimensionalidade dos vetores de palavras	`vector_size=300`
28	`window=`	Distância máxima entre palavra atual e vizinhas	`window=5`
29	`min_count=`	Ignora palavras com frequência total menor que esta	`min_count=2`
30	`workers=`	Número de núcleos do processador para usar	`workers=4`
31	`sg=`	Algoritmo de treino (0 para CBOW, 1 para Skip-gram)	`sg=1`
32	`alpha=`	Hiperparâmetro de densidade de tópicos/documentos	`alpha='auto'`
33	`utils.get_tmpfile()`	Gera caminho para arquivo temporário seguro	`utils.get_tmpfile("meu_modelo")`
34	`models.KeyedVectors.load()`	Carrega apenas os vetores (sem o modelo completo)	`wv = KeyedVectors.load("vetores.kv")`
35	`downloader.load()`	Baixa modelos pré-treinados (ex: GloVe)	`api.load("glove-twitter-25")`