📖 Site oficial do spaCy (Documentação)
| # | Comando / Atributo / Método | O que faz | Exemplo / Instalação |
|---|---|---|---|
| 1 | pip install spacy | Instala a biblioteca spaCy | pip install spacy |
| 2 | python -m spacy download pt_core_news_sm | Baixa modelo treinado para Português | !python -m spacy download pt_core_news_sm |
| 3 | spacy.load() | Carrega um modelo de linguagem | nlp = spacy.load("pt_core_news_sm") |
| 4 | nlp("texto") | Cria um objeto Doc (processamento completo) | doc = nlp("O rato roeu a roupa.") |
| 5 | token.text | Retorna o texto original do token | [t.text for t in doc] |
| 6 | token.lemma_ | Lematização (forma base da palavra) | token.lemma_ (ex: "correndo" -> "correr") |
| 7 | token.pos_ | Classe gramatical simples (Part-of-speech) | token.pos_ (ex: NOUN, VERB) |
| 8 | token.tag_ | Classe gramatical detalhada | token.tag_ (ex: VBD para passado) |
| 9 | token.dep_ | Relação de dependência sintática | token.dep_ (ex: nsubj, obj) |
| 10 | token.is_stop | Verifica se é uma Stop Word | token.is_stop |
| 11 | token.is_alpha | Verifica se contém apenas letras | token.is_alpha |
| 12 | token.is_punct | Verifica se é pontuação | token.is_punct |
| 13 | token.is_digit | Verifica se é um dígits | token.is_digit |
| 14 | token.like_num | Verifica se o texto representa um número | token.like_num (ex: "dez", "10") |
| 15 | token.morph | Atributos morfológicos (gênero, número) | token.morph.get("Gender") |
| 16 | token.head | Retorna o token "pai" na árvore sintática | token.head.text |
| 17 | doc.ents | Acessa as Entidades Nomeadas (NER) | for ent in doc.ents: print(ent.text, ent.label_) |
| 18 | doc.sents | Itera sobre as sentenças do documento | list(doc.sents) |
| 19 | doc.noun_chunks | Extrai sintagmas nominais | list(doc.noun_chunks) |
| 20 | ent.label_ | Tipo da entidade (PER, ORG, LOC) | ent.label_ |
| 21 | Span(doc, start, end) | Cria um subconjunto do documento | span = doc[2:5] |
| 22 | displacy.render(..., style='dep') | Visualiza árvore de dependências | displacy.render(doc, style='dep') |
| 23 | displacy.render(..., style='ent') | Visualiza entidades coloridas no texto | displacy.render(doc, style='ent') |
| 24 | displacy.serve() | Inicia servidor web para visualização | displacy.serve(doc, style='dep') |
| 25 | nlp.vocab | Acessa o vocabulário e strings únicas | nlp.vocab.strings["café"] |
| 26 | doc.similarity() | Calcula similaridade entre documentos | doc1.similarity(doc2) |
| 27 | token.vector | Retorna o vetor (Word Embedding) do token | token.vector |
| 28 | token.has_vector | Verifica se o token possui um vetor | token.has_vector |
| 29 | nlp.pipe_names | Lista componentes ativos do pipeline | print(nlp.pipe_names) |
| 30 | nlp.add_pipe() | Adiciona novo componente ao pipeline | nlp.add_pipe("entity_linker") |
| 31 | nlp.remove_pipe() | Remove um componente do pipeline | nlp.remove_pipe("ner") |
| 32 | nlp.disable_pipes() | Desabilita componentes para performance | with nlp.disable_pipes("tagger"): |
| 33 | nlp.pipe() | Processa vários textos de forma eficiente | docs = list(nlp.pipe(lista_textos)) |
| 34 | Matcher(nlp.vocab) | Inicializa buscador de padrões de tokens | matcher = Matcher(nlp.vocab) |
| 35 | matcher.add() | Adiciona um padrão de busca | matcher.add("ID", [[{"LOWER": "apple"}]]) |
| 36 | PhraseMatcher(nlp.vocab) | Busca por frases exatas (mais rápido) | p_matcher = PhraseMatcher(nlp.vocab) |
| 37 | Doc.set_extension() | Cria metadados customizados para Doc | Doc.set_extension("is_spam", default=False) |
| 38 | Token.set_extension() | Cria metadados customizados para Token | Token.set_extension("id_interna", default=0) |
| 39 | doc.to_disk() | Salva objeto Doc em arquivo binário | doc.to_disk("./doc.spacy") |
| 40 | nlp.to_disk() | Salva o modelo completo em pasta | nlp.to_disk("./meu_modelo") |
| 41 | Example.from_dict() | Cria exemplo para treinamento | Example.from_dict(doc, labels) |
| 42 | PER / PERSON | Pessoas, incluindo fictícias | Rótulo de Entidade |
| 43 | ORG | Empresas, agências, instituições | Rótulo de Entidade |
| 44 | GPE | Países, cidades, estados | Rótulo de Entidade |
| 45 | LOC | Localizações geográficas (rios, montanhas) | Rótulo de Entidade |
| 46 | DATE | Datas ou períodos absolutos/relativos | Rótulo de Entidade |
| 47 | MONEY | Valores monetários, incluindo unidade | Rótulo de Entidade |
| 48 | token.ent_type_ | Tipo de entidade do token | token.ent_type_ |
| 49 | token.ent_iob_ | Tag IOB (Inside, Outside, Begin) | token.ent_iob_ |
| 50 | token.norm_ | Normalização do texto | token.norm_ |
| 51 | doc.count_by() | Conta atributos (ex: IDs de POS) | doc.count_by(spacy.attrs.POS) |
| 52 | spacy.explain() | Explica uma sigla do spaCy | spacy.explain("nsubj") |
| 53 | token.idx | Posição do caractere inicial no doc | token.idx |
| 54 | len(doc) | Número de tokens no documento | len(doc) |
| 55 | attribute_ruler | Mapeia atributos de tokens | Componente do Pipeline |
| 56 | lemmatizer | Determina a forma base das palavras | Componente do Pipeline |
| 57 | tok2vec | Gera representações vetoriais | Componente do Pipeline |
| 58 | parser | Determina a estrutura sintática | Componente do Pipeline |
| 59 | entity_ruler | NER baseada em regras | Componente do Pipeline |