Notícias em Patentes : Otimização de buscas por IA

Rethinking patent retrieval with language models: Toward scalable and efficient search

Renukswamy Chikkamath, Linda Andersson, Markus Endres

Article 102433

https://www.sciencedirect.com/journal/world-patent-information/vol/84/suppl/C

O artigo “Rethinking patent retrieval with language models: Toward scalable and efficient search” analisa criticamente o uso de modelos de linguagem e embeddings semânticos na busca de patentes, especialmente para prior art search, comparando-os com métodos tradicionais baseados em palavras-chave, como o BM25. Elasticsearch usa BM25 como algoritmo padrão de ranqueamento. Ele não entende significado, só estatística de palavras. Exemplo: Consulta: compressão de gás Documento A: repete exatamente essas palavras → sobe no ranking Documento B: usa “pressurização de fluido” → pode ficar para trás, mesmo sendo o mesmo conceito

O estudo também demonstra que técnicas de quantização de embeddings (binária e escalar) permitem tornar a busca semanticamente rica viável em larga escala, reduzindo o uso de memória em até 32× e acelerando a recuperação em até 30×, com perda mínima de desempenho.

Buscar prior art não é como buscar notícias ou posts: Patentes são longas, técnicas e repetitivas, O mesmo conceito aparece com vocabulários diferentes, Um único pedido pode ter centenas de páginas, Bases têm milhões de documentos. Métodos tradicionais (BM25, palavras-chave): São rápidos e baratos, Mas não entendem significado, só coincidência de termos. LLMs generativos (tipo ChatGPT): Entendem muito bem o conteúdo Mas são caros, lentos e inviáveis para varrer milhões de patentes

busca semântica baseada em embeddings” em vez de procurar palavras, o sistema:

Transforma textos (claims, abstracts) em vetores numéricos (embeddings)
Textos com significado parecido ficam próximos no espaço vetorial
A busca vira um problema matemático: “quais vetores estão mais próximos?”

✔️ Vantagem: entende significado técnico, não só termos
❌ Problema: embeddings são grandes, pesados e caros

Exemplo real:

1 embedding = 1024 números em float32 ≈ 4 KB
100 milhões de trechos → centenas de GB ou até TB de RAM

👉 Inviável em escala real

A quantização resolve exatamente esse gargalo.

Ideia central:

👉 “Não preciso da máxima precisão o tempo todo.”

O artigo mostra que é possível:

a) Quantizar embeddings

Em vez de float32, usar:

binário (1 bit por dimensão) ou

escalares de 8 bits

Resultado:

32× menos memória

Busca 30–40× mais rápida

E o mais importante:

Perda mínima de qualidade nos resultados

⚠️ Sozinha, a quantização perde um pouco de precisão

Um embedding é uma forma de transformar um texto em números.

Um texto vira um vetor:
```
[0.012, -0.87, 1.34, 0.002, ...]
```
Cada número representa uma “dimensão de significado”
Textos com sentido parecido → vetores próximos

Até aqui, tudo normal.

2. O problema: embeddings “normais” são pesados

Normalmente:

Cada número é um float32 (32 bits = 4 bytes)
Um embedding típico tem:
- 768, 1024 ou até 4096 dimensões

Exemplo:

1024 dimensões × 4 bytes = 4 KB por embedding
100 milhões de textos → ~400 GB

👉 Rápido? Não.
👉 Barato? Muito menos.

3. Então… o que é quantizar?

Quantizar é reduzir a precisão dos números.

Em vez de guardar:


0.0123456789

Você guarda algo como:


0.01

Ou até:

📌 A ideia central:

“Não preciso de tantos dígitos para saber se dois textos falam da mesma coisa.”

4. O que é um embedding quantizado (em termos simples)

👉 Embedding quantizado =
um embedding em que cada número foi comprimido, usando menos bits.

Ou seja:

Ele representa o mesmo texto
Mas com menos precisão
Ocupa muito menos espaço
É muito mais rápido de comparar

5. Tipos comuns de quantização (do artigo)

🔹 1. Quantização escalar (8 bits)

Em vez de float32:

Cada dimensão vira um número de 0 a 255
Usa 1 byte por dimensão

Resultado:

4× menos memória
Qualidade quase igual

Exemplo:


Original:  0.73
Quantizado: 187

🔹 2. Quantização binária (1 bit)

Caso mais extremo.

Cada dimensão vira:
- 1 (positivo)
- 0 (negativo)

Resultado:

32× menos memória
Comparações ultrarrápidas (operações bit a bit)

Exemplo:


Original:   -0.42
Quantizado:  0

6. Mas isso não “estraga” o significado?

Essa é a parte interessante do artigo:
👉 estraga um pouco, mas não o suficiente para atrapalhar a busca inicial.

Por quê?

Busca de patentes não precisa ser perfeita no primeiro passo
Ela só precisa trazer:
- “bons candidatos”
- não “o ranking final exato”

É aí que entra o re-scoring depois.

Um embedding quantizado é uma representação vetorial em que os valores contínuos (float) foram aproximados por valores discretos de menor precisão, reduzindo drasticamente o consumo de memória e o custo computacional, com perda controlada de informação semântica.

O papel do re-scoring (segunda etapa)

A solução vencedora é em duas etapas:

Etapa 1 — Recuperação rápida

Usa embeddings quantizados
Retorna, por exemplo, os 400 mais parecidos
Extremamente rápida e barata

Etapa 2 — Re-scoring preciso

Só nesses 400 candidatos:
- usa embeddings completos (float)
- calcula similaridade com mais precisão
Retorna os 100 melhores

👉 Isso combina:

velocidade da quantização
qualidade da precisão total

📌 O artigo mostra que essa estratégia:

supera buscas 100% “precisas”
com custo dramaticamente menor

5. Por que isso é “superior” ao estado da arte?

Segundo os experimentos no CLEF-IP 2011:

Melhorou o MAP em até 14,81% sobre os melhores sistemas anteriores
Superou modelos patent-specific em quase 30%
Funcionou melhor que:
- BM25 puro
- BM25 + re-rank
- embeddings completos sem quantização
- modelos treinados só em dados de patentes

Ou seja:

não é só mais barato — é objetivamente melhor

6. Por que isso é “realista e escalável”?

Essa parte é crucial:

Realista porque:

Pode rodar em infraestrutura comum
Não exige TBs de RAM
Não depende de LLMs caros por token
Usa ferramentas consolidadas (FAISS, embeddings)

Escalável porque:

Funciona com milhões de patentes
Permite múltiplos vetores por documento
Tempo de resposta aceitável para uso profissional

👉 Diferente de soluções “bonitas no paper”, mas impossíveis em produção.

7. A conclusão em linguagem direta

Se você quer um sistema de busca de patentes que realmente entenda o conteúdo técnico, funcione em escala industrial e seja financeiramente viável, a melhor estratégia hoje é:

usar embeddings semânticos

comprimi-los agressivamente (quantização)

recuperar rápido

e só depois refinar os melhores resultados

Isso entrega mais qualidade que os métodos tradicionais e muito mais viabilidade que LLMs generativos.

Notícias em Patentes

domingo, 1 de fevereiro de 2026

Otimização de buscas por IA

busca semântica baseada em embeddings” em vez de procurar palavras, o sistema:

2. O problema: embeddings “normais” são pesados

3. Então… o que é quantizar?

4. O que é um embedding quantizado (em termos simples)

5. Tipos comuns de quantização (do artigo)

🔹 1. Quantização escalar (8 bits)

🔹 2. Quantização binária (1 bit)

6. Mas isso não “estraga” o significado?

O papel do re-scoring (segunda etapa)

Etapa 1 — Recuperação rápida

Etapa 2 — Re-scoring preciso

5. Por que isso é “superior” ao estado da arte?

6. Por que isso é “realista e escalável”?

Realista porque:

Escalável porque:

7. A conclusão em linguagem direta

Nenhum comentário:

Postar um comentário