domingo, 1 de fevereiro de 2026

Otimização de buscas por IA

 Rethinking patent retrieval with language models: Toward scalable and efficient search

Renukswamy Chikkamath, Linda Andersson, Markus Endres

Article 102433

https://www.sciencedirect.com/journal/world-patent-information/vol/84/suppl/C

O artigo “Rethinking patent retrieval with language models: Toward scalable and efficient search” analisa criticamente o uso de modelos de linguagem e embeddings semânticos na busca de patentes, especialmente para prior art search, comparando-os com métodos tradicionais baseados em palavras-chave, como o BM25. Elasticsearch usa BM25 como algoritmo padrão de ranqueamento. Ele não entende significado, só estatística de palavras. Exemplo: Consulta: compressão de gás Documento A: repete exatamente essas palavras → sobe no ranking Documento B: usa “pressurização de fluido” → pode ficar para trás, mesmo sendo o mesmo conceito

O estudo também demonstra que técnicas de quantização de embeddings (binária e escalar) permitem tornar a busca semanticamente rica viável em larga escala, reduzindo o uso de memória em até 32× e acelerando a recuperação em até 30×, com perda mínima de desempenho.

Buscar prior art não é como buscar notícias ou posts: Patentes são longas, técnicas e repetitivas, O mesmo conceito aparece com vocabulários diferentes, Um único pedido pode ter centenas de páginas, Bases têm milhões de documentos. Métodos tradicionais (BM25, palavras-chave): São rápidos e baratos, Mas não entendem significado, só coincidência de termos. LLMs generativos (tipo ChatGPT): Entendem muito bem o conteúdo Mas são caros, lentos e inviáveis para varrer milhões de patentes

busca semântica baseada em embeddings” em vez de procurar palavras, o sistema:

  1. Transforma textos (claims, abstracts) em vetores numéricos (embeddings)

  2. Textos com significado parecido ficam próximos no espaço vetorial

  3. A busca vira um problema matemático: “quais vetores estão mais próximos?”

✔️ Vantagem: entende significado técnico, não só termos
❌ Problema: embeddings são grandes, pesados e caros

Exemplo real:

  • 1 embedding = 1024 números em float32 ≈ 4 KB

  • 100 milhões de trechos → centenas de GB ou até TB de RAM

👉 Inviável em escala real

A quantização resolve exatamente esse gargalo.


Ideia central:


👉 “Não preciso da máxima precisão o tempo todo.”


O artigo mostra que é possível:


a) Quantizar embeddings


Em vez de float32, usar:


binário (1 bit por dimensão) ou


escalares de 8 bits


Resultado:


32× menos memória


Busca 30–40× mais rápida


E o mais importante:


Perda mínima de qualidade nos resultados


⚠️ Sozinha, a quantização perde um pouco de precisão


Um embedding é uma forma de transformar um texto em números.

  • Um texto vira um vetor:

    [0.012, -0.87, 1.34, 0.002, ...]
  • Cada número representa uma “dimensão de significado”

  • Textos com sentido parecido → vetores próximos

Até aqui, tudo normal.


2. O problema: embeddings “normais” são pesados

Normalmente:

  • Cada número é um float32 (32 bits = 4 bytes)

  • Um embedding típico tem:

    • 768, 1024 ou até 4096 dimensões

Exemplo:

  • 1024 dimensões × 4 bytes = 4 KB por embedding

  • 100 milhões de textos → ~400 GB

👉 Rápido? Não.
👉 Barato? Muito menos.


3. Então… o que é quantizar?

Quantizar é reduzir a precisão dos números.

Em vez de guardar:

0.0123456789

Você guarda algo como:

0.01

Ou até:

1

📌 A ideia central:

“Não preciso de tantos dígitos para saber se dois textos falam da mesma coisa.”


4. O que é um embedding quantizado (em termos simples)

👉 Embedding quantizado =
um embedding em que cada número foi comprimido, usando menos bits.

Ou seja:

  • Ele representa o mesmo texto

  • Mas com menos precisão

  • Ocupa muito menos espaço

  • É muito mais rápido de comparar


5. Tipos comuns de quantização (do artigo)

🔹 1. Quantização escalar (8 bits)

Em vez de float32:

  • Cada dimensão vira um número de 0 a 255

  • Usa 1 byte por dimensão

Resultado:

  • 4× menos memória

  • Qualidade quase igual

Exemplo:

Original: 0.73 Quantizado: 187

🔹 2. Quantização binária (1 bit)

Caso mais extremo.

  • Cada dimensão vira:

    • 1 (positivo)

    • 0 (negativo)

Resultado:

  • 32× menos memória

  • Comparações ultrarrápidas (operações bit a bit)

Exemplo:

Original: -0.42 Quantizado: 0

6. Mas isso não “estraga” o significado?

Essa é a parte interessante do artigo:
👉 estraga um pouco, mas não o suficiente para atrapalhar a busca inicial.

Por quê?

  • Busca de patentes não precisa ser perfeita no primeiro passo

  • Ela só precisa trazer:

    • “bons candidatos”

    • não “o ranking final exato”

É aí que entra o re-scoring depois.


Um embedding quantizado é uma representação vetorial em que os valores contínuos (float) foram aproximados por valores discretos de menor precisão, reduzindo drasticamente o consumo de memória e o custo computacional, com perda controlada de informação semântica.

O papel do re-scoring (segunda etapa)

A solução vencedora é em duas etapas:

Etapa 1 — Recuperação rápida

  • Usa embeddings quantizados

  • Retorna, por exemplo, os 400 mais parecidos

  • Extremamente rápida e barata

Etapa 2 — Re-scoring preciso

  • Só nesses 400 candidatos:

    • usa embeddings completos (float)

    • calcula similaridade com mais precisão

  • Retorna os 100 melhores

👉 Isso combina:

  • velocidade da quantização

  • qualidade da precisão total

📌 O artigo mostra que essa estratégia:

  • supera buscas 100% “precisas”

  • com custo dramaticamente menor


5. Por que isso é “superior” ao estado da arte?

Segundo os experimentos no CLEF-IP 2011:

  • Melhorou o MAP em até 14,81% sobre os melhores sistemas anteriores

  • Superou modelos patent-specific em quase 30%

  • Funcionou melhor que:

    • BM25 puro

    • BM25 + re-rank

    • embeddings completos sem quantização

    • modelos treinados só em dados de patentes

Ou seja:

não é só mais barato — é objetivamente melhor


6. Por que isso é “realista e escalável”?

Essa parte é crucial:

Realista porque:

  • Pode rodar em infraestrutura comum

  • Não exige TBs de RAM

  • Não depende de LLMs caros por token

  • Usa ferramentas consolidadas (FAISS, embeddings)

Escalável porque:

  • Funciona com milhões de patentes

  • Permite múltiplos vetores por documento

  • Tempo de resposta aceitável para uso profissional

👉 Diferente de soluções “bonitas no paper”, mas impossíveis em produção.


7. A conclusão em linguagem direta

Se você quer um sistema de busca de patentes que realmente entenda o conteúdo técnico, funcione em escala industrial e seja financeiramente viável, a melhor estratégia hoje é:

  • usar embeddings semânticos

  • comprimi-los agressivamente (quantização)

  • recuperar rápido

  • e só depois refinar os melhores resultados

Isso entrega mais qualidade que os métodos tradicionais e muito mais viabilidade que LLMs generativos.

Nenhum comentário:

Postar um comentário