Claude 3.5 Sonnet mejora el análisis de PDFs con gráficos y tablas complejas
El modelo de inteligencia artificial Claude 3.5 Sonnet de Anthropic ha mejorado sus capacidades para analizar archivos PDF, enfocándose tanto en el texto como en elementos visuales complejos, como gráficos y tablas.
El proceso de análisis se realiza en tres etapas: extracción de texto, análisis en capas y conversión de páginas a imágenes. Esto significa que el modelo primero extrae el texto del documento PDF y convierte cada página en una imagen para un análisis completo, permitiendo obtener información de los elementos visuales del documento.
Análisis detallado de cada elemento en un PDF
Hasta hace poco, cuando los usuarios subían un archivo PDF a Claude.ai, el modelo solo podía extraer texto, que luego usaba como entrada para el análisis. Ahora, la nueva versión permite visualizar los PDF con precisión junto con el texto, facilitando la comprensión de documentos complejos, especialmente aquellos con numerosos gráficos y tablas.
Esta función avanzada ya está disponible en la versión de prueba de la función de chat de Claude, así como en el acceso a la API. La compañía también planea ofrecer compatibilidad futura con Google Vertex AI y Amazon Bedrock.
Claude 3.5 Sonnet AI, actualmente en fase beta pública, ya puede analizar documentos legales, informes financieros y realizar traducciones, integrando tanto texto como imágenes, tablas y gráficos en su análisis. Esta funcionalidad de PDF se puede utilizar junto con otras características del modelo.
Consejos para utilizar estas nuevas funciones
El nuevo sistema de análisis de PDF procesa archivos de hasta 32 MB y 100 páginas, utilizando entre 1,500 y 3,000 tokens por página. Cabe destacar que el modelo no admite archivos protegidos con contraseña o cifrados.
Para obtener resultados óptimos, la compañía recomienda usar documentos con texto legible y páginas correctamente alineadas. Si se necesita analizar secciones específicas de un documento, es aconsejable indicar los números de página.
En documentos extensos, Anthropic sugiere dividirlos en secciones más pequeñas. Además, se puede aplicar la técnica de “caching” de prompts para mejorar la eficiencia al analizar un mismo documento varias veces.
Anthropic lanzó Claude 3.5 Sonnet en junio de este año y lanzó una versión mejorada en el último mes. Según las pruebas de rendimiento disponibles, este modelo ha superado al modelo de Meta Llama 400b, GPT-4o de OpenAI y Gemini 1.5 Pro de Google en comprensión del lenguaje natural.
Fuente: Anthropic