Spaces:

angelsg213
/

TESTING22

Sleeping

App Files Files Community

angelsg213 commited on 7 days ago

Commit

6e58e9b

verified ·

1 Parent(s): 66f3039

Update app.py

Browse files

Files changed (1) hide show

app.py +122 -151

app.py CHANGED Viewed

@@ -660,149 +660,135 @@ with gr.Blocks(title="Extractor de Facturas con IA Avanzada") as demo:
                         with gr.Tab("Más información"):
                             resumen_tecnico = gr.Markdown(label="Estructura de datos y metadatos")
-        # ============= TAB 2: VISUAL QUESTION ANSWERING =============
-        with gr.Tab("🔍 Visual Question Answering"):
             gr.Markdown("""
-            ### 🤖 Pregúntale a la IA sobre la imagen de tu factura
-            Los modelos VQA analizan visualmente el documento y responden preguntas específicas.
             """)
             with gr.Row():
-                with gr.Column():
-                    pdf_vqa_input = gr.File(label="PDF para VQA (o usa el ya cargado)", file_types=[".pdf"], type="filepath")
-                    pregunta_vqa = gr.Textbox(
                         label="Tu pregunta sobre la factura",
-                        placeholder="¿Cuál es el total de la factura?",
-                        value="¿Qué información importante contiene esta factura?"
                     )
-                    btn_vqa = gr.Button("🔍 Analizar con VQA", variant="primary")
-                with gr.Column():
-                    resultado_vqa = gr.Markdown(label="Respuestas de modelos VQA")
             gr.Markdown("""
             **Modelos utilizados:**
-            - `dandelin/vilt-b32-finetuned-vqa` - Vision-and-Language Transformer
-            - `Salesforce/blip-vqa-base` - BLIP VQA Base
-            - `Salesforce/blip2-opt-2.7b` - BLIP-2 con OPT-2.7B
-            """)
-        # ============= TAB 3: DOCUMENT QUESTION ANSWERING =============
-        with gr.Tab("📝 Document Question Answering"):
-            gr.Markdown("""
-            ### 💬 Pregunta sobre el contenido del texto
-            Los modelos Document QA extraen información específica del texto de la factura.
-            """)
-            with gr.Row():
-                with gr.Column():
-                    pregunta_doc_qa = gr.Textbox(
-                        label="Pregunta sobre el documento",
-                        placeholder="¿Cuál es el NIF del emisor?",
-                        value="¿Cuál es el total de la factura?"
-                    )
-                    btn_doc_qa = gr.Button("📝 Analizar con Document QA", variant="primary")
-                with gr.Column():
-                    resultado_doc_qa = gr.Markdown(label="Respuestas de modelos Document QA")
-            gr.Markdown("""
-            **Modelos utilizados:**
-            - `deepset/roberta-base-squad2` - RoBERTa entrenado en SQuAD 2.0
-            - `distilbert-base-cased-distilled-squad` - DistilBERT optimizado
-            - `bert-large-uncased-whole-word-masking-finetuned-squad` - BERT Large
             """)
-        # ============= TAB 4: LAYOUT DOCUMENT QA =============
-        with gr.Tab("📐 Layout Document QA"):
             gr.Markdown("""
-            ### 🏗️ Análisis con comprensión del layout visual
-            Los modelos LayoutLM entienden la estructura visual del documento (tablas, columnas, etc.)
             """)
             with gr.Row():
-                with gr.Column():
-                    pregunta_layout = gr.Textbox(
-                        label="Pregunta sobre el documento",
-                        placeholder="¿Cuál es el número de factura?",
-                        value="¿Cuál es el número de factura?"
                     )
-                    btn_layout_qa = gr.Button("📐 Analizar con Layout QA", variant="primary")
-                with gr.Column():
-                    resultado_layout = gr.Markdown(label="Respuestas de modelos Layout QA")
             gr.Markdown("""
-            **Modelos utilizados:**
-            - `impira/layoutlm-document-qa` - LayoutLM para Document QA
-            - `microsoft/layoutlmv2-base-uncased` - LayoutLM v2 Base
-            - `nielsr/layoutlmv3-finetuned-funsd` - LayoutLM v3 Fine-tuned
-            """)
-        # ============= TAB 5: VISUAL DOCUMENT UNDERSTANDING =============
-        with gr.Tab("🖼️ Visual Document Understanding"):
-            gr.Markdown("""
-            ### 🎯 Comprensión visual completa del documento
-            Modelos multimodales que procesan la imagen del documento directamente.
-            """)
-            with gr.Row():
-                with gr.Column():
-                    btn_visual_doc = gr.Button("🖼️ Analizar Documento Visualmente", variant="primary", size="lg")
-                with gr.Column():
-                    resultado_visual_doc = gr.Markdown(label="Resultados de análisis visual")
-                    status_visual_doc = gr.Textbox(label="Estado", interactive=False)
-            gr.Markdown("""
-            **Modelos utilizados:**
-            - `microsoft/trocr-large-printed` - TrOCR para texto impreso
-            - `Salesforce/blip-image-captioning-large` - BLIP Image Captioning
-            - `nlpconnect/vit-gpt2-image-captioning` - ViT + GPT2 Captioning
             """)
-        # ============= TAB 6: DOCUMENT RETRIEVAL =============
-        with gr.Tab("🔎 Document Retrieval"):
             gr.Markdown("""
-            ### 🎯 Búsqueda semántica en el documento
-            Encuentra fragmentos relevantes usando embeddings y similitud semántica.
             """)
             with gr.Row():
-                with gr.Column():
-                    consulta_retrieval = gr.Textbox(
-                        label="¿Qué información buscas?",
-                        placeholder="información sobre el emisor",
-                        value="información sobre el emisor"
                     )
-                    btn_retrieval = gr.Button("🔎 Buscar en Documento", variant="primary")
-                with gr.Column():
-                    resultado_retrieval = gr.Markdown(label="Fragmentos relevantes encontrados")
             gr.Markdown("""
-            **Modelos utilizados:**
-            - `sentence-transformers/all-MiniLM-L6-v2` - Embeddings multilingües
-            - `sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2` - Paraphrase ML
             """)
     gr.Markdown("---")
     gr.Markdown("""
-    ### 📚 Información sobre los modelos
-    **Visual Question Answering (VQA):** Responde preguntas sobre imágenes usando visión y lenguaje.
-    **Document QA:** Extrae información específica del texto usando modelos de comprensión lectora.
-    **Layout Document QA:** Entiende la estructura visual (tablas, columnas) además del texto.
-    **Visual Document Understanding:** Procesa documentos como imágenes para OCR y comprensión completa.
-    **Document Retrieval:** Búsqueda semántica de información relevante en el documento.
-    ---
-    💡 **Tip:** Procesa primero la factura en la pestaña "Extracción Automática" y luego explora las demás funcionalidades de IA.
     """)
     # ============= CONECTAR EVENTOS =============
@@ -822,65 +808,50 @@ with gr.Blocks(title="Extractor de Facturas con IA Avanzada") as demo:
         outputs=[pdf_output, pdf_status]
     )
-    # Visual Question Answering
-    def ejecutar_vqa(pdf_vqa, pdf_auto, pregunta):
-        pdf_path = pdf_vqa if pdf_vqa else pdf_auto
-        if not pdf_path:
-            return "❌ Por favor, sube un PDF primero"
-        return analizar_con_vqa(pdf_path, pregunta)
-    btn_vqa.click(
-        fn=ejecutar_vqa,
-        inputs=[pdf_vqa_input, pdf_path_state, pregunta_vqa],
-        outputs=[resultado_vqa]
-    )
-    # Document Question Answering
-    def ejecutar_doc_qa(texto, pregunta):
         if not texto:
             return "❌ Por favor, procesa una factura primero en la pestaña 'Extracción Automática'"
         return analizar_con_document_qa(texto, pregunta)
-    btn_doc_qa.click(
-        fn=ejecutar_doc_qa,
-        inputs=[texto_extraido, pregunta_doc_qa],
-        outputs=[resultado_doc_qa]
     )
-    # Layout Document QA
-    def ejecutar_layout_qa(pdf_path, texto, pregunta):
-        if not pdf_path or not texto:
             return "❌ Por favor, procesa una factura primero en la pestaña 'Extracción Automática'"
-        return analizar_con_layout_qa(pdf_path, texto, pregunta)
-    btn_layout_qa.click(
-        fn=ejecutar_layout_qa,
-        inputs=[pdf_path_state, texto_extraido, pregunta_layout],
-        outputs=[resultado_layout]
     )
-    # Visual Document Understanding
-    def ejecutar_visual_doc(pdf_path):
         if not pdf_path:
-            return "❌ Por favor, procesa una factura primero en la pestaña 'Extracción Automática'", ""
-        return analizar_documento_visual_hf(pdf_path)
-    btn_visual_doc.click(
-        fn=ejecutar_visual_doc,
-        inputs=[pdf_path_state],
-        outputs=[resultado_visual_doc, status_visual_doc]
-    )
-    # Document Retrieval
-    def ejecutar_retrieval(texto, consulta):
-        if not texto:
             return "❌ Por favor, procesa una factura primero en la pestaña 'Extracción Automática'"
-        return buscar_en_documento(texto, consulta)
-    btn_retrieval.click(
-        fn=ejecutar_retrieval,
-        inputs=[texto_extraido, consulta_retrieval],
-        outputs=[resultado_retrieval]
     )
 if __name__ == "__main__":

                         with gr.Tab("Más información"):
                             resumen_tecnico = gr.Markdown(label="Estructura de datos y metadatos")
+        # ============= TAB 2: CONSULTAS INTELIGENTES (TODO EN UNO) =============
+        with gr.Tab("🤖 Consultas con IA"):
             gr.Markdown("""
+            ### 💬 Pregunta lo que necesites sobre tu factura
+            Los modelos de IA responden preguntas específicas sobre el contenido de la factura.
             """)
             with gr.Row():
+                with gr.Column(scale=1):
+                    pregunta_ia = gr.Textbox(
                         label="Tu pregunta sobre la factura",
+                        placeholder="Ejemplos: ¿Cuál es el total? ¿Quién es el emisor? ¿Cuál es el NIF?",
+                        value="¿Cuál es el total de la factura?",
+                        lines=3
                     )
+                    gr.Markdown("#### Ejemplos de preguntas:")
+                    gr.Markdown("""
+                    - ¿Cuál es el total de la factura?
+                    - ¿Cuál es el número de factura?
+                    - ¿Quién es el emisor?
+                    - ¿Cuál es el NIF del emisor?
+                    - ¿Cuántos productos hay?
+                    - ¿Cuál es la fecha de emisión?
+                    """)
+                    btn_consulta_ia = gr.Button("🔍 Consultar", variant="primary", size="lg")
+                with gr.Column(scale=2):
+                    gr.Markdown("### 📝 Respuestas de los modelos")
+                    resultado_consulta = gr.Markdown(label="Respuestas")
+            gr.Markdown("---")
             gr.Markdown("""
             **Modelos utilizados:**
+            - `deepset/roberta-base-squad2` - RoBERTa especializado en QA
+            - `deepset/bert-base-cased-squad2` - BERT optimizado para preguntas
+            - `distilbert-base-cased-distilled-squad` - DistilBERT eficiente
+            Estos modelos están entrenados para extraer respuestas precisas del texto.
             """)
+        # ============= TAB 3: BÚSQUEDA SEMÁNTICA =============
+        with gr.Tab("🔎 Búsqueda Inteligente"):
             gr.Markdown("""
+            ### 🎯 Encuentra información relevante en tu factura
+            Búsqueda semántica que entiende el significado de tu consulta.
             """)
             with gr.Row():
+                with gr.Column(scale=1):
+                    consulta_busqueda = gr.Textbox(
+                        label="¿Qué información buscas?",
+                        placeholder="Ejemplos: información del emisor, detalles de productos, información de pago",
+                        value="información sobre el emisor",
+                        lines=3
                     )
+                    gr.Markdown("#### Ejemplos de búsquedas:")
+                    gr.Markdown("""
+                    - Información sobre el emisor
+                    - Detalles de productos o servicios
+                    - Información de pago
+                    - Datos del cliente
+                    - Fechas importantes
+                    """)
+                    btn_busqueda = gr.Button("🔎 Buscar", variant="primary", size="lg")
+                with gr.Column(scale=2):
+                    gr.Markdown("### 📋 Fragmentos relevantes encontrados")
+                    resultado_busqueda = gr.Markdown(label="Resultados")
+            gr.Markdown("---")
             gr.Markdown("""
+            **Modelos de embeddings utilizados:**
+            - `sentence-transformers/all-MiniLM-L6-v2` - Embeddings rápidos y precisos
+            - `sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2` - Soporte multilingüe
+            La búsqueda semántica encuentra información relevante aunque uses palabras diferentes.
             """)
+        # ============= TAB 4: ANÁLISIS VISUAL (OPCIONAL) =============
+        with gr.Tab("🖼️ Análisis Visual (Beta)"):
             gr.Markdown("""
+            ### 📸 Análisis visual del documento
+            **Nota:** Esta funcionalidad requiere dependencias adicionales (poppler-utils o PyMuPDF).
             """)
             with gr.Row():
+                with gr.Column(scale=1):
+                    pregunta_visual = gr.Textbox(
+                        label="Pregunta sobre la imagen",
+                        placeholder="¿Qué información contiene la factura?",
+                        value="¿Qué información importante contiene esta factura?",
+                        lines=3
                     )
+                    btn_visual = gr.Button("🖼️ Analizar Visualmente", variant="primary", size="lg")
+                    gr.Markdown("---")
+                    gr.Markdown("""
+                    ⚠️ **Requisitos:**
+                    - Poppler-utils instalado en el sistema
+                    - O PyMuPDF (fitz) como alternativa
+                    Si no funciona, usa las otras pestañas que trabajan con el texto.
+                    """)
+                with gr.Column(scale=2):
+                    resultado_visual = gr.Markdown(label="Análisis visual")
             gr.Markdown("""
+            **Modelos de visión utilizados:**
+            - `dandelin/vilt-b32-finetuned-vqa` - Vision-and-Language Transformer
+            - `Salesforce/blip-vqa-base` - BLIP para Visual QA
+            - `microsoft/trocr-large-printed` - OCR avanzado
             """)
     gr.Markdown("---")
     gr.Markdown("""
+    ### 📚 Guía rápida
+    1. **Extracción Automática:** Sube tu PDF y extrae todos los datos automáticamente
+    2. **Consultas con IA:** Haz preguntas específicas sobre la factura
+    3. **Búsqueda Inteligente:** Encuentra información relevante por tema
+    4. **Análisis Visual:** (Opcional) Analiza la imagen del documento
+    💡 **Tip:** Empieza por la pestaña "Extracción Automática" para procesar tu factura.
     """)
     # ============= CONECTAR EVENTOS =============
         outputs=[pdf_output, pdf_status]
     )
+    # Consultas con IA (unificado Document QA)
+    def ejecutar_consulta_ia(texto, pregunta):
         if not texto:
             return "❌ Por favor, procesa una factura primero en la pestaña 'Extracción Automática'"
         return analizar_con_document_qa(texto, pregunta)
+    btn_consulta_ia.click(
+        fn=ejecutar_consulta_ia,
+        inputs=[texto_extraido, pregunta_ia],
+        outputs=[resultado_consulta]
     )
+    # Búsqueda semántica
+    def ejecutar_busqueda_semantica(texto, consulta):
+        if not texto:
             return "❌ Por favor, procesa una factura primero en la pestaña 'Extracción Automática'"
+        return buscar_en_documento(texto, consulta)
+    btn_busqueda.click(
+        fn=ejecutar_busqueda_semantica,
+        inputs=[texto_extraido, consulta_busqueda],
+        outputs=[resultado_busqueda]
     )
+    # Análisis visual (combinado VQA + Visual Document Understanding)
+    def ejecutar_analisis_visual(pdf_path, pregunta):
         if not pdf_path:
             return "❌ Por favor, procesa una factura primero en la pestaña 'Extracción Automática'"
+        # Intentar VQA primero
+        resultado_vqa = analizar_con_vqa(pdf_path, pregunta)
+        # Si VQA no funciona, intentar Visual Document Understanding
+        if "No se pudo convertir" in resultado_vqa or "Error" in resultado_vqa:
+            resultado_visual, status = analizar_documento_visual_hf(pdf_path)
+            if resultado_visual:
+                return f"{resultado_vqa}\n\n---\n\n### Análisis Visual Alternativo:\n\n{resultado_visual}"
+        return resultado_vqa
+    btn_visual.click(
+        fn=ejecutar_analisis_visual,
+        inputs=[pdf_path_state, pregunta_visual],
+        outputs=[resultado_visual]
     )
 if __name__ == "__main__":