Spaces:

VeuReu
/

svision

Running on Zero

App Files Files Community

VeuReu commited on Oct 17

Commit

5ef2eb1

verified ·

1 Parent(s): e9198d6

Upload 9 files

Browse files

Files changed (4) hide show

README.md +8 -50
app.py +80 -22
clients/client_test.py +9 -0
requirements.txt +0 -5

README.md CHANGED Viewed

@@ -1,62 +1,20 @@
 ---
-title: veureu-schat
 emoji: 🦎
 colorFrom: purple
 colorTo: indigo
 sdk: gradio
-sdk_version: "4.44.0"
 app_file: app.py
 pinned: false
 ---
-# 🦎 veureu-schat (Salamandra-Vision 7B · ZeroGPU)
-Este Space despliega el modelo **[BSC-LT/salamandra-7b-vision](https://huggingface.co/BSC-LT/salamandra-7b-vision)** —una variante de **LLaVA-OneVision** entrenada por el *Barcelona Supercomputing Center*— utilizando **máquinas ZeroGPU**.
-Permite enviar una **imagen y un texto (prompt)** para recibir una **descripción generada automáticamente**.
-Funciona tanto desde la **interfaz web (Gradio)** como desde **clientes externos** (por ejemplo, otro Space con Streamlit o una app Python local).
----
-## 🚀 Características
-- **ZeroGPU**: utiliza GPU bajo demanda, sin necesidad de hardware dedicado.
-- **Entrada multimodal**: imagen + texto.
-- **Salida**: texto descriptivo (en catalán o español).
-- **API REST directa** (`/api/describe_raw`) + **API Gradio** (`/api/predict/describe`).
-- Compatible con clientes HTTP (`requests`) o `gradio_client`.
----
-## 🧠 Modelo
-- **Modelo:** `BSC-LT/salamandra-7b-vision`
-- **Arquitectura:** LLaVA-OneVision 7B
-- **Framework:** PyTorch + Transformers
-- **Capa de entrada:** `AutoProcessor`
-- **Generación:** `LlavaOnevisionForConditionalGeneration`
-El modelo combina visión y lenguaje para generar texto a partir de imágenes, siguiendo el esquema de conversación (“chat template”) oficial de OneVision.
----
-## ⚙️ Configuración del Space
-**Hardware:** ZeroGPU
-**SDK:** Gradio
-**Archivo principal:** `app.py`
-**Requisitos:** `requirements.txt`
-Ejemplo del bloque de configuración YAML (este ya está en la cabecera del README):
-```yaml
----
-title: Salamandra-Vision 7B · ZeroGPU
-emoji: 🦎
-colorFrom: purple
-colorTo: indigo
-sdk: gradio
-sdk_version: "4.44.0"
-app_file: app.py
-pinned: false
----

 ---
+title: veureu-svision
 emoji: 🦎
 colorFrom: purple
 colorTo: indigo
 sdk: gradio
+sdk_version: "4.44.1"
 app_file: app.py
 pinned: false
 ---
+# 🦎 veureu-svision (Salamandra-Vision 7B · ZeroGPU)
+## Endpoints
+- **`/api/predict`** (Gradio): **batch** — entrada `[[<file1>, <file2>, ...], "{...context_json...}", 256, 0.7]` → salida `["desc1", "desc2", ...]`.
+- **`/api/describe_raw`** (multipart): `image`, `text`, `max_new_tokens`, `temperature` → `{"text": "..."}`.
+- **`/api/describe`** (Gradio UI single).
+Compatibilidad con el `engine`: el `VisionClient` del engine llama a **`api_name="/predict"`** con *lista de imágenes* y **`context_json`**.

app.py CHANGED Viewed

@@ -1,6 +1,8 @@
-# app.py
 import os
-from typing import Dict
 import gradio as gr
 import spaces
 import torch
@@ -8,13 +10,14 @@ from PIL import Image
 from transformers import AutoProcessor, LlavaOnevisionForConditionalGeneration
 MODEL_ID = os.environ.get("MODEL_ID", "BSC-LT/salamandra-7b-vision")
-DTYPE = torch.float16
-DEVICE = "cuda"
 _model = None
 _processor = None
-def _lazy_load():
     global _model, _processor
     if _model is None or _processor is None:
         _processor = AutoProcessor.from_pretrained(MODEL_ID, trust_remote_code=True)
@@ -26,32 +29,67 @@ def _lazy_load():
             use_safetensors=True,
             device_map=None,
         )
     return _model, _processor
-def _compose_prompt(user_text: str):
-    convo = [{"role": "user", "content": [{"type": "image"},
-                                          {"type": "text", "text": user_text or "Describe la imagen con detalle."}]}]
     return convo
-@spaces.GPU
-def infer_core(image: Image.Image, text: str, max_new_tokens: int = 256, temperature: float = 0.7) -> str:
     model, processor = _lazy_load()
-    prompt = processor.apply_chat_template(_compose_prompt(text), add_generation_prompt=True)
-    model = model.to(DEVICE)
-    inputs = processor(images=image, text=prompt, return_tensors="pt").to(DEVICE, DTYPE)
     with torch.inference_mode():
         out = model.generate(**inputs, max_new_tokens=int(max_new_tokens), temperature=float(temperature))
     return processor.decode(out[0], skip_special_tokens=True).strip()
-# ---------- Helper for API ----------
 def describe_raw(image: Image.Image, text: str = "Describe la imagen con detalle.",
                  max_new_tokens: int = 256, temperature: float = 0.7) -> Dict[str, str]:
-    result = infer_core(image, text, max_new_tokens, temperature)
     return {"text": result}
-# ---------- UI and API ----------
 with gr.Blocks(title="Salamandra Vision 7B · ZeroGPU") as demo:
     gr.Markdown("## Salamandra-Vision 7B · ZeroGPU\nImagen + texto → descripción.")
     with gr.Row():
@@ -64,12 +102,32 @@ with gr.Blocks(title="Salamandra Vision 7B · ZeroGPU") as demo:
         with gr.Column():
             out = gr.Textbox(label="Descripción", lines=18)
-    # Endpoint for UI
-    btn.click(infer_core, [in_img, in_txt, max_new, temp], out, api_name="describe")
-    # Endpoint for API (no UI)
-    demo.load(None, [gr.Image(label="image", type="pil"), gr.Textbox(value="Describe la imagen con detalle."),
-                     gr.Slider(16, 1024, value=256), gr.Slider(0.0, 1.5, value=0.7)],
-              describe_raw, api_name="describe_raw")
 demo.queue(concurrency_count=1, max_size=16).launch()

+# app.py — veureu/svision (Salamandra Vision 7B · ZeroGPU) — compatible con ENGINE
 import os
+import json
+from typing import Dict, List, Optional, Tuple, Union
 import gradio as gr
 import spaces
 import torch
 from transformers import AutoProcessor, LlavaOnevisionForConditionalGeneration
 MODEL_ID = os.environ.get("MODEL_ID", "BSC-LT/salamandra-7b-vision")
+DTYPE = torch.float16 if torch.cuda.is_available() else torch.float32
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 _model = None
 _processor = None
+def _lazy_load() -> Tuple[LlavaOnevisionForConditionalGeneration, AutoProcessor]:
     global _model, _processor
     if _model is None or _processor is None:
         _processor = AutoProcessor.from_pretrained(MODEL_ID, trust_remote_code=True)
             use_safetensors=True,
             device_map=None,
         )
+        _model.to(DEVICE)
     return _model, _processor
+def _compose_prompt(user_text: str, context: Optional[Dict] = None) -> List[Dict]:
+    """Construye el chat template con imagen + texto + contexto opcional."""
+    ctx_txt = ""
+    if context:
+        try:
+            # breve, sin ruido
+            ctx_txt = "\n\nContexto adicional:\n" + json.dumps(context, ensure_ascii=False)[:2000]
+        except Exception:
+            pass
+    user_txt = (user_text or "Describe la imagen con detalle.") + ctx_txt
+    convo = [
+        {
+            "role": "user",
+            "content": [
+                {"type": "image"},
+                {"type": "text", "text": user_txt},
+            ],
+        }
+    ]
     return convo
+@spaces.GPU  # en HF Spaces usará GPU cuando haya disponibilidad (ZeroGPU)
+def _infer_one(image: Image.Image, text: str, max_new_tokens: int = 256, temperature: float = 0.7,
+               context: Optional[Dict] = None) -> str:
     model, processor = _lazy_load()
+    prompt = processor.apply_chat_template(_compose_prompt(text, context), add_generation_prompt=True)
+    inputs = processor(images=image, text=prompt, return_tensors="pt").to(DEVICE, dtype=DTYPE)
     with torch.inference_mode():
         out = model.generate(**inputs, max_new_tokens=int(max_new_tokens), temperature=float(temperature))
     return processor.decode(out[0], skip_special_tokens=True).strip()
+# ----------------------------- API helpers -----------------------------------
 def describe_raw(image: Image.Image, text: str = "Describe la imagen con detalle.",
                  max_new_tokens: int = 256, temperature: float = 0.7) -> Dict[str, str]:
+    result = _infer_one(image, text, max_new_tokens, temperature, context=None)
     return {"text": result}
+def describe_batch(images: List[Image.Image], context_json: str,
+                   max_new_tokens: int = 256, temperature: float = 0.7) -> List[str]:
+    """Endpoint batch para ENGINE: lista de imágenes + contexto (JSON) → lista de textos."""
+    try:
+        context = json.loads(context_json) if context_json else None
+    except Exception:
+        context = None
+    outputs: List[str] = []
+    for img in images:
+        outputs.append(_infer_one(img, text="Describe la imagen con detalle.", max_new_tokens=max_new_tokens,
+                                  temperature=temperature, context=context))
+    return outputs
+# ----------------------------- UI & Endpoints --------------------------------
 with gr.Blocks(title="Salamandra Vision 7B · ZeroGPU") as demo:
     gr.Markdown("## Salamandra-Vision 7B · ZeroGPU\nImagen + texto → descripción.")
     with gr.Row():
         with gr.Column():
             out = gr.Textbox(label="Descripción", lines=18)
+    # UI
+    btn.click(_infer_one, [in_img, in_txt, max_new, temp], out, api_name="describe")
+    # API simple (multipart) compatible con tu versión anterior
+    demo.load(
+        None,
+        [gr.Image(label="image", type="pil"),
+         gr.Textbox(value="Describe la imagen con detalle."),
+         gr.Slider(16, 1024, value=256),
+         gr.Slider(0.0, 1.5, value=0.7)],
+        describe_raw,
+        api_name="describe_raw"
+    )
+    # API BATCH para ENGINE (Gradio Client): images + context_json → list[str]
+    # Firma que espera el VisionClient del engine (api_name="/predict")
+    batch_in_images = gr.Gallery(label="Imágenes (batch)", show_label=False).style(grid=[4], height="auto")
+    batch_context = gr.Textbox(label="context_json", value="{}", lines=4)
+    batch_max = gr.Slider(16, 1024, value=256, step=16, label="max_new_tokens")
+    batch_temp = gr.Slider(0.0, 1.5, value=0.7, step=0.05, label="temperature")
+    batch_btn = gr.Button("Describir lote")
+    batch_out = gr.JSON(label="Descripciones (lista)")
+    # Nota: Gradio Gallery entrega rutas/obj; nos apoyamos en el cliente para cargar archivos
+    batch_btn.click(describe_batch, [batch_in_images, batch_context, batch_max, batch_temp], batch_out,
+                    api_name="predict")
 demo.queue(concurrency_count=1, max_size=16).launch()

clients/client_test.py ADDED Viewed

	@@ -0,0 +1,9 @@

+from gradio_client import Client
+c = Client("https://veureu-svision.hf.space")
+out = c.predict(
+    ["tests/cat.jpg", "tests/dog.jpg"],  # lista de imágenes
+    '{"hint":"animales domésticos"}',    # context_json
+    256, 0.7,
+    api_name="/predict"
+)
+print(out)  # -> ["desc para cat", "desc para dog"]

requirements.txt CHANGED Viewed

@@ -1,4 +1,3 @@
-# app (ZeroGPU Gradio)
 gradio>=4.44.1
 spaces>=0.25.0
 transformers>=4.44.0
@@ -6,7 +5,3 @@ torch>=2.2
 accelerate>=0.30.0
 safetensors>=0.4.2
 pillow>=10.3
-# clients
-#requests>=2.31.0
-#streamlit>=1.36.0

 gradio>=4.44.1
 spaces>=0.25.0
 transformers>=4.44.0
 accelerate>=0.30.0
 safetensors>=0.4.2
 pillow>=10.3