import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import gradio as gr

# Load from your HF model repo
model_name = "your-username/gpt2-phostune-demo"  # ✅ Replace

tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)
model.eval().to("cuda" if torch.cuda.is_available() else "cpu")

def generate(prompt):
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(
        **inputs,
        max_new_tokens=100,
        do_sample=True,
        temperature=0.7,
        top_k=50,
        top_p=0.95
    )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

gr.Interface(
    fn=generate,
    inputs="text",
    outputs="text",
    title="🧠 PhosTune GPT-2 Demo",
    description="Fine-tuned GPT-2 model deployed using Hugging Face Spaces.",
    theme="compact"
).launch()