Spaces:

cafe3310
/

ling-playground-basic

Sleeping

cafe3310 commited on Sep 23

Commit

551e9e2

1 Parent(s): 21916d9

refactor: 重构项目结构并优化模型加载方式

将应用逻辑拆分为三个独立的模块：

- `app.py`: Gradio 界面及应用入口。

- `graph.py`: LangGraph 状态及工作流定义。

- `comp.py`: 模型加载及推理逻辑。

此次变更还在 `comp.py` 中更新了模型加载方式，使用 `device_map="auto"` 和 `torch_dtype="auto"` 以实现硬件自动优化，提高可移植性。

Files changed (3) hide show

app.py +4 -61
comp.py +60 -0
graph.py +42 -0

app.py CHANGED Viewed

@@ -1,67 +1,10 @@
 import gradio as gr
 import spaces
-import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer
-import operator
-from typing import Annotated, Literal
-from typing_extensions import TypedDict
-from langchain_core.messages import AIMessage, AnyMessage, SystemMessage, HumanMessage, ToolMessage
-from langgraph.graph import StateGraph, END
-# 定义图的状态
-class GraphState(TypedDict):
-    messages: Annotated[list[AnyMessage], operator.add]
-# 只加载一次模型和分词器
-MODEL_NAME = "inclusionAI/Ring-mini-2.0"
-device = "cuda" if torch.cuda.is_available() else "cpu"
-tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(
-    MODEL_NAME,
-    torch_dtype=torch.float16 if device == "cuda" else torch.float32,
-    trust_remote_code=True
-).to(device)
-# 定义图的节点
-def call_model(state: GraphState):
-    """模型调用节点"""
-    messages = state["messages"]
-    # 拼接 prompt
-    prompt = ""
-    for msg in messages:
-        if msg.type == "system":
-            prompt += f"{msg.content}\n"
-        elif msg.type == "human":
-            prompt += f"User: {msg.content}\n"
-        elif msg.type == "ai":
-            prompt += f"Assistant: {msg.content}\n"
-    prompt += "Assistant:"
-    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
-    output_ids = model.generate(
-        input_ids,
-        max_new_tokens=512, # 暂时硬编码
-        do_sample=True,
-        pad_token_id=tokenizer.eos_token_id,
-    )
-    output = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=True)
-    return {"messages": [AIMessage(content=output)]}
-# 构建图
-workflow = StateGraph(GraphState)
-workflow.add_node("llm", call_model)
-workflow.set_entry_point("llm")
-workflow.add_edge("llm", END)
-# 编译图
-app = workflow.compile()
 @spaces.GPU
 def respond(message, history, system_message, hf_token: gr.OAuthToken = None):
     """Gradio 接口的响应函数，调用 LangGraph 应用"""
@@ -106,4 +49,4 @@ with gr.Blocks() as demo:
 if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
 import spaces
+from langchain_core.messages import AIMessage, SystemMessage, HumanMessage
+# 导入已编译的 LangGraph 应用
+from graph import app
 @spaces.GPU
 def respond(message, history, system_message, hf_token: gr.OAuthToken = None):
     """Gradio 接口的响应函数，调用 LangGraph 应用"""
 if __name__ == "__main__":
+    demo.launch()

comp.py ADDED Viewed

	@@ -0,0 +1,60 @@

+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from langchain_core.messages import AIMessage
+from typing import TypedDict, Annotated, List
+import operator
+# 定义此组件操作的图状态的子集
+class GraphState(TypedDict):
+    messages: Annotated[List[AIMessage], operator.add]
+# --- 模型加载 ---
+# 使用 "auto" 模式加载模型和分词器，Hugging Face Accelerate 会自动处理设备和精度
+MODEL_NAME = "inclusionAI/Ring-mini-2.0"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    torch_dtype="auto",
+    device_map="auto",
+    trust_remote_code=True
+)
+def completion_node(state: GraphState) -> dict:
+    """
+    一个调用语言模型以获取响应的节点。
+    Args:
+        state (GraphState): 图的当前状态，包含消息历史。
+    Returns:
+        dict: 一个包含新 AI 消息的字典，该消息将被添加到状态中。
+    """
+    messages = state["messages"]
+    # --- 提示工程 ---
+    # 从消息历史中组装提示。
+    prompt = ""
+    for msg in messages:
+        if msg.type == "system":
+            prompt += f"{msg.content}\n"
+        elif msg.type == "human":
+            prompt += f"User: {msg.content}\n"
+        elif msg.type == "ai":
+            prompt += f"Assistant: {msg.content}\n"
+    prompt += "Assistant:"
+    # --- 模型调用 ---
+    # 使用 device_map="auto" 时，我们无需手动将张量移动到特定设备
+    input_ids = tokenizer(prompt, return_tensors="pt").input_ids
+    output_ids = model.generate(
+        input_ids,
+        max_new_tokens=512,  # 暂时硬编码
+        do_sample=True,
+        pad_token_id=tokenizer.eos_token_id,
+    )
+    output = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=True)
+    # 以 AIMessage 的形式返回响应，以添加到图的状态中。
+    return {"messages": [AIMessage(content=output)]}

graph.py ADDED Viewed

	@@ -0,0 +1,42 @@

+import operator
+from typing import Annotated, List
+from typing_extensions import TypedDict
+from langchain_core.messages import AnyMessage
+from langgraph.graph import StateGraph, END
+# 从我们的组件文件中导入模型补全节点
+from comp import completion_node
+# --- 图状态定义 ---
+# 状态是我们图的内存或上下文。它是一个字典，
+# 保存了对话过程中交换的所有消息。
+class GraphState(TypedDict):
+    """
+    表示我们图的状态。
+    Attributes:
+        messages: 一个随时间自动累积的消息列表。
+                  `operator.add` 注解告诉 LangGraph 将新消息附加到此列表，
+                  而不是覆盖它。这就是图如何维护对话历史（上下文）的方式。
+    """
+    messages: Annotated[List[AnyMessage], operator.add]
+# --- 图工作流构建 ---
+# 使用我们定义的状态创建一个新的状态图
+workflow = StateGraph(GraphState)
+# 将补全节点添加到图中。我们将其命名为 “llm”。
+# 这个节点负责调用语言模型。
+workflow.add_node("llm", completion_node)
+# 设置图的入口点。第一个被调用的节点是 “llm”。
+workflow.set_entry_point("llm")
+# 从 “llm” 节点到 END 添加一条简单的边。
+# 这意味着在调用 LLM 后，图的执行就完成了。
+workflow.add_edge("llm", END)
+# 将工作流编译成一个可运行的应用。
+app = workflow.compile()