Spaces:

sam749
/

donut-sroie

Running

App Files Files Community

sam749 commited on Sep 21

Commit

637a1fc

verified ·

1 Parent(s): 0b556d8

Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

.gitattributes +3 -0
README.md +6 -6
app.py +52 -0
example_1.png +3 -0
example_2.png +3 -0
example_3.png +3 -0
requirements.txt +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+example_1.png filter=lfs diff=lfs merge=lfs -text
+example_2.png filter=lfs diff=lfs merge=lfs -text
+example_3.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,12 +1,12 @@
 ---
-title: Donut Sroie
-emoji: 👁
-colorFrom: purple
-colorTo: pink
 sdk: gradio
-sdk_version: 5.46.1
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Donut SROIE
+emoji: 🖼️
+colorFrom: red
+colorTo: indigo
 sdk: gradio
+sdk_version: 5.46.0
 app_file: app.py
 pinned: false
 ---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,52 @@

+import re
+import gradio as gr
+import torch
+from transformers import DonutProcessor, VisionEncoderDecoderModel
+device = "cuda" if torch.cuda.is_available() else "cpu"
+dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+processor = DonutProcessor.from_pretrained("sam749/donut-base-finetuned-sroie-v2")
+model = VisionEncoderDecoderModel.from_pretrained("sam749/donut-base-finetuned-sroie-v2", dtype=dtype)
+model.to(device)
+def process_document(image):
+    # prepare encoder inputs
+    pixel_values = processor(image, return_tensors="pt").pixel_values
+    # generate answer
+    outputs = model.generate(
+        pixel_values.to(device),
+        use_cache=True,
+        num_beams=1,
+        bad_words_ids=[[processor.tokenizer.unk_token_id]],
+        return_dict_in_generate=True,
+    )
+    # postprocess
+    sequence = processor.batch_decode(outputs.sequences)[0]
+    sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
+    sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
+    return processor.token2json(sequence)
+description = """Gradio Demo for Donut, an instance of `VisionEncoderDecoderModel` fine-tuned on SROI (document parsing & information extraction).
+To use it, simply upload your image and click 'submit', or click one of the examples to load them.
+<strong><em>Note: </em>Predictions are more accurate on GPU.</strong><br>
+<em>Output: </em>extracts [date, company, total] from the document.
+"""
+article = "<p style='text-align: center'><a href='https://arxiv.org/abs/2111.15664' target='_blank'>Donut: OCR-free Document Understanding Transformer</a> | <a href='https://github.com/clovaai/donut' target='_blank'>Github Repo</a></p>"
+demo = gr.Interface(
+    fn=process_document,
+    inputs="image",
+    outputs="json",
+    title="Demo: Donut 🍩 for Document Parsing",
+    description=description,
+    article=article,
+    examples=[["example_1.png"], ["example_2.png"], ["example_3.png"]],
+    cache_examples=False)
+demo.launch(share=True)

example_1.png ADDED Viewed

Git LFS Details

SHA256: 1e86bf009671205fac34d2e9b24fddaac165bae18146eece1540c3c5e66a3f10
Pointer size: 131 Bytes
Size of remote file: 549 kB

example_2.png ADDED Viewed

Git LFS Details

SHA256: 7b40d20e19bf7a489b04edbd58c639b23b675973451a9849958f6488888ea28d
Pointer size: 131 Bytes
Size of remote file: 833 kB

example_3.png ADDED Viewed

Git LFS Details

SHA256: 3fcf61978dfa301c0654acaf3cff9e27a6eb9b12d6fd3ba4dbf7511937e17a51
Pointer size: 131 Bytes
Size of remote file: 571 kB

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+torch
+git+https://github.com/huggingface/transformers.git
+sentencepiece