Spaces:

whyu
/

MM-Vet_Evaluator

Running

App Files Files Community

whyu commited on Aug 4, 2023

Commit

5312171

1 Parent(s): b1adb19

initial commit

Browse files

Files changed (1) hide show

app.py +34 -34

app.py CHANGED Viewed

@@ -166,29 +166,8 @@ def grade(file_obj, progress=gr.Progress()):
                 grade_sample_run_complete = False
                 temperature = 0.0
-                # while not grade_sample_run_complete:
-                #     try:
-                response = openai.ChatCompletion.create(
-                    # model=gpt_model,
-                    engine=gpt_model,
-                    max_tokens=3,
-                    temperature=temperature,
-                    messages=messages)
-                content = response['choices'][0]['message']['content']
-                flag = True
-                try_time = 1
-                while flag:
                     try:
-                        content = content.split(' ')[0].strip()
-                        score = float(content)
-                        if score > 1.0 or score < 0.0:
-                            assert False
-                        flag = False
-                    except:
-                        question = prompt + '\n' + ' | '.join([line['question'], line['answer'].replace("<AND>", " <AND> ").replace("<OR>", " <OR> "), model_pred, ""]) + "\nPredict the correctness of the answer (digit): "
-                        messages = [
-                        {"role": "user", "content": question},
-                        ]
                         response = openai.ChatCompletion.create(
                             # model=gpt_model,
                             engine=gpt_model,
@@ -196,18 +175,39 @@ def grade(file_obj, progress=gr.Progress()):
                             temperature=temperature,
                             messages=messages)
                         content = response['choices'][0]['message']['content']
-                        try_time += 1
-                        temperature += 0.5
-                        print(f"{id} try {try_time} times")
-                        print(content)
-                        if try_time > 5:
-                            score = 0.0
-                            flag = False
-                grade_sample_run_complete = True
-                    # except:
-                    #     # gpt4 may have token rate limit
-                    #     print("sleep 30s")
-                    #     time.sleep(30)
                 if len(sample_grade['model']) >= j + 1:
                     sample_grade['model'][j] = response['model']

                 grade_sample_run_complete = False
                 temperature = 0.0
+                while not grade_sample_run_complete:
                     try:
                         response = openai.ChatCompletion.create(
                             # model=gpt_model,
                             engine=gpt_model,
                             temperature=temperature,
                             messages=messages)
                         content = response['choices'][0]['message']['content']
+                        flag = True
+                        try_time = 1
+                        while flag:
+                            try:
+                                content = content.split(' ')[0].strip()
+                                score = float(content)
+                                if score > 1.0 or score < 0.0:
+                                    assert False
+                                flag = False
+                            except:
+                                question = prompt + '\n' + ' | '.join([line['question'], line['answer'].replace("<AND>", " <AND> ").replace("<OR>", " <OR> "), model_pred, ""]) + "\nPredict the correctness of the answer (digit): "
+                                messages = [
+                                {"role": "user", "content": question},
+                                ]
+                                response = openai.ChatCompletion.create(
+                                    # model=gpt_model,
+                                    engine=gpt_model,
+                                    max_tokens=3,
+                                    temperature=temperature,
+                                    messages=messages)
+                                content = response['choices'][0]['message']['content']
+                                try_time += 1
+                                temperature += 0.5
+                                print(f"{id} try {try_time} times")
+                                print(content)
+                                if try_time > 5:
+                                    score = 0.0
+                                    flag = False
+                        grade_sample_run_complete = True
+                    except:
+                        # gpt4 may have token rate limit
+                        print("sleep 30s")
+                        time.sleep(30)
                 if len(sample_grade['model']) >= j + 1:
                     sample_grade['model'][j] = response['model']