Spaces:

SWE-Arena
/

SWE-Issue

Running

App Files Files Community

zhimin-z commited on 27 days ago

Commit

3da62f9

1 Parent(s): 5998589

erfine

Browse files

Files changed (1) hide show

msr.py +11 -11

msr.py CHANGED Viewed

@@ -50,7 +50,7 @@ UPLOAD_DELAY_SECONDS = 5
 UPLOAD_MAX_BACKOFF = 3600
 # Scheduler configuration
-SCHEDULE_ENABLED = True
 SCHEDULE_DAY_OF_WEEK = 'sun'  # Sunday
 SCHEDULE_HOUR = 0
 SCHEDULE_MINUTE = 0
@@ -81,7 +81,7 @@ def save_jsonl(filename, data):
     """Save list of dictionaries to JSONL file."""
     with open(filename, 'w', encoding='utf-8') as f:
         for item in data:
-            f.write(json.dumps(item) + '\\n')
 def normalize_date_format(date_string):
@@ -448,7 +448,7 @@ def fetch_all_issue_metadata_streaming(conn, identifiers, start_date, end_date):
             print(f"✓ {batch_issues} issues found")
         except Exception as e:
-            print(f"\\n   ✗ Batch {batch_num} error: {str(e)}")
             import traceback
             traceback.print_exc()
@@ -457,7 +457,7 @@ def fetch_all_issue_metadata_streaming(conn, identifiers, start_date, end_date):
     # Final summary
     agents_with_data = sum(1 for issues in metadata_by_agent.values() if issues)
-    print(f"\\n   ✓ Complete: {total_issues} issues found for {agents_with_data}/{len(identifiers)} agents")
     return dict(metadata_by_agent)
@@ -499,7 +499,7 @@ def sync_agents_repo():
                 print(f"   ✓ Repository synced successfully")
                 if output:
                     # Print first few lines of output
-                    lines = output.split('\\n')[:5]
                     for line in lines:
                         print(f"     {line}")
             return True
@@ -736,12 +736,12 @@ def mine_all_agents():
     Mine issue metadata for all agents using STREAMING batch processing.
     Downloads GHArchive data, then uses BATCH-based DuckDB queries.
     """
-    print(f"\\n[1/4] Downloading GHArchive data...")
     if not download_all_gharchive_data():
         print("Warning: Download had errors, continuing with available data...")
-    print(f"\\n[2/4] Loading agent metadata...")
     agents = load_agents_from_hf()
     if not agents:
@@ -753,7 +753,7 @@ def mine_all_agents():
         print("Error: No valid agent identifiers found")
         return
-    print(f"\\n[3/4] Mining issue metadata ({len(identifiers)} agents, {LEADERBOARD_TIME_FRAME_DAYS} days)...")
     try:
         conn = get_duckdb_connection()
@@ -779,7 +779,7 @@ def mine_all_agents():
     finally:
         conn.close()
-    print(f"\\n[4/4] Saving leaderboard...")
     try:
         leaderboard_dict = construct_leaderboard_from_metadata(all_metadata, agents)
@@ -825,9 +825,9 @@ def setup_scheduler():
     from datetime import datetime
     next_run = trigger.get_next_fire_time(None, datetime.now(trigger.timezone))
     print(f"Scheduler: Weekly on {SCHEDULE_DAY_OF_WEEK} at {SCHEDULE_HOUR:02d}:{SCHEDULE_MINUTE:02d} {SCHEDULE_TIMEZONE}")
-    print(f"Next run: {next_run}\\n")
-    print(f"\\nScheduler started")
     scheduler.start()

 UPLOAD_MAX_BACKOFF = 3600
 # Scheduler configuration
+SCHEDULE_ENABLED = False
 SCHEDULE_DAY_OF_WEEK = 'sun'  # Sunday
 SCHEDULE_HOUR = 0
 SCHEDULE_MINUTE = 0
     """Save list of dictionaries to JSONL file."""
     with open(filename, 'w', encoding='utf-8') as f:
         for item in data:
+            f.write(json.dumps(item) + '\n')
 def normalize_date_format(date_string):
             print(f"✓ {batch_issues} issues found")
         except Exception as e:
+            print(f"\n   ✗ Batch {batch_num} error: {str(e)}")
             import traceback
             traceback.print_exc()
     # Final summary
     agents_with_data = sum(1 for issues in metadata_by_agent.values() if issues)
+    print(f"\n   ✓ Complete: {total_issues} issues found for {agents_with_data}/{len(identifiers)} agents")
     return dict(metadata_by_agent)
                 print(f"   ✓ Repository synced successfully")
                 if output:
                     # Print first few lines of output
+                    lines = output.split('\n')[:5]
                     for line in lines:
                         print(f"     {line}")
             return True
     Mine issue metadata for all agents using STREAMING batch processing.
     Downloads GHArchive data, then uses BATCH-based DuckDB queries.
     """
+    print(f"\n[1/4] Downloading GHArchive data...")
     if not download_all_gharchive_data():
         print("Warning: Download had errors, continuing with available data...")
+    print(f"\n[2/4] Loading agent metadata...")
     agents = load_agents_from_hf()
     if not agents:
         print("Error: No valid agent identifiers found")
         return
+    print(f"\n[3/4] Mining issue metadata ({len(identifiers)} agents, {LEADERBOARD_TIME_FRAME_DAYS} days)...")
     try:
         conn = get_duckdb_connection()
     finally:
         conn.close()
+    print(f"\n[4/4] Saving leaderboard...")
     try:
         leaderboard_dict = construct_leaderboard_from_metadata(all_metadata, agents)
     from datetime import datetime
     next_run = trigger.get_next_fire_time(None, datetime.now(trigger.timezone))
     print(f"Scheduler: Weekly on {SCHEDULE_DAY_OF_WEEK} at {SCHEDULE_HOUR:02d}:{SCHEDULE_MINUTE:02d} {SCHEDULE_TIMEZONE}")
+    print(f"Next run: {next_run}\n")
+    print(f"\nScheduler started")
     scheduler.start()