Merge pull request #7 from metauto-ai/feat/add_scripts

mczhuge · web-flow · commit 3b67ecede165 · 2024-10-15T18:52:57.000-07:00
upload the demo scripts and guidelines
diff --git a/scripts/README.md b/scripts/README.md
@@ -0,0 +1,54 @@
+## Demo scripts
+
+### Ask Anything
+
+1. Ask any questions about the given workspace
+
+```python 
+
+PYTHONPATH=. python scripts/run_ask.py \
+  --workspace $(pwd)/benchmark/workspaces/OpenHands/39_Drug_Response_Prediction_SVM_GDSC_ML \
+  --question "What does this workspace contain?"
+```
+
+### Agent-as-a-Judge
+
+2. Using the collected trajectories or development logs (gray-box setting)
+
+```python
+PYTHONPATH=. python scripts/run_aaaj.py \
+  --developer_agent "OpenHands" \
+  --setting "gray_box" \
+  --planning "comprehensive (no planning)" \
+  --benchmark_dir $(pwd)/benchmark
+```
+
+3. Do not have trajectories or development logs (black-box setting)
+
+```python
+PYTHONPATH=. python scripts/run_aaaj.py \
+  --developer_agent "OpenHands" \
+  --setting "black_box" \
+  --planning "efficient (no planning)" \
+  --benchmark_dir $(pwd)/benchmark
+```
+
+4. Do not have trajectories or development logs and using planning to decide the actions of Agent-as-a-Judge (black-box setting)
+
+```python
+PYTHONPATH=. python scripts/run_aaaj.py \
+  --developer_agent "OpenHands" \
+  --setting "gray_box" \
+  --planning "planning" \
+  --benchmark_dir $(pwd)/benchmark
+```
+
+### Statistics
+
+5. Get the statistics of the projects
+
+```python
+PYTHONPATH=. python scripts/run_statistics.py \
+    --benchmark_dir $(pwd)/benchmark \
+    --developer_agent OpenHands
+```
diff --git a/scripts/run_aaaj.py b/scripts/run_aaaj.py
@@ -0,0 +1,155 @@
+import re
+import argparse
+import logging
+from pathlib import Path
+from dotenv import load_dotenv
+
+from agent_as_a_judge.agent import JudgeAgent
+from agent_as_a_judge.config import AgentConfig
+
+
+def main(agent_config: AgentConfig, logger: logging.Logger):
+
+    def extract_number_from_filename(filename: str) -> int:
+        match = re.search(r"(\d+)", filename)
+        return int(match.group(1)) if match else float("inf")
+
+    instance_files = sorted(
+        list(agent_config.instance_dir.glob("*.json")),
+        key=lambda f: extract_number_from_filename(f.stem),
+    )
+
+    logger.info(f"Total instances found: {len(instance_files)}")
+
+    for instance_file in instance_files:
+        instance_name = instance_file.stem
+
+        trajectory_file = None
+        if agent_config.trajectory_file:
+            trajectory_file = agent_config.trajectory_file / f"{instance_name}.json"
+
+        judgment_file = agent_config.judge_dir / instance_file.name
+
+        if judgment_file.exists():
+            logger.info(
+                f"Judgment for instance '{instance_name}' already exists. Skipping..."
+            )
+            continue
+
+        if trajectory_file and trajectory_file.exists():
+            logger.info(
+                f"Processing instance: {instance_file} with trajectory: {trajectory_file}"
+            )
+        else:
+            logger.warning(
+                f"Trajectory file not found for instance: {instance_file}, processing without it"
+            )
+            trajectory_file = None
+
+        workspace = agent_config.workspace_dir / instance_name
+
+        judge_agent = JudgeAgent(
+            workspace=workspace,
+            instance=instance_file,
+            judge_dir=agent_config.judge_dir,
+            trajectory_file=trajectory_file,
+            config=agent_config,
+        )
+        judge_agent.judge_anything()
+
+
+def parse_arguments():
+    parser = argparse.ArgumentParser()
+
+    parser.add_argument(
+        "--developer_agent", type=str, required=True, help="Name of the developer agent"
+    )
+    parser.add_argument(
+        "--setting",
+        type=str,
+        required=True,
+        help="Setting for the JudgeAgent (e.g., gray_box, black_box)",
+    )
+    parser.add_argument(
+        "--planning",
+        type=str,
+        required=True,
+        choices=["planning", "comprehensive (no planning)", "efficient (no planning)"],
+        help="Module to run",
+    )
+    parser.add_argument(
+        "--benchmark_dir",
+        type=str,
+        required=True,
+        help="Base directory for the DevAI benchmark",
+    )
+    parser.add_argument(
+        "--include_dirs",
+        nargs="+",
+        default=["src", "results", "models", "data"],
+        help="Directories to include in search",
+    )
+    parser.add_argument(
+        "--exclude_dirs",
+        nargs="+",
+        default=[
+            "__pycache__",
+            "env",
+            ".git",
+            "venv",
+            "logs",
+            "output",
+            "tmp",
+            "temp",
+            "cache",
+            "data",
+        ],
+        help="Directories to exclude in search",
+    )
+    parser.add_argument(
+        "--exclude_files",
+        nargs="+",
+        default=[".DS_Store"],
+        help="Files to exclude in search",
+    )
+    parser.add_argument(
+        "--trajectory_file",
+        type=str,
+        help="Path to the trajectory directory, if available",
+    )
+
+    return parser.parse_args()
+
+
+if __name__ == "__main__":
+    load_dotenv()
+
+    logger = logging.getLogger(__name__)
+    logging.basicConfig(level=logging.INFO)
+    args = parse_arguments()
+
+    benchmark_dir = Path(args.benchmark_dir)
+    instance_dir = benchmark_dir / "devai/instances"
+    workspace_dir = benchmark_dir / f"workspaces/{args.developer_agent}"
+    judge_dir = (
+        benchmark_dir
+        / f"judgment/{args.developer_agent}/agent_as_a_judge/{args.setting}"
+    )
+    trajectory_file = benchmark_dir / f"trajectories/{args.developer_agent}"
+
+    agent_config = AgentConfig(
+        include_dirs=args.include_dirs,
+        exclude_dirs=args.exclude_dirs,
+        exclude_files=args.exclude_files,
+        setting=args.setting,
+        planning=args.planning,
+        judge_dir=judge_dir,
+        workspace_dir=workspace_dir,
+        instance_dir=instance_dir,
+        trajectory_file=trajectory_file,
+    )
+
+    main(
+        agent_config=agent_config,
+        logger=logger,
+    )
diff --git a/scripts/run_ask.py b/scripts/run_ask.py
@@ -0,0 +1,134 @@
+import argparse
+import logging
+from pathlib import Path
+from dotenv import load_dotenv
+from rich.console import Console
+from rich.panel import Panel
+from rich.text import Text
+from rich.markdown import Markdown
+from rich.emoji import Emoji
+import io
+
+
+from agent_as_a_judge.agent import JudgeAgent
+from agent_as_a_judge.config import AgentConfig
+
+logging.basicConfig(
+    level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s"
+)
+console = Console()
+
+
+def main(agent_config: AgentConfig, initial_question: str, logger: logging.Logger):
+    workspace = agent_config.workspace_dir
+    judge_agent = JudgeAgent(
+        workspace=workspace,
+        instance=None,
+        judge_dir=agent_config.judge_dir,
+        trajectory_file=None,
+        config=agent_config,
+    )
+
+    handle_question(judge_agent, initial_question, logger)
+    while True:
+        next_question = input(
+            "\nDo you have another question? (Enter question or type 'no' to exit): "
+        ).strip()
+        if next_question.lower() == "no":
+            break
+        handle_question(judge_agent, next_question, logger)
+
+
+def handle_question(judge_agent: JudgeAgent, question: str, logger: logging.Logger):
+
+    response = judge_agent.ask_anything(question)
+    display_qa(question, response, logger)
+
+
+def display_qa(question: str, response: str, logger: logging.Logger):
+
+    question_markdown = f"{Emoji('question')} **Question**\n{question}"
+    response_markdown = f"{Emoji('speech_balloon')} **Response**\n{response}"
+
+    panel_content = f"{question_markdown}\n\n---\n\n{response_markdown}"
+    panel = Panel(
+        Markdown(panel_content),
+        title="[bold magenta]🔍 Question and Response[/bold magenta]",
+        border_style="bold cyan",
+        title_align="center",
+        padding=(1, 2),
+    )
+
+    with io.StringIO() as buf:
+        temp_console = Console(file=buf, width=80, record=True)
+        temp_console.print(panel)
+        formatted_message = buf.getvalue()
+    console.print(panel)
+
+
+def parse_arguments():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--workspace", type=str, required=True, help="Path to the workspace directory"
+    )
+    parser.add_argument(
+        "--question", type=str, required=True, help="Initial question to ask the agent"
+    )
+    parser.add_argument(
+        "--include_dirs",
+        nargs="+",
+        default=None,
+        help="Directories to include in search",
+    )
+    parser.add_argument(
+        "--exclude_dirs",
+        nargs="+",
+        default=[
+            "__pycache__",
+            "env",
+            ".git",
+            "venv",
+            "logs",
+            "output",
+            "tmp",
+            "temp",
+            "cache",
+            "data",
+        ],
+        help="Directories to exclude in search",
+    )
+    parser.add_argument(
+        "--exclude_files",
+        nargs="+",
+        default=[".DS_Store"],
+        help="Files to exclude in search",
+    )
+
+    return parser.parse_args()
+
+
+if __name__ == "__main__":
+    load_dotenv()
+    logger = logging.getLogger(__name__)
+    logging.basicConfig(level=logging.INFO)
+    args = parse_arguments()
+    workspace_dir = Path(args.workspace)
+    judge_dir = workspace_dir / "judge"
+
+    agent_config = AgentConfig(
+        include_dirs=args.include_dirs,
+        exclude_dirs=args.exclude_dirs,
+        exclude_files=args.exclude_files,
+        setting="black_box",
+        planning="comprehensive (no planning)",
+        judge_dir=judge_dir,
+        workspace_dir=workspace_dir,
+        instance_dir=None,
+        trajectory_file=None,
+    )
+
+    main(
+        agent_config=agent_config,
+        initial_question=args.question,
+        logger=logger,
+    )
diff --git a/scripts/run_statistics.py b/scripts/run_statistics.py