converter now enumerates over custom python classes to help with not missing out on display amth delimiters

HarrySu123 · HarrySu123 · commit be7d458d0735 · 2025-09-03T13:02:37.000+01:00
diff --git a/conversion2025/mathpix_to_llm_with_lines_to_api.ipynb b/conversion2025/mathpix_to_llm_with_lines_to_api.ipynb
@@ -541,7 +541,7 @@
     "    \"\"\"\n",
     "\n",
     "# Prompt for the LLM to extract questions.\n",
-    "def seperate_questions_prompt(parser: PydanticOutputParser[AllQuestionsModelLines], doc_page_content: list[str]) -> str: #, previous_repsonse: str = \"\", improvements: list[str] = \"\") -> str:\n",
+    "def seperate_questions_prompt(parser: PydanticOutputParser[AllQuestionsModelLines], doc_page_content: list[Markdown]) -> str: #, previous_repsonse: str = \"\", improvements: list[str] = \"\") -> str:\n",
     "\n",
     "    feedback = \"\"\n",
     "    # if previous_repsonse:\n",
@@ -624,7 +624,7 @@
     "    questions: list[QuestionModel] = Field(..., description=\"A list of questions.\")\n",
     "\n",
     "\n",
-    "def extract_questions(allQuestionsModel: AllQuestionsModelLines, doc_page_content: list[str]) -> AllQuestionsModel:\n",
+    "def extract_questions(allQuestionsModel: AllQuestionsModelLines, doc_page_content: list[Markdown]) -> AllQuestionsModel:\n",
     "    \"\"\"\n",
     "    Extracts questions from the AllQuestions model and returns a list of Question objects.\n",
     "    \"\"\"\n",
@@ -635,8 +635,8 @@
     "    questions = []\n",
     "\n",
     "    for question in allQuestionsModel.questions:\n",
-    "        question_content = \"\\n\".join(doc_page_content[question.question_content_start:question.question_content_end+1])\n",
-    "        solution_content = \"\\n\".join(doc_page_content[question.solution_content_start:question.solution_content_end+1])\n",
+    "        question_content = classes_to_markdown(doc_page_content[question.question_content_start:question.question_content_end+1])\n",
+    "        solution_content = classes_to_markdown(doc_page_content[question.solution_content_start:question.solution_content_end+1])\n",
     "        #important, image will be wrong if two identical images are used, although this should not be possible.\n",
     "        images = list(set(extract_images(question_content) + extract_images(solution_content)))\n",
     "\n",
@@ -774,7 +774,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "def llm_extract_questions_lines(markdown: list[str]) -> dict:\n",
+    "def llm_extract_questions_lines(markdown: list[Markdown]) -> dict:\n",
     "    print(\"Begining to seperate the questions from the markdown content...\")\n",
     "    \n",
     "    # Initialise the parser for the output.\n",
@@ -879,24 +879,24 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "def convert_set_question_lines_to_set_question(set_question_lines: Set_Question_Lines, question_content: list[str], images: list[str] = []) -> Set_Question:\n",
+    "def convert_set_question_lines_to_set_question(set_question_lines: Set_Question_Lines, question_content: list[Markdown], images: list[str] = []) -> Set_Question:\n",
     "    \"\"\"\n",
     "    Convert Set_Question_Lines to Set_Question.\n",
     "    \"\"\"\n",
     "    return Set_Question(\n",
     "        title=set_question_lines.title,\n",
-    "        content=\"\\n\".join(question_content[set_question_lines.content_start:set_question_lines.content_end + 1]),\n",
-    "        parts=[\"\\n\".join(question_content[part.part_start:part.part_end + 1]) for part in set_question_lines.parts],\n",
+    "        content=classes_to_markdown(question_content[set_question_lines.content_start:set_question_lines.content_end + 1]),\n",
+    "        parts=[classes_to_markdown(question_content[part.part_start:part.part_end + 1]) for part in set_question_lines.parts],\n",
     "        images=images\n",
     "    )\n",
     "\n",
-    "def convert_set_solution_lines_to_set_solution(set_solution_lines: list[Set_Solution_Part_Lines], solution_content: list[str]) -> Set_Solution:\n",
+    "def convert_set_solution_lines_to_set_solution(set_solution_lines: list[Set_Solution_Part_Lines], solution_content: list[Markdown]) -> Set_Solution:\n",
     "    \"\"\"\n",
     "    Convert Set_Solution_Part_Lines to Set_Solution.\n",
     "    \"\"\"\n",
     "    return Set_Solution(\n",
     "        parts_solutions=[\n",
-    "            \"\\n\".join(solution_content[part.part_solution_start:part.part_solution_end + 1])\n",
+    "            classes_to_markdown(solution_content[part.part_solution_start:part.part_solution_end + 1])\n",
     "            for part in set_solution_lines\n",
     "        ]\n",
     "    )\n"
@@ -972,7 +972,7 @@
     "    # Initialize the output parser with the Set_Question schema.\n",
     "    question_parser = PydanticOutputParser(pydantic_object=Set_Question_Lines)\n",
     "\n",
-    "    question_input: list[str] = question[\"question_content\"].splitlines()\n",
+    "    question_input: list[Markdown] = markdown_to_classes(question[\"question_content\"])\n",
     "    solution_input: str = question[\"solution_content\"]\n",
     "    all_images = question[\"images\"]\n",
     "\n",
@@ -1023,7 +1023,7 @@
     "        part_idx, part = part_data\n",
     "        solution_parser = PydanticOutputParser(pydantic_object=Set_Solution_Part_Lines)\n",
     "\n",
-    "        target_solution_input: list[str] = solution_input.splitlines()\n",
+    "        target_solution_input: list[Markdown] = markdown_to_classes(solution_input)\n",
     "\n",
     "        # Prompt for the LLM to extract The solution part.\n",
     "        # Use the full solution content and the part to extract the specific solution.\n",
@@ -1071,7 +1071,7 @@
     "\n",
     "    solutions_parts = convert_set_solution_lines_to_set_solution(\n",
     "        solutions_parts, \n",
-    "        solution_input.splitlines()\n",
+    "        markdown_to_classes(solution_input)\n",
     "    )\n",
     "\n",
     "    # set_solution = Set_Solution(parts_solutions=solutions_parts)\n",
@@ -1166,7 +1166,7 @@
     "              If parsing fails, returns None.\n",
     "    \"\"\"\n",
     "\n",
-    "    md_content_lines = md_content.splitlines()\n",
+    "    md_content_lines = markdown_to_classes(md_content)\n",
     "\n",
     "    # corrected_md_content = correct_mistakes_in_markdown(md_content)\n",
     "    # print(\"Markdown content corrected for spelling, grammar, and structure.\")\n",