parsing of tokenized asm into MemorySections works

4 years ago · da4ae7c4c1
parent 2cee60a17c
commit da4ae7c4c1
10 changed files with 209 additions and 6 deletions
--- a/.idea/misc.xml
+++ b/.idea/misc.xml
@ -1,4 +1,4 @@
 <?xml version="1.0" encoding="UTF-8"?>
 <project version="4">
-  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.8" project-jdk-type="Python SDK" />
+  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.8 (riscemu)" project-jdk-type="Python SDK" />
 </project>
--- a/.idea/riscemu.iml
+++ b/.idea/riscemu.iml
@ -1,7 +1,9 @@
 <?xml version="1.0" encoding="UTF-8"?>
 <module type="PYTHON_MODULE" version="4">
  <component name="NewModuleRootManager">
-    <content url="file://$MODULE_DIR$" />
+    <content url="file://$MODULE_DIR$">
+      <excludeFolder url="file://$MODULE_DIR$/venv" />
+    </content>
    <orderEntry type="inheritedJdk" />
    <orderEntry type="sourceFolder" forTests="false" />
  </component>
--- a/riscemu/Exceptions.py
+++ b/riscemu/Exceptions.py
@ -0,0 +1,33 @@
+class ParseException(BaseException):
+    def __init__(self, msg, data=None):
+        super().__init__()
+        self.msg = msg
+        self.data = data
+
+    def message(self):
+        return "{}(\"{}\", data={})".format(self.__class__.__name__, self.msg, self.data)
+
+
+def ASSERT_EQ(a1, a2):
+    if a1 != a2:
+        raise ParseException("ASSERTION_FAILED: Expected elements to be equal!", (a1, a2))
+
+
+def ASSERT_LEN(a1, size):
+    if len(a1) != size:
+        raise ParseException("ASSERTION_FAILED: Expected {} to be of length {}".format(a1, size), (a1, size))
+
+
+def ASSERT_NOT_NULL(a1):
+    if a1 is None:
+        raise ParseException("ASSERTION_FAILED: Expected {} to be non null".format(a1), (a1,))
+
+
+def ASSERT_NOT_IN(a1, a2):
+    if a1 in a2:
+        raise ParseException("ASSERTION_FAILED: Expected {} to not be in {}".format(a1, a2), (a1,a2))
+
+
+def ASSERT_IN(a1, a2):
+    if a1 not in a2:
+        raise ParseException("ASSERTION_FAILED: Expected {} to not be in {}".format(a1, a2), (a1,a2))
--- a/riscemu/Executable.py
+++ b/riscemu/Executable.py
@ -0,0 +1,33 @@
+from dataclasses import dataclass, field
+from typing import Dict, List, Tuple
+from . import MemoryFlags, RiscVInstructionToken, RiscVTokenizer, RiscVSymbolToken, RiscVPseudoOpToken
+from .Exceptions import *
+
+
+@dataclass
+class MemorySection:
+    name: str
+    flags: MemoryFlags
+    size: int = 0
+    start: int = -1
+    content: List[bytearray] = field(default_factory=list)
+
+    def add(self, data: bytearray):
+        self.content.append(data)
+        self.size += len(data)
+
+
+class InstructionMemorySection(MemorySection):
+    insn: List[RiscVInstructionToken] = field(default_factory=list)
+
+    def add_insn(self, insn: RiscVInstructionToken):
+        self.insn.append(insn)
+        self.size += 4
+
+
+@dataclass
+class Executable:
+    run_ptr: Tuple[str, int]
+    sections: Dict[str, MemorySection]
+    symbols: Dict[str, Tuple[str, int]]
+
--- a/riscemu/ExecutableParser.py
+++ b/riscemu/ExecutableParser.py
@ -0,0 +1,106 @@
+from .Executable import Executable, InstructionMemorySection, MemorySection, MemoryFlags
+from .Exceptions import *
+from .Tokenizer import RiscVTokenizer, RiscVInstructionToken, RiscVSymbolToken, RiscVPseudoOpToken
+
+from typing import Dict, Tuple, List
+
+
+def parse_numeric_argument(arg: str):
+    if arg.startswith('0x') or arg.startswith('0X'):
+        return int(arg, 16)
+    return int(arg)
+
+class ExecutableParser:
+    tokenizer: RiscVTokenizer
+
+    def __init__(self, tokenizer: RiscVTokenizer):
+        self.instructions: List[RiscVInstructionToken] = list()
+        self.symbols: Dict[str, Tuple[str, int]] = dict()
+        self.sections: Dict[str, MemorySection] = dict()
+        self.tokenizer = tokenizer
+        self.active_section = None
+        self.implicit_sections = False
+
+    def parse(self):
+        for token in self.tokenizer.tokens:
+            if isinstance(token, RiscVInstructionToken):
+                self.parse_instruction(token)
+            elif isinstance(token, RiscVSymbolToken):
+                self.handle_symbol(token)
+            elif isinstance(token, RiscVPseudoOpToken):
+                self.handle_pseudo_op(token)
+
+    def get_execuable(self):
+        start_ptr = ('text', 0)
+        if '_start' in self.symbols:
+            start_ptr = self.symbols['_start']
+        elif 'main' in self.symbols:
+            start_ptr = self.symbols['main']
+        return Executable(start_ptr, self.sections, self.symbols)
+
+    def parse_instruction(self, ins: RiscVInstructionToken):
+        if self.active_section is None:
+            self.op_text()
+            self.implicit_sections = True
+
+        ASSERT_EQ(self.active_section, 'text')
+        sec = self.curr_sec()
+        if isinstance(sec, InstructionMemorySection):
+            sec.add_insn(ins)
+        else:
+            raise ParseException("SHOULD NOT BE REACHED")
+
+    def handle_symbol(self, token: RiscVSymbolToken):
+        ASSERT_NOT_IN(token.name, self.symbols)
+        sec_pos = self.curr_sec().size
+        self.symbols[token.name] = (self.active_section, sec_pos)
+
+    def handle_pseudo_op(self, op: RiscVPseudoOpToken):
+        name = 'op_' + op.name
+        if hasattr(self, name):
+            getattr(self, name)(op)
+        else:
+            raise ParseException("Unknown pseudo op: {}".format(op), (op,))
+
+    ## Pseudo op implementations:
+    def op_section(self, op: RiscVPseudoOpToken):
+        ASSERT_LEN(op.args, 1)
+        name = op.args[0][1:]
+        ASSERT_IN(name, ('data', 'rodata', 'text'))
+        getattr(self, 'op_' + name)(op)
+
+    def op_text(self, op: RiscVPseudoOpToken = None):
+        self.set_sec('text', MemoryFlags(read_only=True, executable=True), cls=InstructionMemorySection)
+
+    def op_data(self, op: RiscVPseudoOpToken = None):
+        self.set_sec('data', MemoryFlags(read_only=False, executable=False))
+
+    def op_rodata(self, op: RiscVPseudoOpToken = None):
+        self.set_sec('rodata', MemoryFlags(read_only=True, executable=False))
+
+    def op_space(self, op: RiscVPseudoOpToken):
+        ASSERT_IN(self.active_section, ('data', 'rodata'))
+        ASSERT_LEN(op.args, 1)
+        size = parse_numeric_argument(op.args[0])
+        self.curr_sec().add(bytearray(size))
+
+    def op_ascii(self, op: RiscVPseudoOpToken):
+        ASSERT_IN(self.active_section, ('data', 'rodata'))
+        ASSERT_LEN(op.args, 1)
+        str = op.args[0][1:-1]
+        self.curr_sec().add(bytearray(str, 'ascii'))
+
+    def op_asciiz(self, op: RiscVPseudoOpToken):
+        ASSERT_IN(self.active_section, ('data', 'rodata'))
+        ASSERT_LEN(op.args, 1)
+        str = op.args[0][1:-1]
+        self.curr_sec().add(bytearray(str + '\0', 'ascii'))
+
+    ## Section handler code
+    def set_sec(self, name: str, flags: MemoryFlags, cls=MemorySection):
+        if name not in self.sections:
+            self.sections[name] = cls(name, flags)
+        self.active_section = name
+
+    def curr_sec(self):
+        return self.sections[self.active_section]
--- a/riscemu/MMU.py
+++ b/riscemu/MMU.py
@ -0,0 +1,15 @@
+from dataclasses import dataclass
+
+@dataclass(frozen=True)
+class MemoryFlags:
+    read_only: bool
+    executable: bool
+
+class MemoryRegion:
+    addr:int
+    len:int
+    flags: MemoryFlags
+
+
+class MMU:
+    def __init__(self):
--- a/riscemu/Tokenizer.py
+++ b/riscemu/Tokenizer.py
@ -231,7 +231,7 @@ class RiscVPseudoOpToken(RiscVToken):
 class RiscVTokenizer:
    def __init__(self, input: RiscVInput):
        self.input = input
-        self.tokens = []
+        self.tokens: List[RiscVToken] = []

    def tokenize(self):
        while self.input.has_next():
@ -296,4 +296,3 @@ class RiscVTokenizer:
    def parse_comment(self):
        # just consume the rest
        self.input.consume(regex=REG_UNTIL_NEWLINE)
-
--- a/riscemu/init.py
+++ b/riscemu/init.py
@ -1,2 +1,10 @@
 from .CPU import CPU, Registers, Syscall, SyscallInterface
-from .tokenizer import RiscVToken, RiscVInput, RiscVTokenizer, RiscVInstructionToken, RiscVSymbolToken, RiscVPseudoOpToken
+
+from .Tokenizer import RiscVToken, RiscVInput, RiscVTokenizer, RiscVInstructionToken, RiscVSymbolToken, \
+    RiscVPseudoOpToken, TokenType
+
+from .MMU import MemoryFlags, MemoryRegion, MMU
+
+from .Exceptions import ASSERT_NOT_NULL, ASSERT_LEN, ASSERT_IN, ASSERT_EQ, ASSERT_NOT_IN
+
+from .Executable import ExecutableParser, Executable
--- a/riscemu/main.py
+++ b/riscemu/main.py
@ -1,3 +1,3 @@
 from .CPU import *
-from .tokenizer import *
+from .Tokenizer import *

--- a/run.py
+++ b/run.py
@ -26,5 +26,12 @@ loop:
    tk = RiscVTokenizer(RiscVInput(example_progr))
    tk.tokenize()

+    print("tokens:")
    for token in tk.tokens:
        print(token)
+
+    ep = ExecutableParser(tk)
+    ep.parse()
+
+    print(ep)
+