教你使用swift写编译器玩具（1）

前言

本章对应官方教程第1章，介绍了Kaleidoscope以及实现词法分析器(Lexer)

Kaleidoscope大概长这样

def fib(x)
  if x < 3 then
    1
  else
    fib(x-1)+fib(x-2);
    
fib(40);

本项目参考官方文档编写，为了图方便与官方文档一样写了不少全局变量，这在实际工程中不是一个好的处理方式。

注意：教程中使用extern调用标准库本文并未实现，仅实现了extern的解析。由于本工程一开始把全部变量解析为int64类型而不是Double类型，所以后续章节可能会出现与官方教程生成的中间代码IR不相同的情况，还请各位具体问题具体分析。

开始

我们在实现语言时，首先需要能识别代码内容。通常情况下我们使用词法分析器(Lexer)，将输入分解为Token。首先我们需要定义Token以及CurrentToken结构体。

enum Token {
    case def
    case extern
    case identifier
    case number
    case other
}

struct CurrentToken {
    var token: Token
    var val: String
}

identifier是用来记录变量，而其他的几个Token的枚举一目了然。CurrentToken用来表示当前正在解析的内容。

定义Lexer

在编写详细的token处理之前，我们需要先定义一下Lexer类。

class Lexer {
    
    /// 当前的token
    public var currentToken: CurrentToken?
    
    private var lastChar: Character = " "
    
    private var index = 0
    
    /// 代码内容
    private var source: [Character] = []
    
}

本工程解析代码通过index的增加从而依次从source中读取每一个字符进行处理。

获取下一个token

获取当前index对应的字符

    private func getChar() -> Character {
        let char = source[index]
        index += 1
        return char
    }

解析当前字符获取下一个currentToken

/// 获取下一个currentToken
    public func nextToken() {
        var identifierStr = ""
      	//如果是空白则继续往下读取
        while lastChar.isWhitespace {
            lastChar = getChar()
        }
        
        //如果开头是字母的话说明是identifier类型或者是其他关键字
        if lastChar.isLetter {
            identifierStr = String(lastChar)
            lastChar = getChar()
            while lastChar.isNumber || lastChar.isLetter {
                identifierStr.append(lastChar)
                lastChar = getChar()
            }
            
            if identifierStr == "def" {
                currentToken = CurrentToken(token: .def, val: "def")
            } else if identifierStr == "extern" {
                currentToken = CurrentToken(token: .extern, val: "extern")
            } else {
                currentToken = CurrentToken(token: .identifier, val: identifierStr)
            }
            return
        }
        
        //是数字开头的话说明这个是一个数值
        if lastChar.isNumber || lastChar == "." {
            var numStr = ""
            repeat {
                numStr.append(lastChar)
                lastChar = getChar()
            } while lastChar.isNumber || lastChar == "."
            currentToken = CurrentToken(token: .number, val: numStr)
            return
        }
        
        //遇到";"说明这一个函数块结束了
        let thisChar = lastChar
        if thisChar != ";" {
            lastChar = getChar()
        }
        
        //返回其他类型仅作为占位使用
        currentToken = CurrentToken(token: .other, val: String(thisChar))
    }

代码详细的解释都体现在了注释中，现在我们已经完成了一个可以解析token的Lexer了。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

第1章.md

第1章.md

教你使用swift写编译器玩具（1）

前言

开始

定义Lexer

获取下一个token

Files

第1章.md

Latest commit

History

第1章.md

File metadata and controls

教你使用swift写编译器玩具（1）

前言

开始

定义Lexer

获取下一个token