本章对应官方教程第1章,介绍了Kaleidoscope以及实现词法分析器(Lexer)
Kaleidoscope大概长这样
def fib(x)
if x < 3 then
1
else
fib(x-1)+fib(x-2);
fib(40);
本项目参考官方文档编写,为了图方便与官方文档一样写了不少全局变量,这在实际工程中不是一个好的处理方式。
注意:教程中使用extern调用标准库本文并未实现,仅实现了extern的解析。由于本工程一开始把全部变量解析为int64类型而不是Double类型,所以后续章节可能会出现与官方教程生成的中间代码IR不相同的情况,还请各位具体问题具体分析。
我们在实现语言时,首先需要能识别代码内容。通常情况下我们使用词法分析器(Lexer),将输入分解为Token。首先我们需要定义Token以及CurrentToken结构体。
enum Token {
case def
case extern
case identifier
case number
case other
}
struct CurrentToken {
var token: Token
var val: String
}
identifier是用来记录变量,而其他的几个Token的枚举一目了然。CurrentToken用来表示当前正在解析的内容。
在编写详细的token处理之前,我们需要先定义一下Lexer类。
class Lexer {
/// 当前的token
public var currentToken: CurrentToken?
private var lastChar: Character = " "
private var index = 0
/// 代码内容
private var source: [Character] = []
}
本工程解析代码通过index的增加从而依次从source中读取每一个字符进行处理。
获取当前index对应的字符
private func getChar() -> Character {
let char = source[index]
index += 1
return char
}
解析当前字符获取下一个currentToken
/// 获取下一个currentToken
public func nextToken() {
var identifierStr = ""
//如果是空白则继续往下读取
while lastChar.isWhitespace {
lastChar = getChar()
}
//如果开头是字母的话说明是identifier类型或者是其他关键字
if lastChar.isLetter {
identifierStr = String(lastChar)
lastChar = getChar()
while lastChar.isNumber || lastChar.isLetter {
identifierStr.append(lastChar)
lastChar = getChar()
}
if identifierStr == "def" {
currentToken = CurrentToken(token: .def, val: "def")
} else if identifierStr == "extern" {
currentToken = CurrentToken(token: .extern, val: "extern")
} else {
currentToken = CurrentToken(token: .identifier, val: identifierStr)
}
return
}
//是数字开头的话说明这个是一个数值
if lastChar.isNumber || lastChar == "." {
var numStr = ""
repeat {
numStr.append(lastChar)
lastChar = getChar()
} while lastChar.isNumber || lastChar == "."
currentToken = CurrentToken(token: .number, val: numStr)
return
}
//遇到";"说明这一个函数块结束了
let thisChar = lastChar
if thisChar != ";" {
lastChar = getChar()
}
//返回其他类型仅作为占位使用
currentToken = CurrentToken(token: .other, val: String(thisChar))
}
代码详细的解释都体现在了注释中,现在我们已经完成了一个可以解析token的Lexer了。