go/src/pkg/ebnf/parser.go

// Copyright 2009 The Go Authors. All rights reserved.
// Use of this source code is governed by a BSD-style
// license that can be found in the LICENSE file.

package ebnf

import (
	"container/vector";
	"go/scanner";
	"go/token";
	"os";
	"strconv";
)


type parser struct {
	scanner.ErrorVector;
	scanner	scanner.Scanner;
	pos	token.Position;	// token position
	tok	token.Token;	// one token look-ahead
	lit	[]byte;		// token literal
}


func (p *parser) next() {
	p.pos, p.tok, p.lit = p.scanner.Scan();
	if p.tok.IsKeyword() {
		// TODO Should keyword mapping always happen outside scanner?
		//      Or should there be a flag to scanner to enable keyword mapping?
		p.tok = token.IDENT
	}
}


func (p *parser) errorExpected(pos token.Position, msg string) {
	msg = "expected " + msg;
	if pos.Offset == p.pos.Offset {
		// the error happened at the current position;
		// make the error message more specific
		msg += ", found '" + p.tok.String() + "'";
		if p.tok.IsLiteral() {
			msg += " "+string(p.lit)
		}
	}
	p.Error(pos, msg);
}


func (p *parser) expect(tok token.Token) token.Position {
	pos := p.pos;
	if p.tok != tok {
		p.errorExpected(pos, "'" + tok.String() + "'")
	}
	p.next();	// make progress in any case
	return pos;
}


func (p *parser) parseIdentifier() *Name {
	pos := p.pos;
	name := string(p.lit);
	p.expect(token.IDENT);
	return &Name{pos, name};
}


func (p *parser) parseToken() *Token {
	pos := p.pos;
	value := "";
	if p.tok == token.STRING {
		value, _ = strconv.Unquote(string(p.lit));
		// Unquote may fail with an error, but only if the scanner found
		// an illegal string in the first place. In this case the error
		// has already been reported.
		p.next();
	} else {
		p.expect(token.STRING)
	}
	return &Token{pos, value};
}


func (p *parser) parseTerm() (x Expression) {
	pos := p.pos;

	switch p.tok {
	case token.IDENT:
		x = p.parseIdentifier()

	case token.STRING:
		tok := p.parseToken();
		x = tok;
		if p.tok == token.ELLIPSIS {
			p.next();
			x = &Range{tok, p.parseToken()};
		}

	case token.LPAREN:
		p.next();
		x = &Group{pos, p.parseExpression()};
		p.expect(token.RPAREN);

	case token.LBRACK:
		p.next();
		x = &Option{pos, p.parseExpression()};
		p.expect(token.RBRACK);

	case token.LBRACE:
		p.next();
		x = &Repetition{pos, p.parseExpression()};
		p.expect(token.RBRACE);
	}

	return x;
}


func (p *parser) parseSequence() Expression {
	var list vector.Vector;
	list.Init(0);

	for x := p.parseTerm(); x != nil; x = p.parseTerm() {
		list.Push(x)
	}

	// no need for a sequence if list.Len() < 2
	switch list.Len() {
	case 0:
		return nil
	case 1:
		return list.At(0).(Expression)
	}

	// convert list into a sequence
	seq := make(Sequence, list.Len());
	for i := 0; i < list.Len(); i++ {
		seq[i] = list.At(i).(Expression)
	}
	return seq;
}


func (p *parser) parseExpression() Expression {
	var list vector.Vector;
	list.Init(0);

	for {
		x := p.parseSequence();
		if x != nil {
			list.Push(x)
		}
		if p.tok != token.OR {
			break
		}
		p.next();
	}

	// no need for an Alternative node if list.Len() < 2
	switch list.Len() {
	case 0:
		return nil
	case 1:
		return list.At(0).(Expression)
	}

	// convert list into an Alternative node
	alt := make(Alternative, list.Len());
	for i := 0; i < list.Len(); i++ {
		alt[i] = list.At(i).(Expression)
	}
	return alt;
}


func (p *parser) parseProduction() *Production {
	name := p.parseIdentifier();
	p.expect(token.ASSIGN);
	expr := p.parseExpression();
	p.expect(token.PERIOD);
	return &Production{name, expr};
}


func (p *parser) parse(filename string, src []byte) Grammar {
	// initialize parser
	p.ErrorVector.Init();
	p.scanner.Init(filename, src, p, 0);
	p.next();	// initializes pos, tok, lit

	grammar := make(Grammar);
	for p.tok != token.EOF {
		prod := p.parseProduction();
		name := prod.Name.String;
		if _, found := grammar[name]; !found {
			grammar[name] = prod
		} else {
			p.Error(prod.Pos(), name + " declared already")
		}
	}

	return grammar;
}


// Parse parses a set of EBNF productions from source src.
// It returns a set of productions. Errors are reported
// for incorrect syntax and if a production is declared
// more than once.
//
func Parse(filename string, src []byte) (Grammar, os.Error) {
	var p parser;
	grammar := p.parse(filename, src);
	return grammar, p.GetError(scanner.Sorted);
}
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`// Copyright 2009 The Go Authors. All rights reserved.`
			`// Use of this source code is governed by a BSD-style`
			`// license that can be found in the LICENSE file.`

			`package ebnf`

			`import (`
			`"container/vector";`
			`"go/scanner";`
			`"go/token";`
			`"os";`
			`"strconv";`
			`)`


			`type parser struct {`
- use new scanner error handling code R=rsc DELTA=109 (0 added, 87 deleted, 22 changed) OCL=31573 CL=31603 2009-07-14 11:45:43 -06:00			`scanner.ErrorVector;`
more lgtm files from gofmt R=gri OCL=35485 CL=35488 2009-10-08 16:14:54 -06:00			`scanner scanner.Scanner;`
			`pos token.Position; // token position`
			`tok token.Token; // one token look-ahead`
			`lit []byte; // token literal`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`


			`func (p *parser) next() {`
			`p.pos, p.tok, p.lit = p.scanner.Scan();`
			`if p.tok.IsKeyword() {`
			`// TODO Should keyword mapping always happen outside scanner?`
			`// Or should there be a flag to scanner to enable keyword mapping?`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`p.tok = token.IDENT`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`
			`}`


			`func (p *parser) errorExpected(pos token.Position, msg string) {`
			`msg = "expected " + msg;`
			`if pos.Offset == p.pos.Offset {`
			`// the error happened at the current position;`
			`// make the error message more specific`
			`msg += ", found '" + p.tok.String() + "'";`
			`if p.tok.IsLiteral() {`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`msg += " "+string(p.lit)`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`
			`}`
			`p.Error(pos, msg);`
			`}`


			`func (p *parser) expect(tok token.Token) token.Position {`
			`pos := p.pos;`
			`if p.tok != tok {`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`p.errorExpected(pos, "'" + tok.String() + "'")`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`
more lgtm files from gofmt R=gri OCL=35485 CL=35488 2009-10-08 16:14:54 -06:00			`p.next(); // make progress in any case`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`return pos;`
			`}`


			`func (p parser) parseIdentifier() Name {`
			`pos := p.pos;`
			`name := string(p.lit);`
			`p.expect(token.IDENT);`
			`return &Name{pos, name};`
			`}`


			`func (p parser) parseToken() Token {`
			`pos := p.pos;`
			`value := "";`
			`if p.tok == token.STRING {`
fix "declared and not used" errors in non-test code. R=r DELTA=112 (6 added, 57 deleted, 49 changed) OCL=34610 CL=34610 2009-09-14 18:20:29 -06:00			`value, _ = strconv.Unquote(string(p.lit));`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`// Unquote may fail with an error, but only if the scanner found`
			`// an illegal string in the first place. In this case the error`
			`// has already been reported.`
			`p.next();`
			`} else {`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`p.expect(token.STRING)`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`
			`return &Token{pos, value};`
			`}`


			`func (p *parser) parseTerm() (x Expression) {`
			`pos := p.pos;`

			`switch p.tok {`
			`case token.IDENT:`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`x = p.parseIdentifier()`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00
			`case token.STRING:`
			`tok := p.parseToken();`
			`x = tok;`
			`if p.tok == token.ELLIPSIS {`
			`p.next();`
			`x = &Range{tok, p.parseToken()};`
			`}`

			`case token.LPAREN:`
			`p.next();`
			`x = &Group{pos, p.parseExpression()};`
			`p.expect(token.RPAREN);`

			`case token.LBRACK:`
			`p.next();`
			`x = &Option{pos, p.parseExpression()};`
			`p.expect(token.RBRACK);`

			`case token.LBRACE:`
			`p.next();`
			`x = &Repetition{pos, p.parseExpression()};`
			`p.expect(token.RBRACE);`
			`}`

			`return x;`
			`}`


			`func (p *parser) parseSequence() Expression {`
			`var list vector.Vector;`
			`list.Init(0);`

			`for x := p.parseTerm(); x != nil; x = p.parseTerm() {`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`list.Push(x)`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`

			`// no need for a sequence if list.Len() < 2`
			`switch list.Len() {`
			`case 0:`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`return nil`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`case 1:`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`return list.At(0).(Expression)`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`

			`// convert list into a sequence`
			`seq := make(Sequence, list.Len());`
			`for i := 0; i < list.Len(); i++ {`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`seq[i] = list.At(i).(Expression)`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`
			`return seq;`
			`}`


			`func (p *parser) parseExpression() Expression {`
			`var list vector.Vector;`
			`list.Init(0);`

			`for {`
			`x := p.parseSequence();`
			`if x != nil {`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`list.Push(x)`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`
			`if p.tok != token.OR {`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`break`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`
			`p.next();`
			`}`

			`// no need for an Alternative node if list.Len() < 2`
			`switch list.Len() {`
			`case 0:`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`return nil`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`case 1:`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`return list.At(0).(Expression)`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`

			`// convert list into an Alternative node`
			`alt := make(Alternative, list.Len());`
			`for i := 0; i < list.Len(); i++ {`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`alt[i] = list.At(i).(Expression)`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`
			`return alt;`
			`}`


			`func (p parser) parseProduction() Production {`
			`name := p.parseIdentifier();`
			`p.expect(token.ASSIGN);`
			`expr := p.parseExpression();`
			`p.expect(token.PERIOD);`
			`return &Production{name, expr};`
			`}`


- use new scanner error handling code R=rsc DELTA=109 (0 added, 87 deleted, 22 changed) OCL=31573 CL=31603 2009-07-14 11:45:43 -06:00			`func (p *parser) parse(filename string, src []byte) Grammar {`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`// initialize parser`
- use new scanner error handling code R=rsc DELTA=109 (0 added, 87 deleted, 22 changed) OCL=31573 CL=31603 2009-07-14 11:45:43 -06:00			`p.ErrorVector.Init();`
			`p.scanner.Init(filename, src, p, 0);`
more lgtm files from gofmt R=gri OCL=35485 CL=35488 2009-10-08 16:14:54 -06:00			`p.next(); // initializes pos, tok, lit`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00
			`grammar := make(Grammar);`
			`for p.tok != token.EOF {`
			`prod := p.parseProduction();`
			`name := prod.Name.String;`
more "declared and not used". the last round omitted := range and only checked 1 out of N vars in a multi-var := R=r OCL=34624 CL=34638 2009-09-15 10:41:59 -06:00			`if _, found := grammar[name]; !found {`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`grammar[name] = prod`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`} else {`
remove semis after statements in one-statement statement lists R=rsc, r http://go/go-review/1025029 2009-11-09 13:07:39 -07:00			`p.Error(prod.Pos(), name + " declared already")`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`
			`}`

			`return grammar;`
			`}`


			`// Parse parses a set of EBNF productions from source src.`
			`// It returns a set of productions. Errors are reported`
			`// for incorrect syntax and if a production is declared`
			`// more than once.`
			`//`
- use new scanner error handling code R=rsc DELTA=109 (0 added, 87 deleted, 22 changed) OCL=31573 CL=31603 2009-07-14 11:45:43 -06:00			`func Parse(filename string, src []byte) (Grammar, os.Error) {`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`var p parser;`
- use new scanner error handling code R=rsc DELTA=109 (0 added, 87 deleted, 22 changed) OCL=31573 CL=31603 2009-07-14 11:45:43 -06:00			`grammar := p.parse(filename, src);`
			`return grammar, p.GetError(scanner.Sorted);`
Basic EBNF package: - parsing of EBNF grammars - basic consistency checks R=rsc DELTA=695 (695 added, 0 deleted, 0 changed) OCL=31479 CL=31516 2009-07-13 11:10:56 -06:00			`}`