簡単な演算子順位法によるパーサー

簡単な演算子順位法によるパーサー in Ruby
(Simple Operator Precedence Parser in Ruby)

by Akihiko Koga
3rd Aug. 2022 (Update)
11th Feb. 2019 (First)

趣旨

計算機科学の分野の人は，様々な計算機理論を勉強するのに，やっぱり，学習していることを実際に動かしてみたいという衝動に駆られることが多いと思います．一般的に理論は抽象的で，根を詰めてやると，飽きる，辛い，楽しくないという状況に陥ります．例えば圏論でプログラムの意味を付ける理論は読んでいるとその極度の抽象性から逃避したくなるし，計算機に関係の深い言語理論やラムダ計算だって本を読んでいるだけでは分かったような分からないような，しまいにどうでもよくなってきます．

そんなとき，学習している理論をちょっと実装してみて動かしてみると，気分が変わるし，学習対象の一点でも深く理解すると周りの理解の糸口も見えてくるかもしれません．人間は止まっているものより，動いているものに注意を払うものです．というか，動いていないと注意を向けることができないのかもしれません．

で，そういった理論の実装をしてみるのでも，例えば，LISP や Ruby のリストや配列を使った内部コードっぽい式では気分がでないので，何となく数学っぽい記法で動くものを作りたいと思いました．

ということで，ここでは，計算機数学の理論をちょっと実装して楽しむときに使えるような超簡単なパーサーを作ろうと思います．計算機（主にソフトウェア）の話題で前に取り扱ったλ式をコンビネータ論理に変換する話なんかも，こういうパーサーが用意されていたら，もう少し簡単に出来たかもしれません．

ここで作るパーサーは Ruby で動作し，基本的に演算子順位文法の構文を解析するものですが，多少拡張して，λ式やコンビネータ式も解析できるようにしました． λ式やコンビネータ式は通常，空白で関数適用をする形式(E1 E2) のような式があるので演算子順位文法にはなりません（つまりE1 と E2 という式が演算子無しで結合される場合がある）．

以下，パーサーの方針，簡単な解説，注意事項，プログラムリストと続きますが，あまり御託を読みたくない人は，プログラムリストに飛んでもらっても構いません．

また，この簡易パーサーのプログラムは一般的なものなので，特に私が権利を主張するようなものでもないので自由に持って行って改造して使って構いません．ただし，私が使う権利をはく奪する形で権利を主張するのはやめていただきたいです．こまかな注意事項は，注意事項に書きました．

この簡易パーサのデモと簡単な説明のYoutube 動画を作りました． 2022.08.05
簡単な演算子順位法によるパーサー in Ruby - 概略と実行方法の説明 - ... 36分 11秒

デモプログラムの動かし方と演算子の定義方法の概略を説明しています．22分位までが，デモプログラムの動かし方と，動かした結果の説明です．その後，演算子の定義方法などを説明しています．
簡単な演算子順位法によるパーサー in Ruby - 字句解析についての説明 - ... 18分 52秒

掲載しているプログラムの字句解析が分かりにくいと思ったので，その解説です． 2022.08.11

方針

ここに挙げた構文解析プログラムは，出来るだけ簡単で，しかも，十分に計算機理論の学習に利用できる構文解析プログラムを作ろうという方針で作りました．

具体的には次のような方針で作りました．

利用を想定する題材
1. ラムダ式で遊ぶ，コンビネータで遊ぶ
  このページと同じレベルにあるページコンビネータ論理（Combinatory Logic）のお話 λ式から SKI を使った式への変換のトレースのようなイメージの使い方です．そちらは，ここよりもう少し力業で作って遊んでいました．
  後日追記：2019.2.26 これは次のようなおもちゃを作りました．
  1. SKIコンビネータ AGAIN 2019.02.11
  2. 動かして遊ぶλ計算の初歩 in Ruby 2019.02.21
2. 型理論の基礎を学ぶ
  これがこのパーサーを作ろうと思った直接の理由です．よく，圏論の応用として，圏論（Category Theory）を使った簡易型付きラムダ計算の意味論などをレクチャーノートとして公開している大学の先生方がいるが，圏論もあまり分からない，簡易型付きラムダ計算もあまり実感が持てない人（私です）にとっては，興味はあるが，とてもつらいレクチャーノートになるわけです．せめて，型付きラムダ計算のなにか（型導出系とかある種の実行系など）を実装してみると，少なくとも簡易型付きラムダ計算の方は実感が湧くようになるかなと思った次第です．あとは，圏論を勉強すればよいだけ．
3. 論理学を学ぶ
  論理式を構文解析できるようにして，例えば，充足可能性とかの概念を学ぶとか．
4. 簡単なインタープリタを作って遊ぶ
  小さな lisp 相当の言語で多少シンタクスがユーザに優しいような言語のインタープリタを作って遊べればよいなっと．
5. 言語理論を学ぶ
  正規言語やBNFなどを見た目優しく読み込めるようになるとよいかなっと.
  例えば，(a+b)* を有限オートマトンに変換するなどです．適当な定義のもとに，ここのパーサーを使えば，(a+b)* は，ruby の配列 [:"*", [:"+", "a", "b"]] に変換されますので，オートマトンの教科書などをみながら，これを受理するオートマトンを作ってみるのは良い勉強になります．
方式と大きさ
あとで「注意事項」で述べるように，このプログラムはコピー＆ペーストして使ってもらうことを考えており，そのため，まあ，せいぜい200行に抑えたい．
実際に作成した結果としては，演算子の定義，式の表示関数，テスト用のプログラムを含めると250行くらいになりましたが，構文解析部分だけなら 200 行に納まりました（160行くらいですね． 2019年 2月 10日時点）．
追記：構文解析部までなら 160 行位なのは変わりませんが，式の表示機能を強化したので全体で300行ほどになってしまいました．申し訳ないです． 2019年 2月 23日
性能
2019 年の普通の PC で理論勉強に，普通にイライラせずに応答が返ってくればＯＫとする．まあ，大部分の入力に対して，1秒以内で返ってくれば良しとします．現在の計算機は速いですから，手で入力できる入力の解析には１秒かからないでしょうけど．

簡単な説明

内容

どんな言語をどんな表現に変換するのか
言語の定義方法などの簡単な説明

演算子の定義
括弧の定義
暗黙の演算子
文字列の扱い
いくつかの補足

プログラムの簡単な説明

主な関数
主な大域変数

どんな言語をどんな表現に変換するのか

まず，演算子順位文法とはどんな文法かと言うことを簡単に説明しておきます．ここで掲載するプログラムは，典型的には
入力 "a*b - c/d" を，[:-, [:*, "a", "b"], [:/, "c", "d"]] に解析
（:-, :* は Ruby の記法でそれぞれ，- と * というシンボルです．
Prolog の ":-" ではありません）
するプログラムです．以下，ちょっとだけ形式言語の理論っぽいことを説明します．
ここでは2項演算までを考えることにします．以下，文法そのものの説明でなく，そのような文法で表すことができる言語について説明します．大雑把に言って，二項までの演算子を使った演算子優先順位文法では次の BNF で生成できるような言語を表現できます．
```
	Exp ::= BasicToken | 
                PrefixOp Exp |
                Exp PostfixOp |
                Exp InfixOp Exp |
                ( Exp )
```
ここで BasicToken は予め定められた Exp になるデータがあると思ってください．実際のプログラミング言語では，数や文字列などの定数とか，変数名とかがこれにあたります．また，PrefixOp は前置される演算子，PostfixOp は後置される演算子， InfixOp は中置される演算子を表し，予めどんなものがあるかは特定されているとします．
この文法は曖昧性を持ちます．例えば，op が二項演算子，a が BasicToken とすると， a op a op a は，(a op a) op a とも解釈されるし，a op (a op a) とも解釈されます．演算子順位文法は演算子の優先順位という概念を使って，この曖昧性を解消できる文法です．例えば，普通の加減乗除を使った式では掛け算が足し算や引き算より結合力が強いとして扱われ，例えば

x*y+z*w は (x*y) + (z*w)　として解釈されます
(x*(y+z)*w や x*(y + (z*w)) などではなく)
となります．ここでは演算子に対して結合力を表す数値や結合の型，例えば，

左結合的なら x + y + z + w は ((x + y) + z ) + w と結合される
などの結合の型を指定することにより，パーサーに構文解析の方法を指示するタイプのパーサーを作成します．
言語は Ruby を使って書きます．文字列の式は Ruby の配列などのデータに変換することにします．例えば，上の例でいうと，下に掲載したプログラムを使うと
x*y+z*w は [:"+", [:"*", "x", "y"], [:"*", "z", "w"]] に
変換されます．つまり，

[２項演算子, 最初の式の内部構造, 次の式の内部構造]
や
[１項演算子, 式の内部構造]
の組み合わされた木構造に変換されるわけです．ここで，:"+" は，"+" という表示名を持つシンボルです（これは文字列 ":" を使ってもよいのですが，涙を飲んで，シンボルにしました．これについては後で書きます）．この形だと，ある程度 Ruby を書ける人は再帰的な関数を書くことにより，色々な処理を記述することができると思います．
非常に大雑把な説明でしたので，演算子順位文法，演算子順位法の構文解析について正しく知りたい人は参考文献に挙げてある文献等を参照してください．
演算子指定の簡単な説明

ここで作る演算子順位パーサーでは，被演算子の最小単位は文字列であり，被演算子のほかに２つの種類のもの，つまり，演算子と括弧を定義することにより文法を規定します．ここでは，これら二つと，もう一つ，暗黙の演算子について説明します．
演算子の定義

まず，演算子の定義について説明します．
後に掲載しているプログラムリストから，それら二つの定義部分を抜き出してみましょう．これは演算子定義のサンプルのために最初から入れてある演算子定義です．これを書き直すことにより，自分が望む形の式を構文解析できるようになります．
いまから作るパーサーは，Ruby の大域変数 $sop_ops に連想配列（ハッシュ）として演算子を定義することにより，その演算子を使った式が構文解析できるようになります．例えば，定義の最初の方をみると，演算子 "->" は優先度 1000 で，右結合的な演算子 (:xfy) として定義されています．これは，
A->B->C->D という文字列があれば，(A->(B->(C->D))) と解釈され，
[:"->", "A", [:"->", "B", [:"->", "C", "D"]]] のように構文解析される
ことを意味します．
```
$sop_ops = {
  # in_name  => [out_name, priority, op_type]
  :"->"      => ["->", 1000, :xfy],
  :"*"       => ["*",   400, :yfx],
  :"/"       => ["/",   400, :yfx],
  :"+"       => ["+",   500, :yfx],
  :"+/pre"   => ["+",   200, :fy],
  :"-"       => ["-",   500, :yfx],
  :"-/pre"   => ["-",   200, :fy],
  :"="       => ["=",  1500, :xfy],
  :";/post"  => [";",  1800, :yf],
  :";"       => [";",  1800, :yfx],
  :","       => [",",  1400, :xfy],
  :"#apply#" => ["#apply#", 1300, :yfx], # implicit operator
  :"#list#"  => ["#list#", 200, :fy],    # list marker  
  :"#set#"   => ["#set#",  200, :fy],    # set marker
  
  # paren =>
  #  [out_name, priority, paren_type, [pair_paren, ...], valOf(), marker
  :"("       => ["(", 10000, :open,  [:")"], "0",  nil],
  :")"       => [")", 10000, :close, [:"("]],
  :"["       => ["[", 10000, :open,  [:"]"], [], :"#list#"],
  :"]"       => ["]", 10000, :close, [:"["]],
  :"{"       => ["{", 10000, :open,  [:"}"], :"empty", :"#set#"],
  :"}"       => ["}", 10000, :close, [:"{"]],
}
```
:"->" の後ろに :"*" があります．こちらは，優先度 400 で型が左結合的 (:yfx) の演算子であることを表しています．優先度は少ない方が強く結合すると解釈します．ここらあたりは，論理型言語 Prolog の方式を採用しており，一般の演算子順位文法の優先度とは大小が逆かもしれません．とにかく，ここでは数値が小さいほど結合度が強く，数値が大きいほど結合度が小さいと解釈します．したがって，
A*B->C は (A*B)->C と解釈され，[:"->", [:"*", "A", "B"], "C"] というデータに変換されます
ということになります．また，* は -> と違って左結合的 (:yfx) なので，
A*B*C は (A*B)*C と解釈される
ことになります．+ や - など，我々が数学で使う多くの演算子は左結合的です．
演算子は連想配列（ハッシュ） $sop_ops の中で次のように定義してください．
```
    内部名 => [外部名, 優先度, 演算子型 [, 表示名]],
```
この一番最後の [, 表示名] はオプショナルで，あっても無くても結構です．下に掲載したプログラムの中ではつかっていません．通常の演算子ではここはあまり使いません．例えば，二項演算子 "+" は次のように定義されています．
```
    :"+" => ["+", 500, :yfx],
```
それぞれの項目について説明します．
- 内部名
  式を構文解析して内部コードにしたとき，演算子の名前としてここで指定された名前が使われます．例えば，
  式 "x-y" は [:"-", "x", "y"] に
  変換されます．したがって，これはすべての演算子で内部名は異なるようにしてください．例えば，通常の式で，マイナス記号は二項演算（引き算）と一項演算（符号を逆にする演算）の二つの意味で使われます．上に挙げた例では，二項演算は :"-"，一項演算は :"-/pre" のように演算子のタイプを付加した名前で区別できるようにしています．
  下に掲載したプログラムやここの説明の中では，内部名は Ruby のシンボルを使うようにしています．これは別に文字列にしても構いません．演算子定義の大域変数 $sop_ops における定義で内部名を文字列にしてしまえば，構文解析した結果も演算子は文字列になります．これをシンボルにしたのは，構文解析した結果を使う時の効率の観点からです．以下，その理由を正確に書きますが， Ruby のシンボルと文字列について詳しくない人，シンボルでも文字列でも使えればどちらでもよい人は飛ばして構いません．
  演算子の内部名をシンボルにした理由
  方針に書いたように，構文解析についてはそれほど効率を重視しないことにしましたが，構文解析した結果をユーザが利用するときは，ユーザの要求に応じて効率よく動作することが必要でしょう．例えば，なにか簡易言語をユーザが作ったとして，その動作がとても遅くなってしまうと，ユーザは悲しいかもしれません．ユーザが構文解析結果を使う時は，演算子が何かによって動作を変える必要があり，したがって，演算子間の比較が必要になります．もし，演算子を文字列にすると，この比較にはＣ言語でいうところの strcmp() が必要になる訳です．すまり，文字列を構成する文字，一つ一つの比較が必要になります．それに対して，シンボルは読み込みの時点で同じ表示名を持つシンボルは同じポインタを指すようになっていますので，ポインタの比較だけですみます．したがって，比較の実行がはるかに速くなります．ということで，今回は，演算子の内部名はシンボルにしました．
- 外部名
  ユーザーが実際に書く演算子名です．上で例に挙げた二つの演算子 :"-" と :-/Pre" はともに外部名 "-" を持っています．この外部名は複数の演算子が同じ名前をもっていても構いません．これは構文解析の時，演算子の型の組み合わせの制約を使って（解決できる場合は）解決されます．解決できないこともあり，そういう場合は意図しない構文解析が行われたり，または，エラーが起こったりしますので，括弧をつけるなど入力の仕方を工夫して正しく構文解析できるようにしてください．
- 優先度
  その演算子がどれだけ強く結合するかを表す整数です．ここでは数値が小さいほど結合力が強いと解釈します．例えば，上のデータを見るますと "*" は 400， "+" は 500 ですから，"*" の方が "+" より結合力が強く
  "a + b * c" は，"a + (b * c)"
  と解釈されます．
- 演算子型
  演算子の型を表します．型にはそれが何項演算子なのかという情報と，同じ強さの演算子が同じレベルに並んだ時，どのように括弧が付いていると解釈されるかの情報を含んでいます．
  これは次に示すように，f, x, y の記号を組み合わせたものです．これは DEC-10 Prolog の演算子の表現方法を使っています．以下の記号では，全部，先頭に : がついていますが，これは Ruby のシンボルを表す記法なので，シンボル名としては，その後ろだけです．この中で f はその演算子自身を表します．x は，その演算子の優先度より厳密に小さい式を表し，y はその演算子の優先度以下の式を表します．これらの具体的な意味は次の :xfy のところで例を使って説明します．
  - :xfy
    二項演算子で，その演算子の左はその演算子より厳密に小さい優先度の演算子しか含まない式しか現れることができず，その右にはその演算子の優先度以下の演算子を含む式しか現れないという制約を持つ演算子を表します．つまり，
    
    opより優先度の小さい式 op opの優先度以下の式
    こういうことです．これは，同じ優先度の演算子が同列に並んだ時に曖昧性を解消するために使われます．上の例では :xfy の型を持つ演算子としては -> があります．今，
    A -> B -> C
    という並びを考えてみます．これを
    (A -> B) -> C
    このように解釈しようとすると，右側の -> の左側に -> と同じ優先度の演算子の式が表れることになります．これは -> が xfy の演算子であるという要求に反します．なぜなら -> の左側は x でそれは -> の優先度より厳密に小さくなくてはいけないという要求だからです．一方
    A -> (B -> C)
    の解釈だと，左側の -> の右側は -> と同じ優先度の演算子が使われている式ですが，-> の型は xfy なので，その制約に反しません．したがって， -> は同列に複数使われると右側から括弧でくくられる右結合的な演算子になります．少し書くのが遅れましたが， A, B, C などの識別子は優先度がどの演算子よりも小さいと約束しておきます．これは括弧でくくることにより１つの式として表現された式についても同様です．したがって，明示的に括弧を使って，(A->B)->C と書けば，この二つの -> はどちらも xfy の型にあっていることになり，また，それ以外の解釈はあり得ません．
  - :yfx
    :xfy とは逆に左結合的な演算子です．数学で現れる演算子はこの型が多いです．例えば，
    
    x + y + z - u - v は，(((x + y) + z) - u) - v と
    解釈しますね．
    同じ優先度の :xfy と :yfx が同列に混ざった場合にはどうなるでしょう．
    A :xfy B :yfx C は
    (A :xfy B) :yfx C の解釈でも
    A :xfy (B :yfx C) の解釈でも可能
    です．ここでは (A :xfy B) :yfx C の解釈にしました（と思います）．逆に，
    
    A :yfx B :xfy C はどちらの解釈も不可能
    となり，構文エラーです．
  - :fy
    これは前置演算子を表します．f の後ろが y になっているので，何か別の式の前にこの演算子を複数置くことができます．
    
    ---A は -(-(-(A))) と解釈
    A---B は A - (-(-(B))) と解釈
    下の例は，- の二項，一項の区別を字句解析のときに，識別子の後ろには後置演算子あるいは二項演算子しか来ないことと，- は後置演算子は無いことと，二項演算子項演算子の後ろには前置演算子しかこないことを使って前置演算子であることを決めています．
    前置演算子には :fy だけでなく，:fx もあり得て，その場合は，その演算子を複数続けてはいけないことになります．今回作った簡易パーサーではこちらは今のところ実装していません．
  - :yf
    後置演算子です．f の前が y ですから同じ演算子を何度も続けて書くことができます．例としては ";" を後置演算子にし，":=" を二項演算子にすることにより，例えば， "X := X + 1;" と言った式が，
    
    [";", [":=", "X", ["+", "X", "1"]]]
    のように構文解析できます．これも :xf という後置演算子があり得ますが，ここでは実装しませんでした．
  - :f
    これは識別子と同じ意味で使いました．DEC-10 Prolog には確かなかったように思います．
    DEC-10 Prolog には次の演算子もありますが，ここでは実装していません．
  - :xfx
  - :fx
  - :xf
- 表示名
  これはオプショナルです．無くてもかまいません．もし，これが指定されていれば，後で説明する構文解析した結果を表示する関数 sop_print(code) は，外部名の代わりにこの表示名を表示します．なぜ，これがあるかというと，"and" や "or" を演算子にした場合， a and b or c は，[:or, [:and, "a", "b"], "c"] のように構文解析されるのですが，この構文解析結果を sop_print() で表示すると，
  aandborc
  と表示されてしまいます．これは再度構文解析すると，きちんと元の構文解析結果に戻るのですが，人間にはどこで切れるか分からず，かなり読みにくいです．そこで，"and" と "or" の表示名をそれぞれ " and ", " or " にしておくと
  a and b or c
  と表示されるという訳です．間に合わせの仕様で，あまり良くない仕様かもしれませんが，とりあえず，このようにしておきます．
  後日補足：
  英数字だけからなる演算子は両側に区切る文字あるいは行頭，行末が無い限り演算子として切り出さないモードを作った．このモードがオンになっているときは，aandb は a and b と区切られず，aandb という名前として認識される．表示も自動的に a and b となるようにした．このモードは $sop_delimit_alpha_op という大域変数で制御する．
  現時点では，ここで述べた表示名の機能はまだ有効である．
  2019.02.27
括弧の定義

次は括弧の定義について説明します．あとで挙げるプログラムリストの中には3種類の括弧，(), [], {} が予め定義されています．当面，これで間に合うことも多いので，ここはざっと目を通しておいて，必要になったら読むのでも構いません．
予め組み込まれている括弧の定義を次に示します．
```
$sop_ops = {

   ... #演算子の定義列

  # paren =>
  #  [out_name, priority, paren_type, [pair_paren, ...], valOf(), marker
  :"("       => ["(", 10000, :open,  [:")"], "0",  nil],
  :")"       => [")", 10000, :close, [:"("]],
  :"["       => ["[", 10000, :open,  [:"]"], [], :"#list#"],
  :"]"       => ["]", 10000, :close, [:"["]],
  :"{"       => ["{", 10000, :open,  [:"}"], :"empty", :"#set#"],
  :"}"       => ["}", 10000, :close, [:"{"]],
```
括弧はこのように，
```
    内部名 => [外部名, 優先度, 括弧の型, 対応括弧列, ()の値, マーカー
```
の形で定義されます．
それぞれを説明します．
- 内部名/外部名
  演算子の場合と同じです．外部名は入力や出力に使われるときの括弧の文字列です．構文解析の前にまず文字列の外部名が認識され，それが内部名に変換されてから構文解析されます．あまり推奨するものではありませんが，括弧は2文字以上になっても，また，他の括弧の文字列が部分に含まれても構いません．まず，長い文字列の括弧から認識され，次に短い文字列の括弧が認識されます．例えば，"((" と "(" という括弧が定義されているとき，"(((((" は "((" "((" "(" という括弧の列として認識されます．このような極端な例はあまり想像できないですが，例えば，C言語のコメントの /* ... */ はこのような括弧と似た例かもしれません．
- 優先度
  括弧同士の優先度はありませんが，他の演算子の解析にパーサーの内部でこの優先度を使っていますので，例題のように 10000 にしておいてください．他のどの演算子より大きな数で，これで対応する括弧までに現れる式の構文木を組み立てていきます．
- 括弧の型
  開き括弧か閉じ括弧かを表します．:open が開き括弧で，:close が閉じ括弧です．
- 対応括弧列開き括弧側の対応括弧列に対応する括弧の内部名をリストにして書きます．それらの括弧が入ってきたとき，その開き括弧が閉じられたとみなします．これを括弧列として，１つの括弧にしなかったので理由はスーパー括弧と呼ばれる少し強力な括弧を実装しようと思ったからなのですが，今は実装していません．大抵，この列は1個の列になると思います．
- ()の値
  これは () のように括弧開き，すぐ，閉じという形が表れたときの値の指定です．開き括弧側の定義として書きます．数学で () の場合はあまり考えにくいのでエラーにしてみても良いのですが，しばしばリストを読み込めるようにしたいことがあります．例えば，Ruby の場合は，[] は空のリストで意味がありますし，集合論の何らかの理論の実装を使用と思えば，{} は空集合 ∅ を表すようにしたいかもしれません．そのような値をここに書きます．本ページに計算したプログラムリストでは () は "0" にしておきましたので，()+1 は [:"+", "0", "1"] になります．
- マーカー
  開き括弧側のこの部分には nil か，あるいは，:fy 型の１項演算子の内部名を，書きます． nil の場合は無視されます．:fy 型の１項演算子の内部名だった場合はそれを op としておきますと，括弧が閉じられたとき，その出来た式を exp として
  [op, exp]
  を返します．
  これも (,) の場合はあまり有難さを感じませんが，Ruby のリスト [a,b,c] のような式を読みたい場合があります．掲載したプログラムリストの [] の定義ではマーカーは :"#list#" となっていますから，[a, b, c,] を構文解析すると
  [:"#list#", [",", "a", [",", "b", "c"]]]
  が返ります．このときの :fy 型の演算子も定義しなければならないことを忘れないようにしてください．
暗黙の演算子

ここで作成するのは演算子順位法によるパーサーですが，ここで応用例として挙げている中で，λ計算の式は，演算子順位法によっては解析できません．これは
E1 E2
のような構文があるためです．これは関数 E1 を E2 に適用することを表します． λ計算の理論ではこれを一々，apply(E1, E2) のように書きたくないので，単に E1 と E2 を並べて書きます．上の例では二つの式の間に空白がありますが，明確に二つが分離できる場合は空白も書きません．例えば，(λx.x)(λx.x) などです．
この場合をうまく扱えるように，ここではこういう，式が並べて書いてあるところに演算子を挿入していく方法をとります．これは最初に，入力を演算子や被演算子の列に分解した後，式が二項演算子無しに隣り合っているところに，予め決めておいた二項の演算子を挿入します．挿入される演算子は，Ruby の大域変数
$sop_implicit_op
に入っている値とします．最初は，この変数には :"#apply#" が入っていますので，例えば，
(a b c)+1 は [:"+", [:"#apply#", "a", [:"#apply#", "b", "c"]], "1"]
に解析されます．

文字列の扱い
λ計算やコンビネータ論理などの実験ではほとんど出てくることがありませんが，時々，文字列を扱えたらよいと思うことがあります．それは非常に簡単な言語のインタープリタを作るときなどです．後に挙げたプログラムでも，ごくごく簡単な文字列だけ最初から組み込んであります．これはユーザがカスタマイズすることができるものではありませんが， "..." は常に文字列として扱われて，構文解析後，「"」で始まって「"」で終わる文字列として分離されています．ただし，... の部分は任意の文字列で，「"」を含ませたい場合は，「\」でエスケープしてください．例えば，

"the symbol"+"* is star" は
[:"+", "\"the symbol\"", "\"* is star\""] として

構文解析されます．

いくつかの補足
1. 英数だけからなる演算子の扱い
  英数だけからなる演算子をどんなコンテキストでも切り出すかどうかは大域変数 $sop_delimit_alpha_op の値によります．これが true なら，そのような演算子は両側に英数が並んでいても切り出されます．例えば， or が演算子のとき，sort という文字のならびは，s or t と認識されます．これが false のときは，両側に英数以外あるいは行頭，行末が来ないと演算子として認識しません．この変数の初期値は false つまり，英数の演算子の両側が英数以外で区切られていないと演算子として認識しないモードです．
  この変数を true にすると，例えば，コンビネータなどの書き方を多くの教科書に合わせるなどのことができます．例えば，S, K, I を使ったコンビネータの教科書ではこれらを空白で区切らない書き方がされていることが多いです．そのような場合，"S", "K", "I" をそれぞれ，:f 型の演算子として定義すれば，続けて書いた SKI コンビネータ式 SKI(KKS) などが S K I (K K S) のように分離されて入力されますので，コンビネータの教科書などの式（空白が入っていないことが多い）を直接確かめることができます．私は切って入力したほうが自分にあっているので，このモードは使いませんが．
2. 「"」と「#」は特別な意味を持たせていますので，演算子や括弧の外部名としては使わないでください．ただし，「#」については，他の文字列と組み合わせれば使っても結構です．例えば，"def" を演算子にしてしまうと，"def1"などの名称が使えなくなってしまいますので，"#def"を演算子の外部名として使うことでそのような制限を取り去ることができます．
3. 「(」と「)」の定義は変更しないでください．今の作りは，入力の先頭と最後にこの括弧を入れることにより，構文解析がすべて終わるように作っていますので，これを変えると動かなくなります．
4. あと，空白も演算子や文字列以外の被演算子に含めることはできません．
プログラムの簡単な説明

主な関数
1. sop_split(str, implicit_op_mode = $sop_implicit_op_mode)
  定義されている演算子の下に，与えられた文字列をトークン（文字列，演算子，括弧）の列に変換します．implicit_op_mode が false でないときは，式と式が隣り合わせの箇所には暗黙の演算子（大域変数 $sop_implicit_op の内容）が挿入されます．この関数をユーザが直接使うことは少ないと思います．せいぜい，与えられた文字列がどんなトークン列に変換されているか確認するときくらいでしょう．
2. sop_parse(str, implicit_op_mode = $sop_implicit_op_mode)
  定義されている演算子の下に，与えられた文字列を構文解析してその結果を返します．implicit_op_mode が false でないときは式と式が隣り合わせの箇所には暗黙の演算子（大域変数 $sop_implicit_op の内容）が挿入されてから構文解析されます．
  内部処理は
```
  def sop_parse(str, implicit_op_mode = true)
    begin
      sop_parse2(sop_split(str, implicit_op_mode))
    rescue
      :error
    end
  end
```
  のようになっていて，まず，sop_split() でトークン列に変換された結果を，関数 sop_parse2() で構文木に変換する．その際，エラーがあれば，error というシンボル（:error）を返すようになっています．
3. sop_parse2(tlist)
  この関数が実際にトークン列を構文解析して構文木を作る関数です．
  この解説はまた時間ができたときにします．当面はじぶんで読んで下さい．
4. sop_print(code, nl = true, to_str = false)
  構文解析した結果の code を元のような式としてプリントします．演算子の優先度と型を加味して必要がなければ，括弧は省略します．第二引数 nl に false を入れれば，最後に改行を出力しません．第二引数になにも入れなければ，つまり，code だけを指定すれば，式を出力した後，改行を出力します．第三引数の to_str は true が指定されると，画面に出力するのではなく，プリントされる文字列が関数の結果として返されます．
5. test
  入力がどのように構文解析されるかを確かめるための簡単なプログラムです．test と呼び出すと，コマンドは q または d または任意の文字列です．
  q と d 以外の入力は式の文字列が入力されている多として，それを構文解析した結果が表示されます．表示は，解析結果の Ruby のデータそのものと，それを演算子を考慮して表示したものです．後者は大部分の場合，入力と同じでしょう．
  q を入力すると test を終わることができます． d はデバッグモードの ON/OFF を切り替えます．デバッグモードでは，まず，入力がどのようなトークン列に変換されたかを表示し，あとは，入力を一つ読むごとの内部状態が表示され，どのように構文木が作られていくかの過程が分かるようになっています．
6. その他の関数
  このパーサーはもともと，計算機科学の理論を学ぶのにちょっとした実験をするためのものですので，純粋に構文解析以外にも，そのような簡易な実験環境を作るのに便利な関数を多少含ませました．それにはつぎのようなものがあります．これらについてはここではごく簡単になにをするかだけ書いておきます．
  - sop_print_tree2 (exp, col = 0, fp = $stdout, apply = "apply")
    構文木を階層的に出力します．
  - sop_gen_toggle(vname, msg = nil, vals = [true, false])
    大域変数を与えられた値の集合で巡回的に進めていく関数を生成します．次の sop_new_commands() で使う関数を作り出します．
  - sop_new_commands(commands, parent = $sop_basic_commands)
    次の sop_top() と sop_interpret(), sop_load() で使えるコマンドの定義データを作ります．sop_top を抜けるコマンド :q と利用可能なコマンドを列挙する :help は自動生成されます．それらを重ね書くこともできます．
  - sop_top(opening, ending, prompt, commands, pre = nil, post = nil)
    簡単な read-eval 式のユーザインタフェースを提供します．使えるコマンドは連想配列の形のデータで提供します．
  - sop_interpret(line, code, commands)
    入力文字列とその構文木が与えられ，commands を使って，その構文木を実行します．
  - sop_load(file, commands)
    コマンド列がファイルに書いてあるとして，指定されたファイルを解釈実行していきます．
  - sop_new_name(prefix = "sop", no = nil)
    名前を文字列として生成します．名前は指定された文字列の後ろに連番が付けられます．
主な大域変数
1. $sop_ops
  演算子，括弧の定義が格納されている重要な大域変数です．この定義を変えることによって，構文解析できる式や結果が変わってきます．下のプログラムでは初期値として与えてありますが，
```
  $sop_ops[:"=>"] = ["=>", 1200, :xfy]
```
  のように入れることもできます．関数 sop_parse() は呼ばれるたびに，内部で，この変数から動作のためのデータを作り出しますから，データを変えれば，即，新しい定義が適用されます．
2. $sop_implicit_op_mode
  入力を構文解析するとき，識別子と識別子の間などに暗黙の演算子を挟むかどうかを表します．これを false （あるいは nil）にすると，このような余計な暗黙の演算子は挟まず，実際の入力の演算子だけで構文解析が行われます．したがって， a, b が演算子として定義されていない場合は，a b は構文エラーです．
  それに対して，$sop_implicit_op_mode が false や nil 以外なら，このような識別子と識別子の間などに暗黙の演算子が挟み込まれます．暗黙の演算子はデフォルトでは :"#apply#" ですから，さきほどの a b は a #apply# b と書いてあるとみなされ，[:"#apply#", "a", "b"] という構文解析結果が得られます．これは，コンビネータの解釈実行系を作るときなどに便利です．例えば，
  (S I I) は [:"#apply#", [:"#apply#", "S", "I"], "I"] と
  構文解析されます．
3. $sop_implicit_op
  式と式の間に挿入される暗黙の演算子が入っています．初期値としては "#apply#" が入っています．この内容を変えることで，挿入される暗黙の演算子を指定できます．この変数に設定した演算子は $sop_ops でも宣言されているものにして下さい．
4. $sop_delimit_alpha_op
  英数字だけからなる演算子の扱いを制御する大域変数です．これが true なら，演算子は英数の文字列の中にあっても切り出されます．例えば，or が演算子の場合，文字列 sort は１つの単語ではなく，s, or, t と解釈されます．この大域変数が false の場合は，英数だけからなる演算子は，その両側に区切り記号（英数以外すべて）があるか，あるいは行頭，行末があるかでないと演算子として認識しません．これは，構文木のプリント関数 sop_print() にも影響します．この変数が true のときは，英数の演算子と被演算子の間には空白が表示される．false の場合は表示されません．
5. $sop_debug_mode
  この変数の値が true なら構文解析のとき，その過程を表示します． false のときは表示しません．初期値は false です．
6. $sop_follow
  各型の演算子の直後に許される演算子の型のリストが指定されています．パーサープログラムの誤り修正の目的以外でこれを変更することはあまり無いと思われます．これは，識別子間に挿入される暗黙の演算子が無いとして設定されています．従って，$sop_implicit_op の値が nil のときは，このまま使われますが， $sop_implicit_op が nil 以外のときは，一部の演算子の型に対して，直後に取り得る型が追加されます．追加される型は，:close, :f, :yf に対してであり，これらの直後に大域変数 $sop_follow2 に入っている [:f, :fy, :open] が追加されます．
7. $sop_follow2
  $sop_follow に書いてあるように，演算子無しでつながれた識別子間などに暗黙の演算子を挿入するモードで，一部の型の演算子の後，取り得るようになる演算子の型のリストが入っています．
プログラムの中身の簡単な説明
(時間ができたら説明するかもしれません）

注意事項

このパーサープログラムはコピーして改造して使って結構です．
ただし，プログラムを改造して使用した結果，例えば，製品化するなどで，私自身にこのプログラムの使用制限がかかるような形態の使用方法はやめてください．
このプログラムはバグがある可能性はあります．万が一，このプログラムの利用によってなんらかの損害が生じたとしても私はその責任を負いません．ソースファイルが読める程度の小さなプログラムですので，しっかり理解して使ってください．
ファイルを添え付けると知らぬ間に不正なプログラムを混入されて流通されないとも限らないので，ここでコピー＆ペーストという形で，常にソースファイルが見えている状態で提供します．
以上 2019年2月11日 Akihiko Koga

プログラムリスト

次の囲みの中のプログラムを選択してファイルとしてセーブして，そのファイルを Ruby のインタープリタ(irb など)に読み込んでください．私は sop.rb というファイル名を付けています．このプログラムの中にはテスト用の関数 test があります．次の実行例で使い方が分かると思います．

こちらで使用した Ruby のバージョンは

ruby 2.3.3p222 (2016-11-21 revision 56859) [x64-mingw32]

です．あまり高等な機能は使っていませんので，もう少し前のバージョンでも実行できると思います．

プログラムは掲載リストをコピー＆ペーストして使う形態をとりましたので，短くするために，コメントが殆どない，少し詰まっている，トリッキーな書き方がしてあるなど，読みにくい部分があると思います．プログラムの行数短縮を優先しましたのでご容赦ください．なお，変更履歴がこちらにあります．

# Simple Operator Precedence Parser
#     by Akihiko Koga
#     Version 1.02 2020.04.03
$sop_ops = {
  # in_name  => [out_name, priority, op_type]
  :"->"      => ["->", 1000, :xfy],
  :"*"       => ["*",   400, :yfx],
  :"/"       => ["/",   400, :yfx],
  :"+"       => ["+",   500, :yfx],
  :"+/pre"   => ["+",   200, :fy],
  :"-"       => ["-",   500, :yfx],
  :"-/pre"   => ["-",   200, :fy],
  :"="       => ["=",  1500, :xfy],
  :";/post"  => [";",  1800, :yf],
  :";"       => [";",  1800, :yfx],
  :","       => [",",  1400, :xfy],
  :"#apply#" => ["#apply#", 1300, :yfx], # implicit operator
  :"#list#"   => ["#list#", 200, :fy],   # list marker  
  :"#set#"    => ["#set#",  200, :fy],   # set marker
  
  # paren =>
  #  [out_name, priority, paren_type, [pair_paren, ...], valOf(), marker
  :"("       => ["(", 10000, :open,  [:")"], "0",  nil],
  :")"       => [")", 10000, :close, [:"("]],
  :"["       => ["[", 10000, :open,  [:"]"], [], :"#list#"],
  :"]"       => ["]", 10000, :close, [:"["]],
  :"{"       => ["{", 10000, :open,  [:"}"], :"empty", :"#set#"],
  :"}"       => ["}", 10000, :close, [:"{"]],
}

$sop_follow = { # possible tokens that follow each token
  :start => [:f, :fy, :open],
  :open  => [:f, :fy, :open, :close],
  :close => [:yf, :yfx, :xfy, :close], # + $sop_follow2 if implicit_op_mode
  :f     => [:yf, :yfx, :xfy, :close], # same as above
  :yf    => [:yf, :yfx, :xfy, :close], # same as above
  :fy    => [:f, :fy, :open],
  :xfy   => [:f, :fy, :open],
  :yfx   => [:f, :fy, :open],
}
$sop_follow2 = $sop_follow.clone
    [:close, :f, :yf].each {|x| $sop_follow2[x] += [:f, :fy, :open]}
$sop_implicit_op_mode = true
$sop_implicit_op = :"#apply#"
$sop_debug_mode = false
$sop_no_error_msg = false
$sop_delimit_alpha_op = false # e.g. "sort" =>  "s" "or" "t" if true
$sop_name_no = 0
$sop_print_limit = 1000
$sop_print_counter # counter to stop to print a very long expression

def sop_split(str, implicit_op_mode = $sop_implicit_op_mode)
  # strings are replaced by temporary names first
  ops, dic, prefix, i = {}, {}, "###", 0
  str = str.gsub(/"([^"\\]|\\.)*"/) {|u|
    tmp_name = prefix + i.to_s; i += 1
    dic[tmp_name] = u
    " " + tmp_name + " "
  }
  # gather out_names in $sop_ops and assign them temporary names seperated
  # by space, split to tokens, rename temprary names to original names again
  $sop_ops.sort{|a,b| b[1][0].length <=> a[1][0].length}.each {|op|
    # op ::= [in_name, [out_name, ...]]
    out_name = op[1][0]
    if ops[out_name] == nil then
      tmp_name = prefix + i.to_s; i += 1
      dic[tmp_name] = out_name
      ops[out_name] = []
      if !$sop_delimit_alpha_op && out_name =~ /^(\w)+$/ then
        pat = Regexp.new("([^\\w]|^)(" + out_name + ")([^\\w]|$)")
        str = str.gsub(pat, '\1 \2 \3')
      else
        str = str.gsub(out_name, " " + tmp_name + " ")
      end
    end
    ops[out_name].push(op)
  }
  tlist = str.split(" ").map {|x| if dic[x] then dic[x] else x end}
  
  # decide op_type and replace out_name by in_name
  tlist2, prev, n = [], :start, tlist.length
  n.times{|i|
    x = tlist[i]
    oplist = ops[x] # ::= nil | [[in_name, [out_name, priority, op_type]], ...]
    if oplist == nil then
      in_name, type = x, :f
    else
      if i == n-1 then fols = [:close]
      elsif ops[tlist[i+1]] == nil then fols = [:f]
      else fols = ops[tlist[i+1]].map {|u| u[1][2]}  end
      
      op2 = sop_choose_op(oplist, prev, fols, $sop_follow)
      if op2 == nil && implicit_op_mode then
        op2 = sop_choose_op(oplist, prev, fols, $sop_follow2)
      end
      if op2 == nil then sop_error_at(tlist, i, "***SyntaxError1***") end
      in_name, type = op2[0], op2[1][2]
    end
    if [:close, :yf, :f].index(prev) && [:open, :fy, :f].index(type) then
      if implicit_op_mode then
        tlist2.push($sop_implicit_op)
      else
        sop_error_at(tlist, i, "***BinaryOpRequiredBeforeThis***")
      end
    end
    prev = type
    tlist2.push(in_name)
  }
  tlist2
end

def sop_choose_op(oplist, prev, fols, follow)
  oplist.find {|op| op_type = op[1][2]
    follow[prev].index(op_type) && (follow[op_type] & fols) != [] }
end

# parser
def sop_parse(str, implicit_op_mode = $sop_implicit_op_mode)
  sop_parse2([:"("] + sop_split(str, implicit_op_mode) + [:")"])
rescue
  :error
end

def sop_parse2(tlist)
  if $sop_debug_mode then printf("token_list= %s\n", tlist.to_s) end
  arg_stack, op_stack = [], []
  tlist.length.times{|i|
    x = tlist[i]
    if $sop_debug_mode then
      printf("args: %s\nops: %s\ntoken: %s\n----\n", arg_stack, op_stack, x)
    end
    op_data = $sop_ops[x]          # [in_name, priority, type, ...]
    if op_data == nil || op_data[2] == :f then  # identifier
      arg_stack.unshift(x)
    elsif op_data[2] == :open then # open parenthesis
      arg_stack.unshift(x)
      op_stack.unshift(x)
    else                           # operator or close parenthesis
      while x != nil && x != :error && sop_op_less(op_stack[0], x) do
        arg_stack, op_stack, x = sop_reduce(arg_stack, op_stack, x)
      end
      if x == :error then
        sop_error_at(tlist, i, "***SyntaxError2***")
      elsif x != nil then
        arg_stack.unshift(x)
        op_stack.unshift(x)
      end
    end
  }
  if arg_stack.length != 1 then
    sop_error_at(tlist, tlist.length-1, "***ExpNotCompleted***")
  end
  return arg_stack[0]
end

def sop_op_less(op1, op2)
  p1, t1 = $sop_ops[op1][1], $sop_ops[op1][2]
  p2, t2 = $sop_ops[op2][1], $sop_ops[op2][2]
  return t2 == :close ||
         (t2 != :open &&
          ((p1 < p2) || ((p1 == p2) && [:yf, :yfx].index(t2))))
end

def sop_error_at(tlist, i, msg)
  if !$sop_no_error_msg then
    p (i > 0?tlist[0..i-1]:[]) + [[msg, tlist[i]]] + tlist[i+1..-1]
  end
  raise msg
end

def sop_reduce(arg_stack, op_stack, op)
  last_op = sop_shift(op_stack)
  inf = $sop_ops[last_op] # [out_name, priority, op_type]
  type = inf[2]
  if type == :fy then
    arg_stack[1] = [last_op, arg_stack[0]]
    sop_shift(arg_stack);
  elsif type == :yf then
    arg_stack[1] = [last_op, arg_stack[1]]
    sop_shift(arg_stack);
  elsif type == :xfy || type == :yfx then # binary operator
    arg_stack[2] = [last_op, arg_stack[2], arg_stack[0]]
    sop_shift(arg_stack); sop_shift(arg_stack);
  elsif type == :open && inf[3].index(op) then
    # open paren and op is its close paren
    if arg_stack[0] == last_op then # form of (), []
      arg_stack[0] = inf[4]
    else
      arg_stack[1] = arg_stack[0]
      sop_shift(arg_stack)
      if inf[5] != nil then arg_stack[0] = [inf[5], arg_stack[0]] end
    end
    op = nil
  else
    return arg_stack, op_stack, :error
  end
  return arg_stack, op_stack, op
end

def sop_shift(x)
  if x == []  then raise "***** shift of []" else x.shift end
end

def sop_delete_ops(ops)
  if ops.class != Array then ops = [ops] end
  dels = $sop_ops.to_a.select {|p| ops.index(p[1][0])}
  dels.each {|p| $sop_ops.delete(p[0])}
end

def sop_print(code, nl = true, to_str = false)
  $sop_print_counter = $sop_print_limit
  if nl then r = sop_prin2(code) + "\n" else r = sop_prin2(code) end
  if to_str then r else printf("%s", r) end
end

def sop_prin2(code, priority = 100000)
  $sop_print_counter -= 1
  if $sop_print_counter <= 0 then return "***** too long *****" end
  if code.class != Array then code.to_s
  elsif code == [] then "[]"
  else
    op = $sop_ops[code[0]] # [out_name, priority, op_type]
    if op == nil then return code.to_s end
    result = ""
    if op[1] > priority then result += "(" end
    if [:fy].index(op[2]) then
      result += sop_op_string(code[0], op)
      result += sop_prin2(code[1], op[1])
    elsif [:yf].index(op[2]) then
      result += sop_prin2(code[1], op[1])
      result += sop_op_string(code[0], op)
    elsif [:xfy, :yfx].index(op[2]) then
      if op[2] == :xfy then d1,d2 = 1,0 else d1,d2 = 0,1 end
      result += sop_prin2(code[1], op[1]-d1)
      result += sop_op_string(code[0], op)
      result += sop_prin2(code[2], op[1]-d2)
    end
    if op[1] > priority then result += ")" end
    result
  end
end

def sop_op_string(in_name, op)
  if op[3] != nil then op[3]
  elsif in_name == $sop_implicit_op then " "
  else
    out_name = op[0]
    if !$sop_delimit_alpha_op && out_name =~/^(\w)+$/ then
      if [:yf, :xfy, :yfx].index(op[2]) then out_name = " " + out_name end
      if [:fy, :xfy, :yfx].index(op[2]) then out_name = out_name + " " end
    end
    out_name
  end
end

def sop_print_tree2 (exp, col = 0, fp = $stdout, apply = "apply")
  if exp == :"#apply#" then exp = apply end
  if exp.class != Array then fp.printf("%s", exp.to_s); col + exp.to_s.length
  else
    len = exp.length
    fp.printf("(");
    col2 = sop_print_tree2(exp[0], col+1, fp, apply)
    if (len > 1) then
      fp.printf(" ")
      start = true
      (len-1).times {|i|
        x = exp[i+1]
        if !start then fp.printf("\n"); (col2+1).times { fp.printf(" ")} end
        start = false
        sop_print_tree2(x, col2+1, fp, apply)
      }
    end
    fp.printf(")")
  end
end

def sop_gen_toggle(vname, msg = nil, vals = [true, false])
  if msg == nil then msg = "    " + vname + " = " end
  lambda {|input, code|
    i = vals.index(eval(vname))
    if i == nil then v2 = vals[0] else  v2 = vals[(i + 1) % vals.length] end
    eval(sprintf("%s = %p", vname, v2))
    printf("%s%p\n", msg, v2)
  }
end

$sop_basic_commands = {":q" => lambda {|input, code| $sop_top_end = true}}

def sop_new_commands(commands, parent = $sop_basic_commands)
  x = parent.clone.update(commands)
  if x[":help"] == nil then
    x[":help"] = lambda {|input, code|
      clist = x.keys.map {|k| if $sop_ops[k] then $sop_ops[k][0] else k end}
      printf("Commands are:\n    %s\n", (clist-[:else]).join(", "))}
  end
  x
end

def sop_top(opening, ending, prompt, commands, pre = nil, post = nil, p0 = nil)
  printf("%s", opening)
  $sop_top_last_input, $sop_top_last_code = "", ""
  $sop_top_end = false; $sop_exception = nil
  while !$sop_top_end do
    printf("%s", prompt)
    $sop_top_input = readline.strip
    if p0 != nil then $sop_top_input = p0.call($sop_top_input) end
    $sop_top_code = sop_parse($sop_top_input)
    if pre != nil then pre.call($sop_top_input, $sop_top_code) end
    sop_interpret($sop_top_input, $sop_top_code, commands)
    if post != nil then post.call($sop_top_input, $sop_top_code) end
  end
  printf("%s", ending)
end

def sop_interpret(line, code, commands)
  if commands[code] then
    commands[code].call(line, code)
  elsif code.class == Array && commands[code[0]] then
    commands[code[0]].call(line, code)
  elsif commands[:else] then
    commands[:else].call(line, code)
  end
rescue => $sop_exception
  printf("***** Evaluation error:\n   %s\n", $sop_exception.message)
end

def sop_load(file, commands, p0 = nil)
  fp = nil
  fp = open(file, "r")
  fp.each {|line|
    $sop_load_line = line.strip
    if p0 != nil then $sop_load_line = p0.call($sop_load_line) end
    if $sop_load_line != "" then
      sop_interpret($sop_load_line, sop_parse($sop_load_line), commands)
    end
  }
  printf("File %s loaded\n", file)
  fp.close
rescue => $sop_exception
  if fp == nil then printf("***** %s cannot open\n", file)
  else
    printf("***** System Error \"%s\" \n    at \"%s\" \n    in \"%s\"\n",
    $sop_exception.to_s, $sop_load_line, file)
    fp.close
  end
end

def sop_new_name(prefix = "sop", no = nil)
  if no != nil then $sop_name_no = no end
  name = sprintf("%s%04d", prefix, $sop_name_no)
  $sop_name_no += 1
  name
end

$sop_top_opening = "Welcome to SopTest\n  :q for quit\n  :d for toggling debug mode
  :i for toggling implicit op mode\n  Otherwise, parsed and printed\n"
$sop_top_commands = sop_new_commands ({
  ":d" => sop_gen_toggle("$sop_debug_mode"),
  ":i" => sop_gen_toggle("$sop_implicit_op_mode"),
  :else => lambda {|input, code|
      printf("  %s\n", code.to_s)
      printf("  print-form = "); sop_print(code)
      printf("  "); sop_print_tree2(code, 2); printf("\n")},
})

def test
  sop_top($sop_top_opening, "Bye\n", "input> ", $sop_top_commands)
end

実行例

次の実行例は，上のプログラムを"sop.rb" という名前をファイルにセーブして実行したものです．test という関数が入っているので，これを動かすと，すでに定義されている演算子で何が解析できるかを確認できます．

test はコマンドとして，

  :q ... test から抜ける
  :i ... 暗黙の演算子モードのON/OFFを切り替える．最初は ON
  :d ... デバッグモードの ON/OFFを切り替える．ON だと，構文解析の
         様子が多少表示される．最初は OFF

の３つだけを持ち，他の入力は式として構文解析され，その結果が表示されます．

c:\0-ruby\sop>irb
irb(main):001:0> load "sop.rb"
=> true
irb(main):006:0> test
Welcome to SopTest
  :q for quit
  :d for toggling debug mode
  :i for toggling implicit op mode
  Otherwise, parsed and printed
コマンドとしては :q, :d, :i が可能で，ほかは全部構文解析されて結果が表示されます．

input> a*b-c/d
  [:-, [:*, "a", "b"], [:/, "c", "d"]]
  print-form = a*b-c/d
  (- (* a
        b)
     (/ c
        d))
 a*b-c/d の構文解析の結果とそれを式として表示したところです．構文解析結果の先頭の :- は，単に - というシンボルで，:"-" と一緒です．Ruby のプリントはRubyの表示上問題ないときは"を付けないみたいですね．
最後の表示は構文木の構造を簡易に表示したものです．直接に構文木をみるより
見やすいと思います．

input> A->B->C->D
  [:"->", "A", [:"->", "B", [:"->", "C", "D"]]]
  print-form = A->B->C->D
  (-> A
      (-> B
          (-> C
              D)))
input> A->(B->C)->D
  [:"->", "A", [:"->", [:"->", "B", "C"], "D"]]
  print-form = A->(B->C)->D
  (-> A
      (-> (-> B
              C)
          D))
演算子 -> は :xfy の二項演算子として定義されていますので，何も括弧を指定しないと右側から括弧がついて構文解釈されますが，明示的に括弧を使うと，そこが先に構文解析されます．

input> (f x y) + (g x)
  [:+, [:"#apply#", [:"#apply#", "f", "x"], "y"], [:"#apply#", "g", "x"]]
  print-form = (f x y)+(g x)
  (+ (apply (apply f
                   x)
            y)
     (apply g
            x))
これは暗黙の演算子の例です．(f x y) は演算子で結ばれていないので，演算子文法としては間違った書き方なのですが， f と x の間と x と y の間に関数適用の演算子 "#apply#" があるとみなして構文解析します．"#apply#" は :yfx の演算子として定義していますので，f を x に適用した結果の (f x) が何らかの関数と見て，それを y に適用するという意味の構文解析結果になっています．簡易構文木の中では #apply# はちょっとうるさい感じがしたので apply と表示してあります．

input> :i
implicit op mode = false
暗黙の演算子モードを解除しました（:i ごとに ON/OFF が切り替わる）．

input> (f x y)+(g x)
["(", "f", ["***BinaryOpRequiredBeforeThis***", "x"], "y", ")", "+", "(", "g", "x", ")"]
  error
  print-form = error
  error
直前に構文解析できていた式が構文エラーになります．エラーメッセージはあまり親切ではありません．

input> :d
debug mode = true
デバッグモードをONにしました．こちらも ON/OFF の切り替えです．以下，最初に，入力がどのようなトークン列に分解されたかが示され，その後は１トークンごとの解析過程が示されます．入力の終わりや閉じ括弧はかなり沢山の還元（reduction）が行われるため，もしかしたらソースプログラムに手を入れて，もう少し詳細に見せても良いかもしれません．

input> a*b+c*d
token_list= [:"(", "a", :*, "b", :+, "c", :*, "d", :")"]
args: []
ops: []
token: (
----
args: [:"("]
ops: [:"("]
token: a
----
args: ["a", :"("]
ops: [:"("]
token: *
----
args: [:*, "a", :"("]
ops: [:*, :"("]
token: b
----
args: ["b", :*, "a", :"("]
ops: [:*, :"("]
token: +
次のトークンが「+」で」一つ前のトークン「*」より優先度が低いので次で「*」の方がまとめられます．

----
args: [:+, [:*, "a", "b"], :"("]
ops: [:+, :"("]
token: c
はい，まとめられました．

----
args: ["c", :+, [:*, "a", "b"], :"("]
ops: [:+, :"("]
token: *
----
args: [:*, "c", :+, [:*, "a", "b"], :"("]
ops: [:*, :+, :"("]
token: d
----
args: ["d", :*, "c", :+, [:*, "a", "b"], :"("]
ops: [:*, :+, :"("]
token: )
入力がすべて終わった（次のトークンがすべての式を閉じる「)」）なのですべての演算子がまとめられます．
----
  [:+, [:*, "a", "b"], [:*, "c", "d"]]
  print-form = a*b+c*d
  (+ (* a
        b)
     (* c
        d))

次は暗黙の演算子モードに戻して，デバッグモードで実行してみます
input> :i
implicit op mode = true
input> f x+y
token_list= [:"(", "f", :"#apply#", "x", :+, "y", :")"]
は，"#aply#" が入力に挿入されていることがわかりますね．

args: []
ops: []
token: (
----
args: [:"("]
ops: [:"("]
token: f
----
args: ["f", :"("]
ops: [:"("]
token: #apply#
----
args: [:"#apply#", "f", :"("]
ops: [:"#apply#", :"("]
token: x
----
args: ["x", :"#apply#", "f", :"("]
ops: [:"#apply#", :"("]
token: +
----
args: [:+, "x", :"#apply#", "f", :"("]
ops: [:+, :"#apply#", :"("]
token: y
----
args: ["y", :+, "x", :"#apply#", "f", :"("]
ops: [:+, :"#apply#", :"("]
token: )
----
  [:"#apply#", "f", [:+, "x", "y"]]
  print-form = f x+y
  (apply f
         (+ x
            y))
input> :d
debug mode = false

次はリストの解析例を示してこの実行例を終わります．
input> [a,b,c]
  [:"#list#", [:",", "a", [:",", "b", "c"]]]
  print-form = #list#(a,b,c)
  (#list# (, a
             (, b
                c)))

input> [a, b+1, a->c*d]
  [:"#list#", [:",", "a", [:",", [:+, "b", "1"], [:"->", "a", [:*, "c", "d"]]]]]
  print-form = #list#(a,b+1,a->c*d)
  (#list# (, a
             (, (+ b
                   1)
                (-> a
                    (* c
                       d)))))

input> :q
=> nil
irb(main):007:0>

変更履歴

上が最近です．

2022年 8月 3日（水）
関数 sop_top() の中で，sop_interpret() を呼んでいるが，第一引数は $sop_top_input であるべきところを $sop_top_code と書いていた．SKI インタープリタでも，λ計算のインタープリタでもここは使っていないので影響はない．
2020年 4月 3日（金）
ver. 1.02 2020.04.03
sop_top() 内でユーザ入力の評価がエラーを起こしたとき，完全にエラーを拾ってなかった部分があったので，rescue で捕まえるようにした．（エラーが起こっていたのは，λ計算のページのプログラムを動かしたとき， :load sys.def で irb まで落ちていたこと．正しくは，ファイル名にダブルクォートが要り，:load "sys.def" だが，ダブルクォートを付けないと irb まで落ちていたのを， sop_top() にとどまるようにした）
2019年 3月 1日（金）
ver. 0.99 2019.02.27
名前を生成する関数 sop_new_name(pre) を追加．
少しプログラムをスリム化した．
英数字だけからなる演算子の扱いを変更した．
英数字だけからなる演算子は両側にデリミターかテキストの最初，最後が無い限り演算子として切り出さないモードを実装し，こちらをデフォルトとした．このモードは $sop_delimit_alpha_op で制御する．$sop_delimit_alpha_op が true のときは，英数字の列の中に演算子があっても切り出す．例えば，or が演算子なら， sort は s or t のように分解される．この大域変数が false のときは sort という名前と認識される．
汎用のトップループ関数 sop_top(...) に簡易ヘルプ機能を付けた．
汎用のトップループ関数 sop_top(...) およびファイルからのロード関数 sop_load() に，入力文字列の前処理をユーザが指定できるようにした．これはコメントの除去などに使う．
2019年 2月 24日（金）
ver. 0.96 2019.02.24
関数 sop_delete_ops(ops) を追加
関数 sop_print(exp) を文字列にも出力できるように変更
関数 sop_print_tree2(exp) を追加
汎用のトップループ関数 sop_top(...) を追加
関数 sop_gen_toggle(vname, msg, vals) を追加
関数 sop_new_commands(commands) を追加
関数 sop_load(file, commands) を追加
2019年 2月 11日（月）
ver. 0.83 2019.02.11 版を公開

参考文献

一般的な構文解析の知識（特に演算子優先順位文法のことが書いてある本）

中田育男：コンパイラ (コンピューターサイエンス・ライブラリー) , 産業図書 (1981/1/1), 278ページ
これは私が持っているコンパイラの本なのですが，もう，かなり昔の本になってしまいました．
中田育男：コンパイラの構成と最適化, 朝倉書店; 第2版 (2009/11/1), 601ページ
こちらはかなり分厚くて，私は買っていませんが，私が住んでいる市の図書館にあったので時々借りています．私が某会社にいたときの知り合いの話では他の本ではあまり扱っていない最適化をきちんと扱っているので，ときどき参照しているとのことでした．
あと，某筋の情報によると，中田先生の本では，次の本が評判が良いらしいです．
中田育男：コンパイラ (新コンピュータサイエンス講座), オーム社 (1995/6/1), 193ページ
渡邊坦：コンパイラの仕組み, 朝倉書店, 1998年04月01日, 196ページ
第4章が「演算子順位による構文解析」ですね．ただ，この本は後の LL(1) 文法の方がメインのようです．Tiny C という言語のコンパイラを実際に作って学ぶスタイルのようです．
その他にも構文解析やコンパイラの本は世の中に沢山ありますから，探して自分に合いそうな本を見つけてください．私の本だなや近くの図書館には，演算子順位法の載っている本（で，かつ，今でも絶版になってない本 :-)）としては，次の本がありました．
宮本街市 : はじめてのコンパイラ原理と実践, 森北出版株式会社, 2007
本格的なコンパイラを作る手法としては主流ではありませんので，中には省略している本もあります．このページでは構文解析やコンパイラ作成がメインの目的ではなく，ちょっとした言語を簡単に導入して，計算機科学の実験をすることがメインの目的なので演算子順位法を使いました．
Prolog の演算子優先順位パーサーについての情報
ここで作成したパーサは演算子の右結合や左結合をxfy, yfx という記号で表現していました．これは DEC-10 Prolog などに組み込んである演算子順位パーサの流儀です．
Prolog マニュアル
特に本やサイトを特定することはできないのですが，DEC-10 系統の Prolog は op(precedence, type, symbol_list) という述語で演算子の優先度と型を定義します．したがって，Prolog の詳しい本や特にマニュアルには，この記述方法と意味が書かれているはずです．これを書いている時点（2019年2月8日）で，SWI-Prolog という Prolog の処理系が Simplified BSD license で配布されていますので，例えば，SWI-Prolog, xfy, op くらいのキーワードで検索してみると SWI-Prolog のマニュアルが見つかると思います．あるいは，検索のキーワードの最後に PDF をつけると，PDF 形式のマニュアルが見つかりやすくなりますし，もう少し，Prolog の種類を増やそうと思えば，SWI- をとるとかやってみるとよいでしょう．
笹川賢一 : Prolog処理系を作ろう Kindle版, 出版社: 笹川賢一; 2版 (2016/10/23)
これは著者がいろいろ試行錯誤しながら Prolog の処理系を作った話だそうです．上のタイトルはちょっと変な書き方ですが，これは紙の本が一度絶版になって，いろいろな要望があったので Kindle 版として最低価格で販売することにしたとのこと． Prolog の C コードは Github から利用可能とのこと．著者名とタイトルで google などで検索してみてください．ソースコードなどの情報が見つかると思います．この著者は Kindle から，他にも「やさしいLispの作り方: C言語で作るミニミニLisp処理系」とか出してますね．

計算機（主にソフトウェア）の話題へ

圏論を勉強しようへ
 束論を勉強しようへ
 半群論を勉強しようへ
 ホームページトップ(Top of My Homepage)

簡単な演算子順位法によるパーサー in Ruby (Simple Operator Precedence Parser in Ruby)

目次

一般的な構文解析の知識（特に演算子優先順位文法のことが書いてある本）

Prolog の演算子優先順位パーサーについての情報

簡単な演算子順位法によるパーサー in Ruby
(Simple Operator Precedence Parser in Ruby)