MARC-8: allow all characters 0x01-0x20 YAZ-650
[yaz-moved-to-github.git] / src / cql.y
1 /* This file is part of the YAZ toolkit.
2  * Copyright (C) 1995-2013 Index Data
3  * See the file LICENSE for details.
4  */
5 /* bison parser for CQL grammar. */
6 %{
7 /**
8  * \file cql.c
9  * \brief Implements CQL parser.
10  *
11  * This is a YACC parser, but since it must be reentrant, Bison is required.
12  * The original source file is cql.y.
13  */
14 #if HAVE_CONFIG_H
15 #include <config.h>
16 #endif
17 #include <stdio.h>
18 #include <stdlib.h>
19 #include <string.h>
20 #include <yaz/yaz-iconv.h>
21 #include <yaz/xmalloc.h>
22 #include <yaz/nmem.h>
23 #include <yaz/cql.h>
24
25     /** Node in the LALR parse tree. */
26     typedef struct {
27         /** Inhereted attribute: relation */
28         struct cql_node *rel;
29         /** Synthesized attribute: CQL node */
30         struct cql_node *cql;
31         /** string buffer with token */
32         char *buf;
33         /** length of token */
34         size_t len;
35         /** size of buffer (len <= size) */
36         size_t size;
37     } token;
38
39     struct cql_parser {
40         int (*getbyte)(void *client_data);
41         void (*ungetbyte)(int b, void *client_data);
42         void *client_data;
43         int last_error;
44         int last_pos;
45         struct cql_node *top;
46         NMEM nmem;
47     };
48
49 #define YYSTYPE token
50
51 #define YYPARSE_PARAM parm
52 #define YYLEX_PARAM parm
53
54     int yylex(YYSTYPE *lval, void *vp);
55     int yyerror(char *s);
56 %}
57
58 %pure_parser
59 %token SIMPLE_STRING AND OR NOT PROX GE LE NE EXACT SORTBY
60
61 %%
62
63 top: {
64     $$.rel = cql_node_mk_sc(((CQL_parser) parm)->nmem,
65                             "cql.serverChoice", "=", 0);
66     ((CQL_parser) parm)->top = 0;
67 } cqlQuery1 sortby {
68     cql_node_destroy($$.rel);
69     if ($3.cql)
70     {
71         $3.cql->u.sort.search = $2.cql;
72         ((CQL_parser) parm)->top = $3.cql;
73     } else {
74         ((CQL_parser) parm)->top = $2.cql;
75     }
76 }
77 ;
78
79 sortby: /* empty */
80   { $$.cql = 0; }
81 | SORTBY sortSpec {
82     $$.cql = $2.cql;
83  };
84
85 sortSpec: sortSpec singleSpec {
86     $$.cql = $1.cql;
87     $$.cql->u.sort.next = $2.cql;
88  }
89 | singleSpec
90 {
91     $$.cql = $1.cql;
92 };
93
94 singleSpec: index modifiers {
95     $$.cql = cql_node_mk_sort(((CQL_parser) parm)->nmem, $1.buf, $2.cql);
96  }
97 ;
98
99 cqlQuery1: cqlQuery
100 | cqlQuery error {
101     cql_node_destroy($1.cql);
102     $$.cql = 0;
103 }
104 ;
105
106 cqlQuery:
107   scopedClause
108  |
109   '>' searchTerm '=' searchTerm {
110     $$.rel = $0.rel;
111   } cqlQuery {
112     $$.cql = cql_apply_prefix(((CQL_parser) parm)->nmem,
113                               $6.cql, $2.buf, $4.buf);
114   }
115 | '>' searchTerm {
116       $$.rel = $0.rel;
117   } cqlQuery {
118     $$.cql = cql_apply_prefix(((CQL_parser) parm)->nmem,
119                               $4.cql, 0, $2.buf);
120    }
121 ;
122
123 scopedClause:
124   searchClause
125 |
126   scopedClause boolean modifiers {
127       $$.rel = $0.rel;
128   } searchClause {
129       struct cql_node *cn = cql_node_mk_boolean(((CQL_parser) parm)->nmem,
130                                                 $2.buf);
131
132       cn->u.boolean.modifiers = $3.cql;
133       cn->u.boolean.left = $1.cql;
134       cn->u.boolean.right = $5.cql;
135
136       $$.cql = cn;
137   }
138 ;
139
140 searchClause:
141   '(' {
142       $$.rel = $0.rel;
143
144   } cqlQuery ')' {
145       $$.cql = $3.cql;
146   }
147 |
148 searchTerm {
149       struct cql_node *st = cql_node_dup(((CQL_parser) parm)->nmem, $0.rel);
150       st->u.st.term = nmem_strdup(((CQL_parser)parm)->nmem, $1.buf);
151       $$.cql = st;
152   }
153
154 |
155   index relation modifiers {
156       $$.rel = cql_node_mk_sc(((CQL_parser) parm)->nmem, $1.buf, $2.buf, 0);
157       $$.rel->u.st.modifiers = $3.cql;
158   } searchClause {
159       $$.cql = $5.cql;
160       cql_node_destroy($4.rel);
161   }
162 ;
163
164 /* unary NOT search SIMPLE_STRING here .. */
165
166 boolean:
167   AND | OR | NOT | PROX ;
168
169 modifiers: modifiers '/' searchTerm
170 {
171     struct cql_node *mod = cql_node_mk_sc(((CQL_parser)parm)->nmem,
172                                           $3.buf, 0, 0);
173
174     mod->u.st.modifiers = $1.cql;
175     $$.cql = mod;
176 }
177 |
178 modifiers '/' searchTerm relation_symbol searchTerm
179 {
180     struct cql_node *mod = cql_node_mk_sc(((CQL_parser)parm)->nmem,
181                                           $3.buf, $4.buf, $5.buf);
182
183     mod->u.st.modifiers = $1.cql;
184     $$.cql = mod;
185 }
186 |
187 {
188     $$.cql = 0;
189 }
190 ;
191
192 relation: SIMPLE_STRING | relation_symbol;
193
194 relation_symbol:
195   '='
196 | '>'
197 | '<'
198 | GE
199 | LE
200 | NE
201 | EXACT
202 ;
203
204 index:
205   searchTerm;
206
207 searchTerm:
208   SIMPLE_STRING
209 | AND
210 | OR
211 | NOT
212 | PROX
213 | SORTBY
214 ;
215
216 %%
217
218 int yyerror(char *s)
219 {
220     return 0;
221 }
222
223 /**
224  * putb is a utility that puts one character to the string
225  * in current lexical token. This routine deallocates as
226  * necessary using NMEM.
227  */
228
229 static void putb(YYSTYPE *lval, CQL_parser cp, int c)
230 {
231     if (lval->len+1 >= lval->size)
232     {
233         char *nb = (char *)
234             nmem_malloc(cp->nmem, (lval->size = lval->len * 2 + 20));
235         memcpy(nb, lval->buf, lval->len);
236         lval->buf = nb;
237     }
238     if (c)
239         lval->buf[lval->len++] = c;
240     lval->buf[lval->len] = '\0';
241 }
242
243
244 /**
245  * yylex returns next token for Bison to be read. In this
246  * case one of the CQL terminals are returned.
247  */
248 int yylex(YYSTYPE *lval, void *vp)
249 {
250     CQL_parser cp = (CQL_parser) vp;
251     int c;
252     lval->cql = 0;
253     lval->rel = 0;
254     lval->len = 0;
255     lval->size = 10;
256     lval->buf = (char *) nmem_malloc(cp->nmem, lval->size);
257     lval->buf[0] = '\0';
258     do
259     {
260         c = cp->getbyte(cp->client_data);
261         if (c == 0)
262             return 0;
263         if (c == '\n')
264             return 0;
265     } while (yaz_isspace(c));
266     if (strchr("()=></", c))
267     {
268         int c1;
269         putb(lval, cp, c);
270         if (c == '=')
271         {
272             c1 = cp->getbyte(cp->client_data);
273             if (c1 == '=')
274             {
275                 putb(lval, cp, c1);
276                 return EXACT;
277             }
278             else
279                 cp->ungetbyte(c1, cp->client_data);
280         }
281         else if (c == '>')
282         {
283             c1 = cp->getbyte(cp->client_data);
284             if (c1 == '=')
285             {
286                 putb(lval, cp, c1);
287                 return GE;
288             }
289             else
290                 cp->ungetbyte(c1, cp->client_data);
291         }
292         else if (c == '<')
293         {
294             c1 = cp->getbyte(cp->client_data);
295             if (c1 == '=')
296             {
297                 putb(lval, cp, c1);
298                 return LE;
299             }
300             else if (c1 == '>')
301             {
302                 putb(lval, cp, c1);
303                 return NE;
304             }
305             else
306                 cp->ungetbyte(c1, cp->client_data);
307         }
308         return c;
309     }
310     if (c == '"')
311     {
312         while ((c = cp->getbyte(cp->client_data)) != 0 && c != '"')
313         {
314             if (c == '\\')
315             {
316                 putb(lval, cp, c);
317                 c = cp->getbyte(cp->client_data);
318                 if (!c)
319                     break;
320             }
321             putb(lval, cp, c);
322         }
323         putb(lval, cp, 0);
324         return SIMPLE_STRING;
325     }
326     else
327     {
328         while (c != 0 && !strchr(" \n()=<>/", c))
329         {
330             if (c == '\\')
331             {
332                 putb(lval, cp, c);
333                 c = cp->getbyte(cp->client_data);
334                 if (!c)
335                     break;
336             }
337             putb(lval, cp, c);
338             c = cp->getbyte(cp->client_data);
339         }
340         putb(lval, cp, 0);
341 #if YYDEBUG
342         printf ("got %s\n", lval->buf);
343 #endif
344         if (c != 0)
345             cp->ungetbyte(c, cp->client_data);
346         if (!cql_strcmp(lval->buf, "and"))
347         {
348             lval->buf = "and";
349             return AND;
350         }
351         if (!cql_strcmp(lval->buf, "or"))
352         {
353             lval->buf = "or";
354             return OR;
355         }
356         if (!cql_strcmp(lval->buf, "not"))
357         {
358             lval->buf = "not";
359             return NOT;
360         }
361         if (!cql_strcmp(lval->buf, "prox"))
362         {
363             lval->buf = "prox";
364             return PROX;
365         }
366         if (!cql_strcmp(lval->buf, "sortby"))
367         {
368             lval->buf = "sortby";
369             return SORTBY;
370         }
371     }
372     return SIMPLE_STRING;
373 }
374
375
376 int cql_parser_stream(CQL_parser cp,
377                       int (*getbyte)(void *client_data),
378                       void (*ungetbyte)(int b, void *client_data),
379                       void *client_data)
380 {
381     nmem_reset(cp->nmem);
382     cp->getbyte = getbyte;
383     cp->ungetbyte = ungetbyte;
384     cp->client_data = client_data;
385     cql_node_destroy(cp->top);
386     cql_parse(cp);
387     if (cp->top)
388         return 0;
389     return -1;
390 }
391
392 CQL_parser cql_parser_create(void)
393 {
394     CQL_parser cp = (CQL_parser) xmalloc(sizeof(*cp));
395
396     cp->top = 0;
397     cp->getbyte = 0;
398     cp->ungetbyte = 0;
399     cp->client_data = 0;
400     cp->last_error = 0;
401     cp->last_pos = 0;
402     cp->nmem = nmem_create();
403     return cp;
404 }
405
406 void cql_parser_destroy(CQL_parser cp)
407 {
408     cql_node_destroy(cp->top);
409     nmem_destroy(cp->nmem);
410     xfree (cp);
411 }
412
413 struct cql_node *cql_parser_result(CQL_parser cp)
414 {
415     return cp->top;
416 }
417
418 /*
419  * Local variables:
420  * c-basic-offset: 4
421  * c-file-style: "Stroustrup"
422  * indent-tabs-mode: nil
423  * End:
424  * vim: shiftwidth=4 tabstop=8 expandtab
425  */