Never treat @op as operator in quotes
[yaz-moved-to-github.git] / zutil / pquery.c
1 /*
2  * Copyright (c) 1995-2002, Index Data.
3  * See the file LICENSE for details.
4  *
5  * $Id: pquery.c,v 1.14 2002-05-01 10:22:52 adam Exp $
6  */
7
8 #include <stdio.h>
9 #include <string.h>
10 #include <stdlib.h>
11
12 #include <yaz/proto.h>
13 #include <yaz/oid.h>
14 #include <yaz/pquery.h>
15
16 static oid_value p_query_dfset = VAL_NONE;
17
18 struct lex_info {
19     const char *query_buf;
20     const char *lex_buf;
21     size_t lex_len;
22     int query_look;
23     char *left_sep;
24     char *right_sep;
25     int escape_char;
26     int term_type;
27 };
28
29 static Z_RPNStructure *rpn_structure (struct lex_info *li, ODR o, oid_proto, 
30                                       int num_attr, int max_attr, 
31                                       int *attr_list, char **attr_clist,
32                                       oid_value *attr_set);
33
34 static enum oid_value query_oid_getvalbyname (struct lex_info *li)
35 {
36     enum oid_value value;
37     char buf[32];
38
39     if (li->lex_len > 31)
40         return VAL_NONE;
41     memcpy (buf, li->lex_buf, li->lex_len);
42     buf[li->lex_len] = '\0';
43     value = oid_getvalbyname (buf);
44     return value;
45 }
46
47 static int compare_term (struct lex_info *li, const char *src, size_t off)
48 {
49     size_t len=strlen(src);
50
51     if (li->lex_len == len+off && !memcmp (li->lex_buf+off, src, len-off))
52         return 1;
53     return 0;
54 }
55
56 static int query_token (struct lex_info *li)
57 {
58     int sep_char = ' ';
59     const char *sep_match;
60     const char **qptr = &li->query_buf;
61
62     while (**qptr == ' ')
63         (*qptr)++;
64     if (**qptr == '\0')
65         return 0;
66     li->lex_len = 0;
67     if ((sep_match = strchr (li->left_sep, **qptr)))
68     {
69         sep_char = li->right_sep[sep_match - li->left_sep];
70         ++(*qptr);
71     }
72     li->lex_buf = *qptr;
73    
74     if (**qptr == li->escape_char && isdigit ((*qptr)[1]))
75     {
76         ++(li->lex_len);
77         ++(*qptr);
78         return 'l';
79     }
80     while (**qptr && **qptr != sep_char)
81     {
82         if (**qptr == '\\')
83         {
84             ++(li->lex_len);
85             ++(*qptr);
86         }
87         ++(li->lex_len);
88         ++(*qptr);
89     }
90     if (**qptr)
91         ++(*qptr);
92     if (sep_char == ' ' &&
93         li->lex_len >= 1 && li->lex_buf[0] == li->escape_char)
94     {
95         if (compare_term (li, "and", 1))
96             return 'a';
97         if (compare_term (li, "or", 1))
98             return 'o';
99         if (compare_term (li, "not", 1))
100             return 'n';
101         if (compare_term (li, "attr", 1))
102             return 'l';
103         if (compare_term (li, "set", 1))
104             return 's';
105         if (compare_term (li, "attrset", 1))
106             return 'r';
107         if (compare_term (li, "prox", 1))
108             return 'p';
109         if (compare_term (li, "term", 1))
110             return 'y';
111     }
112     return 't';
113 }
114
115 static int lex (struct lex_info *li)
116 {
117     return li->query_look = query_token (li);
118 }
119
120 static int escape_string(char *out_buf, const char *in, int len)
121 {
122
123     char *out = out_buf;
124     while (--len >= 0)
125         if (*in == '\\' && len > 0)
126         {
127             --len;
128             switch (*++in)
129             {
130             case 't':
131                 *out++ = '\t';
132                 break;
133             case 'n':
134                 *out++ = '\n';
135                 break;
136             case 'r':
137                 *out++ = '\r';
138                 break;
139             case 'f':
140                 *out++ = '\f';
141                 break;
142             case 'x':
143                 if (len > 1)
144                 {
145                     char s[4];
146                     int n = 0;
147                     s[0] = *++in;
148                     s[1] = *++in;
149                     s[2] = '\0';
150                     len = len - 2;
151                     sscanf (s, "%x", &n);
152                     *out++ = n;
153                 }
154                 break;
155             case '0':
156             case '1':
157             case '2':
158             case '3':
159                 if (len > 1)
160                 {
161                     char s[4];
162                     int n = 0;
163                     s[0] = *in;
164                     s[1] = *++in;                   
165                     s[2] = *++in;
166                     s[3] = '\0';
167                     len = len - 2;
168                     sscanf (s, "%o", &n);
169                     *out++ = n;
170                 }
171                 break;
172             default:
173                 *out++ = *in;
174                 break;
175             }
176             in++;
177         }
178         else
179             *out++ = *in++;
180     return out - out_buf;
181 }
182
183 static int p_query_parse_attr(struct lex_info *li, ODR o,
184                               int num_attr, int *attr_list,
185                               char **attr_clist, oid_value *attr_set)
186 {
187     const char *cp;
188     if (!(cp = strchr (li->lex_buf, '=')) ||
189         (size_t) (cp-li->lex_buf) > li->lex_len)
190     {
191         attr_set[num_attr] = query_oid_getvalbyname (li);
192         if (attr_set[num_attr] == VAL_NONE)
193             return 0;
194         lex (li);
195         
196         if (!(cp = strchr (li->lex_buf, '=')))
197             return 0;
198     }
199     else 
200     {
201         if (num_attr > 0)
202             attr_set[num_attr] = attr_set[num_attr-1];
203         else
204             attr_set[num_attr] = VAL_NONE;
205     }
206     attr_list[2*num_attr] = atoi(li->lex_buf);
207         cp++;
208     if (*cp >= '0' && *cp <= '9')
209     {
210         attr_list[2*num_attr+1] = atoi (cp);
211         attr_clist[num_attr] = 0;
212     }
213     else
214     {
215         int len = li->lex_len - (cp - li->lex_buf);
216         attr_list[2*num_attr+1] = 0;
217         attr_clist[num_attr] = (char *) odr_malloc (o, len+1);
218         len = escape_string(attr_clist[num_attr], cp, len);
219         attr_clist[num_attr][len] = '\0';
220     }
221     return 1;
222 }
223
224 static Z_AttributesPlusTerm *rpn_term (struct lex_info *li, ODR o,
225                                        oid_proto proto, 
226                                        int num_attr, int *attr_list,
227                                        char **attr_clist, oid_value *attr_set)
228 {
229     Z_AttributesPlusTerm *zapt;
230     Odr_oct *term_octet;
231     Z_Term *term;
232     Z_AttributeElement **elements;
233
234     zapt = (Z_AttributesPlusTerm *)odr_malloc (o, sizeof(*zapt));
235     term_octet = (Odr_oct *)odr_malloc (o, sizeof(*term_octet));
236     term = (Z_Term *)odr_malloc (o, sizeof(*term));
237
238     if (!num_attr)
239         elements = (Z_AttributeElement**)odr_nullval();
240     else
241     {
242         int i, k = 0;
243         int *attr_tmp;
244
245         elements = (Z_AttributeElement**)
246             odr_malloc (o, num_attr * sizeof(*elements));
247
248         attr_tmp = (int *)odr_malloc (o, num_attr * 2 * sizeof(int));
249         memcpy (attr_tmp, attr_list, num_attr * 2 * sizeof(int));
250         for (i = num_attr; --i >= 0; )
251         {
252             int j;
253             for (j = i+1; j<num_attr; j++)
254                 if (attr_tmp[2*j] == attr_tmp[2*i])
255                     break;
256             if (j < num_attr)
257                 continue;
258             elements[k] =
259                 (Z_AttributeElement*)odr_malloc (o,sizeof(**elements));
260             elements[k]->attributeType = &attr_tmp[2*i];
261             elements[k]->attributeSet =
262                 yaz_oidval_to_z3950oid(o, CLASS_ATTSET, attr_set[i]);
263
264             if (attr_clist[i])
265             {
266                 elements[k]->which = Z_AttributeValue_complex;
267                 elements[k]->value.complex = (Z_ComplexAttribute *)
268                     odr_malloc (o, sizeof(Z_ComplexAttribute));
269                 elements[k]->value.complex->num_list = 1;
270                 elements[k]->value.complex->list =
271                     (Z_StringOrNumeric **)
272                     odr_malloc (o, 1 * sizeof(Z_StringOrNumeric *));
273                 elements[k]->value.complex->list[0] =
274                     (Z_StringOrNumeric *)
275                     odr_malloc (o, sizeof(Z_StringOrNumeric));
276                 elements[k]->value.complex->list[0]->which =
277                     Z_StringOrNumeric_string;
278                 elements[k]->value.complex->list[0]->u.string =
279                     attr_clist[i];
280                 elements[k]->value.complex->semanticAction = (int **)
281                     odr_nullval();
282                 elements[k]->value.complex->num_semanticAction = 0;
283             }
284             else
285             {
286                 elements[k]->which = Z_AttributeValue_numeric;
287                 elements[k]->value.numeric = &attr_tmp[2*i+1];
288             }
289             k++;
290         }
291         num_attr = k;
292     }
293     zapt->attributes = (Z_AttributeList *)
294         odr_malloc (o, sizeof(*zapt->attributes));
295     zapt->attributes->num_attributes = num_attr;
296     zapt->attributes->attributes = elements;
297
298     zapt->term = term;
299     term->which = Z_Term_general;
300     term->u.general = term_octet;
301     term_octet->buf = (unsigned char *)odr_malloc (o, li->lex_len);
302     term_octet->size = term_octet->len =
303         escape_string ((char *) (term_octet->buf), li->lex_buf, li->lex_len);
304     return zapt;
305 }
306
307 static Z_Operand *rpn_simple (struct lex_info *li, ODR o, oid_proto proto,
308                               int num_attr, int *attr_list, char **attr_clist,
309                               oid_value *attr_set)
310 {
311     Z_Operand *zo;
312
313     zo = (Z_Operand *)odr_malloc (o, sizeof(*zo));
314     switch (li->query_look)
315     {
316     case 't':
317         zo->which = Z_Operand_APT;
318         if (!(zo->u.attributesPlusTerm =
319               rpn_term (li, o, proto, num_attr, attr_list, attr_clist,
320                         attr_set)))
321             return 0;
322         lex (li);
323         break;
324     case 's':
325         lex (li);
326         if (!li->query_look)
327             return 0;
328         zo->which = Z_Operand_resultSetId;
329         zo->u.resultSetId = (char *)odr_malloc (o, li->lex_len+1);
330         memcpy (zo->u.resultSetId, li->lex_buf, li->lex_len);
331         zo->u.resultSetId[li->lex_len] = '\0';
332         lex (li);
333         break;
334     default:
335         return 0;
336     }
337     return zo;
338 }
339
340 static Z_ProximityOperator *rpn_proximity (struct lex_info *li, ODR o)
341 {
342     Z_ProximityOperator *p = (Z_ProximityOperator *)odr_malloc (o, sizeof(*p));
343
344     if (!lex (li))
345         return NULL;
346     if (*li->lex_buf == '1')
347     {
348         p->exclusion = (int *)odr_malloc (o, sizeof(*p->exclusion));
349         *p->exclusion = 1;
350     } 
351     else if (*li->lex_buf == '0')
352     {
353         p->exclusion = (int *)odr_malloc (o, sizeof(*p->exclusion));
354         *p->exclusion = 0;
355     }
356     else
357         p->exclusion = NULL;
358
359     if (!lex (li))
360         return NULL;
361     p->distance = (int *)odr_malloc (o, sizeof(*p->distance));
362     *p->distance = atoi (li->lex_buf);
363
364     if (!lex (li))
365         return NULL;
366     p->ordered = (int *)odr_malloc (o, sizeof(*p->ordered));
367     *p->ordered = atoi (li->lex_buf);
368     
369     if (!lex (li))
370         return NULL;
371     p->relationType = (int *)odr_malloc (o, sizeof(*p->relationType));
372     *p->relationType = atoi (li->lex_buf);
373
374     if (!lex (li))
375         return NULL;
376     if (*li->lex_buf == 'k')
377         p->which = 0;
378     else if (*li->lex_buf == 'p')
379         p->which = 1;
380     else
381         p->which = atoi (li->lex_buf);
382
383     if (!lex (li))
384         return NULL;
385     p->which = Z_ProximityOperator_known;
386     p->u.known = (int *)odr_malloc (o, sizeof(*p->u.known));
387     *p->u.known = atoi (li->lex_buf);
388     return p;
389 }
390
391 static Z_Complex *rpn_complex (struct lex_info *li, ODR o, oid_proto proto,
392                                int num_attr, int max_attr, 
393                                int *attr_list, char **attr_clist,
394                                oid_value *attr_set)
395 {
396     Z_Complex *zc;
397     Z_Operator *zo;
398
399     zc = (Z_Complex *)odr_malloc (o, sizeof(*zc));
400     zo = (Z_Operator *)odr_malloc (o, sizeof(*zo));
401     zc->roperator = zo;
402     switch (li->query_look)
403     {
404     case 'a':
405         zo->which = Z_Operator_and;
406         zo->u.and_not = odr_nullval();
407         break;
408     case 'o':
409         zo->which = Z_Operator_or;
410         zo->u.and_not = odr_nullval();
411         break;
412     case 'n':
413         zo->which = Z_Operator_and_not;
414         zo->u.and_not = odr_nullval();
415         break;
416     case 'p':
417         zo->which = Z_Operator_prox;
418         zo->u.prox = rpn_proximity (li, o);
419         if (!zo->u.prox)
420             return NULL;
421         break;
422     default:
423         return NULL;
424     }
425     lex (li);
426     if (!(zc->s1 =
427           rpn_structure (li, o, proto, num_attr, max_attr, attr_list,
428                          attr_clist, attr_set)))
429         return NULL;
430     if (!(zc->s2 =
431           rpn_structure (li, o, proto, num_attr, max_attr, attr_list,
432                          attr_clist, attr_set)))
433         return NULL;
434     return zc;
435 }
436
437 static Z_RPNStructure *rpn_structure (struct lex_info *li, ODR o,
438                                       oid_proto proto, 
439                                       int num_attr, int max_attr, 
440                                       int *attr_list,
441                                       char **attr_clist,
442                                       oid_value *attr_set)
443 {
444     Z_RPNStructure *sz;
445
446     sz = (Z_RPNStructure *)odr_malloc (o, sizeof(*sz));
447     switch (li->query_look)
448     {
449     case 'a':
450     case 'o':
451     case 'n':
452     case 'p':
453         sz->which = Z_RPNStructure_complex;
454         if (!(sz->u.complex =
455               rpn_complex (li, o, proto, num_attr, max_attr, attr_list,
456                            attr_clist, attr_set)))
457             return NULL;
458         break;
459     case 't':
460     case 's':
461         sz->which = Z_RPNStructure_simple;
462         if (!(sz->u.simple =
463               rpn_simple (li, o, proto, num_attr, attr_list,
464                           attr_clist, attr_set)))
465             return NULL;
466         break;
467     case 'l':
468         lex (li);
469         if (!li->query_look)
470             return NULL;
471         if (num_attr >= max_attr)
472             return NULL;
473         if (!p_query_parse_attr(li, o, num_attr, attr_list,
474                                 attr_clist, attr_set))
475             return 0;
476         num_attr++;
477         lex (li);
478         return
479             rpn_structure (li, o, proto, num_attr, max_attr, attr_list,
480                            attr_clist,  attr_set);
481     case 'y':
482         lex (li);
483         if (!li->query_look)
484             return NULL;
485         if (compare_term (li, "general", 0))
486             li->term_type = Z_Term_general;
487         else if (compare_term (li, "numeric", 0))
488             li->term_type = Z_Term_numeric;
489         else if (compare_term (li, "string", 0))
490             li->term_type = Z_Term_characterString;
491         else if (compare_term (li, "oid", 0))
492             li->term_type = Z_Term_oid;
493         else if (compare_term (li, "datetime", 0))
494             li->term_type = Z_Term_dateTime;
495         else if (compare_term (li, "null", 0))
496             li->term_type = Z_Term_null;
497         lex (li);
498         return
499             rpn_structure (li, o, proto, num_attr, max_attr, attr_list,
500                            attr_clist, attr_set);
501     case 0:                /* operator/operand expected! */
502         return NULL;
503     }
504     return sz;
505 }
506
507 Z_RPNQuery *p_query_rpn_mk (ODR o, struct lex_info *li, oid_proto proto,
508                             const char *qbuf)
509 {
510     Z_RPNQuery *zq;
511     int attr_array[1024];
512     char *attr_clist[512];
513     oid_value attr_set[512];
514     oid_value topSet = VAL_NONE;
515
516     zq = (Z_RPNQuery *)odr_malloc (o, sizeof(*zq));
517     lex (li);
518     if (li->query_look == 'r')
519     {
520         lex (li);
521         topSet = query_oid_getvalbyname (li);
522         if (topSet == VAL_NONE)
523             return NULL;
524
525         lex (li);
526     }
527     if (topSet == VAL_NONE)
528         topSet = p_query_dfset;
529     if (topSet == VAL_NONE)
530         topSet = VAL_BIB1;
531
532     zq->attributeSetId = yaz_oidval_to_z3950oid(o, CLASS_ATTSET, topSet);
533
534     if (!zq->attributeSetId)
535         return 0;
536
537     if (!(zq->RPNStructure = rpn_structure (li, o, proto, 0, 512,
538                                             attr_array, attr_clist, attr_set)))
539         return NULL;
540     return zq;
541 }
542
543 Z_RPNQuery *p_query_rpn (ODR o, oid_proto proto,
544                          const char *qbuf)
545 {
546     struct lex_info li;
547     
548     li.left_sep = "{\"";
549     li.right_sep = "}\"";
550     li.escape_char = '@';
551     li.term_type = Z_Term_general;
552     li.query_buf = qbuf;
553     return p_query_rpn_mk (o, &li, proto, qbuf);
554 }
555
556
557 Z_AttributesPlusTerm *p_query_scan_mk (struct lex_info *li,
558                                        ODR o, oid_proto proto,
559                                        Odr_oid **attributeSetP,
560                                        const char *qbuf)
561 {
562     int attr_list[1024];
563     char *attr_clist[512];
564     oid_value attr_set[512];
565     int num_attr = 0;
566     int max_attr = 512;
567     oid_value topSet = VAL_NONE;
568
569     lex (li);
570     if (li->query_look == 'r')
571     {
572         lex (li);
573         topSet = query_oid_getvalbyname (li);
574
575         lex (li);
576     }
577     if (topSet == VAL_NONE)
578         topSet = p_query_dfset;
579     if (topSet == VAL_NONE)
580         topSet = VAL_BIB1;
581
582     *attributeSetP = yaz_oidval_to_z3950oid (o, CLASS_ATTSET, topSet);
583
584     while (li->query_look == 'l')
585     {
586         lex (li);
587         if (!li->query_look)
588             return 0;
589         if (num_attr >= max_attr)
590             return 0;
591         if (!p_query_parse_attr(li, o, num_attr, attr_list,
592                                 attr_clist, attr_set))
593             return 0;
594         num_attr++;
595         lex (li);
596     }
597     if (!li->query_look)
598         return NULL;
599     return rpn_term (li, o, proto, num_attr, attr_list, attr_clist, attr_set);
600 }
601
602 Z_AttributesPlusTerm *p_query_scan (ODR o, oid_proto proto,
603                                     Odr_oid **attributeSetP,
604                                     const char *qbuf)
605 {
606     struct lex_info li;
607
608     li.left_sep = "{\"";
609     li.right_sep = "}\"";
610     li.escape_char = '@';
611     li.term_type = Z_Term_general;
612     li.query_buf = qbuf;
613
614     return p_query_scan_mk (&li, o, proto, attributeSetP, qbuf);
615 }
616
617 int p_query_attset (const char *arg)
618 {
619     p_query_dfset = oid_getvalbyname (arg);
620     return (p_query_dfset == VAL_NONE) ? -1 : 0;
621 }
622