9fcc3ed867df916e8c5cdbc76d9e2ec3055d2abd
[yaz-moved-to-github.git] / retrieval / d1_absyn.c
1 /*
2  * Copyright (c) 1995, Index Data.
3  * See the file LICENSE for details.
4  * Sebastian Hammer, Adam Dickmeiss
5  *
6  * $Log: d1_absyn.c,v $
7  * Revision 1.9  1997-02-19 14:46:15  adam
8  * The "all" specifier only affects elements that are indexed (and not
9  * all elements).
10  *
11  * Revision 1.8  1997/01/02 10:47:59  quinn
12  * Added optional, physical ANY
13  *
14  * Revision 1.7  1996/06/10 08:56:01  quinn
15  * Work on Summary.
16  *
17  * Revision 1.6  1996/05/31  13:52:21  quinn
18  * Fixed uninitialized variable for local tags in abstract syntax.
19  *
20  * Revision 1.5  1996/05/09  07:27:43  quinn
21  * Multiple local attributes values supported.
22  *
23  * Revision 1.4  1996/05/01  12:45:28  quinn
24  * Support use of local tag names in abs file.
25  *
26  * Revision 1.3  1995/11/01  16:34:55  quinn
27  * Making data1 look for tables in data1_tabpath
28  *
29  * Revision 1.2  1995/11/01  13:54:44  quinn
30  * Minor adjustments
31  *
32  * Revision 1.1  1995/11/01  11:56:06  quinn
33  * Added Retrieval (data management) functions en masse.
34  *
35  *
36  */
37
38 #include <ctype.h>
39 #include <stdio.h>
40 #include <assert.h>
41 #include <stdlib.h>
42 #include <string.h>
43
44 #include <xmalloc.h>
45 #include <oid.h>
46 #include <log.h>
47 #include <tpath.h>
48
49 #include <data1.h>
50
51 #define D1_MAX_NESTING  128
52 #define DATA1_MAX_SYNTAXES 30 /* max no of syntaxes to handle in one session */
53
54 static struct /* cache of abstract syntaxes */
55 {
56     char *name;
57     data1_absyn *absyn;
58 } syntaxes[DATA1_MAX_SYNTAXES] = {{0,0}};
59
60 data1_absyn *data1_get_absyn(char *name)
61 {
62     char fname[512];
63     int i;
64
65     for (i = 0; syntaxes[i].name; i++)
66         if (!strcmp(name, syntaxes[i].name))
67             return syntaxes[i].absyn;
68
69     if (i >= DATA1_MAX_SYNTAXES - 1)
70     {
71         logf(LOG_WARN, "Too many abstract syntaxes loaded");
72         return 0;
73     }
74     sprintf(fname, "%s.abs", name);
75     if (!(syntaxes[i].absyn = data1_read_absyn(fname)))
76         return 0;
77     if (!(syntaxes[i].name = xmalloc(strlen(name)+1)))
78         abort();
79     strcpy(syntaxes[i].name, name);
80     syntaxes[i+1].name = 0;
81     return syntaxes[i].absyn;
82 }
83
84 data1_esetname *data1_getesetbyname(data1_absyn *a, char *name)
85 {
86     data1_esetname *r;
87
88     for (r = a->esetnames; r; r = r->next)
89         if (!data1_matchstr(r->name, name))
90             return r;
91     return 0;
92 }
93
94 data1_element *data1_getelementbytagname(data1_absyn *abs,
95     data1_element *parent, char *tagname)
96 {
97     data1_element *r;
98
99     if (!parent)
100         r = abs->elements;
101     else
102         r = parent->children;
103     for (; r; r = r->next)
104     {
105         data1_name *n;
106
107         for (n = r->tag->names; n; n = n->next)
108             if (!data1_matchstr(tagname, n->name))
109                 return r;
110     }
111     return 0;
112 }
113
114 data1_element *data1_getelementbyname(data1_absyn *absyn, char *name)
115 {
116     data1_element *r;
117
118     for (r = absyn->elements; r; r = r->next)
119         if (!data1_matchstr(r->name, name))
120             return r;
121     return 0;
122 }
123
124 data1_absyn *data1_read_absyn(char *file)
125 {
126     char line[512], *r, cmd[512], args[512];
127     data1_absyn *res = 0;
128     FILE *f;
129     data1_element **ppl[D1_MAX_NESTING], *cur[D1_MAX_NESTING];
130     data1_esetname **esetpp;
131     data1_maptab **maptabp;
132     data1_marctab **marcp;
133     data1_termlist *all = 0;
134     int level = 0;
135
136     if (!(f = yaz_path_fopen(data1_tabpath, file, "r")))
137     {
138         logf(LOG_WARN|LOG_ERRNO, "%s", file);
139         return 0;
140     }
141
142     if (!(res = xmalloc(sizeof(*res))))
143         abort();
144     res->name = 0;
145     res->reference = VAL_NONE;
146     res->tagset = 0;
147     res->attset = 0;
148     res->varset = 0;
149     res->esetnames = 0;
150     res->maptabs = 0;
151     maptabp = &res->maptabs;
152     res->marc = 0;
153     marcp = &res->marc;
154     res->elements = 0;
155     ppl[0] = &res->elements;
156     cur[0] = 0;
157     esetpp = &res->esetnames;
158
159     for (;;)
160     {
161         while ((r = fgets(line, 512, f)))
162         {
163             while (*r && isspace(*r))
164                 r++;
165             if (*r && *r != '#')
166                 break;
167         }
168         if (!r)
169         {
170             fclose(f);
171             return res;
172         }
173         if (sscanf(r, "%s %[^\n]", cmd, args) < 2)
174             *args = '\0';
175         if (!strcmp(cmd, "elm"))
176         {
177             data1_element *new;
178             int i;
179             char path[512], name[512], termlists[512], *p;
180             int type, value;
181             data1_termlist **tp;
182
183             if (sscanf(args, "%511s %511s %511s", path, name, termlists) < 3)
184             {
185                 logf(LOG_WARN, "Bad # of args to elm in %s: '%s'", 
186                     file, args);
187                 fclose(f);
188                 return 0;
189             }
190             p = path;
191             for (i = 0;; i++)
192             {
193                 char *e;
194
195                 if ((e = strchr(p, '/')))
196                     p = e+1;
197                 else
198                     break;
199             }
200             if (i > level + 1)
201             {
202                 logf(LOG_WARN, "Bad level inc in %s in '%s'", file, args);
203                 fclose(f);
204                 return 0;
205             }
206             level = i;
207             if (!(new = cur[level] = *ppl[level] = xmalloc(sizeof(*new))))
208                 abort;
209             new->next = new->children = 0;
210             new->tag = 0;
211             new->termlists = 0;
212             new->parent = level ? cur[level - 1] : 0;
213             tp = &new->termlists;
214             ppl[level] = &new->next;
215             ppl[level+1] = &new->children;
216
217             /* well-defined tag */
218             if (sscanf(p, "(%d,%d)", &type, &value) == 2)
219             {
220                 if (!res->tagset)
221                 {
222                     logf(LOG_WARN, "No tagset loaded in %s", file);
223                     fclose(f);
224                     return 0;
225                 }
226                 if (!(new->tag = data1_gettagbynum(res->tagset, type, value)))
227                 {
228                     logf(LOG_WARN, "Couldn't find tag %s in tagset in %s",
229                         p, file);
230                     fclose(f);
231                     return 0;
232                 }
233             }
234             /* private tag */
235             else if (*p)
236             {
237                 data1_tag *nt = new->tag = xmalloc(sizeof(*new->tag));
238                 nt->which = DATA1T_string;
239                 nt->value.string = xstrdup(p);
240                 nt->names = xmalloc(sizeof(*new->tag->names));
241                 nt->names->name = nt->value.string;
242                 nt->names->next = 0;
243                 nt->kind = DATA1K_string;
244                 nt->next = 0;
245                 nt->tagset = 0;
246             }
247             else
248             {
249                 logf(LOG_WARN, "Bad element is %s", file);
250                 fclose(f);
251                 return 0;
252             }
253
254             /* parse termList definitions */
255             p = termlists;
256             if (*p == '-')
257                 new->termlists = 0;
258             else
259             {
260                 if (!res->attset)
261                 {
262                     logf(LOG_WARN, "No attset loaded in %s", file);
263                     fclose(f);
264                     return 0;
265                 }
266                 do
267                 {
268                     char attname[512], structure[512];
269                     int r;
270
271                     if (!(r = sscanf(p, "%511[^:,]:%511[^,]", attname,
272                         structure)))
273                     {
274                         logf(LOG_WARN, "Syntax error in termlistspec in %s",
275                             file);
276                         fclose(f);
277                         return 0;
278                     }
279                     if (*attname == '!')
280                         strcpy(attname, name);
281                     *tp = xmalloc(sizeof(**tp));
282                     if (!((*tp)->att = data1_getattbyname(res->attset,
283                         attname)))
284                     {
285                         logf(LOG_WARN, "Couldn't find att '%s' in attset",
286                             attname);
287                         fclose(f);
288                         return 0;
289                     }
290                     if (r < 2) /* is the structure qualified? */
291                         (*tp)->structure = DATA1S_word;
292                     else if (!data1_matchstr(structure, "w"))
293                         (*tp)->structure = DATA1S_word;
294                     else if (!data1_matchstr(structure, "p"))
295                         (*tp)->structure = DATA1S_phrase;
296
297                     (*tp)->next = 0;
298                     tp = &(*tp)->next;
299                 }
300                 while ((p = strchr(p, ',')) && *(++p));
301                 *tp = all; /* append any ALL entries to the list */
302             }
303
304             new->name = xstrdup(name);
305         }
306         else if (!strcmp(cmd, "all"))
307         {
308             char *p;
309             data1_termlist **tp = &all;
310
311             if (all)
312             {
313                 logf(LOG_WARN, "Too many ALL declarations in %s - ignored",
314                     file);
315                 continue;
316             }
317
318             p = args;
319             if (!res->attset)
320             {
321                 logf(LOG_WARN, "No attset loaded in %s", file);
322                 fclose(f);
323                 return 0;
324             }
325             do
326             {
327                 char attname[512], structure[512];
328                 int r;
329
330                 if (!(r = sscanf(p, "%511[^:,]:%511[^,]", attname,
331                     structure)))
332                 {
333                     logf(LOG_WARN, "Syntax error in termlistspec in %s",
334                         file);
335                     fclose(f);
336                     return 0;
337                 }
338                 *tp = xmalloc(sizeof(**tp));
339                 if (!((*tp)->att = data1_getattbyname(res->attset,
340                     attname)))
341                 {
342                     logf(LOG_WARN, "Couldn't find att '%s' in attset",
343                         attname);
344                     fclose(f);
345                     return 0;
346                 }
347                 if (r < 2) /* is the structure qualified? */
348                     (*tp)->structure = DATA1S_word;
349                 else if (!data1_matchstr(structure, "w"))
350                     (*tp)->structure = DATA1S_word;
351                 else if (!data1_matchstr(structure, "p"))
352                     (*tp)->structure = DATA1S_phrase;
353
354                 (*tp)->next = 0;
355                 tp = &(*tp)->next;
356             }
357             while ((p = strchr(p, ',')) && *(++p));
358         }
359         else if (!strcmp(cmd, "name"))
360         {
361             char name[512];
362
363             if (!sscanf(args, "%s", name))
364             {
365                 logf(LOG_WARN, "%s malformed name directive in %s", file);
366                 fclose(f);
367                 return 0;
368             }
369             if (!(res->name = xmalloc(strlen(args)+1)))
370                 abort();
371             strcpy(res->name, name);
372         }
373         else if (!strcmp(cmd, "reference"))
374         {
375             char name[512];
376
377             if (!sscanf(args, "%s", name))
378             {
379                 logf(LOG_WARN, "%s malformed reference directive in %s", file);
380                 fclose(f);
381                 return 0;
382             }
383             if ((res->reference = oid_getvalbyname(name)) == VAL_NONE)
384             {
385                 logf(LOG_WARN, "Unknown tagset ref '%s' in %s", name, file);
386                 fclose(f);
387                 return 0;
388             }
389         }
390         else if (!strcmp(cmd, "attset"))
391         {
392             char name[512];
393
394             if (!sscanf(args, "%s", name))
395             {
396                 logf(LOG_WARN, "%s malformed attset directive in %s", file);
397                 fclose(f);
398                 return 0;
399             }
400             if (!(res->attset = data1_read_attset(name)))
401             {
402                 logf(LOG_WARN, "Attset failed in %s", file);
403                 fclose(f);
404                 return 0;
405             }
406         }
407         else if (!strcmp(cmd, "tagset"))
408         {
409             char name[512];
410
411             if (!sscanf(args, "%s", name))
412             {
413                 logf(LOG_WARN, "%s malformed tagset directive in %s", file);
414                 fclose(f);
415                 return 0;
416             }
417             if (!(res->tagset = data1_read_tagset(name)))
418             {
419                 logf(LOG_WARN, "Tagset failed in %s", file);
420                 fclose(f);
421                 return 0;
422             }
423         }
424         else if (!strcmp(cmd, "varset"))
425         {
426             char name[512];
427
428             if (!sscanf(args, "%s", name))
429             {
430                 logf(LOG_WARN, "%s malformed varset directive in %s", file);
431                 fclose(f);
432                 return 0;
433             }
434             if (!(res->varset = data1_read_varset(name)))
435             {
436                 logf(LOG_WARN, "Varset failed in %s", file);
437                 fclose(f);
438                 return 0;
439             }
440         }
441         else if (!strcmp(cmd, "esetname"))
442         {
443             char name[512], fname[512];
444
445             if (sscanf(args, "%s %s", name, fname) != 2)
446             {
447                 logf(LOG_WARN, "%s: Two arg's required for esetname directive");
448                 fclose(f);
449                 return 0;
450             }
451             *esetpp = xmalloc(sizeof(**esetpp));
452             (*esetpp)->name = xmalloc(strlen(name)+1);
453             strcpy((*esetpp)->name, name);
454             if (*fname == '@')
455                 (*esetpp)->spec = 0;
456             else if (!((*esetpp)->spec = data1_read_espec1(fname, 0)))
457             {
458                 logf(LOG_WARN, "%s: Espec-1 read failed", file);
459                 fclose(f);
460                 return 0;
461             }
462             (*esetpp)->next = 0;
463             esetpp = &(*esetpp)->next;
464         }
465         else if (!strcmp(cmd, "maptab"))
466         {
467             char name[512];
468
469             if (sscanf(args, "%s", name) != 1)
470             {
471                 logf(LOG_WARN, "%s: One argument required for maptab directive",
472                     file);
473                 continue;
474             }
475             if (!(*maptabp = data1_read_maptab(name)))
476             {
477                 logf(LOG_WARN, "%s: Failed to read maptab.");
478                 continue;
479             }
480             maptabp = &(*maptabp)->next;
481         }
482         else if (!strcmp(cmd, "marc"))
483         {
484             char name[512];
485
486             if (sscanf(args, "%s", name) != 1)
487             {
488                 logf(LOG_WARN, "%s: One argument required for marc directive",
489                     file);
490                 continue;
491             }
492             if (!(*marcp = data1_read_marctab(name)))
493             {
494                 logf(LOG_WARN, "%s: Failed to read marctab.");
495                 continue;
496             }
497             marcp = &(*marcp)->next;
498         }
499         else
500         {
501             logf(LOG_WARN, "Unknown directive '%s' in %s", cmd, file);
502             fclose(f);
503             return 0;
504         }
505     }
506 }