Changed prototype for chr_map_input - added const.
[idzebra-moved-to-github.git] / recctrl / recgrs.c
1 /*
2  * Copyright (C) 1994-1997, Index Data I/S 
3  * All rights reserved.
4  * Sebastian Hammer, Adam Dickmeiss
5  *
6  * $Log: recgrs.c,v $
7  * Revision 1.7  1997-09-05 15:30:10  adam
8  * Changed prototype for chr_map_input - added const.
9  * Added support for C++, headers uses extern "C" for public definitions.
10  *
11  * Revision 1.6  1997/09/04 13:54:40  adam
12  * Added MARC filter - type grs.marc.<syntax> where syntax refers
13  * to abstract syntax. New method tellf in retrieve/extract method.
14  *
15  * Revision 1.5  1997/07/15 16:29:03  adam
16  * Initialized dummy variable to keep checker gcc happy.
17  *
18  * Revision 1.4  1997/04/30 08:56:08  quinn
19  * null
20  *
21  * Revision 1.2  1996/10/11  16:06:43  quinn
22  * Revision 1.3  1997/02/24 10:41:50  adam
23  * Cleanup of code and commented out the "end element-end-record" code.
24  *
25  * Revision 1.2  1996/10/11 16:06:43  quinn
26  * Fixed arguments to nodetogr
27  *
28  * Revision 1.1  1996/10/11  10:57:25  adam
29  * New module recctrl. Used to manage records (extract/retrieval).
30  *
31  * Revision 1.29  1996/10/08 10:30:21  quinn
32  * Fixed type mismatch
33  *
34  * Revision 1.28  1996/10/07  16:06:40  quinn
35  * Added SOIF support
36  *
37  * Revision 1.27  1996/06/11  10:54:12  quinn
38  * Relevance work
39  *
40  * Revision 1.26  1996/06/06  12:08:45  quinn
41  * Added showRecord function
42  *
43  * Revision 1.25  1996/06/04  14:18:53  quinn
44  * Charmap work
45  *
46  * Revision 1.24  1996/06/04  13:27:54  quinn
47  * More work on charmapping
48  *
49  * Revision 1.23  1996/06/04  10:19:01  adam
50  * Minor changes - removed include of ctype.h.
51  *
52  * Revision 1.22  1996/06/03  10:15:27  quinn
53  * Various character-mapping.
54  *
55  * Revision 1.21  1996/05/31  13:27:24  quinn
56  * Character-conversion in phrases, too.
57  *
58  * Revision 1.19  1996/05/16  15:31:14  quinn
59  * a7
60  *
61  * Revision 1.18  1996/05/09  07:28:56  quinn
62  * Work towards phrases and multiple registers
63  *
64  * Revision 1.17  1996/05/01  13:46:37  adam
65  * First work on multiple records in one file.
66  * New option, -offset, to the "unread" command in the filter module.
67  *
68  * Revision 1.16  1996/01/17  14:57:54  adam
69  * Prototype changed for reader functions in extract/retrieve. File
70  *  is identified by 'void *' instead of 'int.
71  *
72  * Revision 1.15  1996/01/08  19:15:47  adam
73  * New input filter that works!
74  *
75  * Revision 1.14  1995/12/15  12:36:11  adam
76  * Retrieval calls data1_read_regx when subType is specified.
77  *
78  * Revision 1.13  1995/12/15  12:24:43  quinn
79  * *** empty log message ***
80  *
81  * Revision 1.12  1995/12/15  12:20:28  quinn
82  * *** empty log message ***
83  *
84  * Revision 1.11  1995/12/15  12:07:57  quinn
85  * Changed extraction strategy.
86  *
87  * Revision 1.10  1995/12/14  11:10:48  quinn
88  * Explain work
89  *
90  * Revision 1.9  1995/12/13  17:14:05  quinn
91  * *** empty log message ***
92  *
93  * Revision 1.8  1995/12/13  15:33:18  quinn
94  * *** empty log message ***
95  *
96  * Revision 1.7  1995/12/13  13:45:39  quinn
97  * Changed data1 to use nmem.
98  *
99  * Revision 1.6  1995/12/04  14:22:30  adam
100  * Extra arg to recType_byName.
101  * Started work on new regular expression parsed input to
102  * structured records.
103  *
104  * Revision 1.5  1995/11/28  14:18:37  quinn
105  * Set output_format.
106  *
107  * Revision 1.4  1995/11/21  13:14:49  quinn
108  * Fixed end-of-data-field problem (maybe).
109  *
110  * Revision 1.3  1995/11/15  19:13:09  adam
111  * Work on record management.
112  *
113  */
114
115 #include <stdio.h>
116 #include <assert.h>
117 #include <sys/types.h>
118 #include <unistd.h>
119
120 #include <log.h>
121 #include <oid.h>
122
123 #include <recctrl.h>
124 #include <charmap.h>
125 #include "grsread.h"
126
127 #define GRS_MAX_WORD 512
128
129 static int seqno = 0;
130
131 static data1_node *read_grs_type (struct grs_read_info *p, const char *type)
132 {
133     static struct {
134         char *type;
135         data1_node *(*func)(struct grs_read_info *p);
136     } tab[] = {
137         { "sgml",  grs_read_sgml },
138         { "regx",  grs_read_regx },
139         { "marc",  grs_read_marc },
140         { NULL, NULL }
141     };
142     const char *cp = strchr (type, '.');
143     int i;
144
145     if (cp == NULL || cp == type)
146     {
147         cp = strlen(type) + type;
148         *p->type = 0;
149     }
150     else
151         strcpy (p->type, cp+1);
152     for (i=0; tab[i].type; i++)
153     {
154         if (!memcmp (type, tab[i].type, cp-type))
155             return (tab[i].func)(p);
156     }
157     return NULL;
158 }
159
160 static void grs_init(void)
161 {
162 }
163
164 static void dumpkeys_word(data1_node *n, struct recExtractCtrl *p,
165     data1_att *att)
166 {
167     const char *b = n->u.data.data;
168     int remain;
169     const char **map = 0;
170
171     remain = n->u.data.len - (b - n->u.data.data);
172     if (remain > 0)
173         map = (*p->map_chrs_input)(&b, remain);
174
175     while (map)
176     {
177         RecWord wrd;
178         char buf[GRS_MAX_WORD+1];
179         int i, remain;
180
181         /* Skip spaces */
182         while (map && *map && **map == *CHR_SPACE)
183         {
184             remain = n->u.data.len - (b - n->u.data.data);
185             if (remain > 0)
186                 map = (*p->map_chrs_input)(&b, remain);
187             else
188                 map = 0;
189         }
190         if (!map)
191             break;
192         i = 0;
193         while (map && *map && **map != *CHR_SPACE)
194         {
195             const char *cp = *map;
196
197             while (i < GRS_MAX_WORD && *cp)
198                 buf[i++] = *(cp++);
199             remain = n->u.data.len - (b - n->u.data.data);
200             if (remain > 0)
201                 map = (*p->map_chrs_input)(&b, remain);
202             else
203                 map = 0;
204         }
205         if (!i)
206             return;
207         buf[i] = '\0';
208         (*p->init)(&wrd);      /* set defaults */
209         wrd.which = Word_String;
210         wrd.seqno = seqno++;
211         wrd.u.string = buf;
212         wrd.attrSet = att->parent->ordinal;
213         wrd.attrUse = att->locals->local;
214         (*p->add)(&wrd);
215     }
216 }
217
218 static void dumpkeys_phrase(data1_node *n, struct recExtractCtrl *p,
219     data1_att *att)
220 {
221     const char *b = n->u.data.data;
222     char buf[GRS_MAX_WORD+1];
223     const char **map = 0;
224     RecWord wrd;
225     int i = 0, remain;
226
227     remain = n->u.data.len - (b - n->u.data.data);
228     if (remain > 0)
229         map = (*p->map_chrs_input)(&b, remain);
230
231     while (remain > 0 && i < GRS_MAX_WORD)
232     {
233         while (map && *map && **map == *CHR_SPACE)
234         {
235             remain = n->u.data.len - (b - n->u.data.data);
236             if (remain > 0)
237                 map = (*p->map_chrs_input)(&b, remain);
238             else
239                 map = 0;
240         }
241         if (!map)
242             break;
243
244         if (i && i < GRS_MAX_WORD)
245             buf[i++] = *CHR_SPACE;
246         while (map && *map && **map != *CHR_SPACE)
247         {
248             const char *cp = *map;
249
250             if (i >= GRS_MAX_WORD)
251                 break;
252             while (i < GRS_MAX_WORD && *cp)
253                 buf[i++] = *(cp++);
254             remain = n->u.data.len - (b - n->u.data.data);
255             if (remain > 0)
256                 map = (*p->map_chrs_input)(&b, remain);
257             else
258                 map = 0;
259         }
260     }
261     if (!i)
262         return;
263     buf[i] = '\0';
264     (*p->init)(&wrd);
265     wrd.which = Word_Phrase;
266     wrd.seqno = seqno++;
267     wrd.u.string = buf;
268     wrd.attrSet = att->parent->ordinal;
269     wrd.attrUse = att->locals->local;
270     (*p->add)(&wrd);
271 }
272
273 static int dumpkeys(data1_node *n, struct recExtractCtrl *p, int level)
274 {
275     for (; n; n = n->next)
276     {
277         if (p->flagShowRecords) /* display element description to user */
278         {
279             if (n->which == DATA1N_root)
280             {
281                 printf("%*s", level * 4, "");
282                 printf("Record type: '%s'\n", n->u.root.absyn->name);
283             }
284             else if (n->which == DATA1N_tag)
285             {
286                 data1_element *e;
287
288                 printf("%*s", level * 4, "");
289                 if (!(e = n->u.tag.element))
290                     printf("Local tag: '%s'\n", n->u.tag.tag);
291                 else
292                 {
293                     printf("Elm: '%s' ", e->name);
294                     if (e->tag)
295                     {
296                         data1_tag *t = e->tag;
297
298                         printf("TagNam: '%s' ", t->names->name);
299                         printf("(");
300                         if (t->tagset)
301                             printf("%s[%d],", t->tagset->name, t->tagset->type);
302                         else
303                             printf("?,");
304                         if (t->which == DATA1T_numeric)
305                             printf("%d)", t->value.numeric);
306                         else
307                             printf("'%s')", t->value.string);
308                     }
309                     printf("\n");
310                 }
311             }
312         }
313
314         if (n->child)
315             if (dumpkeys(n->child, p, level + 1) < 0)
316                 return -1;
317
318         if (n->which == DATA1N_data)
319         {
320             data1_node *par = get_parent_tag(n);
321             data1_termlist *tlist = 0;
322
323             if (p->flagShowRecords)
324             {
325                 printf("%*s", level * 4, "");
326                 printf("Data: ");
327                 if (n->u.data.len > 20)
328                     printf("'%.20s...'\n", n->u.data.data);
329                 else if (n->u.data.len > 0)
330                     printf("'%.*s'\n", n->u.data.len, n->u.data.data);
331                 else
332                     printf("NULL\n");
333             }
334
335             assert(par);
336
337             /*
338              * cycle up towards the root until we find a tag with an att..
339              * this has the effect of indexing locally defined tags with
340              * the attribute of their ancestor in the record.
341              */
342
343             while (!par->u.tag.element)
344                 if (!par->parent || !(par = get_parent_tag(par->parent)))
345                     break;
346             if (!par)
347                 tlist = 0;
348             else if (par->u.tag.element->termlists)
349                 tlist = par->u.tag.element->termlists;
350             else
351                 continue;
352
353             for (; tlist; tlist = tlist->next)
354             {
355                 if (p->flagShowRecords)
356                 {
357                     printf("%*sIdx: [", (level + 1) * 4, "");
358                     switch (tlist->structure)
359                     {
360                         case DATA1S_word: printf("w"); break;
361                         case DATA1S_phrase: printf("p"); break;
362                         default: printf("?"); break;
363                     }
364                     printf("] ");
365                     printf("%s:%s [%d]\n", tlist->att->parent->name,
366                         tlist->att->name, tlist->att->value);
367                 }
368                 else switch (tlist->structure)
369                 {
370                     case DATA1S_word:
371                         dumpkeys_word(n, p, tlist->att); break;
372                     case DATA1S_phrase:
373                         dumpkeys_phrase(n, p, tlist->att); break;
374                     default:
375                         logf(LOG_FATAL, "Bad structure type in dumpkeys");
376                         abort();
377                 }
378             }
379         }
380         if (p->flagShowRecords && n->which == DATA1N_root)
381         {
382             printf("%*s-------------\n\n", level * 4, "");
383         }
384     }
385     return 0;
386 }
387
388 static int grs_extract(struct recExtractCtrl *p)
389 {
390     data1_node *n;
391     NMEM mem = nmem_create();
392     struct grs_read_info gri;
393     seqno = 0;
394
395     gri.readf = p->readf;
396     gri.seekf = p->seekf;
397     gri.tellf = p->tellf;
398     gri.endf = p->endf;
399     gri.fh = p->fh;
400     gri.offset = p->offset;
401     gri.mem = mem;
402
403     n = read_grs_type (&gri, p->subType);
404     if (!n)
405         return -1;
406     if (dumpkeys(n, p, 0) < 0)
407     {
408         data1_free_tree(n);
409         return -2;
410     }
411     data1_free_tree(n);
412     nmem_destroy(mem);
413     return 0;
414 }
415
416 /*
417  * Return: -1: Nothing done. 0: Ok. >0: Bib-1 diagnostic.
418  */
419 static int process_comp(data1_node *n, Z_RecordComposition *c)
420 {
421     data1_esetname *eset;
422     Z_Espec1 *espec = 0;
423     Z_ElementSpec *p;
424
425     switch (c->which)
426     {
427         case Z_RecordComp_simple:
428             if (c->u.simple->which != Z_ElementSetNames_generic)
429                 return 26; /* only generic form supported. Fix this later */
430             if (!(eset = data1_getesetbyname(n->u.root.absyn,
431                 c->u.simple->u.generic)))
432             {
433                 logf(LOG_LOG, "Unknown esetname '%s'", c->u.simple->u.generic);
434                 return 25; /* invalid esetname */
435             }
436             logf(LOG_DEBUG, "Esetname '%s' in simple compspec",
437                 c->u.simple->u.generic);
438             espec = eset->spec;
439             break;
440         case Z_RecordComp_complex:
441             if (c->u.complex->generic)
442             {
443                 /* insert check for schema */
444                 if ((p = c->u.complex->generic->elementSpec))
445                     switch (p->which)
446                     {
447                         case Z_ElementSpec_elementSetName:
448                             if (!(eset = data1_getesetbyname(n->u.root.absyn,
449                                 p->u.elementSetName)))
450                             {
451                                 logf(LOG_LOG, "Unknown esetname '%s'",
452                                     p->u.elementSetName);
453                                 return 25; /* invalid esetname */
454                             }
455                             logf(LOG_DEBUG, "Esetname '%s' in complex compspec",
456                                 p->u.elementSetName);
457                             espec = eset->spec;
458                             break;
459                         case Z_ElementSpec_externalSpec:
460                             if (p->u.externalSpec->which == Z_External_espec1)
461                             {
462                                 logf(LOG_DEBUG, "Got Espec-1");
463                                 espec = p->u.externalSpec-> u.espec1;
464                             }
465                             else
466                             {
467                                 logf(LOG_LOG, "Unknown external espec.");
468                                 return 25; /* bad. what is proper diagnostic? */
469                             }
470                             break;
471                     }
472             }
473             else
474                 return 26; /* fix */
475     }
476     if (espec)
477         return data1_doespec1(n, espec);
478     else
479         return -1;
480 }
481
482 static int grs_retrieve(struct recRetrieveCtrl *p)
483 {
484     data1_node *node = 0, *onode = 0;
485     data1_node *new;
486     data1_maptab *map;
487     int res, selected = 0;
488     NMEM mem = nmem_create();
489     struct grs_read_info gri;
490     
491     gri.readf = p->readf;
492     gri.seekf = p->seekf;
493     gri.tellf = p->tellf;
494     gri.endf = NULL;
495     gri.fh = p->fh;
496     gri.offset = 0;
497     gri.mem = mem;
498
499     node = read_grs_type (&gri, p->subType);
500 /* node = data1_read_record(p->readf, p->fh, mem); */
501     if (!node)
502     {
503         p->diagnostic = 2;
504         return 0;
505     }
506     if (p->score >= 0 && (new = data1_insert_taggeddata(node, node, "rank",
507         mem)))
508     {
509         new->u.data.what = DATA1I_num;
510         new->u.data.data = new->u.data.lbuf;
511         sprintf(new->u.data.data, "%d", p->score);
512         new->u.data.len = strlen(new->u.data.data);
513     }
514     if ((new = data1_insert_taggeddata(node, node, "localControlNumber", mem)))
515     {
516         new->u.data.what = DATA1I_text;
517         new->u.data.data = new->u.data.lbuf;
518         sprintf(new->u.data.data, "%d", p->localno);
519         new->u.data.len = strlen(new->u.data.data);
520     }
521     if (p->input_format == VAL_GRS1 && node->u.root.absyn &&
522         node->u.root.absyn->reference != VAL_NONE)
523     {
524         oident oe;
525         Odr_oid *oid;
526
527         oe.proto = PROTO_Z3950;
528         oe.oclass = CLASS_SCHEMA;
529         oe.value = node->u.root.absyn->reference;
530
531         if ((oid = oid_getoidbyent(&oe)))
532         {
533             char tmp[128];
534             char *p = tmp;
535             int *ii;
536
537             for (ii = oid; *ii >= 0; ii++)
538             {
539                 if (p != tmp)
540                     *(p++) = '.';
541                 sprintf(p, "%d", *ii);
542                 p += strlen(p);
543             }
544             *(p++) = '\0';
545
546             if ((new = data1_insert_taggeddata(node, node, "schemaIdentifier",
547                 mem)))
548             {
549                 new->u.data.what = DATA1I_oid;
550                 new->u.data.data = nmem_malloc(mem, p - tmp);
551                 memcpy(new->u.data.data, tmp, p - tmp);
552                 new->u.data.len = p - tmp;
553             }
554         }
555     }
556
557     /*
558      * Does the requested format match a known schema-mapping? (this reflects
559      * the overlap of schema and formatting which is inherent in the MARC
560      * family)
561      * NOTE: This should look at the schema-specification in the compspec
562      * as well.
563      */
564     for (map = node->u.root.absyn->maptabs; map; map = map->next)
565         if (map->target_absyn_ref == p->input_format)
566         {
567             onode = node;
568             if (!(node = data1_map_record(onode, map, mem)))
569             {
570                 p->diagnostic = 14;
571                 return 0;
572             }
573
574             break;
575         }
576
577     if (p->comp && (res = process_comp(node, p->comp)) > 0)
578     {
579         p->diagnostic = res;
580         if (onode)
581             data1_free_tree(onode);
582         data1_free_tree(node);
583         nmem_destroy(mem);
584         return 0;
585     }
586     else if (p->comp && !res)
587         selected = 1;
588
589     switch (p->output_format = (p->input_format != VAL_NONE ?
590         p->input_format : VAL_SUTRS))
591     {
592         data1_marctab *marctab;
593         int dummy;
594
595         case VAL_GRS1:
596             dummy = 0;
597             if (!(p->rec_buf = data1_nodetogr(node, selected, p->odr, &dummy)))
598                 p->diagnostic = 2; /* this should be better specified */
599             else
600                 p->rec_len = -1;
601             break;
602         case VAL_EXPLAIN:
603             if (!(p->rec_buf = data1_nodetoexplain(node, selected, p->odr)))
604                 p->diagnostic = 2; /* this should be better specified */
605             else
606                 p->rec_len = -1;
607             break;
608         case VAL_SUMMARY:
609             if (!(p->rec_buf = data1_nodetosummary(node, selected, p->odr)))
610                 p->diagnostic = 2;
611             else
612                 p->rec_len = -1;
613             break;
614         case VAL_SUTRS:
615             if (!(p->rec_buf = data1_nodetobuf(node, selected,
616                 (int*)&p->rec_len)))
617             {
618                 p->diagnostic = 2;
619                 break;
620             }
621             break;
622         case VAL_SOIF:
623             if (!(p->rec_buf = data1_nodetosoif(node, selected,
624                 (int*)&p->rec_len)))
625             {
626                 p->diagnostic = 2;
627                 break;
628             }
629             break;
630         default:
631             for (marctab = node->u.root.absyn->marc; marctab;
632                 marctab = marctab->next)
633                 if (marctab->reference == p->input_format)
634                     break;
635             if (!marctab)
636             {
637                 p->diagnostic = 227;
638                 break;
639             }
640             if (!(p->rec_buf = data1_nodetomarc(marctab, node, selected,
641                 (int*)&p->rec_len)))
642             {
643                 p->diagnostic = 2;
644                 break;
645             }
646     }
647     if (node)
648         data1_free_tree(node);
649     if (onode)
650         data1_free_tree(onode);
651     nmem_destroy(mem);
652     return 0;
653 }
654
655 static struct recType grs_type =
656 {
657     "grs",
658     grs_init,
659     grs_extract,
660     grs_retrieve
661 };
662
663 RecType recTypeGrs = &grs_type;