Zebra uses string attributes for indexing internally. Using set+numeric
[idzebra-moved-to-github.git] / include / idzebra / data1.h
1 /* $Id: data1.h,v 1.13 2006-05-19 13:49:34 adam Exp $
2    Copyright (C) 1995-2006
3    Index Data ApS
4
5 This file is part of the Zebra server.
6
7 Zebra is free software; you can redistribute it and/or modify it under
8 the terms of the GNU General Public License as published by the Free
9 Software Foundation; either version 2, or (at your option) any later
10 version.
11
12 Zebra is distributed in the hope that it will be useful, but WITHOUT ANY
13 WARRANTY; without even the implied warranty of MERCHANTABILITY or
14 FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
15 for more details.
16
17 You should have received a copy of the GNU General Public License
18 along with Zebra; see the file LICENSE.zebra.  If not, write to the
19 Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
20 02111-1307, USA.
21 */
22
23 #ifndef DATA1_H
24 #define DATA1_H
25
26 #include <stdio.h>
27
28 #include <yaz/nmem.h>
29 #include <yaz/oid.h>
30 #include <yaz/proto.h>
31 #include <yaz/yaz-util.h>
32
33 #include <idzebra/util.h>
34
35 #define d1_isspace(c) strchr(" \r\n\t\f", c)
36 #define d1_isdigit(c) ((c) <= '9' && (c) >= '0')
37
38 YAZ_BEGIN_CDECL
39
40 #define data1_matchstr(s1, s2) yaz_matchstr(s1, s2)
41
42 #define DATA1_MAX_SYMBOL 31
43
44 /*
45  * This structure describes a attset, perhaps made up by inclusion
46  * (supersetting) of other attribute sets. When indexing and searching,
47  * we perform a normalisation, where we associate a given tag with
48  * the set that originally defined it, rather than the superset. This
49  * allows the most flexible access. Eg, the tags common to GILS and BIB-1
50  * should be searchable by both names.
51  */
52
53 struct data1_attset;
54
55 typedef struct data1_local_attribute
56 {
57     int local;
58     struct data1_local_attribute *next;
59 } data1_local_attribute;
60
61 typedef struct data1_attset data1_attset;    
62 typedef struct data1_att data1_att;
63 typedef struct data1_attset_child data1_attset_child;
64
65 struct data1_att
66 {
67     data1_attset *parent;          /* attribute set */
68     char *name;                    /* symbolic name of this attribute */
69     int value;                     /* attribute value */
70     data1_local_attribute *locals; /* local index values */
71     data1_att *next;
72 };
73
74 struct data1_attset_child {
75     data1_attset *child;
76     data1_attset_child *next;
77 };
78
79 struct data1_attset
80 {
81     char *name;          /* symbolic name */
82     oid_value reference;   /* external ID of attset */
83     data1_att *atts;          /* attributes */
84     data1_attset_child *children;  /* included attset */
85     data1_attset *next;       /* next in cache */
86 };
87
88 typedef struct data1_handle_info *data1_handle;
89
90 YAZ_EXPORT data1_att *data1_getattbyname(data1_handle dh, data1_attset *s,
91                                          const char *name);
92 YAZ_EXPORT data1_attset *data1_read_attset(data1_handle dh, const char *file);
93
94 YAZ_EXPORT data1_attset *data1_empty_attset(data1_handle dh);
95
96 typedef struct data1_maptag
97 {
98     int new_field;
99     int type;
100 #define D1_MAPTAG_numeric 1
101 #define D1_MAPTAG_string 2
102     int which;
103     union
104     {
105         int numeric;
106         char *string;
107     } value;
108     struct data1_maptag *next;
109 } data1_maptag;
110
111 typedef struct data1_mapunit
112 {
113     int no_data;
114     char *source_element_name;
115     data1_maptag *target_path;
116     struct data1_mapunit *next;
117 } data1_mapunit;
118
119 typedef struct data1_maptab
120 {
121     char *name;
122     oid_value target_absyn_ref;
123     char *target_absyn_name;
124     data1_mapunit *map;
125     struct data1_maptab *next;
126 } data1_maptab;
127
128 typedef struct data1_name
129 {
130     char *name;
131     struct data1_name *next;
132 } data1_name;
133
134 typedef struct data1_absyn_cache_info *data1_absyn_cache;
135 typedef struct data1_attset_cache_info *data1_attset_cache;
136 typedef struct data1_absyn data1_absyn;
137
138 typedef enum data1_datatype
139 {
140     DATA1K_unknown,
141     DATA1K_structured,
142     DATA1K_string,
143     DATA1K_numeric,
144     DATA1K_bool,
145     DATA1K_oid,
146     DATA1K_generalizedtime,
147     DATA1K_intunit,
148     DATA1K_int,
149     DATA1K_octetstring,
150     DATA1K_null
151 } data1_datatype;
152
153 typedef struct data1_marctab
154 {
155     char *name;
156     oid_value reference;
157
158     char record_status[2];
159     char implementation_codes[5];
160     int  indicator_length;
161     int  identifier_length;
162     char user_systems[4];
163
164     int  length_data_entry;
165     int  length_starting;
166     int  length_implementation;
167     char future_use[2];
168
169     int  force_indicator_length;
170     int  force_identifier_length;
171     char leader[24]; /* Fixme! Need linear access to LEADER of MARC record */  
172     struct data1_marctab *next;
173 } data1_marctab;
174
175 typedef struct data1_esetname
176 {
177     char *name;
178     Z_Espec1 *spec;
179     struct data1_esetname *next;
180 } data1_esetname;
181
182 /*
183  * Variant set definitions.
184  */
185
186 typedef struct data1_vartype
187 {
188     char *name;
189     struct data1_varclass *zclass;
190     int type;
191     data1_datatype datatype;
192     struct data1_vartype *next;
193 } data1_vartype;
194
195 typedef struct data1_varclass
196 {
197     char *name;
198     struct data1_varset *set;
199     int zclass;
200     data1_vartype *types;
201     struct data1_varclass *next;
202 } data1_varclass;
203
204 typedef struct data1_varset
205 {
206     char *name;
207     oid_value reference;
208     data1_varclass *classes;
209 } data1_varset;
210
211 /*
212  * Tagset definitions
213  */
214
215 struct data1_tagset;
216
217 typedef struct data1_tag
218 {
219     data1_name *names;
220 #define DATA1T_numeric 1
221 #define DATA1T_string 2
222     int which;
223     union
224     {
225         int numeric;
226         char *string;
227     } value;
228     data1_datatype kind;
229
230     struct data1_tagset *tagset;
231     struct data1_tag *next;
232 } data1_tag;
233
234 typedef struct data1_tagset data1_tagset;
235
236 struct data1_tagset
237 {
238     int type;                        /* type of tagset in current context */
239     char *name;                      /* symbolic name */
240     oid_value reference;
241     data1_tag *tags;                 /* tags defined by this set */
242     data1_tagset *children;          /* children */
243     data1_tagset *next;              /* sibling */
244 };
245
246 typedef struct data1_termlist
247 {
248     char *index_name;
249     char *structure;
250     char *source;
251     struct data1_termlist *next;
252 } data1_termlist;
253
254 /*
255  * abstract syntax specification
256  */
257
258 typedef struct data1_element
259 {
260     char *name;
261     data1_tag *tag;
262     data1_termlist *termlists;
263     char *sub_name;
264     struct data1_element *children;
265     struct data1_element *next;
266     struct data1_hash_table *hash;
267 } data1_element;
268
269 typedef struct data1_sub_elements {
270     char *name;
271     struct data1_sub_elements *next;
272     data1_element *elements;
273 } data1_sub_elements;
274
275 typedef struct data1_xattr {
276     char *name;
277     char *value;
278     struct data1_xattr *next;
279     unsigned short what;  /* DATA1I_text, .. see data1_node.u.data */
280 } data1_xattr;
281
282
283 /*
284  * record data node (tag/data/variant)
285  */
286
287 typedef struct data1_node
288 {
289     /* the root of a record (containing global data) */
290 #define DATA1N_root 1 
291     /* a tag */
292 #define DATA1N_tag  2       
293     /* some data under a leaf tag or variant */
294 #define DATA1N_data 3
295     /* variant specification (a triple, actually) */
296 #define DATA1N_variant 4
297     /* comment (same as data) */
298 #define DATA1N_comment 5
299     /* preprocessing instruction */
300 #define DATA1N_preprocess 6
301     int which;
302     union
303     {
304         struct
305         {
306             char *type;
307             struct data1_absyn *absyn;  /* abstract syntax for this type */
308         } root;
309
310         struct 
311         {
312             char *tag;
313             data1_element *element;
314             int no_data_requested;
315             int get_bytes;
316             unsigned node_selected : 1;
317             unsigned make_variantlist : 1;
318             data1_xattr *attributes;
319         } tag;
320
321         struct
322         {
323             char *data;      /* filename or data */
324             int len;
325             /* text inclusion */
326 #define DATA1I_inctxt 1
327             /* binary data inclusion */
328 #define DATA1I_incbin 2
329         /* text data */
330 #define DATA1I_text 3 
331             /* numerical data */
332 #define DATA1I_num 4
333             /* object identifier */
334 #define DATA1I_oid 5
335             /* XML text */
336 #define DATA1I_xmltext 6
337             unsigned what:7;
338             unsigned formatted_text : 1;   /* newlines are significant */
339         } data;
340
341         struct
342         {
343             data1_vartype *type;
344             char *value;
345         } variant;
346
347         struct
348         {
349             char *target;
350             data1_xattr *attributes;
351         } preprocess;
352     } u;
353
354     void (*destroy)(struct data1_node *n);
355 #define DATA1_LOCALDATA 12
356     char lbuf[DATA1_LOCALDATA]; /* small buffer for local data */
357     struct data1_node *next;
358     struct data1_node *child;
359     struct data1_node *last_child;
360     struct data1_node *parent;
361     struct data1_node *root;
362 } data1_node;
363
364 YAZ_EXPORT data1_handle data1_create (void);
365
366
367 YAZ_EXPORT void data1_destroy(data1_handle dh);
368 YAZ_EXPORT data1_node *get_parent_tag(data1_handle dh, data1_node *n);
369 YAZ_EXPORT data1_node *data1_read_node(data1_handle dh, const char **buf,
370                                        NMEM m);
371 YAZ_EXPORT data1_node *data1_read_nodex (data1_handle dh, NMEM m,
372                                          int (*get_byte)(void *fh), void *fh,
373                                          WRBUF wrbuf);
374 YAZ_EXPORT data1_node *data1_read_record(data1_handle dh, 
375                                          int (*rf)(void *, char *, size_t),
376                                          void *fh, NMEM m);
377 YAZ_EXPORT data1_absyn *data1_read_absyn(data1_handle dh, const char *file,
378                                          int file_must_exist);
379 YAZ_EXPORT data1_tag *data1_gettagbynum(data1_handle dh,
380                                         data1_tagset *s,
381                                         int type, int value);
382 YAZ_EXPORT data1_tagset *data1_empty_tagset (data1_handle dh);
383 YAZ_EXPORT data1_tagset *data1_read_tagset(data1_handle dh, 
384                                            const char *file,
385                                            int type);
386 YAZ_EXPORT data1_element *data1_getelementbytagname(data1_handle dh, 
387                                                     data1_absyn *abs,
388                                                     data1_element *parent,
389                                                     const char *tagname);
390 YAZ_EXPORT Z_GenericRecord *data1_nodetogr(data1_handle dh, data1_node *n,
391                                            int select, ODR o,
392                                            int *len);
393 YAZ_EXPORT data1_tag *data1_gettagbyname(data1_handle dh, data1_tagset *s,
394                                          const char *name);
395 YAZ_EXPORT void data1_free_tree(data1_handle dh, data1_node *t);
396 YAZ_EXPORT char *data1_nodetobuf(data1_handle dh, data1_node *n,
397                                  int select, int *len);
398 YAZ_EXPORT data1_node *data1_mk_tag_data_wd(data1_handle dh,
399                                             data1_node *at,
400                                             const char *tagname, NMEM m);
401 YAZ_EXPORT data1_node *data1_mk_tag_data(data1_handle dh, data1_node *at,
402                                          const char *tagname, NMEM m);
403 YAZ_EXPORT data1_datatype data1_maptype(data1_handle dh, char *t);
404 YAZ_EXPORT data1_varset *data1_read_varset(data1_handle dh, const char *file);
405 YAZ_EXPORT data1_vartype *data1_getvartypebyct(data1_handle dh,
406                                                data1_varset *set,
407                                                const char *zclass,
408                                                const char *type);
409 YAZ_EXPORT data1_vartype *data1_getvartypeby_absyn(data1_handle dh,
410                                                    data1_absyn *absyn,
411                                                    char *zclass, char *type);
412 YAZ_EXPORT Z_Espec1 *data1_read_espec1(data1_handle dh, const char *file);
413 YAZ_EXPORT int data1_doespec1(data1_handle dh, data1_node *n, Z_Espec1 *e);
414 YAZ_EXPORT data1_esetname *data1_getesetbyname(data1_handle dh, 
415                                                data1_absyn *a,
416                                                const char *name);
417 YAZ_EXPORT data1_element *data1_getelementbyname(data1_handle dh,
418                                                  data1_absyn *absyn,
419                                                  const char *name);
420 YAZ_EXPORT data1_node *data1_mk_node2(data1_handle dh, NMEM m,
421                                       int type, data1_node *parent);
422
423 YAZ_EXPORT data1_node *data1_mk_tag (data1_handle dh, NMEM nmem, 
424                                      const char *tag, const char **attr,
425                                      data1_node *at);
426 YAZ_EXPORT data1_node *data1_mk_tag_n (data1_handle dh, NMEM nmem,
427                                        const char *tag, size_t len,
428                                        const char **attr,
429                                        data1_node *at);
430 YAZ_EXPORT void data1_tag_add_attr (data1_handle dh, NMEM nmem,
431                                     data1_node *res, const char **attr);
432
433 YAZ_EXPORT data1_node *data1_mk_text_n (data1_handle dh, NMEM mem,
434                                         const char *buf, size_t len,
435                                         data1_node *parent);
436 YAZ_EXPORT data1_node *data1_mk_text_nf (data1_handle dh, NMEM mem,
437                                          const char *buf, size_t len,
438                                          data1_node *parent);
439 YAZ_EXPORT data1_node *data1_mk_text (data1_handle dh, NMEM mem,
440                                       const char *buf, data1_node *parent);
441
442 YAZ_EXPORT data1_node *data1_mk_comment_n (data1_handle dh, NMEM mem,
443                                            const char *buf, size_t len,
444                                            data1_node *parent);
445
446 YAZ_EXPORT data1_node *data1_mk_comment (data1_handle dh, NMEM mem,
447                                          const char *buf, data1_node *parent);
448
449 YAZ_EXPORT data1_node *data1_mk_preprocess_n (data1_handle dh, NMEM nmem,
450                                               const char *target, size_t len,
451                                               const char **attr,
452                                               data1_node *at);
453
454 YAZ_EXPORT data1_node *data1_mk_preprocess (data1_handle dh, NMEM nmem,
455                                             const char *target,
456                                             const char **attr,
457                                             data1_node *at);
458
459 YAZ_EXPORT data1_node *data1_insert_preprocess_n (data1_handle dh, NMEM nmem,
460                                                   const char *target,
461                                                   size_t len,
462                                                   const char **attr,
463                                                   data1_node *at);
464
465 YAZ_EXPORT data1_node *data1_insert_preprocess (data1_handle dh, NMEM nmem,
466                                                 const char *target,
467                                                 const char **attr,
468                                                 data1_node *at);
469
470 YAZ_EXPORT data1_node *data1_mk_root (data1_handle dh, NMEM nmem,
471                                       const char *name);
472 YAZ_EXPORT void data1_set_root(data1_handle dh, data1_node *res,
473                                NMEM nmem, const char *name);
474
475 YAZ_EXPORT data1_node *data1_mk_tag_data_zint (data1_handle dh, data1_node *at,
476                                                const char *tag, zint num,
477                                                NMEM nmem);
478 YAZ_EXPORT data1_node *data1_mk_tag_data_int (data1_handle dh, data1_node *at,
479                                               const char *tag, int num,
480                                               NMEM nmem);
481 YAZ_EXPORT data1_node *data1_mk_tag_data_oid (data1_handle dh, data1_node *at,
482                                               const char *tag, Odr_oid *oid,
483                                               NMEM nmem);
484 YAZ_EXPORT data1_node *data1_mk_tag_data_text (data1_handle dh, data1_node *at,
485                                                const char *tag,
486                                                const char *str,
487                                                NMEM nmem);
488 YAZ_EXPORT data1_node *data1_mk_tag_data_text_uni (data1_handle dh,
489                                                    data1_node *at,
490                                                    const char *tag,
491                                                    const char *str,
492                                                    NMEM nmem);
493
494 YAZ_EXPORT data1_absyn *data1_get_absyn (data1_handle dh, const char *name);
495
496 YAZ_EXPORT data1_node *data1_search_tag (data1_handle dh, data1_node *n,
497                                          const char *tag);
498 YAZ_EXPORT data1_node *data1_mk_tag_uni (data1_handle dh, NMEM nmem, 
499                                          const char *tag, data1_node *at);
500 YAZ_EXPORT data1_attset *data1_get_attset (data1_handle dh, const char *name);
501 YAZ_EXPORT data1_maptab *data1_read_maptab(data1_handle dh, const char *file);
502 YAZ_EXPORT data1_node *data1_map_record(data1_handle dh, data1_node *n,
503                                         data1_maptab *map, NMEM m);
504 YAZ_EXPORT data1_marctab *data1_read_marctab (data1_handle dh,
505                                               const char *file);
506 YAZ_EXPORT data1_marctab *data1_absyn_getmarctab(data1_handle dh,
507                                                  data1_absyn *absyn);
508 YAZ_EXPORT data1_element *data1_absyn_getelements(data1_handle dh,
509                                                  data1_absyn *absyn);
510 YAZ_EXPORT char *data1_nodetomarc(data1_handle dh, data1_marctab *p,
511                                   data1_node *n, int selected, int *len);
512 YAZ_EXPORT char *data1_nodetoidsgml(data1_handle dh, data1_node *n,
513                                     int select, int *len);
514 YAZ_EXPORT Z_ExplainRecord *data1_nodetoexplain(data1_handle dh,
515                                                 data1_node *n, int select,
516                                                 ODR o);
517 YAZ_EXPORT Z_BriefBib *data1_nodetosummary(data1_handle dh, 
518                                            data1_node *n, int select,
519                                            ODR o);
520 YAZ_EXPORT char *data1_nodetosoif(data1_handle dh, data1_node *n, int select,
521                                   int *len);
522 YAZ_EXPORT void data1_set_tabpath(data1_handle dh, const char *path);
523 YAZ_EXPORT void data1_set_tabroot (data1_handle dp, const char *p);
524 YAZ_EXPORT const char *data1_get_tabpath(data1_handle dh);
525 YAZ_EXPORT const char *data1_get_tabroot(data1_handle dh);
526
527 YAZ_EXPORT WRBUF data1_get_wrbuf (data1_handle dp);
528 YAZ_EXPORT char **data1_get_read_buf (data1_handle dp, int **lenp);
529 YAZ_EXPORT char **data1_get_map_buf (data1_handle dp, int **lenp);
530 YAZ_EXPORT data1_absyn_cache *data1_absyn_cache_get (data1_handle dh);
531 YAZ_EXPORT data1_attset_cache *data1_attset_cache_get (data1_handle dh);
532 YAZ_EXPORT NMEM data1_nmem_get (data1_handle dh);
533 YAZ_EXPORT void data1_pr_tree (data1_handle dh, data1_node *n, FILE *out);
534 YAZ_EXPORT char *data1_insert_string (data1_handle dh, data1_node *res,
535                                       NMEM m, const char *str);
536 YAZ_EXPORT char *data1_insert_string_n (data1_handle dh, data1_node *res,
537                                         NMEM m, const char *str, size_t len);
538 YAZ_EXPORT data1_node *data1_read_sgml (data1_handle dh, NMEM m,
539                                         const char *buf);
540 YAZ_EXPORT data1_node *data1_read_xml (data1_handle dh,
541                                        int (*rf)(void *, char *, size_t),
542                                        void *fh, NMEM m);
543 YAZ_EXPORT void data1_absyn_trav (data1_handle dh, void *handle,
544                                   void (*fh)(data1_handle dh,
545                                              void *h, data1_absyn *a));
546
547 YAZ_EXPORT data1_attset *data1_attset_search_id (data1_handle dh, int id);
548
549 YAZ_EXPORT char *data1_getNodeValue(data1_node* node, char* pTagPath);
550 YAZ_EXPORT data1_node *data1_LookupNode(data1_node* node, char* pTagPath);
551 YAZ_EXPORT int data1_CountOccurences(data1_node* node, char* pTagPath);
552
553 YAZ_EXPORT FILE *data1_path_fopen (data1_handle dh, const char *file,
554                                    const char *mode);
555
556 /* obsolete functions ... */
557
558 YAZ_EXPORT data1_node *data1_mk_node (data1_handle dh, NMEM m);
559 YAZ_EXPORT data1_node *data1_insert_taggeddata (data1_handle dh,
560                                                 data1_node *root,
561                                                 data1_node *at,
562                                                 const char *tagname, NMEM m);
563 YAZ_EXPORT data1_node *data1_mk_node_type (data1_handle dh, NMEM m, int type);
564 YAZ_EXPORT data1_node *data1_add_taggeddata (data1_handle dh, data1_node *root,
565                                              data1_node *at,
566                                              const char *tagname,
567                                              NMEM m);
568
569 YAZ_EXPORT data1_node *data1_get_root_tag (data1_handle dh, data1_node *n);
570
571 YAZ_EXPORT int data1_iconv (data1_handle dh, NMEM m, data1_node *n,
572                             const char *tocode, 
573                             const char *fromcode);
574
575 YAZ_EXPORT const char *data1_get_encoding (data1_handle dh, data1_node *n);
576
577 YAZ_EXPORT int data1_is_xmlmode(data1_handle dh);
578
579 YAZ_EXPORT const char *data1_systag_lookup(data1_absyn *absyn, const char *tag,
580                                            const char *default_value);
581
582 YAZ_EXPORT void data1_concat_text(data1_handle dh, NMEM m, data1_node *n);
583
584 YAZ_EXPORT void data1_absyn_destroy(data1_handle dh);
585
586 YAZ_END_CDECL
587
588 #endif
589 /*
590  * Local variables:
591  * c-basic-offset: 4
592  * indent-tabs-mode: nil
593  * End:
594  * vim: shiftwidth=4 tabstop=8 expandtab
595  */
596