Added data1_chop_text which removes whitespace in cdata nodes
[idzebra-moved-to-github.git] / include / idzebra / data1.h
1 /* $Id: data1.h,v 1.24 2007-06-27 22:04:45 adam Exp $
2    Copyright (C) 1995-2007
3    Index Data ApS
4
5 This file is part of the Zebra server.
6
7 Zebra is free software; you can redistribute it and/or modify it under
8 the terms of the GNU General Public License as published by the Free
9 Software Foundation; either version 2, or (at your option) any later
10 version.
11
12 Zebra is distributed in the hope that it will be useful, but WITHOUT ANY
13 WARRANTY; without even the implied warranty of MERCHANTABILITY or
14 FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
15 for more details.
16
17 You should have received a copy of the GNU General Public License
18 along with this program; if not, write to the Free Software
19 Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA
20
21 */
22
23 #ifndef DATA1_H
24 #define DATA1_H
25
26 #include <stdio.h>
27
28 #include <yaz/nmem.h>
29 #include <yaz/proto.h>
30 #include <yaz/yaz-util.h>
31
32 #include <idzebra/util.h>
33
34 #define d1_isspace(c) strchr(" \r\n\t\f", c)
35 #define d1_isdigit(c) ((c) <= '9' && (c) >= '0')
36
37 YAZ_BEGIN_CDECL
38
39 #define data1_matchstr(s1, s2) yaz_matchstr(s1, s2)
40
41 #define DATA1_MAX_SYMBOL 31
42
43 /*
44  * This structure describes a attset, perhaps made up by inclusion
45  * (supersetting) of other attribute sets. When indexing and searching,
46  * we perform a normalisation, where we associate a given tag with
47  * the set that originally defined it, rather than the superset. This
48  * allows the most flexible access. Eg, the tags common to GILS and BIB-1
49  * should be searchable by both names.
50  */
51
52 struct data1_attset;
53
54 typedef struct data1_attset data1_attset;    
55 typedef struct data1_att data1_att;
56 typedef struct data1_attset_child data1_attset_child;
57
58 struct data1_att
59 {
60     data1_attset *parent;          /* attribute set */
61     char *name;                    /* symbolic name of this attribute */
62     int value;                     /* attribute value */
63     data1_att *next;
64 };
65
66 struct data1_attset_child {
67     data1_attset *child;
68     data1_attset_child *next;
69 };
70
71 struct data1_attset
72 {
73     char *name;          /* symbolic name */
74     Odr_oid *oid;        /* attribute set OID */
75     data1_att *atts;          /* attributes */
76     data1_attset_child *children;  /* included attset */
77     data1_attset *next;       /* next in cache */
78 };
79
80 typedef struct data1_handle_info *data1_handle;
81
82 YAZ_EXPORT data1_att *data1_getattbyname(data1_handle dh, data1_attset *s,
83                                          const char *name);
84 YAZ_EXPORT data1_attset *data1_read_attset(data1_handle dh, const char *file);
85
86 YAZ_EXPORT data1_attset *data1_empty_attset(data1_handle dh);
87
88 typedef struct data1_maptag
89 {
90     int new_field;
91     int type;
92 #define D1_MAPTAG_numeric 1
93 #define D1_MAPTAG_string 2
94     int which;
95     union
96     {
97         int numeric;
98         char *string;
99     } value;
100     struct data1_maptag *next;
101 } data1_maptag;
102
103 typedef struct data1_mapunit
104 {
105     int no_data;
106     char *source_element_name;
107     data1_maptag *target_path;
108     struct data1_mapunit *next;
109 } data1_mapunit;
110
111 typedef struct data1_maptab
112 {
113     char *name;
114     Odr_oid *oid;  /* target abstract syntax  */
115     char *target_absyn_name;
116     data1_mapunit *map;
117     struct data1_maptab *next;
118 } data1_maptab;
119
120 typedef struct data1_name
121 {
122     char *name;
123     struct data1_name *next;
124 } data1_name;
125
126 typedef struct data1_absyn_cache_info *data1_absyn_cache;
127 typedef struct data1_attset_cache_info *data1_attset_cache;
128 typedef struct data1_absyn data1_absyn;
129
130 typedef enum data1_datatype
131 {
132     DATA1K_unknown,
133     DATA1K_structured,
134     DATA1K_string,
135     DATA1K_numeric,
136     DATA1K_bool,
137     DATA1K_oid,
138     DATA1K_generalizedtime,
139     DATA1K_intunit,
140     DATA1K_int,
141     DATA1K_octetstring,
142     DATA1K_null
143 } data1_datatype;
144
145 typedef struct data1_marctab
146 {
147     char *name;
148     Odr_oid *oid; /* MARC OID */
149
150     char record_status[2];
151     char implementation_codes[5];
152     int  indicator_length;
153     int  identifier_length;
154     char user_systems[4];
155
156     int  length_data_entry;
157     int  length_starting;
158     int  length_implementation;
159     char future_use[2];
160
161     int  force_indicator_length;
162     int  force_identifier_length;
163     char leader[24]; /* Fixme! Need linear access to LEADER of MARC record */  
164     struct data1_marctab *next;
165 } data1_marctab;
166
167 typedef struct data1_esetname
168 {
169     char *name;
170     Z_Espec1 *spec;
171     struct data1_esetname *next;
172 } data1_esetname;
173
174 /*
175  * Variant set definitions.
176  */
177
178 typedef struct data1_vartype
179 {
180     char *name;
181     struct data1_varclass *zclass;
182     int type;
183     data1_datatype datatype;
184     struct data1_vartype *next;
185 } data1_vartype;
186
187 typedef struct data1_varclass
188 {
189     char *name;
190     struct data1_varset *set;
191     int zclass;
192     data1_vartype *types;
193     struct data1_varclass *next;
194 } data1_varclass;
195
196 typedef struct data1_varset
197 {
198     char *name;
199     Odr_oid *oid; /* variant OID */
200     data1_varclass *classes;
201 } data1_varset;
202
203 /*
204  * Tagset definitions
205  */
206
207 struct data1_tagset;
208
209 typedef struct data1_tag
210 {
211     data1_name *names;
212 #define DATA1T_numeric 1
213 #define DATA1T_string 2
214     int which;
215     union
216     {
217         int numeric;
218         char *string;
219     } value;
220     data1_datatype kind;
221
222     struct data1_tagset *tagset;
223     struct data1_tag *next;
224 } data1_tag;
225
226 typedef struct data1_tagset data1_tagset;
227
228 struct data1_tagset
229 {
230     int type;                        /* type of tagset in current context */
231     char *name;                      /* symbolic name */
232     Odr_oid *oid;                        /* variant OID */
233     data1_tag *tags;                 /* tags defined by this set */
234     data1_tagset *children;          /* children */
235     data1_tagset *next;              /* sibling */
236 };
237
238 typedef struct data1_termlist
239 {
240     char *index_name;
241     char *structure;
242     char *source;
243     struct data1_termlist *next;
244 } data1_termlist;
245
246 /*
247  * abstract syntax specification
248  */
249
250 typedef struct data1_element
251 {
252     char *name;
253     data1_tag *tag;
254     data1_termlist *termlists;
255     char *sub_name;
256     struct data1_element *children;
257     struct data1_element *next;
258     struct data1_hash_table *hash;
259 } data1_element;
260
261 typedef struct data1_sub_elements {
262     char *name;
263     struct data1_sub_elements *next;
264     data1_element *elements;
265 } data1_sub_elements;
266
267 typedef struct data1_xattr {
268     char *name;
269     char *value;
270     struct data1_xattr *next;
271     unsigned short what;  /* DATA1I_text, .. see data1_node.u.data */
272 } data1_xattr;
273
274
275 /*
276  * record data node (tag/data/variant)
277  */
278
279 typedef struct data1_node
280 {
281     /* the root of a record (containing global data) */
282 #define DATA1N_root 1 
283     /* a tag */
284 #define DATA1N_tag  2       
285     /* some data under a leaf tag or variant */
286 #define DATA1N_data 3
287     /* variant specification (a triple, actually) */
288 #define DATA1N_variant 4
289     /* comment (same as data) */
290 #define DATA1N_comment 5
291     /* preprocessing instruction */
292 #define DATA1N_preprocess 6
293     int which;
294     union
295     {
296         struct
297         {
298             char *type;
299             struct data1_absyn *absyn;  /* abstract syntax for this type */
300         } root;
301
302         struct 
303         {
304             char *tag;
305             data1_element *element;
306             int no_data_requested;
307             int get_bytes;
308             unsigned node_selected : 1;
309             unsigned make_variantlist : 1;
310             data1_xattr *attributes;
311         } tag;
312
313         struct
314         {
315             char *data;      /* filename or data */
316             int len;
317             /* text inclusion */
318 #define DATA1I_inctxt 1
319             /* binary data inclusion */
320 #define DATA1I_incbin 2
321         /* text data */
322 #define DATA1I_text 3 
323             /* numerical data */
324 #define DATA1I_num 4
325             /* object identifier */
326 #define DATA1I_oid 5
327             /* XML text */
328 #define DATA1I_xmltext 6
329             unsigned what:7;
330             unsigned formatted_text : 1;   /* newlines are significant */
331         } data;
332
333         struct
334         {
335             data1_vartype *type;
336             char *value;
337         } variant;
338
339         struct
340         {
341             char *target;
342             data1_xattr *attributes;
343         } preprocess;
344     } u;
345
346 #define DATA1_LOCALDATA 12
347     char lbuf[DATA1_LOCALDATA]; /* small buffer for local data */
348     struct data1_node *next;
349     struct data1_node *child;
350     struct data1_node *last_child;
351     struct data1_node *parent;
352     struct data1_node *root;
353 } data1_node;
354
355 enum DATA1_XPATH_INDEXING {
356     DATA1_XPATH_INDEXING_DISABLE,
357     DATA1_XPATH_INDEXING_ENABLE
358 };
359
360 YAZ_EXPORT data1_handle data1_create (void);
361
362
363 YAZ_EXPORT void data1_destroy(data1_handle dh);
364 YAZ_EXPORT data1_node *get_parent_tag(data1_handle dh, data1_node *n);
365 YAZ_EXPORT data1_node *data1_read_node(data1_handle dh, const char **buf,
366                                        NMEM m);
367 YAZ_EXPORT data1_node *data1_read_nodex (data1_handle dh, NMEM m,
368                                          int (*get_byte)(void *fh), void *fh,
369                                          WRBUF wrbuf);
370 YAZ_EXPORT data1_node *data1_read_record(data1_handle dh, 
371                                          int (*rf)(void *, char *, size_t),
372                                          void *fh, NMEM m);
373
374 YAZ_EXPORT void data1_remove_node (data1_handle dh, data1_node *n);
375 YAZ_EXPORT void data1_remove_idzebra_subtree (data1_handle dh, data1_node *n);
376 YAZ_EXPORT data1_tag *data1_gettagbynum(data1_handle dh,
377                                         data1_tagset *s,
378                                         int type, int value);
379 YAZ_EXPORT data1_tagset *data1_empty_tagset (data1_handle dh);
380 YAZ_EXPORT data1_tagset *data1_read_tagset(data1_handle dh, 
381                                            const char *file,
382                                            int type);
383 YAZ_EXPORT data1_element *data1_getelementbytagname(data1_handle dh, 
384                                                     data1_absyn *abs,
385                                                     data1_element *parent,
386                                                     const char *tagname);
387 YAZ_EXPORT Z_GenericRecord *data1_nodetogr(data1_handle dh, data1_node *n,
388                                            int select, ODR o,
389                                            int *len);
390 YAZ_EXPORT data1_tag *data1_gettagbyname(data1_handle dh, data1_tagset *s,
391                                          const char *name);
392 YAZ_EXPORT char *data1_nodetobuf(data1_handle dh, data1_node *n,
393                                  int select, int *len);
394 YAZ_EXPORT data1_node *data1_mk_tag_data_wd(data1_handle dh,
395                                             data1_node *at,
396                                             const char *tagname, NMEM m);
397 YAZ_EXPORT data1_node *data1_mk_tag_data(data1_handle dh, data1_node *at,
398                                          const char *tagname, NMEM m);
399 YAZ_EXPORT data1_datatype data1_maptype(data1_handle dh, char *t);
400 YAZ_EXPORT data1_varset *data1_read_varset(data1_handle dh, const char *file);
401 YAZ_EXPORT data1_vartype *data1_getvartypebyct(data1_handle dh,
402                                                data1_varset *set,
403                                                const char *zclass,
404                                                const char *type);
405 YAZ_EXPORT data1_vartype *data1_getvartypeby_absyn(data1_handle dh,
406                                                    data1_absyn *absyn,
407                                                    char *zclass, char *type);
408 YAZ_EXPORT Z_Espec1 *data1_read_espec1(data1_handle dh, const char *file);
409 YAZ_EXPORT int data1_doespec1(data1_handle dh, data1_node *n, Z_Espec1 *e);
410 YAZ_EXPORT data1_esetname *data1_getesetbyname(data1_handle dh, 
411                                                data1_absyn *a,
412                                                const char *name);
413 YAZ_EXPORT data1_element *data1_getelementbyname(data1_handle dh,
414                                                  data1_absyn *absyn,
415                                                  const char *name);
416 YAZ_EXPORT data1_node *data1_mk_node2(data1_handle dh, NMEM m,
417                                       int type, data1_node *parent);
418
419 YAZ_EXPORT data1_node *data1_mk_tag (data1_handle dh, NMEM nmem, 
420                                      const char *tag, const char **attr,
421                                      data1_node *at);
422 YAZ_EXPORT data1_node *data1_mk_tag_n (data1_handle dh, NMEM nmem,
423                                        const char *tag, size_t len,
424                                        const char **attr,
425                                        data1_node *at);
426 YAZ_EXPORT void data1_tag_add_attr (data1_handle dh, NMEM nmem,
427                                     data1_node *res, const char **attr);
428
429 YAZ_EXPORT data1_node *data1_mk_text_n (data1_handle dh, NMEM mem,
430                                         const char *buf, size_t len,
431                                         data1_node *parent);
432 YAZ_EXPORT data1_node *data1_mk_text_nf (data1_handle dh, NMEM mem,
433                                          const char *buf, size_t len,
434                                          data1_node *parent);
435 YAZ_EXPORT data1_node *data1_mk_text (data1_handle dh, NMEM mem,
436                                       const char *buf, data1_node *parent);
437
438 YAZ_EXPORT data1_node *data1_mk_comment_n (data1_handle dh, NMEM mem,
439                                            const char *buf, size_t len,
440                                            data1_node *parent);
441
442 YAZ_EXPORT data1_node *data1_mk_comment (data1_handle dh, NMEM mem,
443                                          const char *buf, data1_node *parent);
444
445 YAZ_EXPORT data1_node *data1_mk_preprocess_n (data1_handle dh, NMEM nmem,
446                                               const char *target, size_t len,
447                                               const char **attr,
448                                               data1_node *at);
449
450 YAZ_EXPORT data1_node *data1_mk_preprocess (data1_handle dh, NMEM nmem,
451                                             const char *target,
452                                             const char **attr,
453                                             data1_node *at);
454
455 YAZ_EXPORT data1_node *data1_insert_preprocess_n (data1_handle dh, NMEM nmem,
456                                                   const char *target,
457                                                   size_t len,
458                                                   const char **attr,
459                                                   data1_node *at);
460
461 YAZ_EXPORT data1_node *data1_insert_preprocess (data1_handle dh, NMEM nmem,
462                                                 const char *target,
463                                                 const char **attr,
464                                                 data1_node *at);
465
466 YAZ_EXPORT data1_node *data1_mk_root (data1_handle dh, NMEM nmem,
467                                       const char *name);
468 YAZ_EXPORT void data1_set_root(data1_handle dh, data1_node *res,
469                                NMEM nmem, const char *name);
470
471 YAZ_EXPORT data1_node *data1_mk_tag_data_zint (data1_handle dh, data1_node *at,
472                                                const char *tag, zint num,
473                                                NMEM nmem);
474 YAZ_EXPORT data1_node *data1_mk_tag_data_int (data1_handle dh, data1_node *at,
475                                               const char *tag, int num,
476                                               NMEM nmem);
477 YAZ_EXPORT data1_node *data1_mk_tag_data_oid (data1_handle dh, data1_node *at,
478                                               const char *tag, Odr_oid *oid,
479                                               NMEM nmem);
480 YAZ_EXPORT data1_node *data1_mk_tag_data_text (data1_handle dh, data1_node *at,
481                                                const char *tag,
482                                                const char *str,
483                                                NMEM nmem);
484 YAZ_EXPORT data1_node *data1_mk_tag_data_text_uni (data1_handle dh,
485                                                    data1_node *at,
486                                                    const char *tag,
487                                                    const char *str,
488                                                    NMEM nmem);
489
490 YAZ_EXPORT data1_absyn *data1_get_absyn (data1_handle dh, const char *name,
491                                          enum DATA1_XPATH_INDEXING en);
492
493 YAZ_EXPORT data1_node *data1_search_tag (data1_handle dh, data1_node *n,
494                                          const char *tag);
495 YAZ_EXPORT data1_node *data1_mk_tag_uni (data1_handle dh, NMEM nmem, 
496                                          const char *tag, data1_node *at);
497 YAZ_EXPORT data1_attset *data1_get_attset (data1_handle dh, const char *name);
498 YAZ_EXPORT data1_maptab *data1_read_maptab(data1_handle dh, const char *file);
499 YAZ_EXPORT data1_node *data1_map_record(data1_handle dh, data1_node *n,
500                                         data1_maptab *map, NMEM m);
501 YAZ_EXPORT data1_marctab *data1_read_marctab (data1_handle dh,
502                                               const char *file);
503 YAZ_EXPORT data1_marctab *data1_absyn_getmarctab(data1_handle dh,
504                                                  data1_node *root);
505 YAZ_EXPORT data1_element *data1_absyn_getelements(data1_handle dh,
506                                                  data1_node *root);
507 YAZ_EXPORT char *data1_nodetomarc(data1_handle dh, data1_marctab *p,
508                                   data1_node *n, int selected, int *len);
509 YAZ_EXPORT char *data1_nodetoidsgml(data1_handle dh, data1_node *n,
510                                     int select, int *len);
511 YAZ_EXPORT Z_ExplainRecord *data1_nodetoexplain(data1_handle dh,
512                                                 data1_node *n, int select,
513                                                 ODR o);
514 YAZ_EXPORT Z_BriefBib *data1_nodetosummary(data1_handle dh, 
515                                            data1_node *n, int select,
516                                            ODR o);
517 YAZ_EXPORT char *data1_nodetosoif(data1_handle dh, data1_node *n, int select,
518                                   int *len);
519 YAZ_EXPORT void data1_set_tabpath(data1_handle dh, const char *path);
520 YAZ_EXPORT void data1_set_tabroot (data1_handle dp, const char *p);
521 YAZ_EXPORT const char *data1_get_tabpath(data1_handle dh);
522 YAZ_EXPORT const char *data1_get_tabroot(data1_handle dh);
523
524 YAZ_EXPORT WRBUF data1_get_wrbuf (data1_handle dp);
525 YAZ_EXPORT char **data1_get_read_buf (data1_handle dp, int **lenp);
526 YAZ_EXPORT char **data1_get_map_buf (data1_handle dp, int **lenp);
527 YAZ_EXPORT data1_absyn_cache *data1_absyn_cache_get (data1_handle dh);
528 YAZ_EXPORT data1_attset_cache *data1_attset_cache_get (data1_handle dh);
529 YAZ_EXPORT NMEM data1_nmem_get (data1_handle dh);
530 YAZ_EXPORT void data1_pr_tree (data1_handle dh, data1_node *n, FILE *out);
531 YAZ_EXPORT char *data1_insert_string (data1_handle dh, data1_node *res,
532                                       NMEM m, const char *str);
533 YAZ_EXPORT char *data1_insert_string_n (data1_handle dh, data1_node *res,
534                                         NMEM m, const char *str, size_t len);
535 YAZ_EXPORT data1_node *data1_read_sgml (data1_handle dh, NMEM m,
536                                         const char *buf);
537 YAZ_EXPORT data1_node *data1_read_xml (data1_handle dh,
538                                        int (*rf)(void *, char *, size_t),
539                                        void *fh, NMEM m);
540 YAZ_EXPORT void data1_absyn_trav (data1_handle dh, void *handle,
541                                   void (*fh)(data1_handle dh,
542                                              void *h, data1_absyn *a));
543
544 YAZ_EXPORT data1_attset *data1_attset_search_id (data1_handle dh,
545                                                  const Odr_oid *oid);
546
547 YAZ_EXPORT char *data1_getNodeValue(data1_node* node, char* pTagPath);
548 YAZ_EXPORT data1_node *data1_LookupNode(data1_node* node, char* pTagPath);
549 YAZ_EXPORT int data1_CountOccurences(data1_node* node, char* pTagPath);
550
551 YAZ_EXPORT FILE *data1_path_fopen (data1_handle dh, const char *file,
552                                    const char *mode);
553
554 /* obsolete functions ... */
555
556 YAZ_EXPORT data1_node *data1_mk_node (data1_handle dh, NMEM m);
557 YAZ_EXPORT data1_node *data1_insert_taggeddata (data1_handle dh,
558                                                 data1_node *root,
559                                                 data1_node *at,
560                                                 const char *tagname, NMEM m);
561 YAZ_EXPORT data1_node *data1_mk_node_type (data1_handle dh, NMEM m, int type);
562 YAZ_EXPORT data1_node *data1_add_taggeddata (data1_handle dh, data1_node *root,
563                                              data1_node *at,
564                                              const char *tagname,
565                                              NMEM m);
566
567 YAZ_EXPORT data1_node *data1_get_root_tag (data1_handle dh, data1_node *n);
568
569 YAZ_EXPORT int data1_iconv (data1_handle dh, NMEM m, data1_node *n,
570                             const char *tocode, 
571                             const char *fromcode);
572
573 YAZ_EXPORT const char *data1_get_encoding (data1_handle dh, data1_node *n);
574
575 YAZ_EXPORT int data1_is_xmlmode(data1_handle dh);
576
577 YAZ_EXPORT const char *data1_systag_lookup(data1_absyn *absyn, const char *tag,
578                                            const char *default_value);
579
580 YAZ_EXPORT void data1_concat_text(data1_handle dh, NMEM m, data1_node *n);
581 YAZ_EXPORT void data1_chop_text(data1_handle dh, NMEM m, data1_node *n);
582
583 YAZ_EXPORT void data1_absyn_destroy(data1_handle dh);
584
585 YAZ_EXPORT const char *data1_absyn_get_staticrank(data1_absyn *absyn);
586
587 YAZ_END_CDECL
588
589 #endif
590 /*
591  * Local variables:
592  * c-basic-offset: 4
593  * indent-tabs-mode: nil
594  * End:
595  * vim: shiftwidth=4 tabstop=8 expandtab
596  */
597