Truncate extremly long safari record lines.
[idzebra-moved-to-github.git] / recctrl / xslt.c
1 /* $Id: xslt.c,v 1.12 2005-06-24 13:45:54 adam Exp $
2    Copyright (C) 1995-2005
3    Index Data ApS
4
5 This file is part of the Zebra server.
6
7 Zebra is free software; you can redistribute it and/or modify it under
8 the terms of the GNU General Public License as published by the Free
9 Software Foundation; either version 2, or (at your option) any later
10 version.
11
12 Zebra is distributed in the hope that it will be useful, but WITHOUT ANY
13 WARRANTY; without even the implied warranty of MERCHANTABILITY or
14 FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
15 for more details.
16
17 You should have received a copy of the GNU General Public License
18 along with Zebra; see the file LICENSE.zebra.  If not, write to the
19 Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
20 02111-1307, USA.
21 */
22
23 #include <stdio.h>
24 #include <assert.h>
25 #include <ctype.h>
26
27 #include <yaz/diagbib1.h>
28 #include <libxml/xmlversion.h>
29 #include <libxml/parser.h>
30 #include <libxml/tree.h>
31 #include <libxml/xmlIO.h>
32 #include <libxml/xmlreader.h>
33 #include <libxslt/transform.h>
34
35 #include <idzebra/util.h>
36 #include <idzebra/recctrl.h>
37
38 struct filter_schema {
39     const char *name;
40     const char *identifier;
41     const char *stylesheet;
42     struct filter_schema *next;
43     const char *default_schema;
44     const char *include_snippet;
45     xsltStylesheetPtr stylesheet_xsp;
46 };
47
48 struct filter_info {
49     xmlDocPtr doc;
50     char *fname;
51     const char *split_level;
52     const char *split_path;
53     ODR odr;
54     struct filter_schema *schemas;
55     xmlTextReaderPtr reader;
56 };
57
58 #define ZEBRA_SCHEMA_XSLT_NS "http://indexdata.dk/zebra/xslt/1"
59
60 static const char *zebra_xslt_ns = ZEBRA_SCHEMA_XSLT_NS;
61
62 static void set_param_xml(const char **params, const char *name,
63                           const char *value, ODR odr)
64 {
65     while (*params)
66         params++;
67     params[0] = name;
68     params[1] = value;
69     params[2] = 0;
70 }
71
72 static void set_param_str(const char **params, const char *name,
73                           const char *value, ODR odr)
74 {
75     char *quoted = odr_malloc(odr, 3 + strlen(value));
76     sprintf(quoted, "'%s'", value);
77     while (*params)
78         params++;
79     params[0] = name;
80     params[1] = quoted;
81     params[2] = 0;
82 }
83
84 static void set_param_int(const char **params, const char *name,
85                           zint value, ODR odr)
86 {
87     char *quoted = odr_malloc(odr, 30); /* 25 digits enough for 2^64 */
88     while (*params)
89         params++;
90     sprintf(quoted, "'" ZINT_FORMAT "'", value);
91     params[0] = name;
92     params[1] = quoted;
93     params[2] = 0;
94 }
95
96
97 int zebra_xmlInputMatchCallback (char const *filename)
98 {
99     yaz_log(YLOG_LOG, "match %s", filename);
100     return 0;
101 }
102
103
104 void * zebra_xmlInputOpenCallback (char const *filename)
105 {
106     return 0;
107 }
108
109 int zebra_xmlInputReadCallback (void * context, char * buffer, int len)
110 {
111     return 0;
112 }
113
114 int zebra_xmlInputCloseCallback (void * context)
115 {
116     return 0;
117 }
118
119
120
121
122
123 static void *filter_init_xslt(Res res, RecType recType)
124 {
125     struct filter_info *tinfo = (struct filter_info *) xmalloc(sizeof(*tinfo));
126     tinfo->reader = 0;
127     tinfo->fname = 0;
128     tinfo->split_level = 0;
129     tinfo->split_path = 0;
130     tinfo->odr = odr_createmem(ODR_ENCODE);
131     tinfo->doc = 0;
132     tinfo->schemas = 0;
133
134 #if 0
135     xmlRegisterDefaultInputCallbacks();
136     xmlRegisterInputCallbacks(zebra_xmlInputMatchCallback,
137                               zebra_xmlInputOpenCallback,
138                               zebra_xmlInputReadCallback,
139                               zebra_xmlInputCloseCallback);
140 #endif
141     return tinfo;
142 }
143
144 static void *filter_init_xslt1(Res res, RecType recType)
145 {
146     struct filter_info *tinfo = (struct filter_info *)
147         filter_init_xslt(res, recType);
148     tinfo->split_level = "1";
149     return tinfo;
150 }
151
152 static int attr_content(struct _xmlAttr *attr, const char *name,
153                         const char **dst_content)
154 {
155     if (!strcmp(attr->name, name) && attr->children &&
156         attr->children->type == XML_TEXT_NODE)
157     {
158         *dst_content = attr->children->content;
159         return 1;
160     }
161     return 0;
162 }
163
164 static void destroy_schemas(struct filter_info *tinfo)
165 {
166     struct filter_schema *schema = tinfo->schemas;
167     while (schema)
168     {
169         struct filter_schema *schema_next = schema->next;
170         if (schema->stylesheet_xsp)
171             xsltFreeStylesheet(schema->stylesheet_xsp);
172         xfree(schema);
173         schema = schema_next;
174     }
175     tinfo->schemas = 0;
176     xfree(tinfo->fname);
177     if (tinfo->doc)
178         xmlFreeDoc(tinfo->doc);    
179     tinfo->doc = 0;
180 }
181
182 static ZEBRA_RES create_schemas(struct filter_info *tinfo, const char *fname)
183 {
184     xmlNodePtr ptr;
185     tinfo->fname = xstrdup(fname);
186     tinfo->doc = xmlParseFile(tinfo->fname);
187     if (!tinfo->doc)
188         return ZEBRA_FAIL;
189     ptr = xmlDocGetRootElement(tinfo->doc);
190     if (!ptr || ptr->type != XML_ELEMENT_NODE ||
191         strcmp(ptr->name, "schemaInfo"))
192         return ZEBRA_FAIL;
193     for (ptr = ptr->children; ptr; ptr = ptr->next)
194     {
195         if (ptr->type != XML_ELEMENT_NODE)
196             continue;
197         if (!strcmp(ptr->name, "schema"))
198         {
199             struct _xmlAttr *attr;
200             struct filter_schema *schema = xmalloc(sizeof(*schema));
201             schema->name = 0;
202             schema->identifier = 0;
203             schema->stylesheet = 0;
204             schema->default_schema = 0;
205             schema->next = tinfo->schemas;
206             schema->stylesheet_xsp = 0;
207             schema->include_snippet = 0;
208             tinfo->schemas = schema;
209             for (attr = ptr->properties; attr; attr = attr->next)
210             {
211                 attr_content(attr, "identifier", &schema->identifier);
212                 attr_content(attr, "name", &schema->name);
213                 attr_content(attr, "stylesheet", &schema->stylesheet);
214                 attr_content(attr, "default", &schema->default_schema);
215                 attr_content(attr, "snippet", &schema->include_snippet);
216             }
217             if (schema->stylesheet)
218                 schema->stylesheet_xsp =
219                     xsltParseStylesheetFile(
220                         (const xmlChar*) schema->stylesheet);
221         }
222         else if (!strcmp(ptr->name, "split"))
223         {
224             struct _xmlAttr *attr;
225             for (attr = ptr->properties; attr; attr = attr->next)
226             {
227                 attr_content(attr, "level", &tinfo->split_level);
228                 attr_content(attr, "path", &tinfo->split_path);
229             }
230         }
231         else
232         {
233             yaz_log(YLOG_WARN, "Bad element %s in %s", ptr->name, fname);
234             return ZEBRA_FAIL;
235         }
236     }
237     return ZEBRA_OK;
238 }
239
240 static struct filter_schema *lookup_schema(struct filter_info *tinfo,
241                                            const char *est)
242 {
243     struct filter_schema *schema;
244     for (schema = tinfo->schemas; schema; schema = schema->next)
245     {
246         if (est)
247         {
248             if (schema->identifier && !strcmp(schema->identifier, est))
249                 return schema;
250             if (schema->name && !strcmp(schema->name, est))
251                 return schema;
252         }
253         if (schema->default_schema)
254             return schema;
255     }
256     return 0;
257 }
258
259 static void filter_config(void *clientData, Res res, const char *args)
260 {
261     struct filter_info *tinfo = clientData;
262     if (!args || !*args)
263         args = "xsltfilter.xml";
264     if (tinfo->fname && !strcmp(args, tinfo->fname))
265         return;
266     destroy_schemas(tinfo);
267     create_schemas(tinfo, args);
268 }
269
270 static void filter_destroy(void *clientData)
271 {
272     struct filter_info *tinfo = clientData;
273     destroy_schemas(tinfo);
274     if (tinfo->reader)
275         xmlFreeTextReader(tinfo->reader);
276     odr_destroy(tinfo->odr);
277     xfree(tinfo);
278 }
279
280 static int ioread_ex(void *context, char *buffer, int len)
281 {
282     struct recExtractCtrl *p = context;
283     return (*p->readf)(p->fh, buffer, len);
284 }
285
286 static int ioclose_ex(void *context)
287 {
288     return 0;
289 }
290
291 static void index_cdata(struct filter_info *tinfo, struct recExtractCtrl *ctrl,
292                         xmlNodePtr ptr, RecWord *recWord)
293 {
294     for(; ptr; ptr = ptr->next)
295     {
296         index_cdata(tinfo, ctrl, ptr->children, recWord);
297         if (ptr->type != XML_TEXT_NODE)
298             continue;
299         recWord->term_buf = ptr->content;
300         recWord->term_len = strlen(ptr->content);
301         (*ctrl->tokenAdd)(recWord);
302     }
303 }
304
305 static void index_node(struct filter_info *tinfo,  struct recExtractCtrl *ctrl,
306                        xmlNodePtr ptr, RecWord *recWord)
307 {
308     for(; ptr; ptr = ptr->next)
309     {
310         index_node(tinfo, ctrl, ptr->children, recWord);
311         if (ptr->type != XML_ELEMENT_NODE || !ptr->ns ||
312             strcmp(ptr->ns->href, zebra_xslt_ns))
313             continue;
314         if (!strcmp(ptr->name, "index"))
315         {
316             const char *name_str = 0;
317             const char *type_str = 0;
318             const char *xpath_str = 0;
319             struct _xmlAttr *attr;
320             for (attr = ptr->properties; attr; attr = attr->next)
321             {
322                 attr_content(attr, "name", &name_str);
323                 attr_content(attr, "xpath", &xpath_str);
324                 attr_content(attr, "type", &type_str);
325             }
326             if (name_str)
327             {
328                 int prev_type = recWord->index_type; /* save default type */
329
330                 if (type_str && *type_str)
331                     recWord->index_type = *type_str; /* type was given */
332                 recWord->index_name = name_str;
333                 index_cdata(tinfo, ctrl, ptr->children, recWord);
334
335                 recWord->index_type = prev_type;     /* restore it again */
336             }
337         }
338     }
339 }
340
341 static void index_record(struct filter_info *tinfo,struct recExtractCtrl *ctrl,
342                          xmlNodePtr ptr, RecWord *recWord)
343 {
344     if (ptr->type == XML_ELEMENT_NODE && ptr->ns &&
345         !strcmp(ptr->ns->href, zebra_xslt_ns)
346         && !strcmp(ptr->name, "record"))
347     {
348         const char *type_str = "update";
349         const char *id_str = 0;
350         struct _xmlAttr *attr;
351         for (attr = ptr->properties; attr; attr = attr->next)
352         {
353             attr_content(attr, "type", &type_str);
354             attr_content(attr, "id", &id_str);
355         }
356         if (id_str)
357             sscanf(id_str, "%255s", ctrl->match_criteria);
358
359         ptr = ptr->children;
360     }
361     index_node(tinfo, ctrl, ptr, recWord);
362 }
363     
364 static int extract_doc(struct filter_info *tinfo, struct recExtractCtrl *p,
365                        xmlDocPtr doc)
366 {
367     RecWord recWord;
368     const char *params[10];
369     xmlChar *buf_out;
370     int len_out;
371
372     struct filter_schema *schema = lookup_schema(tinfo, zebra_xslt_ns);
373
374     params[0] = 0;
375     set_param_str(params, "schema", zebra_xslt_ns, tinfo->odr);
376
377     (*p->init)(p, &recWord);
378
379     if (schema && schema->stylesheet_xsp)
380     {
381         xmlDocPtr resDoc = 
382             xsltApplyStylesheet(schema->stylesheet_xsp,
383                                 doc, params);
384         if (p->flagShowRecords)
385         {
386             xmlDocDumpMemory(resDoc, &buf_out, &len_out);
387             fwrite(buf_out, len_out, 1, stdout);
388             xmlFree(buf_out);
389         }
390         index_record(tinfo, p, xmlDocGetRootElement(resDoc), &recWord);
391         xmlFreeDoc(resDoc);
392     }
393     xmlDocDumpMemory(doc, &buf_out, &len_out);
394     if (p->flagShowRecords)
395         fwrite(buf_out, len_out, 1, stdout);
396     (*p->setStoreData)(p, buf_out, len_out);
397     xmlFree(buf_out);
398     
399     xmlFreeDoc(doc);
400     return RECCTRL_EXTRACT_OK;
401 }
402
403 static int extract_split(struct filter_info *tinfo, struct recExtractCtrl *p)
404 {
405     int ret;
406     int split_depth = 0;
407     if (p->first_record)
408     {
409         if (tinfo->reader)
410             xmlFreeTextReader(tinfo->reader);
411         tinfo->reader = xmlReaderForIO(ioread_ex, ioclose_ex,
412                                        p /* I/O handler */,
413                                        0 /* URL */, 
414                                        0 /* encoding */,
415                                        XML_PARSE_XINCLUDE);
416     }
417     if (!tinfo->reader)
418         return RECCTRL_EXTRACT_ERROR_GENERIC;
419
420     if (tinfo->split_level)
421         split_depth = atoi(tinfo->split_level);
422     ret = xmlTextReaderRead(tinfo->reader);
423     while (ret == 1) {
424         int type = xmlTextReaderNodeType(tinfo->reader);
425         int depth = xmlTextReaderDepth(tinfo->reader);
426         if (split_depth == 0 ||
427             (split_depth > 0 &&
428              type == XML_READER_TYPE_ELEMENT && split_depth == depth))
429         {
430             xmlNodePtr ptr = xmlTextReaderExpand(tinfo->reader);
431             xmlNodePtr ptr2 = xmlCopyNode(ptr, 1);
432             xmlDocPtr doc = xmlNewDoc("1.0");
433
434             xmlDocSetRootElement(doc, ptr2);
435
436             return extract_doc(tinfo, p, doc);      
437         }
438         ret = xmlTextReaderRead(tinfo->reader);
439     }
440     xmlFreeTextReader(tinfo->reader);
441     tinfo->reader = 0;
442     return RECCTRL_EXTRACT_EOF;
443 }
444
445 static int extract_full(struct filter_info *tinfo, struct recExtractCtrl *p)
446 {
447     if (p->first_record) /* only one record per stream */
448     {
449         xmlDocPtr doc = xmlReadIO(ioread_ex, ioclose_ex, p /* I/O handler */,
450                                   0 /* URL */,
451                                   0 /* encoding */,
452                                   XML_PARSE_XINCLUDE);
453         if (!doc)
454         {
455             return RECCTRL_EXTRACT_ERROR_GENERIC;
456         }
457         return extract_doc(tinfo, p, doc);
458     }
459     else
460         return RECCTRL_EXTRACT_EOF;
461 }
462
463 static int filter_extract(void *clientData, struct recExtractCtrl *p)
464 {
465     struct filter_info *tinfo = clientData;
466
467     odr_reset(tinfo->odr);
468
469     if (tinfo->split_level == 0 && tinfo->split_path == 0)
470         return extract_full(tinfo, p);
471     else
472     {
473         return extract_split(tinfo, p);
474     }
475 }
476
477 static int ioread_ret(void *context, char *buffer, int len)
478 {
479     struct recRetrieveCtrl *p = context;
480     return (*p->readf)(p->fh, buffer, len);
481 }
482
483 static int ioclose_ret(void *context)
484 {
485     return 0;
486 }
487
488
489 static const char *snippet_doc(struct recRetrieveCtrl *p, int text_mode,
490                                int window_size)
491 {
492     const char *xml_doc_str;
493     int ord = 0;
494     WRBUF wrbuf = wrbuf_alloc();
495     zebra_snippets *res = 
496         zebra_snippets_window(p->doc_snippet, p->hit_snippet, window_size);
497     zebra_snippet_word *w = zebra_snippets_list(res);
498
499     if (text_mode)
500         wrbuf_printf(wrbuf, "\'");
501     else
502         wrbuf_printf(wrbuf, "<snippet xmlns='%s'>\n", zebra_xslt_ns);
503     for (; w; w = w->next)
504     {
505         if (ord == 0)
506             ord = w->ord;
507         else if (ord != w->ord)
508
509             break;
510         if (text_mode)
511             wrbuf_printf(wrbuf, "%s%s%s ", 
512                          w->match ? "*" : "",
513                          w->term,
514                          w->match ? "*" : "");
515         else
516         {
517             wrbuf_printf(wrbuf, " <term ord='%d' seqno='" ZINT_FORMAT "' %s>", 
518                          w->ord, w->seqno,
519                          (w->match ? "match='1'" : ""));
520             wrbuf_xmlputs(wrbuf, w->term);
521             wrbuf_printf(wrbuf, "</term>\n");
522         }
523     }
524     if (text_mode)
525         wrbuf_printf(wrbuf, "\'");
526     else
527         wrbuf_printf(wrbuf, "</snippet>\n");
528
529     xml_doc_str = odr_strdup(p->odr, wrbuf_buf(wrbuf));
530
531     zebra_snippets_destroy(res);
532     wrbuf_free(wrbuf, 1);
533     return xml_doc_str;
534 }
535
536 static int filter_retrieve (void *clientData, struct recRetrieveCtrl *p)
537 {
538     const char *esn = zebra_xslt_ns;
539     const char *params[10];
540     struct filter_info *tinfo = clientData;
541     xmlDocPtr resDoc;
542     xmlDocPtr doc;
543     struct filter_schema *schema;
544     int window_size = -1;
545
546     if (p->comp)
547     {
548         if (p->comp->which != Z_RecordComp_simple
549             || p->comp->u.simple->which != Z_ElementSetNames_generic)
550         {
551             p->diagnostic = YAZ_BIB1_PRESENT_COMP_SPEC_PARAMETER_UNSUPP;
552             return 0;
553         }
554         esn = p->comp->u.simple->u.generic;
555     }
556     schema = lookup_schema(tinfo, esn);
557     if (!schema)
558     {
559         p->diagnostic =
560             YAZ_BIB1_SPECIFIED_ELEMENT_SET_NAME_NOT_VALID_FOR_SPECIFIED_;
561         return 0;
562     }
563
564     if (schema->include_snippet)
565         window_size = atoi(schema->include_snippet);
566
567     params[0] = 0;
568     set_param_str(params, "schema", esn, p->odr);
569     if (p->fname)
570         set_param_str(params, "filename", p->fname, p->odr);
571     if (p->score >= 0)
572         set_param_int(params, "score", p->score, p->odr);
573     set_param_int(params, "size", p->recordSize, p->odr);
574     set_param_int(params, "id", p->localno, p->odr);
575
576     if (window_size >= 0)
577         set_param_xml(params, "snippet", snippet_doc(p, 1, window_size),
578                       p->odr);
579     doc = xmlReadIO(ioread_ret, ioclose_ret, p /* I/O handler */,
580                     0 /* URL */,
581                     0 /* encoding */,
582                     XML_PARSE_XINCLUDE);
583     if (!doc)
584     {
585         p->diagnostic = YAZ_BIB1_SYSTEM_ERROR_IN_PRESENTING_RECORDS;
586         return 0;
587     }
588
589     if (window_size >= 0)
590     {
591         xmlNodePtr node = xmlDocGetRootElement(doc);
592         const char *snippet_str = snippet_doc(p, 0, window_size);
593         xmlDocPtr snippet_doc = xmlParseMemory(snippet_str, strlen(snippet_str));
594         xmlAddChild(node, xmlDocGetRootElement(snippet_doc));
595     }
596     if (!schema->stylesheet_xsp)
597         resDoc = doc;
598     else
599     {
600         resDoc = xsltApplyStylesheet(schema->stylesheet_xsp,
601                                      doc, params);
602         xmlFreeDoc(doc);
603     }
604     if (!resDoc)
605     {
606         p->diagnostic = YAZ_BIB1_SYSTEM_ERROR_IN_PRESENTING_RECORDS;
607     }
608     else if (p->input_format == VAL_NONE || p->input_format == VAL_TEXT_XML)
609     {
610         xmlChar *buf_out;
611         int len_out;
612         xmlDocDumpMemory(resDoc, &buf_out, &len_out);
613
614         p->output_format = VAL_TEXT_XML;
615         p->rec_len = len_out;
616         p->rec_buf = odr_malloc(p->odr, p->rec_len);
617         memcpy(p->rec_buf, buf_out, p->rec_len);
618         
619         xmlFree(buf_out);
620     }
621     else if (p->output_format == VAL_SUTRS)
622     {
623         xmlChar *buf_out;
624         int len_out;
625         xmlDocDumpMemory(resDoc, &buf_out, &len_out);
626
627         p->output_format = VAL_SUTRS;
628         p->rec_len = len_out;
629         p->rec_buf = odr_malloc(p->odr, p->rec_len);
630         memcpy(p->rec_buf, buf_out, p->rec_len);
631         
632         xmlFree(buf_out);
633     }
634     else
635     {
636         p->diagnostic = YAZ_BIB1_RECORD_SYNTAX_UNSUPP;
637     }
638     xmlFreeDoc(resDoc);
639     return 0;
640 }
641
642 static struct recType filter_type_xslt = {
643     0,
644     "xslt",
645     filter_init_xslt,
646     filter_config,
647     filter_destroy,
648     filter_extract,
649     filter_retrieve
650 };
651
652 static struct recType filter_type_xslt1 = {
653     0,
654     "xslt1",
655     filter_init_xslt1,
656     filter_config,
657     filter_destroy,
658     filter_extract,
659     filter_retrieve
660 };
661
662 RecType
663 #ifdef IDZEBRA_STATIC_XSLT
664 idzebra_filter_xslt
665 #else
666 idzebra_filter
667 #endif
668
669 [] = {
670     &filter_type_xslt,
671 #ifdef LIBXML_READER_ENABLED
672     &filter_type_xslt1,
673 #endif
674     0,
675 };