X-Git-Url: http://git.indexdata.com/?a=blobdiff_plain;f=recctrl%2Frecgrs.c;h=af9f0966ef20145a6b01d747200dd42bee1bf08b;hb=9b9f570a2960c2c8a7026b2faee943794b08ce49;hp=1c34c2e72718193962ef3f0de2a09a18e62bf532;hpb=4eb3b54bb2ca9af74f39f000d3d40dba99ded887;p=idzebra-moved-to-github.git

diff --git a/recctrl/recgrs.c b/recctrl/recgrs.c
index 1c34c2e..af9f096 100644
--- a/recctrl/recgrs.c
+++ b/recctrl/recgrs.c
@@ -1,6 +1,6 @@
-/* $Id: recgrs.c,v 1.95 2004-12-13 20:51:32 adam Exp $
-   Copyright (C) 1995,1996,1997,1998,1999,2000,2001,2002,2003,2004
-   Index Data Aps
+/* $Id: recgrs.c,v 1.101 2005-04-29 23:09:30 adam Exp $
+   Copyright (C) 1995-2005
+   Index Data ApS
 
 This file is part of the Zebra server.
 
@@ -23,10 +23,7 @@ Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
 #include <stdio.h>
 #include <assert.h>
 #include <sys/types.h>
-#ifndef WIN32
-#include <unistd.h>
-#include <dlfcn.h>
-#endif
+#include <ctype.h>
 
 #include <yaz/log.h>
 #include <yaz/oid.h>
@@ -41,6 +38,7 @@ struct source_parser {
     const char *tok;
     const char *src;
     int lookahead;
+    NMEM nmem;
 };
 
 static int sp_lex(struct source_parser *sp)
@@ -65,6 +63,101 @@ static int sp_lex(struct source_parser *sp)
     return sp->lookahead;
 }
 
+static int sp_expr(struct source_parser *sp, data1_node *n, RecWord *wrd);
+
+static int sp_range(struct source_parser *sp, data1_node *n, RecWord *wrd)
+{
+    int start, len;
+    RecWord tmp_w;
+    
+    /* ( */
+    sp_lex(sp);
+    if (sp->lookahead != '(')
+	return 0;
+    sp_lex(sp); /* skip ( */
+    
+    /* 1st arg: string */
+    if (!sp_expr(sp, n, wrd))
+	return 0;
+    
+    if (sp->lookahead != ',')
+	return 0;	
+    sp_lex(sp); /* skip , */
+    
+    /* 2nd arg: start */
+    if (!sp_expr(sp, n, &tmp_w))
+	return 0;
+    start = atoi_n(tmp_w.term_buf, tmp_w.term_len);
+    
+    if (sp->lookahead == ',')
+    {
+	sp_lex(sp); /* skip , */
+	
+	/* 3rd arg: length */
+	if (!sp_expr(sp, n, &tmp_w))
+	    return 0;
+	len = atoi_n(tmp_w.term_buf, tmp_w.term_len);
+    }
+    else
+	len = wrd->term_len;
+    
+    /* ) */
+    if (sp->lookahead != ')')
+	return 0;	
+    sp_lex(sp);
+    
+    if (wrd->term_buf && wrd->term_len)
+    {
+	wrd->term_buf += start;
+	wrd->term_len -= start;
+	if (wrd->term_len > len)
+	    wrd->term_len = len;
+    }
+    return 1;
+}
+
+static int sp_first(struct source_parser *sp, data1_node *n, RecWord *wrd)
+{
+    char num_str[20];
+    int min_pos = -1;
+    sp_lex(sp);
+    if (sp->lookahead != '(')
+	return 0;
+    sp_lex(sp); /* skip ( */
+    if (!sp_expr(sp, n, wrd))
+	return 0;
+    while (sp->lookahead == ',')
+    {
+	RecWord search_w;
+	int i;
+	sp_lex(sp); /* skip , */
+	
+	if (!sp_expr(sp, n, &search_w))
+	    return 0;
+	for (i = 0; i<wrd->term_len; i++)
+	{
+	    int j;
+	    for (j = 0; j<search_w.term_len && i+j < wrd->term_len; j++)
+		if (wrd->term_buf[i+j] != search_w.term_buf[j])
+		    break;
+	    if (j == search_w.term_len) /* match ? */
+	    {
+		if (min_pos == -1 || i < min_pos)
+		    min_pos = i;
+		break;
+	    }
+	}
+    }
+    if (sp->lookahead != ')')
+	return 0;
+    sp_lex(sp);
+    if (min_pos == -1)
+	min_pos = 0;  /* the default if not found */
+    sprintf(num_str, "%d", min_pos);
+    wrd->term_buf = nmem_strdup(sp->nmem, num_str);
+    wrd->term_len = strlen(wrd->term_buf);
+    return 1;
+}
 
 static int sp_expr(struct source_parser *sp, data1_node *n, RecWord *wrd)
 {
@@ -74,8 +167,8 @@ static int sp_expr(struct source_parser *sp, data1_node *n, RecWord *wrd)
     {
 	if (n->which == DATA1N_data)
 	{
-	    wrd->string = n->u.data.data;
-	    wrd->length = n->u.data.len;
+	    wrd->term_buf = n->u.data.data;
+	    wrd->term_len = n->u.data.len;
 	}
 	sp_lex(sp);
     }
@@ -83,89 +176,98 @@ static int sp_expr(struct source_parser *sp, data1_node *n, RecWord *wrd)
     {
 	if (n->which == DATA1N_tag)
 	{		
-	    wrd->string = n->u.tag.tag;
-	    wrd->length = strlen(n->u.tag.tag);
+	    wrd->term_buf = n->u.tag.tag;
+	    wrd->term_len = strlen(n->u.tag.tag);
 	}
 	sp_lex(sp);
     }
     else if (sp->len == 4 && !memcmp(sp->tok, "attr", sp->len))
     {
+	RecWord tmp_w;
 	sp_lex(sp);
 	if (sp->lookahead != '(')
 	    return 0;
 	sp_lex(sp);
-	if (sp->lookahead != 't')
+
+	if (!sp_expr(sp, n, &tmp_w))
 	    return 0;
 	
+	wrd->term_buf = "";
+	wrd->term_len = 0;
 	if (n->which == DATA1N_tag)
 	{
 	    data1_xattr *p = n->u.tag.attributes;
-	    while (p && strlen(p->name) != sp->len && 
-		   memcmp (p->name, sp->tok, sp->len))
+	    while (p && strlen(p->name) != tmp_w.term_len && 
+		   memcmp (p->name, tmp_w.term_buf, tmp_w.term_len))
 		p = p->next;
 	    if (p)
 	    {
-		wrd->string = p->value;
-		wrd->length = strlen(p->value);
+		wrd->term_buf = p->value;
+		wrd->term_len = strlen(p->value);
 	    }
 	}
-	sp_lex(sp);
 	if (sp->lookahead != ')')
 	    return 0;
 	sp_lex(sp);
     }
+    else if (sp->len == 5 && !memcmp(sp->tok, "first", sp->len))
+    {
+	return sp_first(sp, n, wrd);
+    }
     else if (sp->len == 5 && !memcmp(sp->tok, "range", sp->len))
     {
-	int start, len;
-	sp_lex(sp);
-	if (sp->lookahead != '(')
-	    return 0;
-	
-	sp_lex(sp);
-	sp_expr(sp, n, wrd);
-	if (sp->lookahead != ',')
-	    return 0;
-	
-	sp_lex(sp);
-	if (sp->lookahead != 't')
-	    return 0;
-	start = atoi_n(sp->tok, sp->len);
-	
-	sp_lex(sp);
-	if (sp->lookahead != ',')
-	    return 0;
-	
+	return sp_range(sp, n, wrd);
+    }
+    else if (sp->len > 0 && isdigit(*(unsigned char *)sp->tok))
+    {
+	wrd->term_buf = nmem_malloc(sp->nmem, sp->len);
+	memcpy(wrd->term_buf, sp->tok, sp->len);
+	wrd->term_len = sp->len;
 	sp_lex(sp);
-	if (sp->lookahead != 't')
-	    return 0;
-	len = atoi_n(sp->tok, sp->len);
-	
+    }
+    else if (sp->len > 2 && sp->tok[0] == '\'' && sp->tok[sp->len-1] == '\'')
+    {
+	wrd->term_len = sp->len - 2;
+	wrd->term_buf = nmem_malloc(sp->nmem, wrd->term_len);
+	memcpy(wrd->term_buf, sp->tok+1, wrd->term_len);
 	sp_lex(sp);
-	if (sp->lookahead != ')')
-	    return 0;
-	
+    }
+    else 
+    {
+	wrd->term_buf = "";
+	wrd->term_len = 0;
 	sp_lex(sp);
-	if (wrd->string && wrd->length)
-	{
-	    wrd->string += start;
-	    wrd->length -= start;
-	    if (wrd->length > len)
-		wrd->length = len;
-	}
     }
     return 1;
 }
 
-static int sp_parse(data1_node *n, RecWord *wrd, const char *src)
+static struct source_parser *source_parser_create()
+{
+    struct source_parser *sp = xmalloc(sizeof(*sp));
+
+    sp->nmem = nmem_create();
+    return sp;
+}
+
+static void source_parser_destroy(struct source_parser *sp)
 {
-    struct source_parser sp;
-    sp.len = 0;
-    sp.tok = 0;
-    sp.src = src;
-    sp.lookahead = 0;
-    sp_lex(&sp);
-
-    return sp_expr(&sp, n, wrd);
+    if (!sp)
+	return;
+    nmem_destroy(sp->nmem);
+    xfree(sp);
+}
+    
+static int sp_parse(struct source_parser *sp, 
+		    data1_node *n, RecWord *wrd, const char *src)
+{
+    sp->len = 0;
+    sp->tok = 0;
+    sp->src = src;
+    sp->lookahead = 0;
+    nmem_reset(sp->nmem);
+
+    sp_lex(sp);
+    return sp_expr(sp, n, wrd);
 }
 
 int d1_check_xpath_predicate(data1_node *n, struct xpath_predicate *p)
@@ -183,7 +285,7 @@ int d1_check_xpath_predicate(data1_node *n, struct xpath_predicate *p)
                     yaz_log(YLOG_WARN, 
                          "  Only attributes (@) are supported in xelm xpath predicates");
                     yaz_log(YLOG_WARN, "predicate %s ignored", p->u.relation.name);
-                    return (1);
+                    return 1;
                 }
                 attname = p->u.relation.name + 1;
                 res = 0;
@@ -259,43 +361,43 @@ data1_termlist *xpath_termlist_by_tagpath(char *tagpath, data1_node *n)
     data1_node *nn;
 #ifdef ENHANCED_XELM 
     struct xpath_location_step *xp;
-
 #endif
     char *pexpr = xmalloc(strlen(tagpath)+2);
     int ok = 0;
     
     sprintf (pexpr, "%s\n", tagpath);
-    yaz_log(YLOG_DEBUG,"Checking tagpath %s",tagpath);
-    while (xpe) 
+    yaz_log(YLOG_DEBUG, "Checking tagpath %s",tagpath);
+    for (; xpe; xpe = xpe->next)
     {
         struct DFA_state **dfaar = xpe->dfa->states;
-        struct DFA_state *s=dfaar[0];
-        struct DFA_tran *t;
-        const char *p;
-        int i;
-        unsigned char c;
+        struct DFA_state *s = dfaar[0];
+        struct DFA_tran *t = s->trans;
+        int i = s->tran_no;
+        unsigned char c = *pexpr++;
         int start_line = 1;
 
-        c = *pexpr++; t = s->trans; i = s->tran_no;
-	if ((c >= t->ch[0] && c <= t->ch[1]) || (!t->ch[0])) {
-            p = pexpr;
-            do {
+	if ((c >= t->ch[0] && c <= t->ch[1]) || (!t->ch[0]))
+	{
+            const char *p = pexpr;
+            do 
+	    {
                 if ((s = dfaar[t->to])->rule_no && 
-                    (start_line || s->rule_nno))  {
+                    (start_line || s->rule_nno))
+		{
                     ok = 1;
                     break;
                 }
-                for (t=s->trans, i=s->tran_no; --i >= 0; t++) {
+                for (t=s->trans, i=s->tran_no; --i >= 0; t++)
                     if ((unsigned) *p >= t->ch[0] && (unsigned) *p <= t->ch[1])
                         break;
-                }
                 p++;
-            } while (i >= 0);
+            } 
+	    while (i >= 0);
 	}
 	if (ok)
-	    yaz_log(YLOG_DEBUG," xpath match %s",xpe->xpath_expr);
+	    yaz_log(YLOG_DEBUG, " xpath match %s",xpe->xpath_expr);
 	else
-	    yaz_log(YLOG_DEBUG," xpath no match %s",xpe->xpath_expr);
+	    yaz_log(YLOG_DEBUG, " xpath no match %s",xpe->xpath_expr);
 
         pexpr--;
         if (ok) {
@@ -304,39 +406,36 @@ data1_termlist *xpath_termlist_by_tagpath(char *tagpath, data1_node *n)
             xp = xpe->xpath;
             
             /* find the first tag up in the node structure */
-            nn = n; while (nn && nn->which != DATA1N_tag) {
-                nn = nn->parent;
-            }
+            for (nn = n; nn && nn->which != DATA1N_tag; nn = nn->parent)
+		;
             
             /* go from inside out in the node structure, while going
                backwards trough xpath location steps ... */
-            for (i=xpe->xpath_len - 1; i>0; i--) {
-                
-                yaz_log(YLOG_DEBUG,"Checking step %d: %s on tag %s",
-		     i,xp[i].part,nn->u.tag.tag);
+            for (i = xpe->xpath_len - 1; i>0; i--)
+	    {
+                yaz_log(YLOG_DEBUG, "Checking step %d: %s on tag %s",
+			i, xp[i].part, nn->u.tag.tag);
                 
-                if (!d1_check_xpath_predicate(nn, xp[i].predicate)) {
-                    yaz_log(YLOG_DEBUG,"  Predicates didn't match");
+                if (!d1_check_xpath_predicate(nn, xp[i].predicate))
+		{
+                    yaz_log(YLOG_DEBUG, "  Predicates didn't match");
                     ok = 0;
                     break;
                 }
                 
-                if (nn->which == DATA1N_tag) {
+                if (nn->which == DATA1N_tag)
                     nn = nn->parent;
-                }
             }
 #endif
-            if (ok) {
+            if (ok)
                 break;
-            }
 	}
-        xpe = xpe->next;
     } 
     
     xfree(pexpr);
     
     if (ok) {
-      yaz_log(YLOG_DEBUG,"Got it");
+	yaz_log(YLOG_DEBUG, "Got it");
         return xpe->termlists;
     } else {
         return NULL;
@@ -369,27 +468,28 @@ static void index_xpath_attr (char *tag_path, char *name, char *value,
     wrd->attrSet = VAL_IDXPATH;
     wrd->attrUse = 1;
     wrd->reg_type = '0';
-    wrd->string = tag_path;
-    wrd->length = strlen(tag_path);
+    wrd->term_buf = tag_path;
+    wrd->term_len = strlen(tag_path);
     (*p->tokenAdd)(wrd);
     
     if (value) {
         wrd->attrUse = 1015;
         wrd->reg_type = 'w';
-        wrd->string = value;
-        wrd->length = strlen(value);
+        wrd->term_buf = value;
+        wrd->term_len = strlen(value);
         (*p->tokenAdd)(wrd);
     }
     
     wrd->attrUse = 2;
     wrd->reg_type = '0';
-    wrd->string = tag_path;
-    wrd->length = strlen(tag_path);
+    wrd->term_buf = tag_path;
+    wrd->term_len = strlen(tag_path);
     (*p->tokenAdd)(wrd);
 }
 
 
-static void index_xpath (data1_node *n, struct recExtractCtrl *p,
+static void index_xpath (struct source_parser *sp, data1_node *n,
+			 struct recExtractCtrl *p,
                          int level, RecWord *wrd, int use)
 {
     int i;
@@ -403,27 +503,32 @@ static void index_xpath (data1_node *n, struct recExtractCtrl *p,
     yaz_log(YLOG_DEBUG, "index_xpath level=%d use=%d", level, use);
     if ((!n->root->u.root.absyn) ||
 	(n->root->u.root.absyn->enable_xpath_indexing)) {
-      termlist_only = 0;
+	termlist_only = 0;
     }
 
     switch (n->which)
     {
     case DATA1N_data:
-        wrd->string = n->u.data.data;
-        wrd->length = n->u.data.len;
+        wrd->term_buf = n->u.data.data;
+        wrd->term_len = n->u.data.len;
         xpdone = 0;
         flen = 0;
             
 	/* we have to fetch the whole path to the data tag */
-	for (nn = n; nn; nn = nn->parent) {
-	    if (nn->which == DATA1N_tag) {
+	for (nn = n; nn; nn = nn->parent)
+	{
+	    if (nn->which == DATA1N_tag)
+	    {
 		size_t tlen = strlen(nn->u.tag.tag);
-		if (tlen + flen > (sizeof(tag_path_full)-2)) return;
+		if (tlen + flen > (sizeof(tag_path_full)-2))
+		    break;
 		memcpy (tag_path_full + flen, nn->u.tag.tag, tlen);
 		flen += tlen;
 		tag_path_full[flen++] = '/';
 	    }
-	    else if (nn->which == DATA1N_root)  break;
+	    else
+		if (nn->which == DATA1N_root)
+		    break;
 	}
 	
 	tag_path_full[flen] = 0;
@@ -440,7 +545,7 @@ static void index_xpath (data1_node *n, struct recExtractCtrl *p,
 		/* this is the ! case, so structure is for the xpath index */
 		memcpy (&wrd_tl, wrd, sizeof(*wrd));
 		if (tl->source)
-		    sp_parse(n, &wrd_tl, tl->source);
+		    sp_parse(sp, n, &wrd_tl, tl->source);
 		if (!tl->att) {
 		    wrd_tl.attrSet = VAL_IDXPATH;
 		    wrd_tl.attrUse = use;
@@ -449,10 +554,10 @@ static void index_xpath (data1_node *n, struct recExtractCtrl *p,
 			int i;
 		        printf("%*sXPath index", (level + 1) * 4, "");
 			printf (" XData:\"");
-			for (i = 0; i<wrd_tl.length && i < 40; i++)
-			    fputc (wrd_tl.string[i], stdout);
+			for (i = 0; i<wrd_tl.term_len && i < 40; i++)
+			    fputc (wrd_tl.term_buf[i], stdout);
 			fputc ('"', stdout);
-			if (wrd_tl.length > 40)
+			if (wrd_tl.term_len > 40)
 			    printf (" ...");
 			fputc ('\n', stdout);
 		    }
@@ -473,10 +578,10 @@ static void index_xpath (data1_node *n, struct recExtractCtrl *p,
 			       tl->att->name, tl->att->value,
 			       tl->source);
 			printf (" XData:\"");
-			for (i = 0; i<wrd_tl.length && i < 40; i++)
-			    fputc (wrd_tl.string[i], stdout);
+			for (i = 0; i<wrd_tl.term_len && i < 40; i++)
+			    fputc (wrd_tl.term_buf[i], stdout);
 			fputc ('"', stdout);
-			if (wrd_tl.length > 40)
+			if (wrd_tl.term_len > 40)
 			    printf (" ...");
 			fputc ('\n', stdout);
 		    }
@@ -503,7 +608,7 @@ static void index_xpath (data1_node *n, struct recExtractCtrl *p,
             {
                 size_t tlen = strlen(nn->u.tag.tag);
                 if (tlen + flen > (sizeof(tag_path_full)-2))
-                    return;
+		    break;
                 memcpy (tag_path_full + flen, nn->u.tag.tag, tlen);
                 flen += tlen;
                 tag_path_full[flen++] = '/';
@@ -514,15 +619,15 @@ static void index_xpath (data1_node *n, struct recExtractCtrl *p,
 
 
         wrd->reg_type = '0';
-        wrd->string = tag_path_full;
-        wrd->length = flen;
+        wrd->term_buf = tag_path_full;
+        wrd->term_len = flen;
         wrd->attrSet = VAL_IDXPATH;
         wrd->attrUse = use;
         if (p->flagShowRecords)
         {
             printf("%*s tag=", (level + 1) * 4, "");
-            for (i = 0; i<wrd->length && i < 40; i++)
-                fputc (wrd->string[i], stdout);
+            for (i = 0; i<wrd->term_len && i < 40; i++)
+                fputc (wrd->term_buf[i], stdout);
             if (i == 40)
                 printf (" ..");
             printf("\n");
@@ -588,8 +693,8 @@ static void index_xpath (data1_node *n, struct recExtractCtrl *p,
                         /* attribute  (no value) */
                         wrd->reg_type = '0';
                         wrd->attrUse = 3;
-                        wrd->string = xp->name;
-                        wrd->length = strlen(xp->name);
+                        wrd->term_buf = xp->name;
+                        wrd->term_len = strlen(xp->name);
                         
                         wrd->seqno--;
                         (*p->tokenAdd)(wrd);
@@ -604,8 +709,8 @@ static void index_xpath (data1_node *n, struct recExtractCtrl *p,
                             
                             wrd->attrUse = 3;
                             wrd->reg_type = '0';
-                            wrd->string = comb;
-                            wrd->length = strlen(comb);
+                            wrd->term_buf = comb;
+                            wrd->term_len = strlen(comb);
                             wrd->seqno--;
                             
                             (*p->tokenAdd)(wrd);
@@ -642,8 +747,8 @@ static void index_xpath (data1_node *n, struct recExtractCtrl *p,
                                         (tl->att->parent->reference);
                                     wrd->attrUse = tl->att->locals->local;
                                     wrd->reg_type = *tl->structure;
-                                    wrd->string = xp->value;
-                                    wrd->length = strlen(xp->value);
+                                    wrd->term_buf = xp->value;
+                                    wrd->term_len = strlen(xp->value);
                                     (*p->tokenAdd)(wrd);
                                 }
                             }
@@ -664,7 +769,8 @@ static void index_xpath (data1_node *n, struct recExtractCtrl *p,
     }
 }
 
-static void index_termlist (data1_node *par, data1_node *n,
+static void index_termlist (struct source_parser *sp, data1_node *par,
+			    data1_node *n,
                             struct recExtractCtrl *p, int level, RecWord *wrd)
 {
     data1_termlist *tlist = 0;
@@ -683,15 +789,15 @@ static void index_termlist (data1_node *par, data1_node *n,
         return;
     if (par->u.tag.element->tag)
         dtype = par->u.tag.element->tag->kind;
-    
+
     for (; tlist; tlist = tlist->next)
     {
 	/* consider source */
-	wrd->string = 0;
+	wrd->term_buf = 0;
 	assert(tlist->source);
-	sp_parse(n, wrd, tlist->source);
+	sp_parse(sp, n, wrd, tlist->source);
 
-	if (wrd->string)
+	if (wrd->term_buf && wrd->term_len)
 	{
 	    if (p->flagShowRecords)
 	    {
@@ -703,10 +809,10 @@ static void index_termlist (data1_node *par, data1_node *n,
 		       tlist->att->name, tlist->att->value,
 		       tlist->source);
 		printf (" XData:\"");
-		for (i = 0; i<wrd->length && i < 40; i++)
-		    fputc (wrd->string[i], stdout);
+		for (i = 0; i<wrd->term_len && i < 40; i++)
+		    fputc (wrd->term_buf[i], stdout);
 		fputc ('"', stdout);
-		if (wrd->length > 40)
+		if (wrd->term_len > 40)
 		    printf (" ...");
 		fputc ('\n', stdout);
 	    }
@@ -721,8 +827,9 @@ static void index_termlist (data1_node *par, data1_node *n,
     }
 }
 
-static int dumpkeys(data1_node *n, struct recExtractCtrl *p, int level,
-                    RecWord *wrd)
+static int dumpkeys_r(struct source_parser *sp,
+		      data1_node *n, struct recExtractCtrl *p, int level,
+		      RecWord *wrd)
 {
     for (; n; n = n->next)
     {
@@ -765,14 +872,14 @@ static int dumpkeys(data1_node *n, struct recExtractCtrl *p, int level,
 
 	if (n->which == DATA1N_tag)
 	{
-            index_termlist (n, n, p, level, wrd);
+            index_termlist(sp, n, n, p, level, wrd);
             /* index start tag */
 	    if (n->root->u.root.absyn)
-      	        index_xpath (n, p, level, wrd, 1);
+      	        index_xpath(sp, n, p, level, wrd, 1);
  	}
 
 	if (n->child)
-	    if (dumpkeys(n->child, p, level + 1, wrd) < 0)
+	    if (dumpkeys_r(sp, n->child, p, level + 1, wrd) < 0)
 		return -1;
 
 
@@ -794,15 +901,15 @@ static int dumpkeys(data1_node *n, struct recExtractCtrl *p, int level,
 	    }
 
 	    if (par)
-		index_termlist (par, n, p, level, wrd);
+		index_termlist(sp, par, n, p, level, wrd);
 
-	    index_xpath (n, p, level, wrd, 1016);
+	    index_xpath(sp, n, p, level, wrd, 1016);
  	}
 
 	if (n->which == DATA1N_tag)
 	{
             /* index end tag */
-	    index_xpath (n, p, level, wrd, 2);
+	    index_xpath(sp, n, p, level, wrd, 2);
 	}
 
 	if (p->flagShowRecords && n->which == DATA1N_root)
@@ -813,6 +920,14 @@ static int dumpkeys(data1_node *n, struct recExtractCtrl *p, int level,
     return 0;
 }
 
+static int dumpkeys(data1_node *n, struct recExtractCtrl *p, RecWord *wrd)
+{
+    struct source_parser *sp = source_parser_create();
+    int r = dumpkeys_r(sp, n, p, 0, wrd);
+    source_parser_destroy(sp);
+    return r;
+}
+
 int grs_extract_tree(struct recExtractCtrl *p, data1_node *n)
 {
     oident oe;
@@ -830,7 +945,7 @@ int grs_extract_tree(struct recExtractCtrl *p, data1_node *n)
     }
     (*p->init)(p, &wrd);
 
-    return dumpkeys(n, p, 0, &wrd);
+    return dumpkeys(n, p, &wrd);
 }
 
 static int grs_extract_sub(void *clientData, struct recExtractCtrl *p,
@@ -878,7 +993,7 @@ static int grs_extract_sub(void *clientData, struct recExtractCtrl *p,
 #endif
 
     (*p->init)(p, &wrd);
-    if (dumpkeys(n, p, 0, &wrd) < 0)
+    if (dumpkeys(n, p, &wrd) < 0)
     {
 	data1_free_tree(p->dh, n);
 	return RECCTRL_EXTRACT_ERROR_GENERIC;
@@ -1059,9 +1174,6 @@ int zebra_grs_retrieve(void *clientData, struct recRetrieveCtrl *p,
     }
     data1_concat_text(p->dh, mem, node);
 
-    /* ensure our data1 tree is UTF-8 */
-    data1_iconv (p->dh, mem, node, "UTF-8", data1_get_encoding(p->dh, node));
-
 #if 0
     data1_pr_tree (p->dh, node, stdout);
 #endif
@@ -1108,7 +1220,6 @@ int zebra_grs_retrieve(void *clientData, struct recRetrieveCtrl *p,
 #if 0
     data1_pr_tree (p->dh, node, stdout);
 #endif
-#if YAZ_VERSIONL >= 0x010903L
     if (p->comp && p->comp->which == Z_RecordComp_complex &&
 	p->comp->u.complex->generic &&
         p->comp->u.complex->generic->which == Z_Schema_oid &&
@@ -1118,16 +1229,6 @@ int zebra_grs_retrieve(void *clientData, struct recRetrieveCtrl *p,
 	if (oe)
 	    requested_schema = oe->value;
     }
-#else
-    if (p->comp && p->comp->which == Z_RecordComp_complex &&
-	p->comp->u.complex->generic && p->comp->u.complex->generic->schema)
-    {
-	oident *oe = oid_getentbyoid (p->comp->u.complex->generic->schema);
-	if (oe)
-	    requested_schema = oe->value;
-    }
-#endif
-
     /* If schema has been specified, map if possible, then check that
      * we got the right one 
      */
@@ -1237,13 +1338,13 @@ int zebra_grs_retrieve(void *clientData, struct recRetrieveCtrl *p,
 				p->input_format : VAL_SUTRS))
     {
     case VAL_TEXT_XML:
-
 #if 0
         data1_pr_tree (p->dh, node, stdout);
 #endif
-
-        if (p->encoding)
-            data1_iconv (p->dh, mem, node, p->encoding, "UTF-8");
+	/* default output encoding for XML is UTF-8 */
+	data1_iconv (p->dh, mem, node,
+		     p->encoding ? p->encoding : "UTF-8",
+		     data1_get_encoding(p->dh, node));
 
 	if (!(p->rec_buf = data1_nodetoidsgml(p->dh, node, selected,
 					      &p->rec_len)))
@@ -1256,6 +1357,7 @@ int zebra_grs_retrieve(void *clientData, struct recRetrieveCtrl *p,
 	}
 	break;
     case VAL_GRS1:
+	data1_iconv (p->dh, mem, node, "UTF-8", data1_get_encoding(p->dh, node));
 	dummy = 0;
 	if (!(p->rec_buf = data1_nodetogr(p->dh, node, selected,
 					  p->odr, &dummy)))
@@ -1264,6 +1366,9 @@ int zebra_grs_retrieve(void *clientData, struct recRetrieveCtrl *p,
 	    p->rec_len = (size_t) (-1);
 	break;
     case VAL_EXPLAIN:
+	/* ensure our data1 tree is UTF-8 */
+	data1_iconv (p->dh, mem, node, "UTF-8", data1_get_encoding(p->dh, node));
+	
 	if (!(p->rec_buf = data1_nodetoexplain(p->dh, node, selected,
 					       p->odr)))
 	    p->diagnostic = 238;
@@ -1271,6 +1376,8 @@ int zebra_grs_retrieve(void *clientData, struct recRetrieveCtrl *p,
 	    p->rec_len = (size_t) (-1);
 	break;
     case VAL_SUMMARY:
+	/* ensure our data1 tree is UTF-8 */
+	data1_iconv (p->dh, mem, node, "UTF-8", data1_get_encoding(p->dh, node));
 	if (!(p->rec_buf = data1_nodetosummary(p->dh, node, selected,
 					       p->odr)))
 	    p->diagnostic = 238;
@@ -1278,8 +1385,9 @@ int zebra_grs_retrieve(void *clientData, struct recRetrieveCtrl *p,
 	    p->rec_len = (size_t) (-1);
 	break;
     case VAL_SUTRS:
-        if (p->encoding)
-            data1_iconv (p->dh, mem, node, p->encoding, "UTF-8");
+	if (p->encoding)
+            data1_iconv (p->dh, mem, node, p->encoding,
+			 data1_get_encoding(p->dh, node));
 	if (!(p->rec_buf = data1_nodetobuf(p->dh, node, selected,
 					   &p->rec_len)))
 	    p->diagnostic = 238;
@@ -1291,6 +1399,9 @@ int zebra_grs_retrieve(void *clientData, struct recRetrieveCtrl *p,
 	}
 	break;
     case VAL_SOIF:
+	if (p->encoding)
+            data1_iconv (p->dh, mem, node, p->encoding,
+			 data1_get_encoding(p->dh, node));
 	if (!(p->rec_buf = data1_nodetosoif(p->dh, node, selected,
 					    &p->rec_len)))
 	    p->diagnostic = 238;
@@ -1316,8 +1427,9 @@ int zebra_grs_retrieve(void *clientData, struct recRetrieveCtrl *p,
 	    p->diagnostic = 238;
 	    break;
 	}
-        if (p->encoding)
-            data1_iconv (p->dh, mem, node, p->encoding, "UTF-8");
+	if (p->encoding)
+            data1_iconv (p->dh, mem, node, p->encoding,
+			 data1_get_encoding(p->dh, node));
 	if (!(p->rec_buf = data1_nodetomarc(p->dh, marctab, node,
 					selected, &p->rec_len)))
 	    p->diagnostic = 238;