Allow range to be specified in termlist, e.g. title:w:range(data,2,4)
[idzebra-moved-to-github.git] / data1 / d1_absyn.c
index e2434c4..f2a48ec 100644 (file)
@@ -1,5 +1,5 @@
-/* $Id: d1_absyn.c,v 1.5 2002-12-16 22:59:34 adam Exp $
-   Copyright (C) 1995,1996,1997,1998,1999,2000,2001,2002
+/* $Id: d1_absyn.c,v 1.11 2004-08-24 14:29:09 adam Exp $
+   Copyright (C) 1995,1996,1997,1998,1999,2000,2001,2002,2003,2004
    Index Data Aps
 
 This file is part of the Zebra server.
@@ -28,6 +28,7 @@ Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
 #include <yaz/oid.h>
 #include <yaz/log.h>
 #include <data1.h>
+#include <zebra_xpath.h>
 
 #define D1_MAX_NESTING  128
 
@@ -57,7 +58,7 @@ data1_absyn *data1_absyn_search (data1_handle dh, const char *name)
 
     while (p)
     {
-       if (!strcmp (name, p->name))
+       if (!yaz_matchstr (name, p->name))
            return p->absyn;
        p = p->next;
     }
@@ -75,12 +76,15 @@ void data1_absyn_destroy (data1_handle dh)
     while (p)
     {
         data1_absyn *abs = p->absyn;
-        data1_xpelement *xpe = abs->xp_elements;
-        while (xpe) {
-            logf (LOG_DEBUG,"Destroy xp element %s",xpe->xpath_expr);
-            if (xpe->dfa) {  dfa_delete (&xpe->dfa); }
-            xpe = xpe->next;
-        } 
+       if (abs)
+       {
+           data1_xpelement *xpe = abs->xp_elements;
+           while (xpe) {
+               logf (LOG_DEBUG,"Destroy xp element %s",xpe->xpath_expr);
+               if (xpe->dfa) {  dfa_delete (&xpe->dfa); }
+               xpe = xpe->next;
+           } 
+       }
         p = p->next;
     }
 }
@@ -129,7 +133,7 @@ data1_attset *data1_attset_search_name (data1_handle dh, const char *name)
 
     while (p)
     {
-       if (!strcmp (name, p->name))
+       if (!yaz_matchstr (name, p->name))
            return p->attset;
        p = p->next;
     }
@@ -282,14 +286,23 @@ void fix_element_ref (data1_handle dh, data1_absyn *absyn, data1_element *e)
       /      ->    none
 
    pop, 2002-12-13
+
+   Now [] predicates are supported
+
+   pop, 2003-01-17
+
  */
 
 const char * mk_xpath_regexp (data1_handle dh, char *expr) 
 {
     char *p = expr;
+    char *pp;
+    char *s;
     int abs = 1;
     int i;
+    int j;
     int e=0;
+    int is_predicate = 0;
     
     static char *stack[32];
     static char res[1024];
@@ -301,10 +314,28 @@ const char * mk_xpath_regexp (data1_handle dh, char *expr)
     
     while (*p) {
         i=0;
-        while (*p && !strchr("/",*p)) { i++; p++; }
+        while (*p && !strchr("/",*p)) { 
+         i++; p++; 
+       }
         stack[e] = (char *) nmem_malloc (data1_nmem_get (dh), i+1);
-        memcpy (stack[e],  p - i, i);
-        stack[e][i] = 0;
+       s = stack[e];
+       for (j=0; j< i; j++) {
+         pp = p-i+j;
+         if (*pp == '[') {
+           is_predicate=1;
+         }
+         else if (*pp == ']') {
+           is_predicate=0;
+         }
+         else {
+           if (!is_predicate) {
+             if (*pp == '*') 
+                *s++ = '.';
+             *s++ = *pp;
+           }
+         }
+       }
+       *s = 0;
         e++;
         if (*p) {p++;}
     }
@@ -319,6 +350,7 @@ const char * mk_xpath_regexp (data1_handle dh, char *expr)
     if (!abs) { sprintf (p, ".*"); p+=2; }
     sprintf (p, "$"); p++;
     r = nmem_strdup (data1_nmem_get (dh), res);
+    yaz_log(LOG_DEBUG,"Got regexp: %s",r);
     return (r);
 }
 
@@ -330,28 +362,57 @@ const char * mk_xpath_regexp (data1_handle dh, char *expr)
    pop, 2002-12-13
  */
 static int parse_termlists (data1_handle dh, data1_termlist ***tpp,
-                           char *p, const char *file, int lineno,
+                           char *cp, const char *file, int lineno,
                            const char *element_name, data1_absyn *res,
                            int xpelement)
 {
     data1_termlist **tp = *tpp;
-    do
+    while(1)
     {
        char attname[512], structure[512];
        char *source;
-       int r;
-       
-       if (!(r = sscanf(p, "%511[^:,]:%511[^,]", attname,
-                        structure)))
+       int r, i;
+       int level = 0;
+       structure[0] = '\0';
+       for (i = 0; cp[i] && i<sizeof(attname)-1; i++)
+           if (strchr(":,", cp[i]))
+               break;
+           else
+               attname[i] = cp[i];
+       if (i == 0)
        {
-           yaz_log(LOG_WARN,
-                   "%s:%d: Syntax error in termlistspec '%s'",
-                   file, lineno, p);
-           return -1;
+           if (*cp)
+               yaz_log(LOG_WARN,
+                       "%s:%d: Syntax error in termlistspec '%s'",
+                       file, lineno, cp);
+           break;
        }
+       attname[i] = '\0';
+       r = 1;
+       cp += i;
+       if (*cp == ':')
+           cp++;
+
+       for (i = 0; cp[i] && i<sizeof(structure)-1; i++)
+           if (level == 0 && strchr(",", cp[i]))
+               break;
+           else
+           {
+               structure[i] = cp[i];
+               if (cp[i] == '(')
+                   level++;
+               else if (cp[i] == ')')
+                   level--;
+           }
+       structure[i] = '\0';
+       if (i)
+           r = 2;
+       cp += i;
+       if (*cp)
+           cp++;  /* skip , */
 
        *tp = (data1_termlist *)
-         nmem_malloc(data1_nmem_get(dh), sizeof(**tp));
+           nmem_malloc(data1_nmem_get(dh), sizeof(**tp));
        (*tp)->next = 0;
         
        if (!xpelement) {
@@ -384,7 +445,7 @@ static int parse_termlists (data1_handle dh, data1_termlist ***tpp,
                nmem_strdup (data1_nmem_get (dh), structure);
        tp = &(*tp)->next;
     }
-    while ((p = strchr(p, ',')) && *(++p));
+
     *tpp = tp;
     return 0;
 }
@@ -399,6 +460,48 @@ const char *data1_systag_lookup(data1_absyn *absyn, const char *tag,
     return default_value;
 }
 
+#define l_isspace(c) ((c) == '\t' || (c) == ' ' || (c) == '\n' || (c) == '\r')
+
+int read_absyn_line(FILE *f, int *lineno, char *line, int len,
+                   char *argv[], int num)
+{
+    char *p;
+    int argc;
+    int quoted = 0;
+    
+    while ((p = fgets(line, len, f)))
+    {
+       (*lineno)++;
+       while (*p && l_isspace(*p))
+           p++;
+       if (*p && *p != '#')
+           break;
+    }
+    if (!p)
+       return 0;
+    
+    for (argc = 0; *p ; argc++)
+    {
+       if (*p == '#')  /* trailing comment */
+           break;
+       argv[argc] = p;
+       while (*p && !(l_isspace(*p) && !quoted)) {
+         if (*p =='"') quoted = 1 - quoted;
+         if (*p =='[') quoted = 1;
+         if (*p ==']') quoted = 0;
+         p++;
+       }
+       if (*p)
+       {
+           *(p++) = '\0';
+           while (*p && l_isspace(*p))
+               p++;
+       }
+    }
+    return argc;
+}
+
+
 data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
                                int file_must_exist)
 {
@@ -451,7 +554,7 @@ data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
     res->main_elements = NULL;
     res->xp_elements = NULL;
     
-    while (f && (argc = readconf_line(f, &lineno, line, 512, argv, 50)))
+    while (f && (argc = read_absyn_line(f, &lineno, line, 512, argv, 50)))
     {
        char *cmd = *argv;
        if (!strcmp(cmd, "elm") || !strcmp(cmd, "element"))
@@ -582,6 +685,11 @@ data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
           maybe we should use a simple sscanf instead of dfa?
            
           pop, 2002-12-13
+
+          Now [] predicates are supported. regexps and xpath structure is
+          a bit redundant, however it's comfortable later...
+
+          pop, 2003-01-17
        */
 
        else if (!strcmp(cmd, "xelm")) {
@@ -589,7 +697,6 @@ data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
            int i;
            char *p, *xpath_expr, *termlists;
            const char *regexp;
-           int type, value;
            struct DFA *dfa = dfa = dfa_init();
            data1_termlist **tp;
             
@@ -624,7 +731,17 @@ data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
            
            dfa_mkstate (dfa);
            cur_xpelement->dfa = dfa;
+
+#ifdef ENHANCED_XELM 
+            cur_xpelement->xpath_len =
+                zebra_parse_xpath_str(xpath_expr, 
+                                      cur_xpelement->xpath, XPATH_STEP_COUNT,
+                                      data1_nmem_get(dh));
             
+           /*
+           dump_xp_steps(cur_xpelement->xpath,cur_xpelement->xpath_len);
+           */
+#endif
            cur_xpelement->termlists = 0;
            tp = &cur_xpelement->termlists;
             
@@ -873,7 +990,6 @@ data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
        }
         else if (!strcmp(cmd, "systag"))
         {
-            struct data1_systag *st;
             if (argc != 3)
             {
                yaz_log(LOG_WARN, "%s:%d: Bad # or args for systag",