Added stop word support for CCL parser. These are configured with
[yaz-moved-to-github.git] / src / ccltoken.c
index 1288071..e9c1f34 100644 (file)
@@ -48,7 +48,7 @@
 /* CCL - lexical analysis
  * Europagate, 1995
  *
- * $Id: ccltoken.c,v 1.9 2005-08-22 20:34:21 adam Exp $
+ * $Id: ccltoken.c,v 1.12 2007-04-30 19:55:40 adam Exp $
  *
  * Old Europagate Log:
  *
@@ -91,7 +91,7 @@
 #include <stdlib.h>
 #include <ctype.h>
 
-#include <yaz/ccl.h>
+#include "cclp.h"
 
 /*
  * token_cmp: Compare token with keyword(s)
  * return: 1 if token string matches one of the keywords in list;
  *         0 otherwise.
  */
-static int token_cmp (CCL_parser cclp, const char *kw, struct ccl_token *token)
+static int token_cmp(CCL_parser cclp, const char **kw, struct ccl_token *token)
 {
-    const char *cp1 = kw;
-    const char *cp2;
-    const char *aliases;
+    const char **aliases;
     int case_sensitive = cclp->ccl_case_sensitive;
+    int i;
 
     aliases = ccl_qual_search_special(cclp->bibset, "case");
     if (aliases)
-        case_sensitive = atoi(aliases);
-    if (!kw)
-        return 0;
-    while ((cp2 = strchr (cp1, ' ')))
+        case_sensitive = atoi(aliases[0]);
+
+    for (i = 0; kw[i]; i++)
     {
-        if (token->len == (size_t) (cp2-cp1))
+        if (token->len == strlen(kw[i]))
         {
             if (case_sensitive)
             {
-                if (!memcmp (cp1, token->name, token->len))
+                if (!memcmp(kw[i], token->name, token->len))
                     return 1;
             }
             else
             {
-                if (!ccl_memicmp (cp1, token->name, token->len))
+                if (!ccl_memicmp(kw[i], token->name, token->len))
                     return 1;
             }
         }
-        cp1 = cp2+1;
     }
-    if (case_sensitive)
-        return token->len == strlen(cp1) 
-            && !memcmp (cp1, token->name, token->len);
-    return token->len == strlen(cp1) &&
-        !ccl_memicmp (cp1, token->name, token->len);
+    return 0;
 }
 
 /*
  * ccl_tokenize: tokenize CCL command string.
  * return: CCL token list.
  */
-struct ccl_token *ccl_parser_tokenize (CCL_parser cclp, const char *command)
+struct ccl_token *ccl_parser_tokenize(CCL_parser cclp, const char *command)
 {
-    const char *aliases;
+    const char **aliases;
     const unsigned char *cp = (const unsigned char *) command;
     struct ccl_token *first = NULL;
     struct ccl_token *last = NULL;
+    cclp->start_pos = command;
 
     while (1)
     {
         const unsigned char *cp0 = cp;
-        while (*cp && strchr (" \t\r\n", *cp))
+        while (*cp && strchr(" \t\r\n", *cp))
             cp++;
         if (!first)
         {
-            first = last = (struct ccl_token *)xmalloc (sizeof (*first));
-            ccl_assert (first);
+            first = last = (struct ccl_token *)xmalloc(sizeof(*first));
+            ccl_assert(first);
             last->prev = NULL;
         }
         else
         {
-            last->next = (struct ccl_token *)xmalloc (sizeof(*first));
-            ccl_assert (last->next);
+            last->next = (struct ccl_token *)xmalloc(sizeof(*first));
+            ccl_assert(last->next);
             last->next->prev = last;
             last = last->next;
         }
@@ -220,9 +214,9 @@ struct ccl_token *ccl_parser_tokenize (CCL_parser cclp, const char *command)
                 cp++;
             break;
         default:
-            if (!strchr ("(),%!><= \t\n\r", cp[-1]))
+            if (!strchr("(),%!><= \t\n\r", cp[-1]))
             {
-                while (*cp && !strchr ("(),%!><= \t\n\r", *cp))
+                while (*cp && !strchr("(),%!><= \t\n\r", *cp))
                 {
                     cp++;
                     ++ last->len;
@@ -233,35 +227,35 @@ struct ccl_token *ccl_parser_tokenize (CCL_parser cclp, const char *command)
             aliases = ccl_qual_search_special(cclp->bibset, "and");
             if (!aliases)
                 aliases = cclp->ccl_token_and;
-            if (token_cmp (cclp, aliases, last))
+            if (token_cmp(cclp, aliases, last))
                 last->kind = CCL_TOK_AND;
 
             aliases = ccl_qual_search_special(cclp->bibset, "or");
             if (!aliases)
                 aliases = cclp->ccl_token_or;
-            if (token_cmp (cclp, aliases, last))
+            if (token_cmp(cclp, aliases, last))
                 last->kind = CCL_TOK_OR;
 
             aliases = ccl_qual_search_special(cclp->bibset, "not");
             if (!aliases)
                 aliases = cclp->ccl_token_not;
-            if (token_cmp (cclp, aliases, last))
+            if (token_cmp(cclp, aliases, last))
                 last->kind = CCL_TOK_NOT;
 
             aliases = ccl_qual_search_special(cclp->bibset, "set");
             if (!aliases)
                 aliases = cclp->ccl_token_set;
 
-            if (token_cmp (cclp, aliases, last))
+            if (token_cmp(cclp, aliases, last))
                 last->kind = CCL_TOK_SET;
         }
     }
     return first;
 }
 
-struct ccl_token *ccl_token_add (struct ccl_token *at)
+struct ccl_token *ccl_token_add(struct ccl_token *at)
 {
-    struct ccl_token *n = (struct ccl_token *)xmalloc (sizeof(*n));
+    struct ccl_token *n = (struct ccl_token *)xmalloc(sizeof(*n));
     ccl_assert(n);
     n->next = at->next;
     n->prev = at;
@@ -277,113 +271,89 @@ struct ccl_token *ccl_token_add (struct ccl_token *at)
     return n;
 }
     
-struct ccl_token *ccl_tokenize (const char *command)
-{
-    CCL_parser cclp = ccl_parser_create ();
-    struct ccl_token *list;
-
-    list = ccl_parser_tokenize (cclp, command);
-
-    ccl_parser_destroy (cclp);
-    return list;
-}
-
 /*
  * ccl_token_del: delete CCL tokens
  */
-void ccl_token_del (struct ccl_token *list)
+void ccl_token_del(struct ccl_token *list)
 {
     struct ccl_token *list1;
 
     while (list) 
     {
         list1 = list->next;
-        xfree (list);
+        xfree(list);
         list = list1;
     }
 }
 
-char *ccl_strdup (const char *str)
+static const char **create_ar(const char *v1, const char *v2)
 {
-    int len = strlen(str);
-    char *p = (char*) xmalloc (len+1);
-    strcpy (p, str);
-    return p;
+    const char **a = xmalloc(3 * sizeof(*a));
+    a[0] = xstrdup(v1);
+    if (v2)
+    {
+        a[1] = xstrdup(v2);
+        a[2] = 0;
+    }
+    else
+        a[1] = 0;
+    return a;
+}
+
+static void destroy_ar(const char **a)
+{
+    if (a)
+    {
+        int i;
+        for (i = 0; a[i]; i++)
+            xfree((char *) a[i]);
+        xfree(a);
+    }
 }
 
-CCL_parser ccl_parser_create (void)
+CCL_parser ccl_parser_create(CCL_bibset bibset)
 {
-    CCL_parser p = (CCL_parser)xmalloc (sizeof(*p));
+    CCL_parser p = (CCL_parser)xmalloc(sizeof(*p));
     if (!p)
         return p;
     p->look_token = NULL;
     p->error_code = 0;
     p->error_pos = NULL;
-    p->bibset = NULL;
+    p->bibset = bibset;
 
-    p->ccl_token_and = ccl_strdup("and");
-    p->ccl_token_or = ccl_strdup("or");
-    p->ccl_token_not = ccl_strdup("not andnot");
-    p->ccl_token_set = ccl_strdup("set");
+    p->ccl_token_and = create_ar("and", 0);
+    p->ccl_token_or = create_ar("or", 0);
+    p->ccl_token_not = create_ar("not", "andnot");
+    p->ccl_token_set = create_ar("set", 0);
     p->ccl_case_sensitive = 1;
 
     return p;
 }
 
-void ccl_parser_destroy (CCL_parser p)
+void ccl_parser_destroy(CCL_parser p)
 {
     if (!p)
         return;
-    xfree (p->ccl_token_and);
-    xfree (p->ccl_token_or);
-    xfree (p->ccl_token_not);
-    xfree (p->ccl_token_set);
-    xfree (p);
+    destroy_ar(p->ccl_token_and);
+    destroy_ar(p->ccl_token_or);
+    destroy_ar(p->ccl_token_not);
+    destroy_ar(p->ccl_token_set);
+    xfree(p);
 }
 
-void ccl_parser_set_op_and (CCL_parser p, const char *op)
+void ccl_parser_set_case(CCL_parser p, int case_sensitivity_flag)
 {
-    if (p && op)
-    {
-        if (p->ccl_token_and)
-            xfree (p->ccl_token_and);
-        p->ccl_token_and = ccl_strdup (op);
-    }
+    if (p)
+        p->ccl_case_sensitive = case_sensitivity_flag;
 }
 
-void ccl_parser_set_op_or (CCL_parser p, const char *op)
-{
-    if (p && op)
-    {
-        if (p->ccl_token_or)
-            xfree (p->ccl_token_or);
-        p->ccl_token_or = ccl_strdup (op);
-    }
-}
-void ccl_parser_set_op_not (CCL_parser p, const char *op)
-{
-    if (p && op)
-    {
-        if (p->ccl_token_not)
-            xfree (p->ccl_token_not);
-        p->ccl_token_not = ccl_strdup (op);
-    }
-}
-void ccl_parser_set_op_set (CCL_parser p, const char *op)
+int ccl_parser_get_error(CCL_parser cclp, int *pos)
 {
-    if (p && op)
-    {
-        if (p->ccl_token_set)
-            xfree (p->ccl_token_set);
-        p->ccl_token_set = ccl_strdup (op);
-    }
+    if (pos && cclp->error_code)
+        *pos = cclp->error_pos - cclp->start_pos;
+    return cclp->error_code;
 }
 
-void ccl_parser_set_case (CCL_parser p, int case_sensitivity_flag)
-{
-    if (p)
-        p->ccl_case_sensitive = case_sensitivity_flag;
-}
 /*
  * Local variables:
  * c-basic-offset: 4