Bug fix: Leading and trailing white space weren't removed in scan tokens.
[idzebra-moved-to-github.git] / dict / insert.c
index ff99b66..ce41de7 100644 (file)
@@ -1,10 +1,39 @@
 /*
- * Copyright (C) 1994, Index Data I/S 
+ * Copyright (C) 1994-1996, Index Data I/S 
  * All rights reserved.
  * Sebastian Hammer, Adam Dickmeiss
  *
  * $Log: insert.c,v $
- * Revision 1.9  1994-09-16 15:39:13  adam
+ * Revision 1.17  1996-05-14 15:49:09  adam
+ * Bug fix: In function split_page. In rare cases variable best_indxp was
+ * referenced.
+ *
+ * Revision 1.16  1996/02/02  13:43:50  adam
+ * The public functions simply use char instead of Dict_char to represent
+ * search strings. Dict_char is used internally only.
+ *
+ * Revision 1.15  1996/02/01  20:39:59  adam
+ * Bug fix: insert didn't work on 8-bit characters due to unsigned char
+ * compares in dict_strcmp (strcmp) and signed Dict_char. Dict_char is
+ * unsigned now.
+ *
+ * Revision 1.14  1995/12/07  11:48:56  adam
+ * Insert operation obeys DICT_type = 1 (slack in page).
+ * Function dict_open exists if page size or magic aren't right.
+ *
+ * Revision 1.13  1995/11/28  09:06:37  adam
+ * Fixed potential dangling pointer.
+ *
+ * Revision 1.12  1995/09/06  10:34:44  adam
+ * Memcpy in clean_page edited to satisfy checkergcc.
+ *
+ * Revision 1.11  1995/09/04  12:33:31  adam
+ * Various cleanup. YAZ util used instead.
+ *
+ * Revision 1.10  1994/10/05  12:16:48  adam
+ * Pagesize is a resource now.
+ *
+ * Revision 1.9  1994/09/16  15:39:13  adam
  * Initial code of lookup - not tested yet.
  *
  * Revision 1.8  1994/09/16  12:35:01  adam
@@ -83,14 +112,14 @@ static int split_page (Dict dict, Dict_ptr ptr, void *p)
     void *subp;
     char *info_here;
     Dict_ptr subptr;
-    int i;
+    int i, j;
     short *indxp, *best_indxp = NULL;
     Dict_char best_char = 0;
     Dict_char prev_char = 0;
     int best_no = -1, no_current = 1;
 
     /* determine splitting char... */
-    indxp = (short*) ((char*) p+DICT_PAGESIZE-sizeof(short));
+    indxp = (short*) ((char*) p+DICT_pagesize(dict)-sizeof(short));
     for (i = DICT_nodir (p); --i >= 0; --indxp)
     {
         if (*indxp > 0) /* tail string here! */
@@ -102,6 +131,7 @@ static int split_page (Dict dict, Dict_ptr ptr, void *p)
             {   /* first entry met */
                 best_char = prev_char = dc;
                 best_no = 1;
+                best_indxp = indxp;
             }
             else if (prev_char == dc)
             {   /* same char prefix. update */
@@ -122,20 +152,23 @@ static int split_page (Dict dict, Dict_ptr ptr, void *p)
     if (best_no < 0) /* we didn't find any tail string entry at all! */
         return -1;
 
+    j = best_indxp - (short*) p;
     subptr = new_page (dict, ptr, &subp);
     /* scan entries to see if there is a string with */
     /* length 1. info_here indicates if such entry exist */
     info_here = NULL;
-    for (indxp=best_indxp, i=0; i<best_no; i++, indxp++)
+    for (i=0; i<best_no; i++, j++)
     {
         char *info, *info1;
         int slen;
-
-        assert (*indxp > 0);
+        Dict_char dc;
         
-        info = (char*) p + *indxp;                    /* entry start */
-        assert (*info == best_char);
-        slen = dict_strlen(info);
+
+        info = (char*) p + ((short*) p)[j];
+        /* entry start */
+        memcpy (&dc, info, sizeof(dc));
+        assert (dc == best_char);
+        slen = dict_strlen((Dict_char*) info);
 
         assert (slen > 0);
         if (slen == 1)
@@ -146,7 +179,8 @@ static int split_page (Dict dict, Dict_ptr ptr, void *p)
         else
         {
             info1 = info+(1+slen)*sizeof(Dict_char);  /* info start */
-            dict_ins (dict, info+sizeof(Dict_char), subptr, *info1, info1+1);
+            dict_ins (dict, (Dict_char*) (info+sizeof(Dict_char)),
+                      subptr, *info1, info1+1);
             dict_bf_readp (dict->dbf, ptr, &p);
         }
     }
@@ -156,15 +190,15 @@ static int split_page (Dict dict, Dict_ptr ptr, void *p)
 }
 
 static void clean_page (Dict dict, Dict_ptr ptr, void *p, Dict_char *out,
-               Dict_ptr subptr, char *userinfo)             
+                        Dict_ptr subptr, char *userinfo)             
 {
     char *np = xmalloc (dict->head.page_size);
     int i, slen, no = 0;
     short *indxp1, *indxp2;
     char *info1, *info2;
 
-    indxp1 = (short*) ((char*) p+DICT_PAGESIZE-sizeof(short));
-    indxp2 = (short*) ((char*) np+DICT_PAGESIZE);
+    indxp1 = (short*) ((char*) p+DICT_pagesize(dict)-sizeof(short));
+    indxp2 = (short*) ((char*) np+DICT_pagesize(dict));
     info2 = (char*) np + DICT_infoffset;
     for (i = DICT_nodir (p); --i >= 0; --indxp1)
     {
@@ -196,7 +230,7 @@ static void clean_page (Dict dict, Dict_ptr ptr, void *p, Dict_char *out,
                 continue;
            }
             *--indxp2 = info2 - np;
-            slen = (dict_strlen(info1)+1)*sizeof(Dict_char);
+            slen = (dict_strlen((Dict_char*) info1)+1)*sizeof(Dict_char);
             memcpy (info2, info1, slen);
            info1 += slen;
             info2 += slen;
@@ -220,8 +254,17 @@ static void clean_page (Dict dict, Dict_ptr ptr, void *p, Dict_char *out,
         info2 += slen;
         ++no;
     }
+#if 1
+    memcpy ((char*)p+DICT_infoffset, 
+            (char*)np+DICT_infoffset,
+            info2 - ((char*)np+DICT_infoffset));
+    memcpy ((char*)p + ((char*)indxp2 - (char*)np),
+            indxp2,
+            ((char*) np+DICT_pagesize(dict)) - (char*)indxp2);
+#else
     memcpy ((char*)p+DICT_infoffset, (char*)np+DICT_infoffset,
-            DICT_PAGESIZE-DICT_infoffset);
+            DICT_pagesize(dict)-DICT_infoffset);
+#endif
     DICT_size(p) = info2 - np;
     DICT_type(p) = 0;
     DICT_nodir(p) = no;
@@ -254,7 +297,7 @@ static int dict_ins (Dict dict, const Dict_char *str,
 
     mid = lo = 0;
     hi = DICT_nodir(p)-1;
-    indxp = (short*) ((char*) p+DICT_PAGESIZE-sizeof(short));
+    indxp = (short*) ((char*) p+DICT_pagesize(dict)-sizeof(short));
     while (lo <= hi)
     {
         mid = (lo+hi)/2;
@@ -267,7 +310,7 @@ static int dict_ins (Dict dict, const Dict_char *str,
             cmp = dict_strcmp((Dict_char*) info, str);
             if (!cmp)
             {
-                info += (dict_strlen(info)+1)*sizeof(Dict_char);
+                info += (dict_strlen((Dict_char*) info)+1)*sizeof(Dict_char);
                 /* consider change of userinfo length... */
                 if (*info == userlen)
                 {
@@ -333,7 +376,7 @@ static int dict_ins (Dict dict, const Dict_char *str,
                     }
                     if (DICT_size(p)+sizeof(Dict_char)+sizeof(Dict_ptr)+
                         userlen >=
-                        DICT_PAGESIZE - (1+DICT_nodir(p))*sizeof(short))
+                        DICT_pagesize(dict) - (1+DICT_nodir(p))*sizeof(short))
                     {
                         if (DICT_type(p) == 1)
                         {
@@ -343,7 +386,7 @@ static int dict_ins (Dict dict, const Dict_char *str,
                         }
                         if (split_page (dict, ptr, p)) 
                         {
-                            log (LOG_FATAL, "Unable to split page %d\n", ptr);
+                            logf (LOG_FATAL, "Unable to split page %d\n", ptr);
                             abort ();
                         }
                         return dict_ins (dict, str-1, ptr, userlen, userinfo);
@@ -388,8 +431,13 @@ static int dict_ins (Dict dict, const Dict_char *str,
         --indxp;
     slen = (dict_strlen(str)+1)*sizeof(Dict_char);
     if (DICT_size(p)+slen+userlen >=
-        DICT_PAGESIZE - (1+DICT_nodir(p))*sizeof(short)) /* overflow? */
+        DICT_pagesize(dict) - (1+DICT_nodir(p))*sizeof(short)) /* overflow? */
     {
+        if (DICT_type(p))
+        {
+            clean_page (dict, ptr, p, NULL, 0, NULL);
+            return dict_ins (dict, str, ptr, userlen, userinfo);
+        }
         split_page (dict, ptr, p);
         return dict_ins (dict, str, ptr, userlen, userinfo);
     }
@@ -397,12 +445,12 @@ static int dict_ins (Dict dict, const Dict_char *str,
     {
         short *indxp1;
         (DICT_nodir(p))++;
-        indxp1 = (short*)((char*) p + DICT_PAGESIZE
+        indxp1 = (short*)((char*) p + DICT_pagesize(dict)
                           - DICT_nodir(p)*sizeof(short));
         for (; indxp1 != indxp; indxp1++)
             indxp1[0] = indxp1[1];
 #if CHECK
-        indxp1 = (short*) ((char*) p+DICT_PAGESIZE-sizeof(short));
+        indxp1 = (short*) ((char*) p+DICT_pagesize(dict)-sizeof(short));
         for (i = DICT_nodir (p); --i >= 0; --indxp1)
         {
             if (*indxp1 < 0)
@@ -430,12 +478,12 @@ static int dict_ins (Dict dict, const Dict_char *str,
     return 1;
 }
 
-int dict_insert (Dict dict, const Dict_char *str, int userlen, void *userinfo)
+int dict_insert (Dict dict, const char *str, int userlen, void *userinfo)
 {
     assert (dict->head.last > 0);
     if (dict->head.last == 1)
-        return dict_ins (dict, str, 0, userlen, userinfo);
+        return dict_ins (dict, (const Dict_char *) str, 0, userlen, userinfo);
     else
-        return dict_ins (dict, str, 1, userlen, userinfo);
+        return dict_ins (dict, (const Dict_char *) str, 1, userlen, userinfo);
 }