Fixed bug #1114: scan within set may use excessive CPU.
[idzebra-moved-to-github.git] / index / rpnscan.c
index 846c979..7800b11 100644 (file)
@@ -1,5 +1,5 @@
-/* $Id: rpnscan.c,v 1.4 2006-10-29 17:18:05 adam Exp $
-   Copyright (C) 1995-2006
+/* $Id: rpnscan.c,v 1.11 2007-05-09 07:07:18 adam Exp $
+   Copyright (C) 1995-2007
    Index Data ApS
 
 This file is part of the Zebra server.
@@ -37,6 +37,7 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA
 #include <attrfind.h>
 #include <charmap.h>
 #include <rset.h>
+#include <yaz/oid_db.h>
 
 #define RPN_MAX_ORDS 32
 
@@ -150,7 +151,7 @@ static int scan_save_set(ZebraHandle zh, ODR stream, NMEM nmem,
     RSET rset = 0;
     for (i = 0; i < ord_no; i++)
     {
-        if (ar[i].isam_p && strcmp(wrbuf_buf(ar[i].term), term) == 0)
+        if (ar[i].isam_p && strcmp(wrbuf_cstr(ar[i].term), term) == 0)
         {
             RSET rset_t = rset_trunc(
                     zh, &ar[i].isam_p, 1,
@@ -213,6 +214,7 @@ static ZEBRA_RES rpn_scan_ver2(ZebraHandle zh, ODR stream, NMEM nmem,
     struct scan2_info_entry *ar = nmem_malloc(nmem, sizeof(*ar) * ord_no);
     struct rpn_char_map_info rcmi;
     int i, dif;
+    int after_pos;
     int pos = 0;
 
     ZebraScanEntry *glist = (ZebraScanEntry *)
@@ -242,7 +244,11 @@ static ZEBRA_RES rpn_scan_ver2(ZebraHandle zh, ODR stream, NMEM nmem,
         
         if (trans_scan_term(zh, zapt, termz+prefix_len, index_type) == 
             ZEBRA_FAIL)
+        {
+            for (i = 0; i < ord_no; i++)
+                wrbuf_destroy(ar[i].term);
             return ZEBRA_FAIL;
+        }
         wrbuf_rewind(ar[i].term);
         wrbuf_puts(ar[i].term, termz + prefix_len);
         ar[i].isam_p = 0;
@@ -265,7 +271,7 @@ static ZEBRA_RES rpn_scan_ver2(ZebraHandle zh, ODR stream, NMEM nmem,
                 ar[i].pos_to_save = -1;
 
                 strcpy(termz, ar[i].prefix);
-                strcat(termz, wrbuf_buf(ar[i].term));
+                strcat(termz, wrbuf_cstr(ar[i].term));
                 dict_scan(zh->reg->dict, termz, &before, &after,
                           ar+i, scan_handle2);
             }
@@ -274,8 +280,8 @@ static ZEBRA_RES rpn_scan_ver2(ZebraHandle zh, ODR stream, NMEM nmem,
         for (i = 0; i < ord_no; i++)
         {
             if (ar[i].isam_p 
-                && (hi == 0 || strcmp(wrbuf_buf(ar[i].term), hi) > 0))
-                hi = wrbuf_buf(ar[i].term);
+                && (hi == 0 || strcmp(wrbuf_cstr(ar[i].term), hi) > 0))
+                hi = wrbuf_cstr(ar[i].term);
         }
         if (!hi)
             break;
@@ -313,6 +319,7 @@ static ZEBRA_RES rpn_scan_ver2(ZebraHandle zh, ODR stream, NMEM nmem,
         ar[i].isam_p = 0;
     }
 
+    after_pos = 1;  /* immediate term first.. */
     for (pos = *position-1; pos < *num_entries; )
     {
         const char *lo = 0;
@@ -324,22 +331,24 @@ static ZEBRA_RES rpn_scan_ver2(ZebraHandle zh, ODR stream, NMEM nmem,
             {
                 char termz[IT_MAX_WORD+20];
                 int before = 0;
-                int after = (pos == *position-1) ? 1 : 2;
+                int after = after_pos;
 
                 ar[i].pos_to_save = 1;
 
                 strcpy(termz, ar[i].prefix);
-                strcat(termz, wrbuf_buf(ar[i].term));
+                strcat(termz, wrbuf_cstr(ar[i].term));
                 dict_scan(zh->reg->dict, termz, &before, &after,
                           ar+i, scan_handle2);
             }
         }
+        after_pos = 2;  /* next round we grab following term */
+
         /* get minimum after scan */
         for (i = 0; i < ord_no; i++)
         {
             if (ar[i].isam_p 
-                && (lo == 0 || strcmp(wrbuf_buf(ar[i].term), lo) < 0))
-                lo = wrbuf_buf(ar[i].term);
+                && (lo == 0 || strcmp(wrbuf_cstr(ar[i].term), lo) < 0))
+                lo = wrbuf_cstr(ar[i].term);
         }
         if (!lo)
             break;
@@ -360,6 +369,9 @@ static ZEBRA_RES rpn_scan_ver2(ZebraHandle zh, ODR stream, NMEM nmem,
 
     *list = glist;
 
+    for (i = 0; i < ord_no; i++)
+       wrbuf_destroy(ar[i].term);
+
     return ZEBRA_OK;
 }
 
@@ -376,7 +388,7 @@ struct scan_info {
 };
 
 ZEBRA_RES rpn_scan(ZebraHandle zh, ODR stream, Z_AttributesPlusTerm *zapt,
-                  oid_value attributeset,
+                  const Odr_oid *attributeset,
                   int num_bases, char **basenames,
                   int *position, int *num_entries, ZebraScanEntry **list,
                   int *is_partial, RSET limit_set)
@@ -396,8 +408,8 @@ ZEBRA_RES rpn_scan(ZebraHandle zh, ODR stream, Z_AttributesPlusTerm *zapt,
     *list = 0;
     *is_partial = 0;
 
-    if (attributeset == VAL_NONE)
-        attributeset = VAL_BIB1;
+    if (!attributeset)
+        attributeset = yaz_oid_attset_bib_1;
 
     if (!limit_set) /* no limit set given already */
     {
@@ -415,7 +427,6 @@ ZEBRA_RES rpn_scan(ZebraHandle zh, ODR stream, Z_AttributesPlusTerm *zapt,
             
             if (termset_value_numeric != -2)
             {
-                
                 sprintf(resname, "%d", termset_value_numeric);
                 termset_name = resname;
             }
@@ -423,11 +434,19 @@ ZEBRA_RES rpn_scan(ZebraHandle zh, ODR stream, Z_AttributesPlusTerm *zapt,
                 termset_name = termset_value_string;
             
             limit_set = resultSetRef (zh, termset_name);
+
+            if (!limit_set)
+            {
+                zebra_setError(zh, 
+                               YAZ_BIB1_SPECIFIED_RESULT_SET_DOES_NOT_EXIST,
+                               termset_name);
+                return ZEBRA_FAIL;
+            }
         }
     }
         
-    yaz_log(YLOG_DEBUG, "position = %d, num = %d set=%d",
-           *position, *num_entries, attributeset);
+    yaz_log(YLOG_DEBUG, "position = %d, num = %d",
+           *position, *num_entries);
         
     if (zebra_maps_attr(zh->reg->zebra_maps, zapt, &index_type, &search_type,
                        rank_type, &complete_flag, &sort_flag))