Fixes for hit estimates. Added zebra_set_approx_limit.
[idzebra-moved-to-github.git] / index / zsets.c
index fd89662..024113e 100644 (file)
@@ -1,4 +1,4 @@
-/* $Id: zsets.c,v 1.83 2005-05-24 11:35:42 adam Exp $
+/* $Id: zsets.c,v 1.89 2005-06-09 10:39:53 adam Exp $
    Copyright (C) 1995-2005
    Index Data ApS
 
@@ -62,6 +62,7 @@ struct zebra_set {
     zint cache_position;  /* last position */
     RSFD cache_rfd;       /* rfd (NULL if not existing) */
     zint cache_psysno;    /* sysno for last position */
+    zint approx_limit;    /* limit before we do approx */
 };
 
 struct zset_sort_entry {
@@ -128,6 +129,7 @@ ZEBRA_RES resultSetSearch(ZebraHandle zh, NMEM nmem, NMEM rset_nmem,
     for (i = 0; sort_sequence->specs[i]; i++)
         ;
     sort_sequence->num_specs = i;
+    rset->hits_limit = sset->approx_limit;
     if (!i)
     {
         res = resultSetRank (zh, sset, rset, rset_nmem);
@@ -152,7 +154,7 @@ ZEBRA_RES resultSetAddRPN (ZebraHandle zh, NMEM m, Z_RPNQuery *rpn,
 
     zh->hits = 0;
 
-    zebraSet = resultSetAdd (zh, setname, 1);
+    zebraSet = resultSetAdd(zh, setname, 1);
     if (!zebraSet)
         return ZEBRA_FAIL;
     zebraSet->locked = 1;
@@ -164,7 +166,7 @@ ZEBRA_RES resultSetAddRPN (ZebraHandle zh, NMEM m, Z_RPNQuery *rpn,
     zebraSet->basenames = 
         nmem_malloc (zebraSet->nmem, num_bases * sizeof(*zebraSet->basenames));
     for (i = 0; i<num_bases; i++)
-        zebraSet->basenames[i] = nmem_strdup (zebraSet->nmem, basenames[i]);
+        zebraSet->basenames[i] = nmem_strdup(zebraSet->nmem, basenames[i]);
 
     res = resultSetSearch(zh, zebraSet->nmem, zebraSet->rset_nmem,
                          rpn, zebraSet);
@@ -205,7 +207,7 @@ void resultSetAddTerm (ZebraHandle zh, ZebraSet s, int reg_type,
     (s->hits)++;
 }
 
-ZebraSet resultSetAdd (ZebraHandle zh, const char *name, int ov)
+ZebraSet resultSetAdd(ZebraHandle zh, const char *name, int ov)
 {
     ZebraSet s;
     int i;
@@ -267,10 +269,11 @@ ZebraSet resultSetAdd (ZebraHandle zh, const char *name, int ov)
     s->rpn = 0;
     s->cache_position = 0;
     s->cache_rfd = 0;
+    s->approx_limit = zh->approx_limit;
     return s;
 }
 
-ZebraSet resultSetGet (ZebraHandle zh, const char *name)
+ZebraSet resultSetGet(ZebraHandle zh, const char *name)
 {
     ZebraSet s;
 
@@ -313,7 +316,7 @@ void resultSetInvalidate (ZebraHandle zh)
     }
 }
 
-void resultSetDestroy (ZebraHandle zh, int num, char **names,int *statuses)
+void resultSetDestroy(ZebraHandle zh, int num, char **names,int *statuses)
 {
     ZebraSet * ss = &zh->sets;
     int i;
@@ -780,10 +783,11 @@ ZEBRA_RES resultSetSortSingle(ZebraHandle zh, NMEM nmem,
         }
     }
     rfd = rset_open (rset, RSETF_READ);
-    /* FIXME - pass a TERMID *, and use it for something below !! */
     while (rset_read (rfd, &key, &termid))
     {
         zint this_sys = key.mem[0];
+       if (log_level_searchhits)
+           key_logdump_txt(log_level_searchhits, &key, termid->name);
        kno++;
         if (this_sys != psysno)
         {
@@ -847,6 +851,7 @@ ZEBRA_RES resultSetRank(ZebraHandle zh, ZebraSet zebraSet,
        RSFD rfd = rset_open(rset, RSETF_READ);
        struct rank_control *rc = rank_class->control;
        double score;
+       zint count = 0;
        
        void *handle =
            (*rc->begin) (zh->reg, rank_class->class_handle, rset, nmem,
@@ -857,7 +862,8 @@ ZEBRA_RES resultSetRank(ZebraHandle zh, ZebraSet zebraSet,
            zint this_sys = key.mem[0];
            zint seqno = key.mem[key.len-1];
            kno++;
-           key_logdump_txt(log_level_searchhits, &key, " Got hit");
+           if (log_level_searchhits)
+               key_logdump_txt(log_level_searchhits, &key, termid->name);
            if (this_sys != psysno)
            {
                if (rfd->counted_items >= rset->hits_limit)
@@ -866,6 +872,7 @@ ZEBRA_RES resultSetRank(ZebraHandle zh, ZebraSet zebraSet,
                {
                    score = (*rc->calc) (handle, psysno);
                    resultSetInsertRank (zh, sort_info, psysno, score, 'A');
+                   count++;
                }
                psysno = this_sys;
            }
@@ -875,6 +882,7 @@ ZEBRA_RES resultSetRank(ZebraHandle zh, ZebraSet zebraSet,
        {
            score = (*rc->calc)(handle, psysno);
            resultSetInsertRank(zh, sort_info, psysno, score, 'A');
+           count++;
        }
        (*rc->end) (zh->reg, handle);
        rset_close (rfd);
@@ -1030,3 +1038,60 @@ ZEBRA_RES zebra_result_set_term_info(ZebraHandle zh, const char *setname,
     }
     return ZEBRA_FAIL;
 }
+
+ZEBRA_RES zebra_snippets_hit_vector(ZebraHandle zh, const char *setname,
+                                   zint sysno, zebra_snippets *snippets)
+{
+    ZebraSet sset = resultSetGet(zh, setname);
+    yaz_log(YLOG_LOG, "zebra_get_hit_vector setname=%s zysno=" ZINT_FORMAT,
+           setname, sysno);
+    if (!sset)
+       return ZEBRA_FAIL;
+    else
+    {
+       struct rset_key_control *kc = zebra_key_control_create(zh);
+       NMEM nmem = nmem_create();
+       struct it_key key;
+       RSET rsets[2], rset_comb;
+       RSET rset_temp = rstemp_create(nmem, kc, kc->scope, 
+                                      res_get (zh->res, "setTmpDir"),0 );
+       
+       TERMID termid;
+       RSFD rsfd = rset_open(rset_temp, RSETF_WRITE);
+       
+       key.mem[0] = sysno;
+       key.mem[1] = 0;
+       key.mem[2] = 0;
+       key.mem[3] = 0;
+       key.len = 2;
+       rset_write (rsfd, &key);
+       rset_close (rsfd);
+
+       rsets[0] = rset_temp;
+       rsets[1] = rset_dup(sset->rset);
+       
+       rset_comb = rsmulti_and_create(nmem, kc, kc->scope, 2, rsets);
+
+       rsfd = rset_open(rset_comb, RSETF_READ);
+
+       while (rset_read(rsfd, &key, &termid))
+       {
+           if (termid)
+           {
+               struct ord_list *ol;
+               for (ol = termid->ol; ol; ol = ol->next)
+               {
+                   zebra_snippets_append(snippets, key.mem[key.len-1],
+                                         termid->reg_type,
+                                         ol->ord, termid->name);
+               }
+           }
+       }
+       rset_close(rsfd);
+       
+       rset_delete(rset_comb);
+       nmem_destroy(nmem);
+    }
+    return ZEBRA_OK;
+}
+