Version 2.0.52

[idzebra-moved-to-github.git] / index / zsets.c
diff --git a/index/zsets.c b/index/zsets.c

index fb997da..a168730 100644 (file)
--- a/index/zsets.c
+++ b/index/zsets.c
@@ -1,8 +1,5 @@
-/* $Id: zsets.c,v 1.121 2007-04-16 08:44:32 adam Exp $
-   Copyright (C) 1995-2007
-   Index Data ApS
-
-This file is part of the Zebra server.
+/* This file is part of the Zebra server.
+   Copyright (C) 1994-2011 Index Data
  
  Zebra is free software; you can redistribute it and/or modify it under
  the terms of the GNU General Public License as published by the Free
@@ -21,6 +18,9 @@ Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA
  */
  
  
+#if HAVE_CONFIG_H
+#include <config.h>
+#endif
  #include <stdio.h>
  #include <assert.h>
  #ifdef WIN32
@@ -50,7 +50,7 @@ struct zebra_set {
      NMEM rset_nmem; /* for creating the rsets in */
      zint hits;
      int num_bases;
-    char **basenames;
+    const char **basenames;
      Z_RPNQuery *rpn;
      Z_SortKeySpecList *sortSpec;
      struct zset_sort_info *sort_info;
@@ -109,13 +109,14 @@ static ZEBRA_RES resultSetSearch(ZebraHandle zh, NMEM nmem, NMEM rset_nmem,
      sort_sequence->num_specs = 10; /* FIXME - Hard-coded number */
      sort_sequence->specs = (Z_SortKeySpec **)
          nmem_malloc(nmem, sort_sequence->num_specs *
-                     sizeof(*sort_sequence->specs));
+                    sizeof(*sort_sequence->specs));
      for (i = 0; i<sort_sequence->num_specs; i++)
          sort_sequence->specs[i] = 0;
      
      rpn_get_top_approx_limit(zh, rpn->RPNStructure, &sset->approx_limit);
  
      res = rpn_search_top(zh, rpn->RPNStructure, rpn->attributeSetId,
+                         sset->approx_limit,
                          nmem, rset_nmem,
                          sort_sequence,
                          sset->num_bases, sset->basenames,
@@ -128,15 +129,16 @@ static ZEBRA_RES resultSetSearch(ZebraHandle zh, NMEM nmem, NMEM rset_nmem,
      for (i = 0; sort_sequence->specs[i]; i++)
          ;
      sort_sequence->num_specs = i;
-    rset->hits_limit = sset->approx_limit;
+    rset_set_hits_limit(rset, sset->approx_limit);
+
      if (!i)
      {
-        res = resultSetRank (zh, sset, rset, rset_nmem);
+        res = resultSetRank(zh, sset, rset, rset_nmem);
      }
      else
      {
-        res = resultSetSortSingle (zh, nmem, sset, rset,
-                                  sort_sequence, &sort_status);
+        res = resultSetSortSingle(zh, nmem, sset, rset,
+                                  sort_sequence, &sort_status);
      }
      sset->rset = rset;
      return res;
@@ -165,7 +167,7 @@ ZEBRA_RES resultSetAddRPN(ZebraHandle zh, NMEM m, Z_RPNQuery *rpn,
  
      zebraSet->num_bases = num_bases;
      zebraSet->basenames = 
-        nmem_malloc (zebraSet->nmem, num_bases * sizeof(*zebraSet->basenames));
+        nmem_malloc(zebraSet->nmem, num_bases * sizeof(*zebraSet->basenames));
      for (i = 0; i<num_bases; i++)
          zebraSet->basenames[i] = nmem_strdup(zebraSet->nmem, basenames[i]);
  
@@ -189,21 +191,21 @@ void resultSetAddTerm(ZebraHandle zh, ZebraSet s, int reg_type,
  {
      assert(zh); /* compiler shut up */
      if (!s->nmem)
-        s->nmem = nmem_create ();
+        s->nmem = nmem_create();
      if (!s->term_entries)
      {
          int i;
          s->term_entries_max = 1000;
          s->term_entries =
-            nmem_malloc (s->nmem, s->term_entries_max * 
-                         sizeof(*s->term_entries));
+            nmem_malloc(s->nmem, s->term_entries_max * 
+                        sizeof(*s->term_entries));
          for (i = 0; i < s->term_entries_max; i++)
              s->term_entries[i].term = 0;
      }
      if (s->hits < s->term_entries_max)
      {
          s->term_entries[s->hits].reg_type = reg_type;
-        s->term_entries[s->hits].db = nmem_strdup (s->nmem, db);
+        s->term_entries[s->hits].db = nmem_strdup(s->nmem, db);
          s->term_entries[s->hits].index_name = nmem_strdup(s->nmem, index_name);
          s->term_entries[s->hits].term = nmem_strdup(s->nmem, term);
      }
@@ -216,7 +218,7 @@ ZebraSet resultSetAdd(ZebraHandle zh, const char *name, int ov)
      int i;
  
      for (s = zh->sets; s; s = s->next)
-        if (!strcmp (s->name, name))
+        if (!strcmp(s->name, name))
              break;
      
      if (!log_level_set)
@@ -230,36 +232,35 @@ ZebraSet resultSetAdd(ZebraHandle zh, const char *name, int ov)
         {
             if (s->cache_rfd)
                 rset_close(s->cache_rfd);
-            rset_delete (s->rset);
+            rset_delete(s->rset);
         }
          if (s->rset_nmem)
-            nmem_destroy (s->rset_nmem);
+            nmem_destroy(s->rset_nmem);
          if (s->nmem)
-            nmem_destroy (s->nmem);
+            nmem_destroy(s->nmem);
      }
      else
      {
          const char *sort_max_str = zebra_get_resource(zh, "sortmax", "1000");
  
          yaz_log(log_level_resultsets, "adding result set %s", name);
-        s = (ZebraSet) xmalloc (sizeof(*s));
+        s = (ZebraSet) xmalloc(sizeof(*s));
          s->next = zh->sets;
          zh->sets = s;
-        s->name = (char *) xmalloc (strlen(name)+1);
-        strcpy (s->name, name);
+        s->name = xstrdup(name);
  
          s->sort_info = (struct zset_sort_info *)
-            xmalloc (sizeof(*s->sort_info));
+            xmalloc(sizeof(*s->sort_info));
          s->sort_info->max_entries = atoi(sort_max_str);
          if (s->sort_info->max_entries < 2)
              s->sort_info->max_entries = 2;
  
          s->sort_info->entries = (struct zset_sort_entry **)
-            xmalloc (sizeof(*s->sort_info->entries) *
-                     s->sort_info->max_entries);
+            xmalloc(sizeof(*s->sort_info->entries) *
+                    s->sort_info->max_entries);
          s->sort_info->all_entries = (struct zset_sort_entry *)
-            xmalloc (sizeof(*s->sort_info->all_entries) *
-                     s->sort_info->max_entries);
+            xmalloc(sizeof(*s->sort_info->all_entries) *
+                    s->sort_info->max_entries);
          for (i = 0; i < s->sort_info->max_entries; i++)
              s->sort_info->entries[i] = s->sort_info->all_entries + i;
      }
@@ -283,30 +284,42 @@ ZebraSet resultSetGet(ZebraHandle zh, const char *name)
      ZebraSet s;
  
      for (s = zh->sets; s; s = s->next)
-        if (!strcmp (s->name, name))
+        if (!strcmp(s->name, name))
          {
              if (!s->term_entries && !s->rset && s->rpn)
              {
-                NMEM nmem = nmem_create ();
+                NMEM nmem = nmem_create();
                  yaz_log(log_level_resultsets, "research %s", name);
                  if (!s->rset_nmem)
-                    s->rset_nmem=nmem_create();
+                    s->rset_nmem = nmem_create();
                 resultSetSearch(zh, nmem, s->rset_nmem, s->rpn, s);
                 if (s->rset && s->sortSpec)
                 {
                     int sort_status;
                     yaz_log(log_level_resultsets, "resort %s", name);
-                   resultSetSortSingle (zh, nmem, s, s->rset, s->sortSpec,
-                                        &sort_status);
+                   resultSetSortSingle(zh, nmem, s, s->rset, s->sortSpec,
+                                        &sort_status);
                 }
-                nmem_destroy (nmem);
+                nmem_destroy(nmem);
              }
              return s;
          }
      return NULL;
  }
  
-void resultSetInvalidate (ZebraHandle zh)
+ZEBRA_RES resultSetGetBaseNames(ZebraHandle zh, const char *setname,
+                                const char ***basenames, int *num_bases)
+{
+    ZebraSet sset = resultSetGet(zh, setname);
+    if (!sset)
+        return ZEBRA_FAIL;
+    *basenames = sset->basenames;
+    *num_bases = sset->num_bases;
+    return ZEBRA_OK;
+
+}
+
+void resultSetInvalidate(ZebraHandle zh)
  {
      ZebraSet s = zh->sets;
      
@@ -317,7 +330,7 @@ void resultSetInvalidate (ZebraHandle zh)
         {
             if (s->cache_rfd)
                 rset_close(s->cache_rfd);
-            rset_delete (s->rset);
+            rset_delete(s->rset);
         }
          s->rset = 0;
         s->cache_rfd = 0;
@@ -343,7 +356,7 @@ void resultSetDestroy(ZebraHandle zh, int num, char **names,int *statuses)
          if (num >= 0)
          {
              for (i = 0; i<num; i++)
-                if (!strcmp (s->name, names[i]))
+                if (!strcmp(s->name, names[i]))
                  {
                      if (statuses)
                          statuses[i] = Z_DeleteStatus_success;
@@ -355,22 +368,22 @@ void resultSetDestroy(ZebraHandle zh, int num, char **names,int *statuses)
          {
              *ss = s->next;
              
-            xfree (s->sort_info->all_entries);
-            xfree (s->sort_info->entries);
-            xfree (s->sort_info);
+            xfree(s->sort_info->all_entries);
+            xfree(s->sort_info->entries);
+            xfree(s->sort_info);
              
              if (s->nmem)
-                nmem_destroy (s->nmem);
+                nmem_destroy(s->nmem);
              if (s->rset)
             {
                 if (s->cache_rfd)
                     rset_close(s->cache_rfd);
-                rset_delete (s->rset);
+                rset_delete(s->rset);
             }
              if (s->rset_nmem)
                  nmem_destroy(s->rset_nmem);
-            xfree (s->name);
-            xfree (s);
+            xfree(s->name);
+            xfree(s);
          }
          else
              ss = &s->next;
@@ -417,13 +430,13 @@ ZebraMetaRecord *zebra_meta_records_create(ZebraHandle zh, const char *name,
  
      if (!log_level_set)
          loglevels();
-    if (!(sset = resultSetGet (zh, name)))
+    if (!(sset = resultSetGet(zh, name)))
          return NULL;
      if (!(rset = sset->rset))
      {
          if (!sset->term_entries)
              return 0;
-        sr = (ZebraMetaRecord *) xmalloc (sizeof(*sr) * num);
+        sr = (ZebraMetaRecord *) xmalloc(sizeof(*sr) * num);
          for (i = 0; i<num; i++)
          {
              sr[i].sysno = 0;
@@ -440,7 +453,7 @@ ZebraMetaRecord *zebra_meta_records_create(ZebraHandle zh, const char *name,
      }
      else
      {
-        sr = (ZebraMetaRecord *) xmalloc (sizeof(*sr) * num);
+        sr = (ZebraMetaRecord *) xmalloc(sizeof(*sr) * num);
          for (i = 0; i<num; i++)
          {
              sr[i].sysno = 0;
@@ -495,9 +508,9 @@ ZebraMetaRecord *zebra_meta_records_create(ZebraHandle zh, const char *name,
             {
                 if (sset->cache_rfd)
                     rset_close(sset->cache_rfd);
-               rfd = rset_open (rset, RSETF_READ);
+               rfd = rset_open(rset, RSETF_READ);
             }
-            while (num_i < num && rset_read (rfd, &key, 0))
+            while (num_i < num && rset_read(rfd, &key, 0))
              {
                  zint this_sys = key.mem[sysno_mem_index];
                  if (this_sys != psysno)
@@ -513,7 +526,7 @@ ZebraMetaRecord *zebra_meta_records_create(ZebraHandle zh, const char *name,
                              continue;
                      }
                      position++;
-                    assert (num_i < num);
+                    assert(num_i < num);
                      if (position == positions[num_i])
                      {
                          sr[num_i].sysno = psysno;
@@ -531,21 +544,22 @@ ZebraMetaRecord *zebra_meta_records_create(ZebraHandle zh, const char *name,
      return sr;
  }
  
-void zebra_meta_records_destroy (ZebraHandle zh, ZebraMetaRecord *records,
-                                int num)
+void zebra_meta_records_destroy(ZebraHandle zh, ZebraMetaRecord *records,
+                                int num)
  {
      assert(zh); /* compiler shut up about unused arg */
-    xfree (records);
+    xfree(records);
  }
  
  struct sortKeyInfo {
      int relation;
-    int ord;
-    int numerical;
-    int index_type;
+    int *ord; /* array of ord for each database searched */
+    int *numerical; /* array of ord for each database searched */
+    const char *index_type;
  };
  
  void resultSetInsertSort(ZebraHandle zh, ZebraSet sset,
+                         int database_no,
                           struct sortKeyInfo *criteria, int num_criteria,
                           zint sysno,
                           char *cmp_buf[], char *tmp_cmp_buf[])
@@ -553,18 +567,53 @@ void resultSetInsertSort(ZebraHandle zh, ZebraSet sset,
      struct zset_sort_entry *new_entry = NULL;
      struct zset_sort_info *sort_info = sset->sort_info;
      int i, j;
+    WRBUF w = wrbuf_alloc();
  
      zebra_sort_sysno(zh->reg->sort_index, sysno);
      for (i = 0; i<num_criteria; i++)
      {
          char *this_entry_buf = tmp_cmp_buf[i];
          memset(this_entry_buf, '\0', SORT_IDX_ENTRYSIZE);
-        if (criteria[i].ord != -1)
+        
+        if (criteria[i].ord[database_no] != -1)
          {
-            zebra_sort_type(zh->reg->sort_index, criteria[i].ord);
-            zebra_sort_read(zh->reg->sort_index, this_entry_buf);
+            yaz_log(log_level_sort, "pre zebra_sort_type ord is %d",
+                    criteria[i].ord[database_no]);
+            zebra_sort_type(zh->reg->sort_index, criteria[i].ord[database_no]);
+            wrbuf_rewind(w);
+            if (zebra_sort_read(zh->reg->sort_index, 0, w))
+            {
+                /* consider each sort entry and take lowest/highest one
+                   of the one as sorting key depending on whether sort is
+                   ascending/descending */
+                int off = 0;
+                while (off != wrbuf_len(w))
+                {
+                    size_t l = strlen(wrbuf_buf(w)+off);
+                    assert(off < wrbuf_len(w));
+
+                    if (l >= SORT_IDX_ENTRYSIZE)
+                        l = SORT_IDX_ENTRYSIZE-1;
+                    if ( (off == 0)
+                         || (criteria[i].relation == 'A'
+                             && strcmp(wrbuf_buf(w)+off, this_entry_buf) < 0)
+                         || (criteria[i].relation == 'D'
+                             && strcmp(wrbuf_buf(w)+off, this_entry_buf) > 0)
+                        )
+                    {
+                        memcpy(this_entry_buf, wrbuf_buf(w)+off, l);
+                        this_entry_buf[l] = '\0';
+                    }
+                    off += 1 + strlen(wrbuf_buf(w)+off);
+                }
+            }
+        }
+        else
+        {
+            yaz_log(log_level_sort, "criteria[i].ord is -1 so not reading from sort index");
          }
      }
+    wrbuf_destroy(w);
      i = sort_info->num_entries;
      while (--i >= 0)
      {
@@ -574,12 +623,12 @@ void resultSetInsertSort(ZebraHandle zh, ZebraSet sset,
              char *this_entry_buf = tmp_cmp_buf[j];
              char *other_entry_buf = 
                  cmp_buf[j] + i * SORT_IDX_ENTRYSIZE;
-            if (criteria[j].numerical)
+            if (criteria[j].numerical[database_no])
              {
                  char this_entry_org[1024];
                  char other_entry_org[1024];
                  double diff;
-                int index_type = criteria[j].index_type;
+                const char *index_type = criteria[j].index_type;
                  zebra_term_untrans(zh, index_type, this_entry_org,
                                     this_entry_buf);
                  zebra_term_untrans(zh, index_type, other_entry_org,
@@ -598,6 +647,8 @@ void resultSetInsertSort(ZebraHandle zh, ZebraSet sset,
                  rel = memcmp(this_entry_buf, other_entry_buf,
                               SORT_IDX_ENTRYSIZE);
              }
+            /* when the compare is equal, continue to next criteria, 
+               else break out */
              if (rel)
                  break;
          }       
@@ -615,15 +666,19 @@ void resultSetInsertSort(ZebraHandle zh, ZebraSet sset,
          }
      }
      ++i;
+    yaz_log(log_level_sort, "ok, we want to insert record at position %d",i);
      j = sort_info->max_entries;
-    if (i == j)
+    if (i == j){
+        yaz_log(log_level_sort, "sort_info->max_entries reached (%d) abort sort",j);
          return;
+    }
  
      if (sort_info->num_entries == j)
          --j;
      else
          j = (sort_info->num_entries)++;
      new_entry = sort_info->entries[j];
+    /* move up all higher entries (to make room) */
      while (j != i)
      {
          int k;
@@ -636,8 +691,10 @@ void resultSetInsertSort(ZebraHandle zh, ZebraSet sset,
          sort_info->entries[j] = sort_info->entries[j-1];
          --j;
      }
+    /* and insert the new entry at the correct place */
      sort_info->entries[i] = new_entry;
-    assert (new_entry);
+    assert(new_entry);
+    /* and add this to the compare buffer */
      for (i = 0; i<num_criteria; i++)
      {
          char *new_entry_buf = cmp_buf[i] + j * SORT_IDX_ENTRYSIZE;
@@ -690,7 +747,7 @@ void resultSetInsertRank(ZebraHandle zh, struct zset_sort_info *sort_info,
          --j;
      }
      sort_info->entries[i] = new_entry;
-    assert (new_entry);
+    assert(new_entry);
      new_entry->sysno = sysno;
      new_entry->score = score;
  }
@@ -755,7 +812,7 @@ ZebraSet resultSetClone(ZebraHandle zh, const char *setname,
  
      nset->num_bases = rset->num_bases;
      nset->basenames = 
-        nmem_malloc (nset->nmem, nset->num_bases * sizeof(*rset->basenames));
+        nmem_malloc(nset->nmem, nset->num_bases * sizeof(*rset->basenames));
      for (i = 0; i<rset->num_bases; i++)
          nset->basenames[i] = nmem_strdup(nset->nmem, rset->basenames[i]);
  
@@ -787,8 +844,8 @@ ZEBRA_RES resultSetSort(ZebraHandle zh, NMEM nmem,
      if (!log_level_set)
          loglevels();
      yaz_log(log_level_sort, "result set sort input=%s output=%s",
-          *input_setnames, output_setname);
-    sset = resultSetGet (zh, input_setnames[0]);
+            *input_setnames, output_setname);
+    sset = resultSetGet(zh, input_setnames[0]);
      if (!sset)
      {
         zebra_setError(zh, YAZ_BIB1_SPECIFIED_RESULT_SET_DOES_NOT_EXIST,
@@ -801,11 +858,11 @@ ZEBRA_RES resultSetSort(ZebraHandle zh, NMEM nmem,
                        input_setnames[0]);
         return ZEBRA_FAIL;
      }
-    if (strcmp (output_setname, input_setnames[0]))
+    if (strcmp(output_setname, input_setnames[0]))
         sset = resultSetClone(zh, output_setname, sset);
      sset->sortSpec = copy_SortKeySpecList(sort_sequence, sset->nmem);
-    return resultSetSortSingle (zh, nmem, sset, rset, sort_sequence,
-                               sort_status);
+    return resultSetSortSingle(zh, nmem, sset, rset, sort_sequence,
+                               sort_status);
  }
  
  ZEBRA_RES resultSetSortSingle(ZebraHandle zh, NMEM nmem,
@@ -814,6 +871,7 @@ ZEBRA_RES resultSetSortSingle(ZebraHandle zh, NMEM nmem,
                               int *sort_status)
  {
      int i;
+    int ib;
      int n = 0;
      zint kno = 0;
      zint psysno = 0;
@@ -827,6 +885,9 @@ ZEBRA_RES resultSetSortSingle(ZebraHandle zh, NMEM nmem,
      TERMID *terms;
      int numTerms = 0;
      size_t sysno_mem_index = 0;
+    
+    int numbases = zh->num_basenames;
+    yaz_log(log_level_sort, "searching %d databases",numbases);
  
      if (zh->m_staticrank)
         sysno_mem_index = 1;
@@ -842,14 +903,23 @@ ZEBRA_RES resultSetSortSingle(ZebraHandle zh, NMEM nmem,
      num_criteria = sort_sequence->num_specs;
      if (num_criteria > ZSET_SORT_MAX_LEVEL)
          num_criteria = ZSET_SORT_MAX_LEVEL;
+    /* set up the search criteria */
      for (i = 0; i < num_criteria; i++)
      {
          Z_SortKeySpec *sks = sort_sequence->specs[i];
          Z_SortKey *sk;
-        ZEBRA_RES res;
-
-        sort_criteria[i].ord = -1;
-        sort_criteria[i].numerical = 0;
+        
+        sort_criteria[i].ord = (int *)
+            nmem_malloc(nmem, sizeof(int)*numbases);
+        sort_criteria[i].numerical = (int *)
+            nmem_malloc(nmem, sizeof(int)*numbases);
+        
+        /* initialize ord and numerical for each database */
+        for (ib = 0; ib < numbases; ib++)
+        {
+            sort_criteria[i].ord[ib] = -1;
+            sort_criteria[i].numerical[ib] = 0;
+        }
  
          if (sks->which == Z_SortKeySpec_missingValueData)
          {
@@ -879,37 +949,49 @@ ZEBRA_RES resultSetSortSingle(ZebraHandle zh, NMEM nmem,
          switch (sk->which)
          {
          case Z_SortKey_sortField:
-            yaz_log(log_level_sort, "key %d is of type sortField",
-                   i+1);
-            sort_criteria[i].numerical = 0;
-            sort_criteria[i].ord = 
-                zebraExplain_lookup_attr_str(zh->reg->zei,
-                                             zinfo_index_category_sort,
-                                             -1, sk->u.sortField);
-            if (sks->which != Z_SortKeySpec_null
-                && sort_criteria[i].ord == -1)
+            yaz_log(log_level_sort, "key %d is of type sortField", i+1);
+            for (ib = 0; ib < numbases; ib++)
              {
-                zebra_setError(zh,
-                               YAZ_BIB1_CANNOT_SORT_ACCORDING_TO_SEQUENCE, 0);
-                return ZEBRA_FAIL;
+                zebraExplain_curDatabase(zh->reg->zei, zh->basenames[ib]);
+                sort_criteria[i].numerical[ib] = 0;
+                sort_criteria[i].ord[ib] = 
+                    zebraExplain_lookup_attr_str(zh->reg->zei,
+                                                 zinfo_index_category_sort,
+                                                 0, sk->u.sortField);
+                if (sks->which != Z_SortKeySpec_null
+                    && sort_criteria[i].ord[ib] == -1)
+                {
+                    zebra_setError(zh,
+                                   YAZ_BIB1_CANNOT_SORT_ACCORDING_TO_SEQUENCE, 0);
+                    return ZEBRA_FAIL;
+                }
              }
              break;
          case Z_SortKey_elementSpec:
-            yaz_log(log_level_sort, "key %d is of type elementSpec",
-                   i+1);
+            yaz_log(log_level_sort, "key %d is of type elementSpec", i+1);
              zebra_setError(zh, YAZ_BIB1_CANNOT_SORT_ACCORDING_TO_SEQUENCE, 0);
              return ZEBRA_FAIL;
          case Z_SortKey_sortAttributes:
              yaz_log(log_level_sort, "key %d is of type sortAttributes", i+1);
-            res = zebra_sort_get_ord(zh, sk->u.sortAttributes,
-
-                                     &sort_criteria[i].ord,
-                                     &sort_criteria[i].numerical);
-            if (sks->which != Z_SortKeySpec_null && res != ZEBRA_OK)
-                return ZEBRA_FAIL;
+            /* for every database we searched, get the sort index file
+               id (ord) and its numerical indication and store them in
+               the sort_criteria */
+            for (ib = 0; ib < numbases; ib++)
+            {
+                zebraExplain_curDatabase(zh->reg->zei, zh->basenames[ib]);
+                if (zebra_sort_get_ord(zh, sk->u.sortAttributes,
+                                       &sort_criteria[i].ord[ib],
+                                       &sort_criteria[i].numerical[ib]) != 
+                    ZEBRA_OK && sks->which != Z_SortKeySpec_null)
+                    return ZEBRA_FAIL;
+            }
              break;
          }
-        if (zebraExplain_lookup_ord(zh->reg->zei, sort_criteria[i].ord,
+        /* right now we look up the index type based on the first database
+           if the index_type's can differ between the indexes of different
+           databases (which i guess they can?) then we have to store the
+           index types for each database, just like the ord and numerical */
+        if (zebraExplain_lookup_ord(zh->reg->zei, sort_criteria[i].ord[0],
                                      &sort_criteria[i].index_type,
                                      0, 0))
          {
@@ -918,14 +1000,18 @@ ZEBRA_RES resultSetSortSingle(ZebraHandle zh, NMEM nmem,
          }
      }
      /* allocate space for each cmpare buf + one extra for tmp comparison */
+    /* cmp_buf is an array of array, the first dimension is the criteria and the second dimension are
+       all other result entries to compare against. This is slowly filled when records are processed.
+       tmp_cmp_buf is an array with a value of the current record for each criteria
+    */
      for (i = 0; i<num_criteria; i++)
      {
          cmp_buf[i] = xmalloc(sset->sort_info->max_entries
                               * SORT_IDX_ENTRYSIZE);
          tmp_cmp_buf[i] = xmalloc(SORT_IDX_ENTRYSIZE);
      }
-    rfd = rset_open (rset, RSETF_READ);
-    while (rset_read (rfd, &key, &termid))
+    rfd = rset_open(rset, RSETF_READ);
+    while (rset_read(rfd, &key, &termid))
      {
          zint this_sys = key.mem[sysno_mem_index];
         if (log_level_searchhits)
@@ -933,6 +1019,7 @@ ZEBRA_RES resultSetSortSingle(ZebraHandle zh, NMEM nmem,
         kno++;
          if (this_sys != psysno)
          {
+            int database_no = 0;
              if ((sset->hits & 255) == 0 && zh->break_handler_func)
              {
                  if (zh->break_handler_func(zh->break_handler_data))
@@ -943,13 +1030,33 @@ ZEBRA_RES resultSetSortSingle(ZebraHandle zh, NMEM nmem,
              }
              (sset->hits)++;
              psysno = this_sys;
-            resultSetInsertSort(zh, sset,
+
+            /* determine database from the term, but only bother if more than
+               one database is in use*/
+            if (numbases > 1 && termid->ol)
+            {
+                const char *this_db = 0;
+                if (zebraExplain_lookup_ord(zh->reg->zei, termid->ol->ord,  0, &this_db, 0)
+                    == 0 && this_db)
+                {
+                    for (ib = 0; ib < numbases; ib++)
+                        if (!strcmp(this_db, zh->basenames[ib]))
+                            database_no = ib;
+                }
+            }
+#if 0
+            yaz_log(YLOG_LOG, "sysno=" ZINT_FORMAT " database_no=%d", this_sys,
+                database_no);
+            ord_list_print(termid->ol);
+#endif
+            resultSetInsertSort(zh, sset, database_no,
                                  sort_criteria, num_criteria, psysno, cmp_buf,
                                  tmp_cmp_buf);
          }
      }
-    rset_close (rfd);
+    rset_close(rfd);
  
+    /* free the compare buffers */
      for (i = 0; i<num_criteria; i++)
      {
          xfree(cmp_buf[i]);
@@ -960,7 +1067,7 @@ ZEBRA_RES resultSetSortSingle(ZebraHandle zh, NMEM nmem,
             kno, sset->hits);   
      for (i = 0; i < numTerms; i++)
          yaz_log(log_level_sort, "term=\"%s\" type=%s count=" ZINT_FORMAT,
-                 terms[i]->name, terms[i]->flags, terms[i]->rset->hits_count);
+                terms[i]->name, terms[i]->flags, terms[i]->rset->hits_count);
      *sort_status = Z_SortResponse_success;
      return ZEBRA_OK;
  }
@@ -969,7 +1076,7 @@ RSET resultSetRef(ZebraHandle zh, const char *resultSetId)
  {
      ZebraSet s;
  
-    if ((s = resultSetGet (zh, resultSetId)))
+    if ((s = resultSetGet(zh, resultSetId)))
          return s->rset;
      return NULL;
  }
@@ -1040,25 +1147,24 @@ ZEBRA_RES resultSetRank(ZebraHandle zh, ZebraSet zebraSet,
                  }
                 if (rfd->counted_items > rset->hits_limit)
                      stop_flag = 1;
-               if (psysno)
-               {   /* only if we did have a previous record */
-                   score = (*rc->calc) (handle, psysno, pstaticrank,
-                                        &stop_flag);
-                   /* insert the hit. A=Ascending */
-                   resultSetInsertRank (zh, sort_info, psysno, score, 'A');
-                   count++;
-               }
                  if (stop_flag)
                  {
                      zebraSet->estimated_hit_count = 1;
-                    rset_set_hits_limit(rset, 0);
                      break;
                  }
+               if (psysno)
+               {   /* only if we did have a previous record */
+                   score = (*rc->calc)(handle, psysno, pstaticrank,
+                                        &stop_flag);
+                   /* insert the hit. A=Ascending */
+                   resultSetInsertRank(zh, sort_info, psysno, score, 'A');
+                   count++;
+               }
                 psysno = this_sys;
                 if (zh->m_staticrank)
                     pstaticrank = key.mem[0];
             }
-           (*rc->add) (handle, CAST_ZINT_TO_INT(seqno), termid);
+           (*rc->add)(handle, CAST_ZINT_TO_INT(seqno), termid);
         }
         /* no more items */
         if (psysno)
@@ -1068,8 +1174,8 @@ ZEBRA_RES resultSetRank(ZebraHandle zh, ZebraSet zebraSet,
             resultSetInsertRank(zh, sort_info, psysno, score, 'A');
             count++;
         }
-       (*rc->end) (zh->reg, handle);
-       rset_close (rfd);
+       (*rc->end)(zh->reg, handle);
+       rset_close(rfd);
      }
      zebraSet->hits = rset->hits_count;
  
@@ -1087,7 +1193,7 @@ ZEBRA_RES resultSetRank(ZebraHandle zh, ZebraSet zebraSet,
  ZebraRankClass zebraRankLookup(ZebraHandle zh, const char *name)
  {
      ZebraRankClass p = zh->reg->rank_classes;
-    while (p && strcmp (p->control->name, name))
+    while (p && strcmp(p->control->name, name))
          p = p->next;
      if (p && !p->init_flag)
      {
@@ -1100,10 +1206,10 @@ ZebraRankClass zebraRankLookup(ZebraHandle zh, const char *name)
  
  void zebraRankInstall(struct zebra_register *reg, struct rank_control *ctrl)
  {
-    ZebraRankClass p = (ZebraRankClass) xmalloc (sizeof(*p));
-    p->control = (struct rank_control *) xmalloc (sizeof(*p->control));
-    memcpy (p->control, ctrl, sizeof(*p->control));
-    p->control->name = xstrdup (ctrl->name);
+    ZebraRankClass p = (ZebraRankClass) xmalloc(sizeof(*p));
+    p->control = (struct rank_control *) xmalloc(sizeof(*p->control));
+    memcpy(p->control, ctrl, sizeof(*p->control));
+    p->control->name = xstrdup(ctrl->name);
      p->init_flag = 0;
      p->next = reg->rank_classes;
      reg->rank_classes = p;
@@ -1246,7 +1352,7 @@ ZEBRA_RES zebra_snippets_hit_vector(ZebraHandle zh, const char *setname,
         struct it_key key;
         RSET rsets[2], rset_comb;
         RSET rset_temp = rset_create_temp(nmem, kc, kc->scope, 
-                                          res_get (zh->res, "setTmpDir"),0 );
+                                          res_get(zh->res, "setTmpDir"),0 );
         
         TERMID termid;
         RSFD rsfd = rset_open(rset_temp, RSETF_WRITE);
@@ -1256,8 +1362,8 @@ ZEBRA_RES zebra_snippets_hit_vector(ZebraHandle zh, const char *setname,
         key.mem[2] = 0;
         key.mem[3] = 0;
         key.len = 2;
-       rset_write (rsfd, &key);
-       rset_close (rsfd);
+       rset_write(rsfd, &key);
+       rset_close(rsfd);
  
         rsets[0] = rset_temp;
         rsets[1] = rset_dup(sset->rset);
@@ -1273,7 +1379,7 @@ ZEBRA_RES zebra_snippets_hit_vector(ZebraHandle zh, const char *setname,
                 struct ord_list *ol;
                 for (ol = termid->ol; ol; ol = ol->next)
                 {
-                   zebra_snippets_append(snippets, key.mem[key.len-1],
+                   zebra_snippets_append(snippets, key.mem[key.len-1], 0,
                                           ol->ord, termid->name);
                 }
             }
@@ -1287,9 +1393,139 @@ ZEBRA_RES zebra_snippets_hit_vector(ZebraHandle zh, const char *setname,
      return ZEBRA_OK;
  }
  
+static ZEBRA_RES zebra_recid_to_sysno(ZebraHandle zh, 
+                                      const char **basenames, int num_bases,
+                                      zint recid,
+                                      zint *sysnos, int *no_sysnos)
+{
+    ZEBRA_RES res = ZEBRA_OK;
+    int sysnos_offset = 0;
+    int i;
+    
+    if (!zh->reg->isamb || !zh->m_segment_indexing)
+    {
+        if (sysnos_offset < *no_sysnos)
+            *sysnos = recid;
+        sysnos_offset++;
+    }
+    else
+    {
+        for (i = 0; res == ZEBRA_OK && i < num_bases; i++)
+        {
+            const char *database = basenames[i];
+            if (zebraExplain_curDatabase(zh->reg->zei, database) == 0)
+            {
+                const char *index_type = "w";
+                const char *use_string = "_ALLRECORDS";
+                int ord;
+                zinfo_index_category_t cat = zinfo_index_category_alwaysmatches;
+                ord = zebraExplain_lookup_attr_str(zh->reg->zei, cat,
+                                                   index_type, use_string);
+                if (ord != -1)
+                {
+                    char ord_buf[32];
+                    int ord_len = key_SU_encode(ord, ord_buf);
+                    char *info;
+                
+                    ord_buf[ord_len] = '\0';
+                
+                    info = dict_lookup(zh->reg->dict, ord_buf);
+                    if (info)
+                    {
+                        if (*info != sizeof(ISAM_P))
+                        {
+                            res = ZEBRA_FAIL;
+                        }
+                        else
+                        {
+                            ISAM_P isam_p;
+                            ISAMB_PP pt;
+                            struct it_key key_until, key_found;
+                            int i = 0;
+                            int r;
+                        
+                            memcpy(&isam_p, info+1, sizeof(ISAM_P));
+                        
+                            pt = isamb_pp_open(zh->reg->isamb, isam_p, 2);
+                            if (!pt)
+                                res = ZEBRA_FAIL;
+                            else
+                            {
+                                key_until.mem[i++] = recid;
+                                key_until.mem[i++] = 0;  /* section_id */
+                                if (zh->m_segment_indexing)
+                                    key_until.mem[i++] = 0; /* segment */
+                                key_until.mem[i++] = 0;
+                                key_until.len = i;
+                            
+                                r = isamb_pp_forward(pt, &key_found, &key_until);
+                                while (r && key_found.mem[0] == recid)
+                                {
+                                    if (sysnos_offset < *no_sysnos)
+                                        sysnos[sysnos_offset++] = 
+                                            key_found.mem[key_found.len-1];
+                                    r = isamb_pp_read(pt, &key_found);
+                                }
+                                isamb_pp_close(pt);
+                            }
+                        }
+                    }
+                }
+            }
+        }
+    }
+    *no_sysnos = sysnos_offset;
+    return res;
+}
+
+ZEBRA_RES zebra_result_recid_to_sysno(ZebraHandle zh, 
+                                      const char *setname,
+                                      zint recid,
+                                      zint *sysnos, int *no_sysnos)
+{
+    const char **basenames;
+    int num_bases;
+    ZEBRA_RES res;
+
+    res = resultSetGetBaseNames(zh, setname, &basenames, &num_bases);
+    if (res != ZEBRA_OK)
+        return ZEBRA_FAIL;
+
+    return zebra_recid_to_sysno(zh, basenames, num_bases,
+                                recid, sysnos, no_sysnos);
+}
+
+void zebra_count_set(ZebraHandle zh, RSET rset, zint *count,
+                     zint approx_limit)
+{
+    zint psysno = 0;
+    struct it_key key;
+    RSFD rfd;
+
+    yaz_log(YLOG_DEBUG, "count_set");
+
+    rset->hits_limit = approx_limit;
+
+    *count = 0;
+    rfd = rset_open(rset, RSETF_READ);
+    while (rset_read(rfd, &key,0 /* never mind terms */))
+    {
+        if (key.mem[0] != psysno)
+        {
+            psysno = key.mem[0];
+           if (rfd->counted_items >= rset->hits_limit)
+               break;
+        }
+    }
+    rset_close(rfd);
+    *count = rset->hits_count;
+}
+                   
+
  /*
   * Local variables:
   * c-basic-offset: 4
+ * c-file-style: "Stroustrup"
   * indent-tabs-mode: nil
   * End:
   * vim: shiftwidth=4 tabstop=8 expandtab