pos estimates for rsbetween and rsprox
[idzebra-moved-to-github.git] / rset / rsbool.c
1 /* $Id: rsbool.c,v 1.37 2004-08-06 14:09:02 heikki Exp $
2    Copyright (C) 1995,1996,1997,1998,1999,2000,2001,2002,2003,2004
3    Index Data Aps
4
5 This file is part of the Zebra server.
6
7 Zebra is free software; you can redistribute it and/or modify it under
8 the terms of the GNU General Public License as published by the Free
9 Software Foundation; either version 2, or (at your option) any later
10 version.
11
12 Zebra is distributed in the hope that it will be useful, but WITHOUT ANY
13 WARRANTY; without even the implied warranty of MERCHANTABILITY or
14 FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
15 for more details.
16
17 You should have received a copy of the GNU General Public License
18 along with Zebra; see the file LICENSE.zebra.  If not, write to the
19 Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
20 02111-1307, USA.
21 */
22
23 #include <stdio.h>
24 #include <stdlib.h>
25 #include <string.h>
26 #include <assert.h>
27
28 #include <zebrautl.h>
29 #include <rset.h>
30 #include <rsbool.h>
31
32 #ifndef RSET_DEBUG
33 #define RSET_DEBUG 0
34 #endif
35
36 static void *r_create(RSET ct, const struct rset_control *sel, void *parms);
37 static RSFD r_open (RSET ct, int flag);
38 static void r_close (RSFD rfd);
39 static void r_delete (RSET ct);
40 static void r_rewind (RSFD rfd);
41 static int r_forward(RSET ct, RSFD rfd, void *buf, int *term_index,
42                      int (*cmpfunc)(const void *p1, const void *p2),
43                      const void *untilbuf);
44 static void r_pos (RSFD rfd, double *current, double *total); 
45 static int r_read_and (RSFD rfd, void *buf, int *term_index);
46 static int r_read_or (RSFD rfd, void *buf, int *term_index);
47 static int r_read_not (RSFD rfd, void *buf, int *term_index);
48 static int r_write (RSFD rfd, const void *buf);
49
50 static const struct rset_control control_and = 
51 {
52     "and",
53     r_create,
54     r_open,
55     r_close,
56     r_delete,
57     r_rewind,
58     r_forward, 
59     r_pos,    
60     r_read_and,
61     r_write,
62 };
63
64 static const struct rset_control control_or = 
65 {
66     "or",
67     r_create,
68     r_open,
69     r_close,
70     r_delete,
71     r_rewind,
72     r_forward, 
73     r_pos,
74     r_read_or,
75     r_write,
76 };
77
78 static const struct rset_control control_not = 
79 {
80     "not",
81     r_create,
82     r_open,
83     r_close,
84     r_delete,
85     r_rewind,
86     r_forward, 
87     r_pos,
88     r_read_not,
89     r_write,
90 };
91
92
93 const struct rset_control *rset_kind_and = &control_and;
94 const struct rset_control *rset_kind_or = &control_or;
95 const struct rset_control *rset_kind_not = &control_not;
96
97 struct rset_bool_info {
98     int key_size;
99     RSET rset_l;
100     RSET rset_r;
101     int term_index_s;
102     int (*cmp)(const void *p1, const void *p2);
103     void (*log_item)(int logmask, const void *p, const char *txt);
104     struct rset_bool_rfd *rfd_list;
105 };
106
107 struct rset_bool_rfd {
108     zint hits;
109     RSFD rfd_l;
110     RSFD rfd_r;
111     int  more_l;
112     int  more_r;
113     int term_index_l;
114     int term_index_r;
115     void *buf_l;
116     void *buf_r;
117     int tail;
118     struct rset_bool_rfd *next;
119     struct rset_bool_info *info;
120 };    
121
122 static void *r_create (RSET ct, const struct rset_control *sel, void *parms)
123 {
124     rset_bool_parms *bool_parms = (rset_bool_parms *) parms;
125     struct rset_bool_info *info;
126
127     info = (struct rset_bool_info *) xmalloc (sizeof(*info));
128     info->key_size = bool_parms->key_size;
129     info->rset_l = bool_parms->rset_l;
130     info->rset_r = bool_parms->rset_r;
131     if (rset_is_volatile(info->rset_l) || rset_is_volatile(info->rset_r))
132         ct->flags |= RSET_FLAG_VOLATILE;
133     info->cmp = bool_parms->cmp;
134     info->log_item = bool_parms->log_item;
135     info->rfd_list = NULL;
136     
137     info->term_index_s = info->rset_l->no_rset_terms;
138     ct->no_rset_terms =
139         info->rset_l->no_rset_terms + info->rset_r->no_rset_terms;
140     ct->rset_terms = (RSET_TERM *)
141         xmalloc (sizeof (*ct->rset_terms) * ct->no_rset_terms);
142
143     memcpy (ct->rset_terms, info->rset_l->rset_terms,
144             info->rset_l->no_rset_terms * sizeof(*ct->rset_terms));
145     memcpy (ct->rset_terms + info->rset_l->no_rset_terms,
146             info->rset_r->rset_terms,
147             info->rset_r->no_rset_terms * sizeof(*ct->rset_terms));
148     return info;
149 }
150
151 static RSFD r_open (RSET ct, int flag)
152 {
153     struct rset_bool_info *info = (struct rset_bool_info *) ct->buf;
154     struct rset_bool_rfd *rfd;
155
156     if (flag & RSETF_WRITE)
157     {
158         logf (LOG_FATAL, "bool set type is read-only");
159         return NULL;
160     }
161     rfd = (struct rset_bool_rfd *) xmalloc (sizeof(*rfd));
162     logf(LOG_DEBUG,"rsbool (%s) open [%p]", ct->control->desc, rfd);
163     rfd->next = info->rfd_list;
164     info->rfd_list = rfd;
165     rfd->info = info;
166     rfd->hits=0;
167
168     rfd->buf_l = xmalloc (info->key_size);
169     rfd->buf_r = xmalloc (info->key_size);
170     rfd->rfd_l = rset_open (info->rset_l, RSETF_READ);
171     rfd->rfd_r = rset_open (info->rset_r, RSETF_READ);
172     rfd->more_l = rset_read (info->rset_l, rfd->rfd_l, rfd->buf_l,
173                              &rfd->term_index_l);
174     rfd->more_r = rset_read (info->rset_r, rfd->rfd_r, rfd->buf_r,
175                              &rfd->term_index_r);
176     rfd->tail = 0;
177     return rfd;
178 }
179
180 static void r_close (RSFD rfd)
181 {
182     struct rset_bool_info *info = ((struct rset_bool_rfd*)rfd)->info;
183     struct rset_bool_rfd **rfdp;
184     
185     for (rfdp = &info->rfd_list; *rfdp; rfdp = &(*rfdp)->next)
186         if (*rfdp == rfd)
187         {
188             xfree ((*rfdp)->buf_l);
189             xfree ((*rfdp)->buf_r);
190             rset_close (info->rset_l, (*rfdp)->rfd_l);
191             rset_close (info->rset_r, (*rfdp)->rfd_r);
192             *rfdp = (*rfdp)->next;
193             xfree (rfd);
194             return;
195         }
196     logf (LOG_FATAL, "r_close but no rfd match!");
197     assert (0);
198 }
199
200 static void r_delete (RSET ct)
201 {
202     struct rset_bool_info *info = (struct rset_bool_info *) ct->buf;
203
204     assert (info->rfd_list == NULL);
205     xfree (ct->rset_terms);
206     rset_delete (info->rset_l);
207     rset_delete (info->rset_r);
208     xfree (info);
209 }
210
211 static void r_rewind (RSFD rfd)
212 {
213     struct rset_bool_info *info = ((struct rset_bool_rfd*)rfd)->info;
214     struct rset_bool_rfd *p = (struct rset_bool_rfd *) rfd;
215
216     logf (LOG_DEBUG, "rsbool_rewind");
217     rset_rewind (info->rset_l, p->rfd_l);
218     rset_rewind (info->rset_r, p->rfd_r);
219     p->more_l = rset_read (info->rset_l, p->rfd_l, p->buf_l, &p->term_index_l);
220     p->more_r = rset_read (info->rset_r, p->rfd_r, p->buf_r, &p->term_index_r);
221     p->hits=0;
222 }
223
224 static int r_forward (RSET ct, RSFD rfd, void *buf, int *term_index,
225                      int (*cmpfunc)(const void *p1, const void *p2),
226                      const void *untilbuf)
227 {
228     struct rset_bool_info *info = ((struct rset_bool_rfd*)rfd)->info;
229     struct rset_bool_rfd *p = (struct rset_bool_rfd *) rfd;
230     int rc;
231
232 #if RSET_DEBUG
233     logf (LOG_DEBUG, "rsbool_forward (L) [%p] '%s' (ct=%p rfd=%p m=%d,%d)",
234                       rfd, ct->control->desc, ct, rfd, p->more_l, p->more_r);
235 #endif
236     if ( p->more_l && ((cmpfunc)(untilbuf,p->buf_l)==2) )
237         p->more_l = rset_forward(info->rset_l, p->rfd_l, p->buf_l,
238                         &p->term_index_l, info->cmp, untilbuf);
239 #if RSET_DEBUG
240     logf (LOG_DEBUG, "rsbool_forward (R) [%p] '%s' (ct=%p rfd=%p m=%d,%d)",
241                       rfd, ct->control->desc, ct, rfd, p->more_l, p->more_r);
242 #endif
243     if ( p->more_r && ((cmpfunc)(untilbuf,p->buf_r)==2))
244         p->more_r = rset_forward(info->rset_r, p->rfd_r, p->buf_r,
245                         &p->term_index_r, info->cmp, untilbuf);
246 #if RSET_DEBUG
247     logf (LOG_DEBUG, "rsbool_forward [%p] calling read, m=%d,%d t=%d", 
248                        rfd, p->more_l, p->more_r, p->tail);
249 #endif
250     
251     p->tail=0; 
252     rc = rset_read(ct,rfd,buf,term_index); 
253 #if RSET_DEBUG
254     logf (LOG_DEBUG, "rsbool_forward returning [%p] %d m=%d,%d", 
255                        rfd, rc, p->more_l, p->more_r);
256 #endif
257     return rc;
258 }
259
260
261 /*
262     1,1         1,3
263     1,9         2,1
264     1,11        3,1
265     2,9
266
267   1,1     1,1
268   1,3     1,3
269           1,9
270           1,11
271   2,1     2,1
272           2,9
273           3,1
274 */
275
276 static int r_read_and (RSFD rfd, void *buf, int *term_index)
277 {
278     struct rset_bool_rfd *p = (struct rset_bool_rfd *) rfd;
279     struct rset_bool_info *info = p->info;
280
281     while (p->more_l || p->more_r)
282     {
283         int cmp;
284
285         if (p->more_l && p->more_r)
286             cmp = (*info->cmp)(p->buf_l, p->buf_r);
287         else if (p->more_l)
288             cmp = -2;
289         else
290             cmp = 2;
291 #if RSET_DEBUG
292         logf (LOG_DEBUG, "r_read_and [%p] looping: m=%d/%d c=%d t=%d",
293                         rfd, p->more_l, p->more_r, cmp, p->tail);
294         (*info->log_item)(LOG_DEBUG, p->buf_l, "left ");
295         (*info->log_item)(LOG_DEBUG, p->buf_r, "right ");
296 #endif
297         if (!cmp)
298         {
299             memcpy (buf, p->buf_l, info->key_size);
300                 *term_index = p->term_index_l;
301             p->more_l = rset_read (info->rset_l, p->rfd_l, p->buf_l,
302                                    &p->term_index_l);
303             p->tail = 1;
304         }
305         else if (cmp == 1)
306         {
307             memcpy (buf, p->buf_r, info->key_size);
308                 *term_index = p->term_index_r + info->term_index_s;
309             p->more_r = rset_read (info->rset_r, p->rfd_r, p->buf_r,
310                                    &p->term_index_r);
311             p->tail = 1;
312 #if RSET_DEBUG
313             logf (LOG_DEBUG, "r_read_and [%p] returning R m=%d/%d c=%d",
314                     rfd, p->more_l, p->more_r, cmp);
315             key_logdump(LOG_DEBUG,buf);
316             (*info->log_item)(LOG_DEBUG, buf, "");
317 #endif
318             p->hits++;
319             return 1;
320         }
321         else if (cmp == -1)
322         {
323             memcpy (buf, p->buf_l, info->key_size);
324                 *term_index = p->term_index_l;
325             p->more_l = rset_read (info->rset_l, p->rfd_l, p->buf_l,
326                                    &p->term_index_l);
327             p->tail = 1;
328 #if RSET_DEBUG
329             logf (LOG_DEBUG, "r_read_and [%p] returning L m=%d/%d c=%d",
330                     rfd, p->more_l, p->more_r, cmp);
331             (*info->log_item)(LOG_DEBUG, buf, "");
332 #endif
333             p->hits++;
334             return 1;
335         }
336         else if (cmp > 1)  /* cmp == 2 */
337         {
338 #define OLDCODE 0
339 #if OLDCODE
340             memcpy (buf, p->buf_r, info->key_size);
341             *term_index = p->term_index_r + info->term_index_s;
342             
343             p->more_r = rset_read (info->rset_r, p->rfd_r, p->buf_r,
344                                    &p->term_index_r);
345             if (p->tail)
346             {
347                 if (!p->more_r || (*info->cmp)(p->buf_r, buf) > 1)
348                     p->tail = 0;
349 #if RSET_DEBUG
350                 logf (LOG_DEBUG, "r_read_and returning C m=%d/%d c=%d",
351                         p->more_l, p->more_r, cmp);
352                 (*info->log_item)(LOG_DEBUG, buf, "");
353 #endif
354                 p->hits++;
355                 return 1;
356             }
357 #else
358             
359             if (p->tail)
360             {
361                 memcpy (buf, p->buf_r, info->key_size);
362                 *term_index = p->term_index_r + info->term_index_s;
363                 p->more_r = rset_read (info->rset_r, p->rfd_r, p->buf_r,
364                                    &p->term_index_r);
365                 if (!p->more_r || (*info->cmp)(p->buf_r, buf) > 1)
366                     p->tail = 0;
367 #if RSET_DEBUG
368                 logf (LOG_DEBUG, "r_read_and [%p] returning R tail m=%d/%d c=%d",
369                         rfd, p->more_l, p->more_r, cmp);
370                 (*info->log_item)(LOG_DEBUG, buf, "");
371 #endif
372                 p->hits++;
373                 return 1;
374             }
375             else
376             {
377 #if RSET_DEBUG
378                 logf (LOG_DEBUG, "r_read_and [%p] about to forward R m=%d/%d c=%d",
379                         rfd, p->more_l, p->more_r, cmp);
380 #endif
381                 if (p->more_r && p->more_l)
382                     p->more_r = rset_forward( 
383                                     info->rset_r, p->rfd_r, 
384                                     p->buf_r, &p->term_index_r, 
385                                     (info->cmp), p->buf_l);
386                 else 
387                     return 0; /* no point in reading further */
388             }
389 #endif
390         }
391         else  /* cmp == -2 */
392         {
393 #if OLDCODE
394              memcpy (buf, p->buf_l, info->key_size);
395              *term_index = p->term_index_l;
396              p->more_l = rset_read (info->rset_l, p->rfd_l, p->buf_l,
397                                     &p->term_index_l);
398              if (p->tail)
399              {
400                  if (!p->more_l || (*info->cmp)(p->buf_l, buf) > 1)
401                      p->tail = 0;
402 #if RSET_DEBUG
403                  logf (LOG_DEBUG, "r_read_and [%p] returning R tail m=%d/%d c=%d",
404                         rfd, p->more_l, p->more_r, cmp);
405                  (*info->log_item)(LOG_DEBUG, buf, "");
406 #endif
407                  p->hits++;
408                  return 1;
409              }
410 #else
411             if (p->tail)
412             {
413                 memcpy (buf, p->buf_l, info->key_size);
414                     *term_index = p->term_index_l;
415                 p->more_l = rset_read (info->rset_l, p->rfd_l, p->buf_l,
416                                    &p->term_index_l);
417                 if (!p->more_l || (*info->cmp)(p->buf_l, buf) > 1)
418                     p->tail = 0;
419 #if RSET_DEBUG
420                 logf (LOG_DEBUG, "r_read_and [%p] returning L tail m=%d/%d c=%d",
421                         rfd, p->more_l, p->more_r, cmp);
422                 (*info->log_item)(LOG_DEBUG, buf, "");
423 #endif
424                 p->hits++;
425                 return 1;
426             }
427             else
428             {
429 #if RSET_DEBUG
430                 logf (LOG_DEBUG, "r_read_and [%p] about to forward L m=%d/%d c=%d",
431                         rfd, p->more_l, p->more_r, cmp);
432 #endif
433                 if (p->more_r && p->more_l)
434                     p->more_l = rset_forward( 
435                     /* p->more_l = rset_default_forward( */
436                                     info->rset_l, p->rfd_l, 
437                                     p->buf_l, &p->term_index_l, 
438                                     (info->cmp), p->buf_r);
439                 else 
440                     return 0; /* no point in reading further */
441             }
442 #endif
443         }
444     }
445 #if RSET_DEBUG
446     logf (LOG_DEBUG, "r_read_and [%p] reached its end",rfd);
447 #endif
448     return 0;
449 }
450
451 static int r_read_or (RSFD rfd, void *buf, int *term_index)
452 {
453     struct rset_bool_rfd *p = (struct rset_bool_rfd *) rfd;
454     struct rset_bool_info *info = p->info;
455
456     while (p->more_l || p->more_r)
457     {
458         int cmp;
459
460         if (p->more_l && p->more_r)
461             cmp = (*info->cmp)(p->buf_l, p->buf_r);
462         else if (p->more_r)
463             cmp = 2;
464         else
465             cmp = -2;
466         if (!cmp)
467         {
468             memcpy (buf, p->buf_l, info->key_size);
469                 *term_index = p->term_index_l;
470             p->more_l = rset_read (info->rset_l, p->rfd_l, p->buf_l,
471                                    &p->term_index_l);
472             p->more_r = rset_read (info->rset_r, p->rfd_r, p->buf_r,
473                                    &p->term_index_r);
474 #if RSET_DEBUG
475             logf (LOG_DEBUG, "r_read_or returning A m=%d/%d c=%d",
476                     p->more_l, p->more_r, cmp);
477             (*info->log_item)(LOG_DEBUG, buf, "");
478 #endif
479             p->hits++;
480             return 1;
481         }
482         else if (cmp > 0)
483         {
484             memcpy (buf, p->buf_r, info->key_size);
485                 *term_index = p->term_index_r + info->term_index_s;
486             p->more_r = rset_read (info->rset_r, p->rfd_r, p->buf_r,
487                                    &p->term_index_r);
488 #if RSET_DEBUG
489             logf (LOG_DEBUG, "r_read_or returning B m=%d/%d c=%d",
490                     p->more_l, p->more_r, cmp);
491             (*info->log_item)(LOG_DEBUG, buf, "");
492 #endif
493             p->hits++;
494             return 1;
495         }
496         else
497         {
498             memcpy (buf, p->buf_l, info->key_size);
499                 *term_index = p->term_index_l;
500             p->more_l = rset_read (info->rset_l, p->rfd_l, p->buf_l,
501                                    &p->term_index_l);
502 #if RSET_DEBUG
503             logf (LOG_DEBUG, "r_read_or returning C m=%d/%d c=%d",
504                     p->more_l, p->more_r, cmp);
505             (*info->log_item)(LOG_DEBUG, buf, "");
506 #endif
507             p->hits++;
508             return 1;
509         }
510     }
511     return 0;
512 }
513
514 static int r_read_not (RSFD rfd, void *buf, int *term_index)
515 {
516     struct rset_bool_rfd *p = (struct rset_bool_rfd *) rfd;
517     struct rset_bool_info *info = p->info;
518
519     while (p->more_l || p->more_r)
520     {
521         int cmp;
522
523         if (p->more_l && p->more_r)
524             cmp = (*info->cmp)(p->buf_l, p->buf_r);
525         else if (p->more_r)
526             cmp = 2;
527         else
528             cmp = -2;
529         if (cmp < -1)
530         {
531             memcpy (buf, p->buf_l, info->key_size);
532                 *term_index = p->term_index_l;
533             p->more_l = rset_read (info->rset_l, p->rfd_l, p->buf_l,
534                                    &p->term_index_l);
535             p->hits++;
536             return 1;
537         }
538         else if (cmp > 1)
539         {
540                 p->more_r = rset_forward( 
541                     info->rset_r, p->rfd_r, 
542                     p->buf_r, &p->term_index_r, 
543                     (info->cmp), p->buf_l);
544         }
545         else
546         {
547             memcpy (buf, p->buf_l, info->key_size);
548             do
549             { 
550                 p->more_l = rset_read (info->rset_l, p->rfd_l, p->buf_l,
551                                        &p->term_index_l);
552                 if (!p->more_l)
553                     break;
554                 cmp = (*info->cmp)(p->buf_l, buf);
555             } while (cmp >= -1 && cmp <= 1);
556             do
557             {
558                 p->more_r = rset_read (info->rset_r, p->rfd_r, p->buf_r,
559                                        &p->term_index_r);
560                 if (!p->more_r)
561                     break;
562                 cmp = (*info->cmp)(p->buf_r, buf);
563             } while (cmp >= -1 && cmp <= 1);
564         }
565     }
566     return 0;
567 }
568
569
570 static int r_write (RSFD rfd, const void *buf)
571 {
572     logf (LOG_FATAL, "bool set type is read-only");
573     return -1;
574 }
575
576 static void r_pos (RSFD rfd, double *current, double *total)
577 {
578     struct rset_bool_rfd *p = (struct rset_bool_rfd *) rfd;
579     struct rset_bool_info *info = p->info;
580     double lcur,ltot;
581     double rcur,rtot;
582     double r;
583     ltot=-1; rtot=-1;
584     rset_pos(info->rset_l, p->rfd_l,  &lcur, &ltot);
585     rset_pos(info->rset_r, p->rfd_r,  &rcur, &rtot);
586     if ( (rtot<0) && (ltot<0)) { /*no position */
587         *current=rcur;  /* return same as you got */
588         *total=rtot;    /* probably -1 for not available */
589     }
590     if ( rtot<0) { rtot=0; rcur=0;} /* if only one useful, use it */
591     if ( ltot<0) { ltot=0; lcur=0;}
592     if ( rtot+ltot < 1 ) { /* empty rset */
593         *current=0;
594         *total=0;
595         return;
596     }
597     r=1.0*(lcur+rcur)/(ltot+rtot); /* weighed average of l and r */
598     *current=(double) (p->hits);
599     *total=*current/r ; 
600 #if RSET_DEBUG
601     yaz_log(LOG_DEBUG,"bool_pos: (%s/%s) %0.1f/%0.1f= %0.4f ",
602                     info->rset_l->control->desc, info->rset_r->control->desc,
603                     *current, *total, r);
604 #endif
605 }