c732143457f9b8f1dc2eb9a1ecb3cb601cf7237e
[idzebra-moved-to-github.git] / isamb / isamb.c
1 /* $Id: isamb.c,v 1.30 2004-06-01 12:56:38 adam Exp $
2    Copyright (C) 1995,1996,1997,1998,1999,2000,2001,2002,2003,2004
3    Index Data Aps
4
5 This file is part of the Zebra server.
6
7 Zebra is free software; you can redistribute it and/or modify it under
8 the terms of the GNU General Public License as published by the Free
9 Software Foundation; either version 2, or (at your option) any later
10 version.
11
12 Zebra is distributed in the hope that it will be useful, but WITHOUT ANY
13 WARRANTY; without even the implied warranty of MERCHANTABILITY or
14 FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
15 for more details.
16
17 You should have received a copy of the GNU General Public License
18 along with Zebra; see the file LICENSE.zebra.  If not, write to the
19 Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
20 02111-1307, USA.
21 */
22
23 #include <string.h>
24 #include <yaz/xmalloc.h>
25 #include <yaz/log.h>
26 #include <isamb.h>
27 #include <assert.h>
28
29 struct ISAMB_head {
30     int first_block;
31     int last_block;
32     int block_size;
33     int block_max;
34     int free_list;
35 };
36
37 #define ISAMB_DATA_OFFSET 3
38
39 /* maximum size of encoded buffer */
40 #define DST_ITEM_MAX 256
41
42 #define ISAMB_MAX_LEVEL 10
43 /* approx 2*max page + max size of item */
44 #define DST_BUF_SIZE 16840
45
46 #define ISAMB_CACHE_ENTRY_SIZE 4096
47
48 /* CAT_MAX: _must_ be power of 2 */
49 #define CAT_MAX 4
50 #define CAT_MASK (CAT_MAX-1)
51 /* CAT_NO: <= CAT_MAX */
52 #define CAT_NO 4
53
54 /* ISAMB_PTR_CODEC=1 var, =0 fixed */
55 #define ISAMB_PTR_CODEC  1
56
57 struct ISAMB_cache_entry {
58     ISAMB_P pos;
59     unsigned char *buf;
60     int dirty;
61     int hits;
62     struct ISAMB_cache_entry *next;
63 };
64
65 struct ISAMB_file {
66     BFile bf;
67     int head_dirty;
68     struct ISAMB_head head;
69     struct ISAMB_cache_entry *cache_entries;
70 };
71
72 struct ISAMB_s {
73     BFiles bfs;
74     ISAMC_M *method;
75
76     struct ISAMB_file *file;
77     int no_cat;
78     int cache; /* 0=no cache, 1=use cache, -1=dummy isam (for testing only) */
79     int log_io;        /* log level for bf_read/bf_write calls */
80     int log_freelist;  /* log level for freelist handling */
81     int skipped_numbers; /* on a leaf node */
82     int returned_numbers; 
83     int skipped_nodes[ISAMB_MAX_LEVEL]; /* [0]=skipped leaves, 1=higher etc */
84     int accessed_nodes[ISAMB_MAX_LEVEL]; /* nodes we did not skip */
85 };
86
87 struct ISAMB_block {
88     ISAMB_P pos;
89     int cat;
90     int size;
91     int leaf;
92     int dirty;
93     int deleted;
94     int offset;
95     char *bytes;
96     unsigned char *buf;
97     void *decodeClientData;
98     int log_rw;
99 };
100
101 struct ISAMB_PP_s {
102     ISAMB isamb;
103     ISAMB_P pos;
104     int level;
105     int maxlevel; /* total depth */
106     int total_size;
107     int no_blocks;
108     int skipped_numbers; /* on a leaf node */
109     int returned_numbers; 
110     int skipped_nodes[ISAMB_MAX_LEVEL]; /* [0]=skipped leaves, 1=higher etc */
111     int accessed_nodes[ISAMB_MAX_LEVEL]; /* nodes we did not skip */
112     struct ISAMB_block **block;
113 };
114
115 #if ISAMB_PTR_CODEC
116 static void encode_ptr (char **dst, unsigned pos)
117 {
118     unsigned char *bp = (unsigned char*) *dst;
119
120     while (pos > 127)
121     {
122          *bp++ = 128 | (pos & 127);
123          pos = pos >> 7;
124     }
125     *bp++ = pos;
126     *dst = (char *) bp;
127 }
128 #else
129 static void encode_ptr (char **dst, unsigned pos)
130 {
131     memcpy(*dst, &pos, sizeof(pos));
132     (*dst) += sizeof(pos);
133 }
134 #endif
135
136 #if ISAMB_PTR_CODEC
137 static void decode_ptr (char **src1, int *pos)
138 {
139     unsigned char **src = (unsigned char **) src1;
140     unsigned d = 0;
141     unsigned char c;
142     unsigned r = 0;
143
144     while (((c = *(*src)++) & 128))
145     {
146         d += ((c & 127) << r);
147         r += 7;
148     }
149     d += (c << r);
150     *pos = d;
151 }
152 #else
153 static void decode_ptr (char **src, int *pos)
154 {
155      memcpy (pos, *src, sizeof(*pos));
156      (*src) += sizeof(*pos);
157 }
158 #endif
159
160 ISAMB isamb_open (BFiles bfs, const char *name, int writeflag, ISAMC_M *method,
161                   int cache)
162 {
163     ISAMB isamb = xmalloc (sizeof(*isamb));
164     int i, b_size = 32;
165
166     isamb->bfs = bfs;
167     isamb->method = (ISAMC_M *) xmalloc (sizeof(*method));
168     memcpy (isamb->method, method, sizeof(*method));
169     isamb->no_cat = CAT_NO;
170     isamb->log_io = 0;
171     isamb->log_freelist = 0;
172     isamb->cache = cache;
173     isamb->skipped_numbers=0;
174     isamb->returned_numbers=0;
175     for (i=0;i<ISAMB_MAX_LEVEL;i++)
176       isamb->skipped_nodes[i]= isamb->accessed_nodes[i]=0;
177
178     assert (cache == 0);
179     isamb->file = xmalloc (sizeof(*isamb->file) * isamb->no_cat);
180     for (i = 0; i<isamb->no_cat; i++)
181     {
182         char fname[DST_BUF_SIZE];
183         isamb->file[i].cache_entries = 0;
184         isamb->file[i].head_dirty = 0;
185         sprintf (fname, "%s%c", name, i+'A');
186         if (cache)
187             isamb->file[i].bf = bf_open (bfs, fname, ISAMB_CACHE_ENTRY_SIZE,
188                                          writeflag);
189         else
190             isamb->file[i].bf = bf_open (bfs, fname, b_size, writeflag);
191
192         
193         if (!bf_read (isamb->file[i].bf, 0, 0, sizeof(struct ISAMB_head),
194                       &isamb->file[i].head))
195         {
196             isamb->file[i].head.first_block = ISAMB_CACHE_ENTRY_SIZE/b_size+1;
197             isamb->file[i].head.last_block = isamb->file[i].head.first_block;
198             isamb->file[i].head.block_size = b_size;
199             isamb->file[i].head.block_max = b_size - ISAMB_DATA_OFFSET;
200             isamb->file[i].head.free_list = 0;
201         }
202         assert (isamb->file[i].head.block_size >= ISAMB_DATA_OFFSET);
203         isamb->file[i].head_dirty = 0;
204         assert(isamb->file[i].head.block_size == b_size);
205         b_size = b_size * 4;
206     }
207     return isamb;
208 }
209
210 static void flush_blocks (ISAMB b, int cat)
211 {
212     while (b->file[cat].cache_entries)
213     {
214         struct ISAMB_cache_entry *ce_this = b->file[cat].cache_entries;
215         b->file[cat].cache_entries = ce_this->next;
216
217         if (ce_this->dirty)
218         {
219             yaz_log (b->log_io, "bf_write: flush_blocks");
220             bf_write (b->file[cat].bf, ce_this->pos, 0, 0, ce_this->buf);
221         }
222         xfree (ce_this->buf);
223         xfree (ce_this);
224     }
225 }
226
227 static int get_block (ISAMB b, ISAMC_P pos, char *userbuf, int wr)
228 {
229     int cat = pos&CAT_MASK;
230     int off = ((pos/CAT_MAX) & 
231                (ISAMB_CACHE_ENTRY_SIZE / b->file[cat].head.block_size - 1))
232         * b->file[cat].head.block_size;
233     int norm = pos / (CAT_MASK*ISAMB_CACHE_ENTRY_SIZE / b->file[cat].head.block_size);
234     int no = 0;
235     struct ISAMB_cache_entry **ce, *ce_this = 0, **ce_last = 0;
236
237     if (!b->cache)
238         return 0;
239
240     assert (ISAMB_CACHE_ENTRY_SIZE >= b->file[cat].head.block_size);
241     for (ce = &b->file[cat].cache_entries; *ce; ce = &(*ce)->next, no++)
242     {
243         ce_last = ce;
244         if ((*ce)->pos == norm)
245         {
246             ce_this = *ce;
247             *ce = (*ce)->next;   /* remove from list */
248             
249             ce_this->next = b->file[cat].cache_entries;  /* move to front */
250             b->file[cat].cache_entries = ce_this;
251             
252             if (wr)
253             {
254                 memcpy (ce_this->buf + off, userbuf, 
255                         b->file[cat].head.block_size);
256                 ce_this->dirty = 1;
257             }
258             else
259                 memcpy (userbuf, ce_this->buf + off,
260                         b->file[cat].head.block_size);
261             return 1;
262         }
263     }
264     if (no >= 40)
265     {
266         assert (no == 40);
267         assert (ce_last && *ce_last);
268         ce_this = *ce_last;
269         *ce_last = 0;  /* remove the last entry from list */
270         if (ce_this->dirty)
271         {
272             yaz_log (b->log_io, "bf_write: get_block");
273             bf_write (b->file[cat].bf, ce_this->pos, 0, 0, ce_this->buf);
274         }
275         xfree (ce_this->buf);
276         xfree (ce_this);
277     }
278     ce_this = xmalloc (sizeof(*ce_this));
279     ce_this->next = b->file[cat].cache_entries;
280     b->file[cat].cache_entries = ce_this;
281     ce_this->buf = xmalloc (ISAMB_CACHE_ENTRY_SIZE);
282     ce_this->pos = norm;
283     yaz_log (b->log_io, "bf_read: get_block");
284     if (!bf_read (b->file[cat].bf, norm, 0, 0, ce_this->buf))
285         memset (ce_this->buf, 0, ISAMB_CACHE_ENTRY_SIZE);
286     if (wr)
287     {
288         memcpy (ce_this->buf + off, userbuf, b->file[cat].head.block_size);
289         ce_this->dirty = 1;
290     }
291     else
292     {
293         ce_this->dirty = 0;
294         memcpy (userbuf, ce_this->buf + off, b->file[cat].head.block_size);
295     }
296     return 1;
297 }
298
299
300 void isamb_close (ISAMB isamb)
301 {
302     int i;
303     for (i=0;isamb->accessed_nodes[i];i++)
304         logf(LOG_DEBUG,"isamb_close  level leaf-%d: %d read, %d skipped",
305              i, isamb->accessed_nodes[i], isamb->skipped_nodes[i]);
306     logf(LOG_DEBUG,"isamb_close returned %d values, skipped %d",
307          isamb->skipped_numbers, isamb->returned_numbers);
308     for (i = 0; i<isamb->no_cat; i++)
309     {
310         flush_blocks (isamb, i);
311         if (isamb->file[i].head_dirty)
312             bf_write (isamb->file[i].bf, 0, 0,
313                       sizeof(struct ISAMB_head), &isamb->file[i].head);
314         
315         bf_close (isamb->file[i].bf);
316     }
317     xfree (isamb->file);
318     xfree (isamb->method);
319     xfree (isamb);
320 }
321
322
323 struct ISAMB_block *open_block (ISAMB b, ISAMC_P pos)
324 {
325     int cat = pos&CAT_MASK;
326     struct ISAMB_block *p;
327     if (!pos)
328         return 0;
329     p = xmalloc (sizeof(*p));
330     p->pos = pos;
331     p->cat = pos & CAT_MASK;
332     p->buf = xmalloc (b->file[cat].head.block_size);
333
334     if (!get_block (b, pos, p->buf, 0))
335     {
336         yaz_log (b->log_io, "bf_read: open_block");
337         if (!bf_read (b->file[cat].bf, pos/CAT_MAX, 0, 0, p->buf))
338         {
339             yaz_log (LOG_FATAL, "isamb: read fail for pos=%ld block=%ld",
340                      (long) pos, (long) pos/CAT_MAX);
341             abort();
342         }
343     }
344     p->bytes = p->buf + ISAMB_DATA_OFFSET;
345     p->leaf = p->buf[0];
346     p->size = (p->buf[1] + 256 * p->buf[2]) - ISAMB_DATA_OFFSET;
347     if (p->size < 0)
348     {
349         yaz_log (LOG_FATAL, "Bad block size %d in pos=%d\n", p->size, pos);
350     }
351     assert (p->size >= 0);
352     p->offset = 0;
353     p->dirty = 0;
354     p->deleted = 0;
355     p->decodeClientData = (*b->method->code_start)(ISAMC_DECODE);
356     yaz_log (LOG_DEBUG, "isamb_open_block: Opened block %d ofs=%d",pos, p->offset);
357     return p;
358 }
359
360 struct ISAMB_block *new_block (ISAMB b, int leaf, int cat)
361 {
362     struct ISAMB_block *p;
363
364     p = xmalloc (sizeof(*p));
365     p->buf = xmalloc (b->file[cat].head.block_size);
366
367     if (!b->file[cat].head.free_list)
368     {
369         int block_no;
370         block_no = b->file[cat].head.last_block++;
371         p->pos = block_no * CAT_MAX + cat;
372     }
373     else
374     {
375         p->pos = b->file[cat].head.free_list;
376         assert((p->pos & CAT_MASK) == cat);
377         if (!get_block (b, p->pos, p->buf, 0))
378         {
379             yaz_log (b->log_io, "bf_read: new_block");
380             if (!bf_read (b->file[cat].bf, p->pos/CAT_MAX, 0, 0, p->buf))
381             {
382                 yaz_log (LOG_FATAL, "isamb: read fail for pos=%ld block=%ld",
383                          (long) p->pos/CAT_MAX, (long) p->pos/CAT_MAX);
384                 abort ();
385             }
386         }
387         yaz_log (b->log_freelist, "got block %d from freelist %d:%d", p->pos,
388                  cat, p->pos/CAT_MAX);
389         memcpy (&b->file[cat].head.free_list, p->buf, sizeof(int));
390     }
391     p->cat = cat;
392     b->file[cat].head_dirty = 1;
393     memset (p->buf, 0, b->file[cat].head.block_size);
394     p->bytes = p->buf + ISAMB_DATA_OFFSET;
395     p->leaf = leaf;
396     p->size = 0;
397     p->dirty = 1;
398     p->deleted = 0;
399     p->offset = 0;
400     p->decodeClientData = (*b->method->code_start)(ISAMC_DECODE);
401     return p;
402 }
403
404 struct ISAMB_block *new_leaf (ISAMB b, int cat)
405 {
406     return new_block (b, 1, cat);
407 }
408
409
410 struct ISAMB_block *new_int (ISAMB b, int cat)
411 {
412     return new_block (b, 0, cat);
413 }
414
415 static void check_block (ISAMB b, struct ISAMB_block *p)
416 {
417     if (p->leaf)
418     {
419         ;
420     }
421     else
422     {
423         /* sanity check */
424         char *startp = p->bytes;
425         char *src = startp;
426         char *endp = p->bytes + p->size;
427         int pos;
428             
429         decode_ptr (&src, &pos);
430         assert ((pos&CAT_MASK) == p->cat);
431         while (src != endp)
432         {
433             int item_len;
434             decode_ptr (&src, &item_len);
435             assert (item_len > 0 && item_len < 30);
436             src += item_len;
437             decode_ptr (&src, &pos);
438             assert ((pos&CAT_MASK) == p->cat);
439         }
440     }
441 }
442
443 void close_block (ISAMB b, struct ISAMB_block *p)
444 {
445     if (!p)
446         return;
447     if (p->deleted)
448     {
449         yaz_log (b->log_freelist, "release block %d from freelist %d:%d",
450                  p->pos, p->cat, p->pos/CAT_MAX);
451         memcpy (p->buf, &b->file[p->cat].head.free_list, sizeof(int));
452         b->file[p->cat].head.free_list = p->pos;
453         if (!get_block (b, p->pos, p->buf, 1))
454         {
455             yaz_log (b->log_io, "bf_write: close_block (deleted)");
456             bf_write (b->file[p->cat].bf, p->pos/CAT_MAX, 0, 0, p->buf);
457         }
458     }
459     else if (p->dirty)
460     {
461         int size = p->size + ISAMB_DATA_OFFSET;
462         assert (p->size >= 0);
463         p->buf[0] = p->leaf;
464         p->buf[1] = size & 255;
465         p->buf[2] = size >> 8;
466         check_block(b, p);
467         if (!get_block (b, p->pos, p->buf, 1))
468         {
469             yaz_log (b->log_io, "bf_write: close_block");
470             bf_write (b->file[p->cat].bf, p->pos/CAT_MAX, 0, 0, p->buf);
471         }
472     }
473     (*b->method->code_stop)(ISAMC_DECODE, p->decodeClientData);
474     xfree (p->buf);
475     xfree (p);
476 }
477
478 int insert_sub (ISAMB b, struct ISAMB_block **p,
479                 void *new_item, int *mode,
480                 ISAMC_I *stream,
481                 struct ISAMB_block **sp,
482                 void *sub_item, int *sub_size,
483                 void *max_item);
484
485 int insert_int (ISAMB b, struct ISAMB_block *p, void *lookahead_item,
486                 int *mode,
487                 ISAMC_I *stream, struct ISAMB_block **sp,
488                 void *split_item, int *split_size, void *last_max_item)
489 {
490     char *startp = p->bytes;
491     char *src = startp;
492     char *endp = p->bytes + p->size;
493     int pos;
494     struct ISAMB_block *sub_p1 = 0, *sub_p2 = 0;
495     char sub_item[DST_ITEM_MAX];
496     int sub_size;
497     int more;
498
499     *sp = 0;
500
501     assert(p->size >= 0);
502     decode_ptr (&src, &pos);
503     while (src != endp)
504     {
505         int item_len;
506         int d;
507         char *src0 = src;
508         decode_ptr (&src, &item_len);
509         d = (*b->method->compare_item)(src, lookahead_item);
510         if (d > 0)
511         {
512             sub_p1 = open_block (b, pos);
513             assert (sub_p1);
514             more = insert_sub (b, &sub_p1, lookahead_item, mode,
515                                stream, &sub_p2, 
516                                sub_item, &sub_size, src);
517             src = src0;
518             break;
519         }
520         src += item_len;
521         decode_ptr (&src, &pos);
522     }
523     if (!sub_p1)
524     {
525         sub_p1 = open_block (b, pos);
526         assert (sub_p1);
527         more = insert_sub (b, &sub_p1, lookahead_item, mode, stream, &sub_p2, 
528                            sub_item, &sub_size, last_max_item);
529     }
530     if (sub_p2)
531     {
532         /* there was a split - must insert pointer in this one */
533         char dst_buf[DST_BUF_SIZE];
534         char *dst = dst_buf;
535
536         assert (sub_size < 30 && sub_size > 1);
537
538         memcpy (dst, startp, src - startp);
539                 
540         dst += src - startp;
541
542         encode_ptr (&dst, sub_size);      /* sub length and item */
543         memcpy (dst, sub_item, sub_size);
544         dst += sub_size;
545
546         encode_ptr (&dst, sub_p2->pos);   /* pos */
547
548         if (endp - src)                   /* remaining data */
549         {
550             memcpy (dst, src, endp - src);
551             dst += endp - src;
552         }
553         p->size = dst - dst_buf;
554         assert (p->size >= 0);
555         if (p->size <= b->file[p->cat].head.block_max)
556         {
557             memcpy (startp, dst_buf, dst - dst_buf);
558         }
559         else
560         {
561             int p_new_size;
562             char *half;
563             src = dst_buf;
564             endp = dst;
565
566             half = src + b->file[p->cat].head.block_size/2;
567             decode_ptr (&src, &pos);
568             while (src <= half)
569             {
570                 decode_ptr (&src, split_size);
571                 src += *split_size;
572                 decode_ptr (&src, &pos);
573             }
574             p_new_size = src - dst_buf;
575             memcpy (p->bytes, dst_buf, p_new_size);
576
577             decode_ptr (&src, split_size);
578             memcpy (split_item, src, *split_size);
579             src += *split_size;
580
581             *sp = new_int (b, p->cat);
582             (*sp)->size = endp - src;
583             memcpy ((*sp)->bytes, src, (*sp)->size);
584
585             p->size = p_new_size;
586         }
587         p->dirty = 1;
588         close_block (b, sub_p2);
589     }
590     close_block (b, sub_p1);
591     return more;
592 }
593
594
595 int insert_leaf (ISAMB b, struct ISAMB_block **sp1, void *lookahead_item,
596                  int *lookahead_mode, ISAMC_I *stream,
597                  struct ISAMB_block **sp2,
598                  void *sub_item, int *sub_size,
599                  void *max_item)
600 {
601     struct ISAMB_block *p = *sp1;
602     char *src = 0, *endp = 0;
603     char dst_buf[DST_BUF_SIZE], *dst = dst_buf;
604     int new_size;
605     void *c1 = (*b->method->code_start)(ISAMC_DECODE);
606     void *c2 = (*b->method->code_start)(ISAMC_ENCODE);
607     int more = 1;
608     int quater = b->file[b->no_cat-1].head.block_max / CAT_MAX;
609     char *cut = dst_buf + quater * 2;
610     char *maxp = dst_buf + b->file[b->no_cat-1].head.block_max;
611     char *half1 = 0;
612     char *half2 = 0;
613     char cut_item_buf[DST_ITEM_MAX];
614     int cut_item_size = 0;
615
616     if (p && p->size)
617     {
618         char file_item_buf[DST_ITEM_MAX];
619         char *file_item = file_item_buf;
620             
621         src = p->bytes;
622         endp = p->bytes + p->size;
623         (*b->method->code_item)(ISAMC_DECODE, c1, &file_item, &src);
624         while (1)
625         {
626             char *dst_item = 0;
627             char *dst_0 = dst;
628             char *lookahead_next;
629             int d = -1;
630             
631             if (lookahead_item)
632                 d = (*b->method->compare_item)(file_item_buf, lookahead_item);
633             
634             if (d > 0)
635             {
636                 dst_item = lookahead_item;
637                 if (!*lookahead_mode)
638                 {
639                     yaz_log (LOG_WARN, "isamb: Inconsistent register (1)");
640                     assert (*lookahead_mode);
641                 }
642             }
643             else
644                 dst_item = file_item_buf;
645             if (!*lookahead_mode && d == 0)
646             {
647                 p->dirty = 1;
648             }
649             else if (!half1 && dst > cut)
650             {
651                 char *dst_item_0 = dst_item;
652                 half1 = dst; /* candidate for splitting */
653                 
654                 (*b->method->code_item)(ISAMC_ENCODE, c2, &dst, &dst_item);
655                 
656                 cut_item_size = dst_item - dst_item_0;
657                 memcpy (cut_item_buf, dst_item_0, cut_item_size);
658                 
659                 half2 = dst;
660             }
661             else
662                 (*b->method->code_item)(ISAMC_ENCODE, c2, &dst, &dst_item);
663             if (d > 0)  
664             {
665                 if (dst > maxp)
666                 {
667                     dst = dst_0;
668                     lookahead_item = 0;
669                 }
670                 else
671                 {
672                     lookahead_next = lookahead_item;
673                     if (!(*stream->read_item)(stream->clientData,
674                                               &lookahead_next,
675                                               lookahead_mode))
676                     {
677                         lookahead_item = 0;
678                         more = 0;
679                     }
680                     if (lookahead_item && max_item &&
681                         (*b->method->compare_item)(max_item, lookahead_item) <= 0)
682                     {
683                         /* max_item 1 */
684                         lookahead_item = 0;
685                     }
686                     
687                     p->dirty = 1;
688                 }
689             }
690             else if (d == 0)
691             {
692                 lookahead_next = lookahead_item;
693                 if (!(*stream->read_item)(stream->clientData,
694                                           &lookahead_next, lookahead_mode))
695                 {
696                     lookahead_item = 0;
697                     more = 0;
698                 }
699                 if (src == endp)
700                     break;
701                 file_item = file_item_buf;
702                 (*b->method->code_item)(ISAMC_DECODE, c1, &file_item, &src);
703             }
704             else
705             {
706                 if (src == endp)
707                     break;
708                 file_item = file_item_buf;
709                 (*b->method->code_item)(ISAMC_DECODE, c1, &file_item, &src);
710             }
711         }
712     }
713     maxp = dst_buf + b->file[b->no_cat-1].head.block_max + quater;
714     while (lookahead_item)
715     {
716         char *dst_item = lookahead_item;
717         char *dst_0 = dst;
718         
719         if (max_item &&
720             (*b->method->compare_item)(max_item, lookahead_item) <= 0)
721         {
722             /* max_item 2 */
723             break;
724         }
725         if (!*lookahead_mode)
726         {
727             yaz_log (LOG_WARN, "isamb: Inconsistent register (2)");
728             abort();
729         }
730         else if (!half1 && dst > cut)   
731         {
732             char *dst_item_0 = dst_item;
733             half1 = dst; /* candidate for splitting */
734             
735             (*b->method->code_item)(ISAMC_ENCODE, c2, &dst, &dst_item);
736             
737             cut_item_size = dst_item - dst_item_0;
738             memcpy (cut_item_buf, dst_item_0, cut_item_size);
739             
740             half2 = dst;
741         }
742         else
743             (*b->method->code_item)(ISAMC_ENCODE, c2, &dst, &dst_item);
744
745         if (dst > maxp)
746         {
747             dst = dst_0;
748             break;
749         }
750         if (p)
751             p->dirty = 1;
752         dst_item = lookahead_item;
753         if (!(*stream->read_item)(stream->clientData, &dst_item,
754                                   lookahead_mode))
755         {
756             lookahead_item = 0;
757             more = 0;
758         }
759     }
760     new_size = dst - dst_buf;
761     if (p && p->cat != b->no_cat-1 && 
762         new_size > b->file[p->cat].head.block_max)
763     {
764         /* non-btree block will be removed */
765         p->deleted = 1;
766         close_block (b, p);
767         /* delete it too!! */
768         p = 0; /* make a new one anyway */
769     }
770     if (!p)
771     {   /* must create a new one */
772         int i;
773         for (i = 0; i < b->no_cat; i++)
774             if (new_size <= b->file[i].head.block_max)
775                 break;
776         if (i == b->no_cat)
777             i = b->no_cat - 1;
778         p = new_leaf (b, i);
779     }
780     if (new_size > b->file[p->cat].head.block_max)
781     {
782         char *first_dst;
783         char *cut_item = cut_item_buf;
784
785         assert (half1);
786         assert (half2);
787
788        /* first half */
789         p->size = half1 - dst_buf;
790         memcpy (p->bytes, dst_buf, half1 - dst_buf);
791
792         /* second half */
793         *sp2 = new_leaf (b, p->cat);
794
795         (*b->method->code_reset)(c2);
796
797         first_dst = (*sp2)->bytes;
798
799         (*b->method->code_item)(ISAMC_ENCODE, c2, &first_dst, &cut_item);
800
801         memcpy (first_dst, half2, dst - half2);
802
803         (*sp2)->size = (first_dst - (*sp2)->bytes) + (dst - half2);
804         (*sp2)->dirty = 1;
805         p->dirty = 1;
806         memcpy (sub_item, cut_item_buf, cut_item_size);
807         *sub_size = cut_item_size;
808     }
809     else
810     {
811         memcpy (p->bytes, dst_buf, dst - dst_buf);
812         p->size = new_size;
813     }
814     (*b->method->code_stop)(ISAMC_DECODE, c1);
815     (*b->method->code_stop)(ISAMC_ENCODE, c2);
816     *sp1 = p;
817     return more;
818 }
819
820 int insert_sub (ISAMB b, struct ISAMB_block **p, void *new_item,
821                 int *mode,
822                 ISAMC_I *stream,
823                 struct ISAMB_block **sp,
824                 void *sub_item, int *sub_size,
825                 void *max_item)
826 {
827     if (!*p || (*p)->leaf)
828         return insert_leaf (b, p, new_item, mode, stream, sp, sub_item, 
829                             sub_size, max_item);
830     else
831         return insert_int (b, *p, new_item, mode, stream, sp, sub_item,
832                            sub_size, max_item);
833 }
834
835 int isamb_unlink (ISAMB b, ISAMC_P pos)
836 {
837     struct ISAMB_block *p1;
838
839     if (!pos)
840         return 0;
841     p1 = open_block(b, pos);
842     p1->deleted = 1;
843     if (!p1->leaf)
844     {
845         int sub_p;
846         int item_len;
847         char *src = p1->bytes + p1->offset;
848
849         decode_ptr(&src, &sub_p);
850         isamb_unlink(b, sub_p);
851         
852         while (src != p1->bytes + p1->size)
853         {
854             decode_ptr(&src, &item_len);
855             src += item_len;
856             decode_ptr(&src, &sub_p);
857             isamb_unlink(b, sub_p);
858         }
859     }
860     close_block(b, p1);
861     return 0;
862 }
863
864 int isamb_merge (ISAMB b, ISAMC_P pos, ISAMC_I *stream)
865 {
866     char item_buf[DST_ITEM_MAX];
867     char *item_ptr;
868     int i_mode;
869     int more;
870
871     if (b->cache < 0)
872     {
873         int more = 1;
874         while (more)
875         {
876             item_ptr = item_buf;
877             more =
878                 (*stream->read_item)(stream->clientData, &item_ptr, &i_mode);
879         }
880         return 1;
881     }
882     item_ptr = item_buf;
883     more = (*stream->read_item)(stream->clientData, &item_ptr, &i_mode);
884     while (more)
885     {
886         struct ISAMB_block *p = 0, *sp = 0;
887         char sub_item[DST_ITEM_MAX];
888         int sub_size;
889         
890         if (pos)
891             p = open_block (b, pos);
892         more = insert_sub (b, &p, item_buf, &i_mode, stream, &sp,
893                             sub_item, &sub_size, 0);
894         if (sp)
895         {    /* increase level of tree by one */
896             struct ISAMB_block *p2 = new_int (b, p->cat);
897             char *dst = p2->bytes + p2->size;
898             
899             encode_ptr (&dst, p->pos);
900             assert (sub_size < 20);
901             encode_ptr (&dst, sub_size);
902             memcpy (dst, sub_item, sub_size);
903             dst += sub_size;
904             encode_ptr (&dst, sp->pos);
905             
906             p2->size = dst - p2->bytes;
907             pos = p2->pos;  /* return new super page */
908             close_block (b, sp);
909             close_block (b, p2);
910         }
911         else
912             pos = p->pos;   /* return current one (again) */
913         close_block (b, p);
914     }
915     return pos;
916 }
917
918 ISAMB_PP isamb_pp_open_x (ISAMB isamb, ISAMB_P pos, int *level)
919 {
920     ISAMB_PP pp = xmalloc (sizeof(*pp));
921     int i;
922
923     pp->isamb = isamb;
924     pp->block = xmalloc (ISAMB_MAX_LEVEL * sizeof(*pp->block));
925
926     pp->pos = pos;
927     pp->level = 0;
928     pp->maxlevel=0;
929     pp->total_size = 0;
930     pp->no_blocks = 0;
931     pp->skipped_numbers=0;
932     pp->returned_numbers=0;
933     for (i=0;i<ISAMB_MAX_LEVEL;i++)
934         pp->skipped_nodes[i] = pp->accessed_nodes[i]=0;
935     while (1)
936     {
937         struct ISAMB_block *p = open_block (isamb, pos);
938         char *src = p->bytes + p->offset;
939         pp->block[pp->level] = p;
940
941         pp->total_size += p->size;
942         pp->no_blocks++;
943         if (p->leaf)
944             break;
945
946                                         
947         decode_ptr (&src, &pos);
948         p->offset = src - p->bytes;
949         pp->level++;
950         pp->accessed_nodes[pp->level]++; 
951     }
952     pp->block[pp->level+1] = 0;
953     pp->maxlevel=pp->level;
954     if (level)
955         *level = pp->level;
956     return pp;
957 }
958
959 ISAMB_PP isamb_pp_open (ISAMB isamb, ISAMB_P pos)
960 {
961     return isamb_pp_open_x (isamb, pos, 0);
962 }
963
964 void isamb_pp_close_x (ISAMB_PP pp, int *size, int *blocks)
965 {
966     int i;
967     if (!pp)
968         return;
969     logf(LOG_DEBUG,"isamb_pp_close lev=%d returned %d values, skipped %d",
970         pp->maxlevel, pp->skipped_numbers, pp->returned_numbers);
971     for (i=pp->maxlevel;i>=0;i--)
972         if ( pp->skipped_nodes[i] || pp->accessed_nodes[i])
973             logf(LOG_DEBUG,"isamb_pp_close  level leaf-%d: %d read, %d skipped", i,
974                  pp->accessed_nodes[i], pp->skipped_nodes[i]);
975     pp->isamb->skipped_numbers += pp->skipped_numbers;
976     pp->isamb->returned_numbers += pp->returned_numbers;
977     for (i=pp->maxlevel;i>=0;i--)
978     {
979         pp->isamb->accessed_nodes[i] += pp->accessed_nodes[i];
980         pp->isamb->skipped_nodes[i] += pp->skipped_nodes[i];
981     }
982     if (size)
983         *size = pp->total_size;
984     if (blocks)
985         *blocks = pp->no_blocks;
986     for (i = 0; i <= pp->level; i++)
987         close_block (pp->isamb, pp->block[i]);
988     xfree (pp->block);
989     xfree (pp);
990 }
991
992 int isamb_block_info (ISAMB isamb, int cat)
993 {
994     if (cat >= 0 && cat < isamb->no_cat)
995         return isamb->file[cat].head.block_size;
996     return -1;
997 }
998
999 void isamb_pp_close (ISAMB_PP pp)
1000 {
1001     isamb_pp_close_x (pp, 0, 0);
1002 }
1003
1004
1005 #if 0
1006 /* Old isamb_pp_read that Adam wrote, kept as a reference in case we need to
1007    debug the more complex pp_read that also forwards. May be deleted near end
1008    of 2004, if it has not shown to be useful */
1009
1010 int isamb_pp_read (ISAMB_PP pp, void *buf)
1011 {
1012     char *dst = buf;
1013     char *src;
1014     struct ISAMB_block *p = pp->block[pp->level];
1015     if (!p)
1016         return 0;
1017
1018     while (p->offset == p->size)
1019     {
1020         int pos, item_len;
1021         while (p->offset == p->size)
1022         {
1023             if (pp->level == 0)
1024                 return 0;
1025             close_block (pp->isamb, pp->block[pp->level]);
1026             pp->block[pp->level] = 0;
1027             (pp->level)--;
1028             p = pp->block[pp->level];
1029             assert (!p->leaf);  
1030         }
1031         src = p->bytes + p->offset;
1032         
1033         decode_ptr (&src, &item_len);
1034         src += item_len;
1035         decode_ptr (&src, &pos);
1036         
1037         p->offset = src - (char*) p->bytes;
1038
1039         ++(pp->level);
1040         
1041         while (1)
1042         {
1043             pp->block[pp->level] = p = open_block (pp->isamb, pos);
1044
1045             pp->total_size += p->size;
1046             pp->no_blocks++;
1047             
1048             if (p->leaf) 
1049             {
1050                 break;
1051             }
1052             src = p->bytes + p->offset;
1053             decode_ptr (&src, &pos);
1054             p->offset = src - (char*) p->bytes;
1055             pp->level++;
1056         }
1057     }
1058     assert (p->offset < p->size);
1059     assert (p->leaf);
1060     src = p->bytes + p->offset;
1061     (*pp->isamb->method->code_item)(ISAMC_DECODE, p->decodeClientData,
1062                                     &dst, &src);
1063     p->offset = src - (char*) p->bytes;
1064     key_logdump_txt(LOG_DEBUG,buf, "isamb_pp_read returning 1");
1065     return 1;
1066 }
1067
1068 #else
1069 int isamb_pp_read (ISAMB_PP pp, void *buf)
1070 {
1071     return isamb_pp_forward(pp,buf,0);
1072 }
1073 #endif
1074
1075 int isamb_pp_forward (ISAMB_PP pp, void *buf, const void *untilbuf)
1076 {
1077     /* pseudocode:
1078      *   while 1
1079      *     while at end of node
1080      *       climb higher. If out, return 0
1081      *     while not on a leaf (and not at its end)
1082      *       decode next
1083      *       if cmp
1084      *         descend to node
1085      *     decode next
1086      *     if cmp
1087      *       return 1
1088      */
1089         /* 
1090          * The upper nodes consist of a sequence of nodenumbers and keys
1091          * When opening a block,  the first node number is read in, and
1092          * offset points to the first key, which is the upper limit of keys
1093          * in the node just read.
1094          */
1095     char *dst = buf;
1096     char *src;
1097     struct ISAMB_block *p = pp->block[pp->level];
1098     int cmp;
1099     int item_len;
1100     int pos;
1101     int nxtpos;
1102     if (!p)
1103         return 0;
1104     logf(LOG_DEBUG,"isamb_pp_forward starting [%p] p=%d",pp,p->pos);
1105     
1106     (*pp->isamb->method->log_item)(LOG_DEBUG, untilbuf, "until");
1107     (*pp->isamb->method->log_item)(LOG_DEBUG, buf, "buf");
1108
1109     while (1)
1110     {
1111         while ( p->offset == p->size) 
1112         {  /* end of this block - climb higher */
1113             logf(LOG_DEBUG,"isamb_pp_forward climbing from l=%d",
1114                             pp->level);
1115             if (pp->level == 0)
1116             {
1117                 logf(LOG_DEBUG,"isamb_pp_forward returning 0 at root");
1118                 return 0; /* at end of the root, nothing left */
1119             }
1120             close_block(pp->isamb, pp->block[pp->level]);
1121             pp->block[pp->level]=0;
1122             (pp->level)--;
1123             p=pp->block[pp->level];
1124             logf(LOG_DEBUG,"isamb_pp_forward climbed to node %d off=%d",
1125                             p->pos, p->offset);
1126             assert(!p->leaf);
1127             /* skip the child we have handled */
1128             if (p->offset != p->size)
1129             { 
1130                 src = p->bytes + p->offset;
1131                 decode_ptr(&src, &item_len);
1132                 
1133                 (*pp->isamb->method->log_item)(LOG_DEBUG, src,
1134                                                " isamb_pp_forward "
1135                                                "climb skipping old key");
1136                 src += item_len;
1137                 decode_ptr(&src,&pos);
1138                 p->offset = src - (char*) p->bytes;
1139                 break; /* even if this puts us at the end of the block, we need to */
1140                        /* descend to the last pos. UGLY coding, clean up some */
1141                        /* day */
1142             }
1143         }
1144         if (!p->leaf)
1145         { 
1146             src = p->bytes + p->offset;
1147             if (p->offset == p->size)
1148                 cmp=-2 ; /* descend to the last node, as we have no value to cmp */
1149             else
1150             {
1151                 decode_ptr(&src, &item_len);
1152                 logf(LOG_DEBUG,"isamb_pp_forward (B) on a high node. ofs=%d sz=%d nxtpos=%d ",
1153                         p->offset,p->size,pos);
1154
1155
1156                 (*pp->isamb->method->log_item)(LOG_DEBUG, src, "");
1157                 if (untilbuf)
1158                     cmp=(*pp->isamb->method->compare_item)(untilbuf,src);
1159                 else
1160                     cmp=-2;
1161                 src += item_len;
1162                 decode_ptr(&src,&nxtpos);
1163             }
1164             if (cmp<2)
1165             { 
1166                 logf(LOG_DEBUG,"isambb_pp_forward descending l=%d p=%d ",
1167                             pp->level, pos);
1168                 ++(pp->level);
1169                 p = open_block(pp->isamb,pos);
1170                 pp->block[pp->level] = p ;
1171                 pp->total_size += p->size;
1172                 (pp->accessed_nodes[pp->maxlevel - pp->level])++;
1173                 pp->no_blocks++;
1174                 if ( !p->leaf)
1175                 { /* block starts with a pos */
1176                     src = p->bytes + p->offset;
1177                     decode_ptr(&src,&pos);
1178                     p->offset=src-(char*) p->bytes;
1179                     logf(LOG_DEBUG,"isamb_pp_forward: block %d starts with %d",
1180                                     p->pos, pos);
1181                 } 
1182             } /* descend to the node */
1183             else
1184             { /* skip the node */
1185                 p->offset = src - (char*) p->bytes;
1186                 pos=nxtpos;
1187                 (pp->skipped_nodes[pp->maxlevel - pp->level -1])++;
1188                 logf(LOG_DEBUG,
1189                     "isamb_pp_forward: skipping block on level %d, noting on %d (%d)",
1190                     pp->level, pp->maxlevel - pp->level-1 , 
1191                     pp->skipped_nodes[pp->maxlevel - pp->level-1 ]);
1192                 /* 0 is always leafs, 1 is one level above leafs etc, no
1193                  * matter how high tree */
1194             }
1195         } /* not on a leaf */
1196         else
1197         { /* on a leaf */
1198             src = p->bytes + p->offset;
1199             dst=buf;
1200             (*pp->isamb->method->code_item)(ISAMC_DECODE, p->decodeClientData,
1201                                             &dst, &src);
1202             p->offset = src - (char*) p->bytes;
1203             if (untilbuf)
1204                 cmp=(*pp->isamb->method->compare_item)(untilbuf,buf);
1205             else
1206                 cmp=-2;
1207             logf(LOG_DEBUG,"isamb_pp_forward on a leaf. cmp=%d", 
1208                               cmp);
1209             (*pp->isamb->method->log_item)(LOG_DEBUG, buf, "");
1210
1211             if (cmp <2)
1212             {
1213                 if (untilbuf)
1214                 {
1215                     (*pp->isamb->method->log_item)(LOG_DEBUG, buf, 
1216                                                    "isamb_pp_forward returning 1");
1217                 }
1218                 else
1219                 {
1220                     (*pp->isamb->method->log_item)(LOG_DEBUG, buf, 
1221                                                    "isamb_pp_read returning 1 (fwd)");
1222                 }
1223                 pp->returned_numbers++;
1224                 return 1;
1225             }
1226             else
1227                 pp->skipped_numbers++;
1228         } /* leaf */
1229     } /* main loop */
1230 }
1231
1232
1233 int isamb_pp_num (ISAMB_PP pp)
1234 {
1235     return 1;
1236 }