isam-d optimizing: merging input data in the same go
[idzebra-moved-to-github.git] / isamc / isamd.c
index 6013abd..8e711ae 100644 (file)
@@ -1,10 +1,14 @@
 /*
  * Copyright (c) 1995-1998, Index Data.
  * See the file LICENSE for details.
- * Heikki Levanto
- * 
+ * $Id: isamd.c,v 1.12 1999-09-13 13:28:28 heikki Exp $ 
+ *
  * Isamd - isam with diffs 
+ * Programmed by: Heikki Levanto
  *
+ * Todo
+ *  - Statistics are missing and/or completely wrong
+ *  - Lots of code stolen from isamc, not all needed any more
  */
 
 
@@ -23,23 +27,23 @@ static void init_fc (ISAMD is, int cat);
 
 #define ISAMD_FREELIST_CHUNK 1
 
-#define SMALL_TEST 1
+#define SMALL_TEST 0
 
 ISAMD_M isamd_getmethod (ISAMD_M me)
 {
     static struct ISAMD_filecat_s def_cat[] = {
 #if SMALL_TEST
-/*        blocksz,   max keys before switching size. Unused time being */
-        {    20,   40 },
-       {    32,    0 },
+/*        blocksz,   max. Unused time being */
+        {    32,   40 },  /* 24 is the smallest unreasonable size! */
+       {    64,    0 },
 #else
-        {    24,    1 },
         {    32,    1 },
-        {    64,    1 },
         {   128,    1 },
-        {   256,    1 },
-        {  1024,    1 },
-        {  2048,    0 },
+        {   512,    1 },
+        {  2048,    1 },
+        {  8192,    1 },
+        { 32768,    1 },
+        {131072,    0 },
 #endif 
 
 /* old values from isamc, long time ago...
@@ -51,13 +55,9 @@ ISAMD_M isamd_getmethod (ISAMD_M me)
         { 32768,   0  },
 */
 
-/* assume about 2 bytes per pointer, when compressed. The head uses */
-/* 16 bytes, and other blocks use 8 for header info... If you want 3 */
-/* blocks of 32 bytes, say max 16+24+24 = 64 keys */
-
     };
-    ISAMD_M m = (ISAMD_M) xmalloc (sizeof(*m));  /*??? never released??? */
-    m->filecat = def_cat;
+    ISAMD_M m = (ISAMD_M) xmalloc (sizeof(*m));  /* never released! */
+    m->filecat = def_cat;                        /* ok, only alloc'd once */
 
     m->code_start = NULL;
     m->code_item = NULL;
@@ -66,7 +66,7 @@ ISAMD_M isamd_getmethod (ISAMD_M me)
 
     m->compare_item = NULL;
 
-    m->debug = 1;
+    m->debug = 0; /* default to no debug */
 
     m->max_blocks_mem = 10;
 
@@ -89,11 +89,11 @@ ISAMD isamd_open (BFiles bfs, const char *name, int writeflag, ISAMD_M method)
     assert (filecat);
 
     /* determine number of block categories */
-    if (is->method->debug)
+    if (is->method->debug>0)
         logf (LOG_LOG, "isamd: bsize  maxkeys");
     do
     {
-        if (is->method->debug)
+        if (is->method->debug>0)
             logf (LOG_LOG, "isamd:%6d %6d",
                   filecat[i].bsize, filecat[i].mblocks);
     } while (filecat[i++].mblocks);
@@ -104,13 +104,6 @@ ISAMD isamd_open (BFiles bfs, const char *name, int writeflag, ISAMD_M method)
     assert (is->max_cat <=8 ); /* we have only 3 bits for it */
     
     is->files = (ISAMD_file) xmalloc (sizeof(*is->files)*is->no_files);
-    if (writeflag)
-    {
-      /* TODO - what ever needs to be done here... */
-    }
-    else
-    {
-    }
 
     for (i = 0; i<is->no_files; i++)
     {
@@ -143,6 +136,13 @@ ISAMD isamd_open (BFiles bfs, const char *name, int writeflag, ISAMD_M method)
        is->files[i].sum_backward = 0;
        is->files[i].no_next = 0;
        is->files[i].no_prev = 0;
+        is->files[i].no_op_nodiff=0;
+        is->files[i].no_op_intdiff=0;
+        is->files[i].no_op_extdiff=0;
+        is->files[i].no_fbuilds=0;   
+        is->files[i].no_appds=0;     
+        is->files[i].no_merges=0;    
+        is->files[i].no_remerges=0;  
 
         init_fc (is, i);
     }
@@ -168,11 +168,12 @@ int isamd_close (ISAMD is)
 {
     int i;
 
-    if (is->method->debug)
+    if (is->method->debug>0)
     {
-       logf (LOG_LOG, "isamd:    next    forw   mid-f    prev   backw   mid-b");
+        logf (LOG_LOG, "isamd statistics");
+       logf (LOG_LOG, "f      nxt    forw   mid-f    prev   backw   mid-b");
        for (i = 0; i<is->no_files; i++)
-           logf (LOG_LOG, "isamd:%8d%8d%8.1f%8d%8d%8.1f",
+           logf (LOG_LOG, "%d%8d%8d%8.1f%8d%8d%8.1f",i,
                  is->files[i].no_next,
                  is->files[i].no_forward,
                  is->files[i].no_forward ?
@@ -184,8 +185,8 @@ int isamd_close (ISAMD is)
                  (double) is->files[i].sum_backward/is->files[i].no_backward
                  : 0.0);
     }
-    if (is->method->debug)
-        logf (LOG_LOG, "isamd:  writes   reads skipped   alloc released  remap");
+    if (is->method->debug>0)
+        logf (LOG_LOG, "f  writes   reads skipped   alloc released ");
     for (i = 0; i<is->no_files; i++)
     {
         release_fc (is, i);
@@ -193,18 +194,38 @@ int isamd_close (ISAMD is)
         if (is->files[i].head_is_dirty)
             bf_write (is->files[i].bf, 0, 0, sizeof(ISAMD_head),
                  &is->files[i].head);
-        if (is->method->debug)
-            logf (LOG_LOG, "isamd:%8d%8d%8d%8d%8d%8d",
+        if (is->method->debug>0)
+            logf (LOG_LOG, "%d%8d%8d%8d%8d%8d",i,
                   is->files[i].no_writes,
                   is->files[i].no_reads,
                   is->files[i].no_skip_writes,
                   is->files[i].no_allocated,
-                  is->files[i].no_released,
-                  is->files[i].no_remap);
+                  is->files[i].no_released);
         xfree (is->files[i].fc_list);
        flush_block (is, i);
         bf_close (is->files[i].bf);
     }
+    
+    if (is->method->debug>0) 
+    {
+        logf (LOG_LOG, "f   opens  simple     int     ext");
+        for (i = 0; i<is->no_files; i++)
+        {
+            logf (LOG_LOG, "%d%8d%8d%8d%8d",i,
+                  is->files[i].no_op_nodiff+
+                  is->files[i].no_op_intdiff+
+                  is->files[i].no_op_extdiff,
+                  is->files[i].no_op_nodiff,
+                  is->files[i].no_op_intdiff,
+                  is->files[i].no_op_extdiff);
+        }
+        logf (LOG_LOG, "    build  append   merge   remrg");
+        logf (LOG_LOG, "=%8d%8d%8d%8d",
+                  is->files[0].no_fbuilds,
+                  is->files[0].no_appds,
+                  is->files[0].no_merges,
+                  is->files[0].no_remerges);
+    }
     xfree (is->files);
     xfree (is->method);
     xfree (is);
@@ -214,14 +235,16 @@ int isamd_close (ISAMD is)
 int isamd_read_block (ISAMD is, int cat, int pos, char *dst)
 {
     ++(is->files[cat].no_reads);
+    if (is->method->debug > 6)
+        logf (LOG_LOG, "isamd: read_block %d:%d",cat, pos);
     return bf_read (is->files[cat].bf, pos, 0, 0, dst);
 }
 
 int isamd_write_block (ISAMD is, int cat, int pos, char *src)
 {
     ++(is->files[cat].no_writes);
-    if (is->method->debug > 2)
-        logf (LOG_LOG, "isamd: write_block %d %d", cat, pos);
+    if (is->method->debug > 6)
+        logf (LOG_LOG, "isamd: write_block %d:%d", cat, pos);
     return bf_write (is->files[cat].bf, pos, 0, 0, src);
 }
 
@@ -229,7 +252,7 @@ int isamd_write_dblock (ISAMD is, int cat, int pos, char *src,
                       int nextpos, int offset)
 {
     ISAMD_BLOCK_SIZE size = offset + ISAMD_BLOCK_OFFSET_N;
-    if (is->method->debug > 2)
+    if (is->method->debug > 4)
         logf (LOG_LOG, "isamd: write_dblock. size=%d nextpos=%d",
               (int) size, nextpos);
     src -= ISAMD_BLOCK_OFFSET_N;
@@ -388,14 +411,14 @@ int isamd_alloc_block (ISAMD is, int cat)
     }
     if (!block)
         block = alloc_block (is, cat);
-    if (is->method->debug > 3)
+    if (is->method->debug > 4)
         logf (LOG_LOG, "isamd: alloc_block in cat %d: %d", cat, block);
     return block;
 }
 
 void isamd_release_block (ISAMD is, int cat, int pos)
 {
-    if (is->method->debug > 3)
+    if (is->method->debug > 4)
         logf (LOG_LOG, "isamd: release_block in cat %d: %d", cat, pos);
     assert(pos!=0);
     
@@ -443,7 +466,7 @@ void isamd_pp_close (ISAMD_PP pp)
     isamd_free_diffs(pp);  /* see merge-d.h */
     xfree (pp->buf);
     xfree (pp);
-    if (is->method->debug > 2)
+    if (is->method->debug > 5)
        logf (LOG_LOG, "isamd_pp_close %p %d=%d:%d  sz=%d n=%d=%d:%d",
              pp, isamd_addr(pp->pos, pp->cat), pp->cat, pp->pos, pp->size, 
              pp->next, isamd_type(pp->next), isamd_block(pp->next) );
@@ -471,7 +494,6 @@ ISAMD_PP isamd_pp_open (ISAMD is, ISAMD_P ipos)
     pp->decodeClientData = (*is->method->code_start)(ISAMD_DECODE);
     pp->numKeys = 0;
     pp->diffs=0;
-  
     pp->diffbuf=0;
     pp->diffinfo=0;
     
@@ -490,12 +512,17 @@ ISAMD_PP isamd_pp_open (ISAMD is, ISAMD_P ipos)
         assert (pp->next != pp->pos);
         pp->offset = src - pp->buf; 
         assert (pp->offset == ISAMD_BLOCK_OFFSET_1);
-//        if (is->method->debug > 2)
-//           logf (LOG_LOG, "isamd_pp_open  %p %d=%d:%d  sz=%d n=%d=%d:%d",
-//                 pp, isamd_addr(pp->pos, pp->cat), pp->cat, pp->pos, pp->size, 
-//                 pp->next, isamd_type(pp->next), isamd_block(pp->next) );
+        if (0==pp->diffs)
+           ++(is->files[pp->cat].no_op_nodiff);
+        else
+           if(pp->diffs&1)
+               ++(is->files[pp->cat].no_op_extdiff);
+           else
+               ++(is->files[pp->cat].no_op_intdiff);
+      //  if (!pp->diffbuf)
+      //    pp->diffbuf=pp->buf;
     }
-    if (is->method->debug > 2)
+    if (is->method->debug > 5)
        logf (LOG_LOG, "isamd_pp_open  %p %d=%d:%d  sz=%d n=%d=%d:%d",
              pp, isamd_addr(pp->pos, pp->cat), pp->cat, pp->pos, pp->size, 
              pp->next, isamd_type(pp->next), isamd_block(pp->next) );
@@ -519,7 +546,7 @@ void isamd_buildfirstblock(ISAMD_PP pp){
   memcpy(dst, &pp->diffs, sizeof(pp->diffs));
   dst += sizeof(pp->diffs);  
   assert (dst - pp->buf  == ISAMD_BLOCK_OFFSET_1);
-  if (pp->is->method->debug > 2)
+  if (pp->is->method->debug > 5)
      logf (LOG_LOG, "isamd: first: sz=%d  p=%d/%d>%d/%d nk=%d d=%d",
            pp->size, 
            pp->cat, pp->pos, 
@@ -536,7 +563,7 @@ void isamd_buildlaterblock(ISAMD_PP pp){
   memcpy(dst, &pp->size,sizeof(pp->size));
   dst += sizeof(pp->size);
   assert (dst - pp->buf  == ISAMD_BLOCK_OFFSET_N);
-  if (pp->is->method->debug > 2)
+  if (pp->is->method->debug > 5)
      logf (LOG_LOG, "isamd: l8r: sz=%d  p=%d/%d>%d/%d",
            pp->size, 
            pp->pos, pp->cat, 
@@ -564,6 +591,7 @@ int isamd_read_main_item (ISAMD_PP pp, char **dst)
     ISAMD is = pp->is;
     char *src = pp->buf + pp->offset;
     int newcat;
+    int oldoffs;
 
     if (pp->offset >= pp->size)
     {
@@ -605,20 +633,24 @@ int isamd_read_main_item (ISAMD_PP pp, char **dst)
         memcpy (&pp->size, src, sizeof(pp->size));
         src += sizeof(pp->size);
         /* assume block is non-empty */
-        assert (src - pp->buf == ISAMD_BLOCK_OFFSET_N);
+        pp->offset = oldoffs = src - pp->buf; 
+        assert (pp->offset == ISAMD_BLOCK_OFFSET_N);
         assert (pp->next != isamd_addr(pp->pos,pp->cat));
-        //if (pp->deleteFlag)
-        //    isamd_release_block (is, pp->cat, pp->pos);
         (*is->method->code_reset)(pp->decodeClientData);
+        /* finally, read the item */
         (*is->method->code_item)(ISAMD_DECODE, pp->decodeClientData, dst, &src);
         pp->offset = src - pp->buf; 
-        if (is->method->debug > 2)
-            logf (LOG_LOG, "isamd: read_block size=%d %d %d next=%d",
-                 pp->size, pp->cat, pp->pos, pp->next);
+        if (is->method->debug > 8)
+            logf (LOG_LOG, "isamd: read_m: block %d:%d sz=%d ofs=%d-%d next=%d",
+                 pp->cat, pp->pos, pp->size, oldoffs, pp->offset, pp->next);
         return 2;
     }
+    oldoffs=pp->offset;
     (*is->method->code_item)(ISAMD_DECODE, pp->decodeClientData, dst, &src);
     pp->offset = src - pp->buf; 
+    if (is->method->debug > 8)
+        logf (LOG_LOG, "isamd: read_m: got %d:%d sz=%d ofs=%d-%d next=%d",
+             pp->cat, pp->pos, pp->size, oldoffs, pp->offset, pp->next);
     return 1;
 }
 
@@ -650,23 +682,33 @@ void isamd_pp_dump (ISAMD is, ISAMD_P ipos)
   int i,n;
   int occur =0;
   int oldoffs;
+  int diffmax=1;
+  int diffidx;
   char hexbuff[64];
   
   logf(LOG_LOG,"dumping isamd block %d (%d:%d)",
                   (int)ipos, isamd_type(ipos), isamd_block(ipos) );
   pp=isamd_pp_open(is,ipos);
-  logf(LOG_LOG,"numKeys=%d,  ofs=%d d=%d",
-       pp->numKeys, 
-       pp->offset, pp->diffs);
-  oldoffs= pp->offset;
+  logf(LOG_LOG,"numKeys=%d,  ofs=%d sz=%d d=%d",
+       pp->numKeys, pp->offset, pp->size, pp->diffs);
+  diffidx=oldoffs= pp->offset;
+  while ((diffidx < is->method->filecat[pp->cat].bsize) && (diffmax>0))
+  {
+    memcpy(&diffmax,&(pp->buf[diffidx]),sizeof(int));
+    logf (LOG_LOG,"diff set at %d-%d: %s", diffidx, diffmax, 
+      hexdump(pp->buf+diffidx,8,0)); 
+      /*! todo: dump the actual diffs as well !!! */
+    diffidx=diffmax;
+    
+  } /* dump diffs */
   while(isamd_pp_read(pp, &key))
   {
      if (oldaddr != isamd_addr(pp->pos,pp->cat) )
      {
         oldaddr = isamd_addr(pp->pos,pp->cat); 
-        logf(LOG_LOG,"block %d (%d:%d) sz=%d nx=%d (%d:%d) ofs=%d",
-                  isamd_addr(pp->pos,pp->cat), 
-                  pp->cat, pp->pos, pp->size,
+        logf(LOG_LOG,"block %d=%d:%d sz=%d nx=%d=%d:%d ofs=%d",
+                  isamd_addr(pp->pos,pp->cat), pp->cat, pp->pos, 
+                  pp->size,
                   pp->next, isamd_type(pp->next), isamd_block(pp->next),
                   pp->offset);
         i=0;      
@@ -693,8 +735,20 @@ void isamd_pp_dump (ISAMD is, ISAMD_P ipos)
 
 /*
  * $Log: isamd.c,v $
- * Revision 1.7  1999-08-18 10:45:27  heikki
- * Another fix for the difflen problem.
+ * Revision 1.12  1999-09-13 13:28:28  heikki
+ * isam-d optimizing: merging input data in the same go
+ *
+ * Revision 1.11  1999/08/25 18:09:24  heikki
+ * Starting to optimize
+ *
+ * Revision 1.10  1999/08/24 13:17:42  heikki
+ * Block sizes, comments
+ *
+ * Revision 1.9  1999/08/20 12:25:58  heikki
+ * Statistics in isamd
+ *
+ * Revision 1.8  1999/08/18 13:28:16  heikki
+ * Set log levels to decent values
  *
  * Revision 1.6  1999/08/17 19:44:25  heikki
  * Fixed memory leaks