0b79bc872dc09c83817e034c39c3bc272c6a1c3f
[idzebra-moved-to-github.git] / index / zebraapi.c
1 /*
2  * Copyright (C) 1995-2000, Index Data
3  * All rights reserved.
4  *
5  * $Log: zebraapi.c,v $
6  * Revision 1.39  2000-11-29 14:24:01  adam
7  * Script configure uses yaz pthreads options. Added locking for
8  * zebra_register_{lock,unlock}.
9  *
10  * Revision 1.38  2000/11/08 13:46:58  adam
11  * Fixed scan: server could break if bad attribute/database was selected.
12  * Work on remote update.
13  *
14  * Revision 1.37  2000/10/17 12:37:09  adam
15  * Fixed notification of live-updates. Fixed minor problem with mf_init
16  * where it didn't handle shadow area file names correctly.
17  *
18  * Revision 1.36  2000/09/06 08:59:36  adam
19  * Using read-only (for now) for server.
20  *
21  * Revision 1.35  2000/07/07 12:49:20  adam
22  * Optimized resultSetInsert{Rank,Sort}.
23  *
24  * Revision 1.34  2000/06/09 13:56:38  ian
25  * Added some logging on Authentication and searches.
26  *
27  * Revision 1.33  2000/05/18 12:01:36  adam
28  * System call times(2) used again. More 64-bit fixes.
29  *
30  * Revision 1.32  2000/04/19 14:35:59  adam
31  * WIN32 update (this version is known not to work on Windows).
32  *
33  * Revision 1.31  2000/04/05 10:07:02  adam
34  * Minor zebra compile fix.
35  *
36  * Revision 1.30  2000/04/05 09:49:35  adam
37  * On Unix, zebra/z'mbol uses automake.
38  *
39  * Revision 1.29  2000/03/20 19:08:36  adam
40  * Added remote record import using Z39.50 extended services and Segment
41  * Requests.
42  *
43  * Revision 1.28  2000/03/15 15:00:30  adam
44  * First work on threaded version.
45  *
46  * Revision 1.27  2000/02/24 12:31:17  adam
47  * Added zebra_string_norm.
48  *
49  * Revision 1.26  1999/11/30 13:48:03  adam
50  * Improved installation. Updated for inclusion of YAZ header files.
51  *
52  * Revision 1.25  1999/11/04 15:00:45  adam
53  * Implemented delete result set(s).
54  *
55  * Revision 1.24  1999/10/14 14:33:50  adam
56  * Added truncation 5=106.
57  *
58  * Revision 1.23  1999/09/07 11:36:32  adam
59  * Minor changes.
60  *
61  * Revision 1.22  1999/08/02 10:13:47  adam
62  * Fixed bug regarding zebra_hits.
63  *
64  * Revision 1.21  1999/07/14 10:59:26  adam
65  * Changed functions isc_getmethod, isams_getmethod.
66  * Improved fatal error handling (such as missing EXPLAIN schema).
67  *
68  * Revision 1.20  1999/07/06 12:28:04  adam
69  * Updated record index structure. Format includes version ID. Compression
70  * algorithm ID is stored for each record block.
71  *
72  * Revision 1.19  1999/05/26 07:49:13  adam
73  * C++ compilation.
74  *
75  * Revision 1.18  1999/05/15 14:36:38  adam
76  * Updated dictionary. Implemented "compression" of dictionary.
77  *
78  * Revision 1.17  1999/05/12 13:08:06  adam
79  * First version of ISAMS.
80  *
81  * Revision 1.16  1999/02/19 10:38:30  adam
82  * Implemented chdir-setting.
83  *
84  * Revision 1.15  1999/02/17 12:18:12  adam
85  * Fixed zebra_close so that a NULL pointer is ignored.
86  *
87  * Revision 1.14  1999/02/02 14:51:11  adam
88  * Updated WIN32 code specific sections. Changed header.
89  *
90  * Revision 1.13  1998/12/16 12:23:30  adam
91  * Added facility for database name mapping using resource mapdb.
92  *
93  * Revision 1.12  1998/11/16 10:18:10  adam
94  * Better error reporting for result sets.
95  *
96  * Revision 1.11  1998/10/16 08:14:34  adam
97  * Updated record control system.
98  *
99  * Revision 1.10  1998/09/22 10:03:42  adam
100  * Changed result sets to be persistent in the sense that they can
101  * be re-searched if needed.
102  * Fixed memory leak in rsm_or.
103  *
104  * Revision 1.9  1998/09/02 13:53:17  adam
105  * Extra parameter decode added to search routines to implement
106  * persistent queries.
107  *
108  * Revision 1.8  1998/08/24 17:29:23  adam
109  * Minor changes.
110  *
111  * Revision 1.7  1998/06/24 12:16:13  adam
112  * Support for relations on text operands. Open range support in
113  * DFA module (i.e. [-j], [g-]).
114  *
115  * Revision 1.6  1998/06/22 11:36:47  adam
116  * Added authentication check facility to zebra.
117  *
118  * Revision 1.5  1998/06/13 00:14:08  adam
119  * Minor changes.
120  *
121  * Revision 1.4  1998/06/12 12:22:12  adam
122  * Work on Zebra API.
123  *
124  * Revision 1.3  1998/05/27 16:57:44  adam
125  * Zebra returns surrogate diagnostic for single records when
126  * appropriate.
127  *
128  * Revision 1.2  1998/05/20 10:12:19  adam
129  * Implemented automatic EXPLAIN database maintenance.
130  * Modified Zebra to work with ASN.1 compiled version of YAZ.
131  *
132  * Revision 1.1  1998/03/05 08:45:13  adam
133  * New result set model and modular ranking system. Moved towards
134  * descent server API. System information stored as "SGML" records.
135  *
136  */
137
138 #include <assert.h>
139 #include <stdio.h>
140 #ifdef WIN32
141 #include <io.h>
142 #include <process.h>
143 #include <direct.h>
144 #else
145 #include <unistd.h>
146 #endif
147
148 #include <yaz/diagbib1.h>
149 #include "zserver.h"
150 #include <charmap.h>
151
152 static void zebra_chdir (ZebraService zh)
153 {
154     const char *dir = res_get (zh->res, "chdir");
155     if (!dir)
156         return;
157     logf (LOG_DEBUG, "chdir %s", dir);
158 #ifdef WIN32
159     _chdir(dir);
160 #else
161     chdir (dir);
162 #endif
163 }
164
165 static int extract_rec_in_mem (ZebraHandle zh, const char *recordType,
166                                const char *buf, size_t buf_size,
167                                const char *databaseName, int delete_flag,
168                                int test_mode, int *sysno,
169                                int store_keys, int store_data,
170                                const char *match_criteria);
171
172 static int explain_extract (void *handle, Record rec, data1_node *n);
173 static void extract_index (ZebraHandle zh);
174
175 static void zebra_register_unlock (ZebraHandle zh);
176
177 static int zebra_register_activate (ZebraService zh, int rw);
178 static int zebra_register_deactivate (ZebraService zh);
179
180 static int zebra_register_lock (ZebraHandle zh, int rw)
181 {
182     time_t lastChange;
183     int state;
184     zh->errCode = 0;
185     zh->errString = 0;
186     if (!zh->service->active)
187     {
188         zh->errCode = 1019;
189         return 1;
190     }
191     
192 #if HAVE_SYS_TIMES_H
193     times (&zh->tms1);
194 #endif
195
196     zebra_mutex_cond_lock (&zh->service->session_lock);
197
198     state = zebra_server_lock_get_state(zh->service, &lastChange);
199
200     zebra_server_lock (zh->service, state);
201
202     switch (state)
203     {
204     case 'c':
205         state = 1;
206         break;
207     default:
208         state = 0;
209     }
210     if (rw)
211         logf (LOG_LOG, "Register in read/write mode");
212     else if (zh->service->registerState == state)
213     {
214         if (zh->service->registerChange >= lastChange)
215             return 0;
216         logf (LOG_LOG, "Register completely updated since last access");
217     }
218     else if (zh->service->registerState == -1)
219         logf (LOG_LOG, "Reading register using state %d pid=%ld", state,
220               (long) getpid());
221     else
222         logf (LOG_LOG, "Register has changed state from %d to %d",
223               zh->service->registerState, state);
224     zh->service->registerChange = lastChange;
225
226     zebra_register_deactivate (zh->service);
227
228     zh->service->registerState = state;
229
230     zebra_register_activate (zh->service, rw);
231     return 0;
232 }
233
234
235 static void zebra_register_unlock (ZebraHandle zh)
236 {
237     if (zh->service->registerState != -1)
238         zebra_server_unlock (zh->service, zh->service->registerState);
239     zebra_mutex_cond_unlock (&zh->service->session_lock);
240 #if HAVE_SYS_TIMES_H
241     times (&zh->tms2);
242     logf (LOG_LOG, "user/system: %ld/%ld",
243                     (long) (zh->tms2.tms_utime - zh->tms1.tms_utime),
244                     (long) (zh->tms2.tms_stime - zh->tms1.tms_stime));
245
246 #endif
247 }
248
249 ZebraHandle zebra_open (ZebraService zs)
250 {
251     ZebraHandle zh;
252
253     assert (zs);
254     if (zs->stop_flag)
255         return 0;
256
257     zh = (ZebraHandle) xmalloc (sizeof(*zh));
258     yaz_log (LOG_LOG, "zebra_open zs=%p returns %p", zs, zh);
259
260     zh->service = zs;
261     zh->sets = 0;
262     zh->destroyed = 0;
263     zh->errCode = 0;
264     zh->errString = 0;
265
266     zh->key_buf = 0;
267     zh->admin_databaseName = 0;
268     
269     zebra_mutex_cond_lock (&zs->session_lock);
270
271     zh->next = zs->sessions;
272     zs->sessions = zh;
273
274     zebra_mutex_cond_unlock (&zs->session_lock);
275
276     return zh;
277 }
278
279
280 ZebraService zebra_start (const char *configName)
281 {
282     ZebraService zh = xmalloc (sizeof(*zh));
283
284     yaz_log (LOG_LOG, "zebra_start %s", configName);
285
286     zh->configName = xstrdup(configName);
287     zh->sessions = 0;
288     zh->stop_flag = 0;
289     zh->active = 1;
290
291     zh->registerState = -1;
292     zh->registerChange = 0;
293
294     if (!(zh->res = res_open (zh->configName)))
295     {
296         logf (LOG_WARN, "Failed to read resources `%s'", zh->configName);
297         return zh;
298     }
299     zebra_chdir (zh);
300     zebra_server_lock_init (zh);
301     zebra_mutex_cond_init (&zh->session_lock);
302     return zh;
303 }
304
305 static int zebra_register_activate (ZebraService zh, int rw)
306 {
307     if (zh->active > 1)
308     {
309         yaz_log (LOG_LOG, "zebra_register_activate (ignored since active=%d)",
310                  zh->active);
311         return 0;
312     }
313     yaz_log (LOG_LOG, "zebra_register_activate shadow=%s",
314              zh->registerState ? "yes" : "no");
315
316     zh->dh = data1_create ();
317     if (!zh->dh)
318         return -1;
319     zh->bfs = bfs_create (res_get (zh->res, "register"));
320     if (!zh->bfs)
321     {
322         data1_destroy(zh->dh);
323         return -1;
324     }
325     bf_lockDir (zh->bfs, res_get (zh->res, "lockDir"));
326     bf_cache (zh->bfs, zh->registerState ? res_get (zh->res, "shadow") : NULL);
327     data1_set_tabpath (zh->dh, res_get(zh->res, "profilePath"));
328     zh->recTypes = recTypes_init (zh->dh);
329     recTypes_default_handlers (zh->recTypes);
330
331     zh->records = NULL;
332     zh->zebra_maps = zebra_maps_open (zh->res);
333     zh->rank_classes = NULL;
334
335     zh->records = 0;
336     zh->dict = 0;
337     zh->sortIdx = 0;
338     zh->isams = 0;
339 #if ZMBOL
340     zh->isam = 0;
341     zh->isamc = 0;
342     zh->isamd = 0;
343 #endif
344     zh->zei = 0;
345     
346     zebraRankInstall (zh, rank1_class);
347
348     if (!res_get (zh->res, "passwd"))
349         zh->passwd_db = NULL;
350     else
351     {
352         zh->passwd_db = passwd_db_open ();
353         if (!zh->passwd_db)
354             logf (LOG_WARN|LOG_ERRNO, "passwd_db_open failed");
355         else
356             passwd_db_file (zh->passwd_db, res_get (zh->res, "passwd"));
357     }
358
359     if (!(zh->records = rec_open (zh->bfs, rw, 0)))
360     {
361         logf (LOG_WARN, "rec_open");
362         return -1;
363     }
364     if (!(zh->dict = dict_open (zh->bfs, FNAME_DICT, 80, rw, 0)))
365     {
366         logf (LOG_WARN, "dict_open");
367         return -1;
368     }
369     if (!(zh->sortIdx = sortIdx_open (zh->bfs, rw)))
370     {
371         logf (LOG_WARN, "sortIdx_open");
372         return -1;
373     }
374     if (res_get_match (zh->res, "isam", "s", ISAM_DEFAULT))
375     {
376         struct ISAMS_M_s isams_m;
377         if (!(zh->isams = isams_open (zh->bfs, FNAME_ISAMS, rw,
378                                       key_isams_m(zh->res, &isams_m))))
379         {
380             logf (LOG_WARN, "isams_open");
381             return -1;
382         }
383     }
384 #if ZMBOL
385     else if (res_get_match (zh->res, "isam", "i", ISAM_DEFAULT))
386     {
387         if (!(zh->isam = is_open (zh->bfs, FNAME_ISAM, key_compare, rw,
388                                   sizeof (struct it_key), zh->res)))
389         {
390             logf (LOG_WARN, "is_open");
391             return -1;
392         }
393     }
394     else if (res_get_match (zh->res, "isam", "c", ISAM_DEFAULT))
395     {
396         struct ISAMC_M_s isamc_m;
397         if (!(zh->isamc = isc_open (zh->bfs, FNAME_ISAMC,
398                                     rw, key_isamc_m(zh->res, &isamc_m))))
399         {
400             logf (LOG_WARN, "isc_open");
401             return -1;
402         }
403     }
404     else if (res_get_match (zh->res, "isam", "d", ISAM_DEFAULT))
405     {
406         struct ISAMD_M_s isamd_m;
407         
408         if (!(zh->isamd = isamd_open (zh->bfs, FNAME_ISAMD,
409                                       rw, key_isamd_m(zh->res, &isamd_m))))
410         {
411             logf (LOG_WARN, "isamd_open");
412             return -1;
413         }
414     }
415 #endif
416     zh->zei = zebraExplain_open (zh->records, zh->dh,
417                                  zh->res, rw, 0 /* rGroup */,
418                                  explain_extract);
419     if (!zh->zei)
420     {
421         logf (LOG_WARN, "Cannot obtain EXPLAIN information");
422         return -1;
423     }
424     zh->active = 2;
425     yaz_log (LOG_LOG, "zebra_register_activate ok");
426     return 0;
427 }
428
429 void zebra_admin_shutdown (ZebraHandle zh)
430 {
431     zebra_mutex_cond_lock (&zh->service->session_lock);
432     zh->service->stop_flag = 1;
433     if (!zh->service->sessions)
434         zebra_register_deactivate(zh->service);
435     zh->service->active = 0;
436     zebra_mutex_cond_unlock (&zh->service->session_lock);
437 }
438
439 void zebra_admin_start (ZebraHandle zh)
440 {
441     ZebraService zs = zh->service;
442     zh->errCode = 0;
443     zebra_mutex_cond_lock (&zs->session_lock);
444     if (!zs->stop_flag)
445         zh->service->active = 1;
446     zebra_mutex_cond_unlock (&zs->session_lock);
447 }
448
449 static int zebra_register_deactivate (ZebraService zs)
450 {
451     zs->stop_flag = 0;
452     if (zs->active <= 1)
453     {
454         yaz_log(LOG_LOG, "zebra_register_deactivate (ignored since active=%d)",
455                 zs->active);
456         return 0;
457     }
458     yaz_log(LOG_LOG, "zebra_register_deactivate");
459     zebra_chdir (zs);
460     if (zs->records)
461     {
462         zebraExplain_close (zs->zei, 0);
463         dict_close (zs->dict);
464         sortIdx_close (zs->sortIdx);
465         if (zs->isams)
466             isams_close (zs->isams);
467 #if ZMBOL
468         if (zs->isam)
469             is_close (zs->isam);
470         if (zs->isamc)
471             isc_close (zs->isamc);
472         if (zs->isamd)
473             isamd_close (zs->isamd);
474 #endif
475         rec_close (&zs->records);
476     }
477     recTypes_destroy (zs->recTypes);
478     zebra_maps_close (zs->zebra_maps);
479     zebraRankDestroy (zs);
480     bfs_destroy (zs->bfs);
481     data1_destroy (zs->dh);
482
483     if (zs->passwd_db)
484         passwd_db_close (zs->passwd_db);
485     zs->active = 1;
486     return 0;
487 }
488
489 void zebra_stop(ZebraService zs)
490 {
491     if (!zs)
492         return ;
493     yaz_log (LOG_LOG, "zebra_stop");
494
495     assert (!zs->sessions);
496
497     zebra_mutex_cond_destroy (&zs->session_lock);
498
499     zebra_register_deactivate(zs);
500     res_close (zs->res);
501     xfree (zs->configName);
502     xfree (zs);
503 }
504
505 void zebra_close (ZebraHandle zh)
506 {
507     ZebraService zs = zh->service;
508     struct zebra_session **sp;
509
510     yaz_log (LOG_LOG, "zebra_close zh=%p", zh);
511     if (!zh)
512         return ;
513     resultSetDestroy (zh, -1, 0, 0);
514
515     if (zh->key_buf)
516     {
517         xfree (zh->key_buf);
518         zh->key_buf = 0;
519     }
520     xfree (zh->admin_databaseName);
521     zebra_mutex_cond_lock (&zs->session_lock);
522     sp = &zs->sessions;
523     while (1)
524     {
525         assert (*sp);
526         if (*sp == zh)
527         {
528             *sp = (*sp)->next;
529             break;
530         }
531         sp = &(*sp)->next;
532     }
533     if (!zs->sessions && zs->stop_flag)
534         zebra_register_deactivate(zs);
535     zebra_mutex_cond_unlock (&zs->session_lock);
536     xfree (zh);
537 }
538
539 struct map_baseinfo {
540     ZebraHandle zh;
541     NMEM mem;
542     int num_bases;
543     char **basenames;
544     int new_num_bases;
545     char **new_basenames;
546     int new_num_max;
547 };
548         
549 void map_basenames_func (void *vp, const char *name, const char *value)
550 {
551     struct map_baseinfo *p = (struct map_baseinfo *) vp;
552     int i, no;
553     char fromdb[128], todb[8][128];
554     
555     no =
556         sscanf (value, "%127s %127s %127s %127s %127s %127s %127s %127s %127s",
557                 fromdb, todb[0], todb[1], todb[2], todb[3], todb[4],
558                 todb[5], todb[6], todb[7]);
559     if (no < 2)
560         return ;
561     no--;
562     for (i = 0; i<p->num_bases; i++)
563         if (p->basenames[i] && !strcmp (p->basenames[i], fromdb))
564         {
565             p->basenames[i] = 0;
566             for (i = 0; i < no; i++)
567             {
568                 if (p->new_num_bases == p->new_num_max)
569                     return;
570                 p->new_basenames[(p->new_num_bases)++] = 
571                     nmem_strdup (p->mem, todb[i]);
572             }
573             return;
574         }
575 }
576
577 void map_basenames (ZebraHandle zh, ODR stream,
578                     int *num_bases, char ***basenames)
579 {
580     struct map_baseinfo info;
581     struct map_baseinfo *p = &info;
582     int i;
583
584     info.zh = zh;
585     info.num_bases = *num_bases;
586     info.basenames = *basenames;
587     info.new_num_max = 128;
588     info.new_num_bases = 0;
589     info.new_basenames = (char **)
590         odr_malloc (stream, sizeof(*info.new_basenames) * info.new_num_max);
591     info.mem = stream->mem;
592
593     res_trav (zh->service->res, "mapdb", &info, map_basenames_func);
594     
595     for (i = 0; i<p->num_bases; i++)
596         if (p->basenames[i] && p->new_num_bases < p->new_num_max)
597         {
598             p->new_basenames[(p->new_num_bases)++] = 
599                 nmem_strdup (p->mem, p->basenames[i]);
600         }
601     *num_bases = info.new_num_bases;
602     *basenames = info.new_basenames;
603     for (i = 0; i<*num_bases; i++)
604         logf (LOG_LOG, "base %s", (*basenames)[i]);
605 }
606
607 void zebra_search_rpn (ZebraHandle zh, ODR stream, ODR decode,
608                        Z_RPNQuery *query, int num_bases, char **basenames, 
609                        const char *setname)
610 {
611     zh->hits = 0;
612     if (zebra_register_lock (zh, 0))
613         return;
614     map_basenames (zh, stream, &num_bases, &basenames);
615     resultSetAddRPN (zh, stream, decode, query, num_bases, basenames, setname);
616
617     zebra_register_unlock (zh);
618
619     logf(LOG_APP,"SEARCH:%d:",zh->hits);
620 }
621
622 void zebra_records_retrieve (ZebraHandle zh, ODR stream,
623                              const char *setname, Z_RecordComposition *comp,
624                              oid_value input_format, int num_recs,
625                              ZebraRetrievalRecord *recs)
626 {
627     ZebraPosSet poset;
628     int i, *pos_array;
629
630     if (zebra_register_lock (zh, 0))
631         return;
632     pos_array = (int *) xmalloc (num_recs * sizeof(*pos_array));
633     for (i = 0; i<num_recs; i++)
634         pos_array[i] = recs[i].position;
635     poset = zebraPosSetCreate (zh, setname, num_recs, pos_array);
636     if (!poset)
637     {
638         logf (LOG_DEBUG, "zebraPosSetCreate error");
639         zh->errCode = 30;
640         zh->errString = nmem_strdup (stream->mem, setname);
641     }
642     else
643     {
644         for (i = 0; i<num_recs; i++)
645         {
646             if (!poset[i].sysno)
647             {
648                 char num_str[20];
649
650                 sprintf (num_str, "%d", pos_array[i]);  
651                 zh->errCode = 13;
652                 zh->errString = nmem_strdup (stream->mem, num_str);
653                 break;
654             }
655             else
656             {
657                 recs[i].errCode =
658                     zebra_record_fetch (zh, poset[i].sysno, poset[i].score,
659                                         stream, input_format, comp,
660                                         &recs[i].format, &recs[i].buf,
661                                         &recs[i].len,
662                                         &recs[i].base);
663                 recs[i].errString = NULL;
664             }
665         }
666         zebraPosSetDestroy (zh, poset, num_recs);
667     }
668     zebra_register_unlock (zh);
669     xfree (pos_array);
670 }
671
672 void zebra_scan (ZebraHandle zh, ODR stream, Z_AttributesPlusTerm *zapt,
673                  oid_value attributeset,
674                  int num_bases, char **basenames,
675                  int *position, int *num_entries, ZebraScanEntry **entries,
676                  int *is_partial)
677 {
678     if (zebra_register_lock (zh, 0))
679     {
680         *entries = 0;
681         *num_entries = 0;
682         return;
683     }
684     map_basenames (zh, stream, &num_bases, &basenames);
685     rpn_scan (zh, stream, zapt, attributeset,
686               num_bases, basenames, position,
687               num_entries, entries, is_partial);
688     zebra_register_unlock (zh);
689 }
690
691 void zebra_sort (ZebraHandle zh, ODR stream,
692                  int num_input_setnames, const char **input_setnames,
693                  const char *output_setname, Z_SortKeySpecList *sort_sequence,
694                  int *sort_status)
695 {
696     if (zebra_register_lock (zh, 0))
697         return;
698     resultSetSort (zh, stream->mem, num_input_setnames, input_setnames,
699                    output_setname, sort_sequence, sort_status);
700     zebra_register_unlock (zh);
701 }
702
703 int zebra_deleleResultSet(ZebraHandle zh, int function,
704                           int num_setnames, char **setnames,
705                           int *statuses)
706 {
707     int i, status;
708     if (zebra_register_lock (zh, 0))
709         return Z_DeleteStatus_systemProblemAtTarget;
710     switch (function)
711     {
712     case Z_DeleteRequest_list:
713         resultSetDestroy (zh, num_setnames, setnames, statuses);
714         break;
715     case Z_DeleteRequest_all:
716         resultSetDestroy (zh, -1, 0, statuses);
717         break;
718     }
719     zebra_register_unlock (zh);
720     status = Z_DeleteStatus_success;
721     for (i = 0; i<num_setnames; i++)
722         if (statuses[i] == Z_DeleteStatus_resultSetDidNotExist)
723             status = statuses[i];
724     return status;
725 }
726
727 int zebra_errCode (ZebraHandle zh)
728 {
729     return zh->errCode;
730 }
731
732 const char *zebra_errString (ZebraHandle zh)
733 {
734     return diagbib1_str (zh->errCode);
735 }
736
737 char *zebra_errAdd (ZebraHandle zh)
738 {
739     return zh->errString;
740 }
741
742 int zebra_hits (ZebraHandle zh)
743 {
744     return zh->hits;
745 }
746
747 int zebra_auth (ZebraService zh, const char *user, const char *pass)
748 {
749     if (!zh->passwd_db || !passwd_db_auth (zh->passwd_db, user, pass))
750     {
751         logf(LOG_APP,"AUTHOK:%s", user?user:"ANONYMOUS");
752         return 0;
753     }
754
755     logf(LOG_APP,"AUTHFAIL:%s", user?user:"ANONYMOUS");
756     return 1;
757 }
758
759 void zebra_admin_import_begin (ZebraHandle zh, const char *database)
760 {
761     if (zebra_register_lock (zh, 1))
762         return;
763     xfree (zh->admin_databaseName);
764     zh->admin_databaseName = xstrdup(database);
765 }
766
767 void zebra_admin_import_end (ZebraHandle zh)
768 {
769     zebraExplain_flush (zh->service->zei, 1, zh);
770     extract_index (zh);
771     zebra_register_unlock (zh);
772 }
773
774 void zebra_admin_import_segment (ZebraHandle zh, Z_Segment *segment)
775 {
776     int sysno;
777     int i;
778     if (zh->service->active < 2)
779         return;
780     for (i = 0; i<segment->num_segmentRecords; i++)
781     {
782         Z_NamePlusRecord *npr = segment->segmentRecords[i];
783         const char *databaseName = npr->databaseName;
784
785         if (!databaseName)
786             databaseName = zh->admin_databaseName;
787         printf ("--------------%d--------------------\n", i);
788         if (npr->which == Z_NamePlusRecord_intermediateFragment)
789         {
790             Z_FragmentSyntax *fragment = npr->u.intermediateFragment;
791             if (fragment->which == Z_FragmentSyntax_notExternallyTagged)
792             {
793                 Odr_oct *oct = fragment->u.notExternallyTagged;
794                 printf ("%.*s", (oct->len > 100 ? 100 : oct->len) ,
795                         oct->buf);
796                 
797                 sysno = 0;
798                 extract_rec_in_mem (zh, "grs.sgml",
799                                     oct->buf, oct->len,
800                                     databaseName,
801                                     0 /* delete_flag */,
802                                     0 /* test_mode */,
803                                     &sysno /* sysno */,
804                                     1 /* store_keys */,
805                                     1 /* store_data */,
806                                     0 /* match criteria */);
807             }
808         }
809     }
810 }
811
812 void zebra_admin_create (ZebraHandle zh, const char *database)
813 {
814     ZebraService zs = zh->service;
815     if (zebra_register_lock(zh, 1))
816     {
817         zh->errCode = 1019;
818         return;
819     }
820     /* announce database */
821     if (zebraExplain_newDatabase (zs->zei, database, 0 /* explainDatabase */))
822     {
823         zh->errCode = 224;
824         zh->errString = "Database already exist";
825     }
826     zebraExplain_flush (zh->service->zei, 1, zh);
827     extract_index (zh);
828     zebra_register_unlock(zh);
829 }
830
831 int zebra_string_norm (ZebraHandle zh, unsigned reg_id,
832                        const char *input_str, int input_len,
833                        char *output_str, int output_len)
834 {
835     WRBUF wrbuf;
836     if (!zh->service->zebra_maps)
837         return -1;
838     wrbuf = zebra_replace(zh->service->zebra_maps, reg_id, "",
839                           input_str, input_len);
840     if (!wrbuf)
841         return -2;
842     if (wrbuf_len(wrbuf) >= output_len)
843         return -3;
844     if (wrbuf_len(wrbuf))
845         memcpy (output_str, wrbuf_buf(wrbuf), wrbuf_len(wrbuf));
846     output_str[wrbuf_len(wrbuf)] = '\0';
847     return wrbuf_len(wrbuf);
848 }
849
850 static void extract_init (struct recExtractCtrl *p, RecWord *w)
851 {
852     w->zebra_maps = p->zebra_maps;
853     w->seqnos = p->seqno;
854     w->attrSet = VAL_BIB1;
855     w->attrUse = 1016;
856     w->reg_type = 'w';
857     w->extractCtrl = p;
858 }
859
860 static void extract_add_index_string (RecWord *p, const char *string,
861                                       int length)
862 {
863     char *dst;
864     unsigned char attrSet;
865     unsigned short attrUse;
866     int lead = 0;
867     int diff = 0;
868     int *pseqno = &p->seqnos[p->reg_type];
869     ZebraHandle zh = p->extractCtrl->handle;
870     struct recKeys *keys = &zh->keys;
871
872     if (keys->buf_used+1024 > keys->buf_max)
873     {
874         char *b;
875
876         b = (char *) xmalloc (keys->buf_max += 128000);
877         if (keys->buf_used > 0)
878             memcpy (b, keys->buf, keys->buf_used);
879         xfree (keys->buf);
880         keys->buf = b;
881     }
882     dst = keys->buf + keys->buf_used;
883
884     attrSet = p->attrSet;
885     if (keys->buf_used > 0 && keys->prevAttrSet == attrSet)
886         lead |= 1;
887     else
888         keys->prevAttrSet = attrSet;
889     attrUse = p->attrUse;
890     if (keys->buf_used > 0 && keys->prevAttrUse == attrUse)
891         lead |= 2;
892     else
893         keys->prevAttrUse = attrUse;
894 #if 1
895     diff = 1 + *pseqno - keys->prevSeqNo;
896     if (diff >= 1 && diff <= 15)
897         lead |= (diff << 2);
898     else
899         diff = 0;
900 #endif
901     keys->prevSeqNo = *pseqno;
902     
903     *dst++ = lead;
904
905     if (!(lead & 1))
906     {
907         memcpy (dst, &attrSet, sizeof(attrSet));
908         dst += sizeof(attrSet);
909     }
910     if (!(lead & 2))
911     {
912         memcpy (dst, &attrUse, sizeof(attrUse));
913         dst += sizeof(attrUse);
914     }
915     *dst++ = p->reg_type;
916     memcpy (dst, string, length);
917     dst += length;
918     *dst++ = '\0';
919
920     if (!diff)
921     {
922         memcpy (dst, pseqno, sizeof(*pseqno));
923         dst += sizeof(*pseqno);
924     }
925     keys->buf_used = dst - keys->buf;
926     if (*pseqno)
927         (*pseqno)++;
928 }
929
930 static void extract_add_sort_string (RecWord *p, const char *string,
931                                      int length)
932 {
933     struct sortKey *sk;
934     ZebraHandle zh = p->extractCtrl->handle;
935     struct sortKey *sortKeys = zh->sortKeys;
936
937     for (sk = sortKeys; sk; sk = sk->next)
938         if (sk->attrSet == p->attrSet && sk->attrUse == p->attrUse)
939             return;
940
941     sk = (struct sortKey *) xmalloc (sizeof(*sk));
942     sk->next = sortKeys;
943     sortKeys = sk;
944
945     sk->string = (char *) xmalloc (length);
946     sk->length = length;
947     memcpy (sk->string, string, length);
948
949     sk->attrSet = p->attrSet;
950     sk->attrUse = p->attrUse;
951 }
952
953 static void extract_add_string (RecWord *p, const char *string, int length)
954 {
955     assert (length > 0);
956     if (zebra_maps_is_sort (p->zebra_maps, p->reg_type))
957         extract_add_sort_string (p, string, length);
958     else
959         extract_add_index_string (p, string, length);
960 }
961
962 static void extract_add_incomplete_field (RecWord *p)
963 {
964     const char *b = p->string;
965     int remain = p->length;
966     const char **map = 0;
967
968     if (remain > 0)
969         map = zebra_maps_input(p->zebra_maps, p->reg_type, &b, remain);
970
971     while (map)
972     {
973         char buf[IT_MAX_WORD+1];
974         int i, remain;
975
976         /* Skip spaces */
977         while (map && *map && **map == *CHR_SPACE)
978         {
979             remain = p->length - (b - p->string);
980             if (remain > 0)
981                 map = zebra_maps_input(p->zebra_maps, p->reg_type, &b, remain);
982             else
983                 map = 0;
984         }
985         if (!map)
986             break;
987         i = 0;
988         while (map && *map && **map != *CHR_SPACE)
989         {
990             const char *cp = *map;
991
992             while (i < IT_MAX_WORD && *cp)
993                 buf[i++] = *(cp++);
994             remain = p->length - (b - p->string);
995             if (remain > 0)
996                 map = zebra_maps_input(p->zebra_maps, p->reg_type, &b, remain);
997             else
998                 map = 0;
999         }
1000         if (!i)
1001             return;
1002         extract_add_string (p, buf, i);
1003     }
1004     (p->seqnos[p->reg_type])++; /* to separate this from next one  */
1005 }
1006
1007 static void extract_add_complete_field (RecWord *p)
1008 {
1009     const char *b = p->string;
1010     char buf[IT_MAX_WORD+1];
1011     const char **map = 0;
1012     int i = 0, remain = p->length;
1013
1014     if (remain > 0)
1015         map = zebra_maps_input (p->zebra_maps, p->reg_type, &b, remain);
1016
1017     while (remain > 0 && i < IT_MAX_WORD)
1018     {
1019         while (map && *map && **map == *CHR_SPACE)
1020         {
1021             remain = p->length - (b - p->string);
1022             if (remain > 0)
1023                 map = zebra_maps_input(p->zebra_maps, p->reg_type, &b, remain);
1024             else
1025                 map = 0;
1026         }
1027         if (!map)
1028             break;
1029
1030         if (i && i < IT_MAX_WORD)
1031             buf[i++] = *CHR_SPACE;
1032         while (map && *map && **map != *CHR_SPACE)
1033         {
1034             const char *cp = *map;
1035
1036             if (i >= IT_MAX_WORD)
1037                 break;
1038             while (i < IT_MAX_WORD && *cp)
1039                 buf[i++] = *(cp++);
1040             remain = p->length  - (b - p->string);
1041             if (remain > 0)
1042                 map = zebra_maps_input (p->zebra_maps, p->reg_type, &b,
1043                                         remain);
1044             else
1045                 map = 0;
1046         }
1047     }
1048     if (!i)
1049         return;
1050     extract_add_string (p, buf, i);
1051 }
1052
1053 static void extract_token_add (RecWord *p)
1054 {
1055     WRBUF wrbuf;
1056     if ((wrbuf = zebra_replace(p->zebra_maps, p->reg_type, 0,
1057                                p->string, p->length)))
1058     {
1059         p->string = wrbuf_buf(wrbuf);
1060         p->length = wrbuf_len(wrbuf);
1061     }
1062     if (zebra_maps_is_complete (p->zebra_maps, p->reg_type))
1063         extract_add_complete_field (p);
1064     else
1065         extract_add_incomplete_field(p);
1066 }
1067
1068 static void extract_schema_add (struct recExtractCtrl *p, Odr_oid *oid)
1069 {
1070     ZebraHandle zh = (ZebraHandle) (p->handle);
1071     zebraExplain_addSchema (zh->service->zei, oid);
1072 }
1073
1074 static void extract_flushSortKeys (ZebraHandle zh, SYSNO sysno,
1075                                    int cmd, struct sortKey **skp)
1076 {
1077     struct sortKey *sk = *skp;
1078     SortIdx sortIdx = zh->service->sortIdx;
1079
1080     sortIdx_sysno (sortIdx, sysno);
1081     while (sk)
1082     {
1083         struct sortKey *sk_next = sk->next;
1084         sortIdx_type (sortIdx, sk->attrUse);
1085         sortIdx_add (sortIdx, sk->string, sk->length);
1086         xfree (sk->string);
1087         xfree (sk);
1088         sk = sk_next;
1089     }
1090     *skp = 0;
1091 }
1092
1093 struct encode_info {
1094     int  sysno;
1095     int  seqno;
1096     int  cmd;
1097     char buf[768];
1098 };
1099
1100 void encode_key_init (struct encode_info *i)
1101 {
1102     i->sysno = 0;
1103     i->seqno = 0;
1104     i->cmd = -1;
1105 }
1106
1107 char *encode_key_int (int d, char *bp)
1108 {
1109     if (d <= 63)
1110         *bp++ = d;
1111     else if (d <= 16383)
1112     {
1113         *bp++ = 64 + (d>>8);
1114         *bp++ = d  & 255;
1115     }
1116     else if (d <= 4194303)
1117     {
1118         *bp++ = 128 + (d>>16);
1119         *bp++ = (d>>8) & 255;
1120         *bp++ = d & 255;
1121     }
1122     else
1123     {
1124         *bp++ = 192 + (d>>24);
1125         *bp++ = (d>>16) & 255;
1126         *bp++ = (d>>8) & 255;
1127         *bp++ = d & 255;
1128     }
1129     return bp;
1130 }
1131
1132 void encode_key_write (char *k, struct encode_info *i, FILE *outf)
1133 {
1134     struct it_key key;
1135     char *bp = i->buf;
1136
1137     while ((*bp++ = *k++))
1138         ;
1139     memcpy (&key, k+1, sizeof(struct it_key));
1140     bp = encode_key_int ( (key.sysno - i->sysno) * 2 + *k, bp);
1141     if (i->sysno != key.sysno)
1142     {
1143         i->sysno = key.sysno;
1144         i->seqno = 0;
1145     }
1146     else if (!i->seqno && !key.seqno && i->cmd == *k)
1147         return;
1148     bp = encode_key_int (key.seqno - i->seqno, bp);
1149     i->seqno = key.seqno;
1150     i->cmd = *k;
1151     if (fwrite (i->buf, bp - i->buf, 1, outf) != 1)
1152     {
1153         logf (LOG_FATAL|LOG_ERRNO, "fwrite");
1154         exit (1);
1155     }
1156 }
1157
1158 static void extract_flushWriteKeys (ZebraHandle zh)
1159 {
1160     FILE *outf;
1161     char out_fname[200];
1162     char *prevcp, *cp;
1163     struct encode_info encode_info;
1164     int ptr_i = zh->ptr_i;
1165 #if SORT_EXTRA
1166     int i;
1167 #endif
1168     if (!zh->key_buf || ptr_i <= 0)
1169         return;
1170
1171     (zh->key_file_no)++;
1172     logf (LOG_LOG, "sorting section %d", (zh->key_file_no));
1173 #if !SORT_EXTRA
1174     qsort (zh->key_buf + zh->ptr_top - ptr_i, ptr_i, sizeof(char*),
1175             key_qsort_compare);
1176     extract_get_fname_tmp (zh, out_fname, zh->key_file_no);
1177
1178     if (!(outf = fopen (out_fname, "wb")))
1179     {
1180         logf (LOG_FATAL|LOG_ERRNO, "fopen %s", out_fname);
1181         exit (1);
1182     }
1183     logf (LOG_LOG, "writing section %d", zh->key_file_no);
1184     prevcp = cp = (zh->key_buf)[zh->ptr_top - ptr_i];
1185     
1186     encode_key_init (&encode_info);
1187     encode_key_write (cp, &encode_info, outf);
1188     
1189     while (--ptr_i > 0)
1190     {
1191         cp = (zh->key_buf)[zh->ptr_top - ptr_i];
1192         if (strcmp (cp, prevcp))
1193         {
1194             encode_key_init (&encode_info);
1195             encode_key_write (cp, &encode_info, outf);
1196             prevcp = cp;
1197         }
1198         else
1199             encode_key_write (cp + strlen(cp), &encode_info, outf);
1200     }
1201 #else
1202     qsort (key_buf + ptr_top-ptr_i, ptr_i, sizeof(char*), key_x_compare);
1203     extract_get_fname_tmp (out_fname, key_file_no);
1204
1205     if (!(outf = fopen (out_fname, "wb")))
1206     {
1207         logf (LOG_FATAL|LOG_ERRNO, "fopen %s", out_fname);
1208         exit (1);
1209     }
1210     logf (LOG_LOG, "writing section %d", key_file_no);
1211     i = ptr_i;
1212     prevcp =  key_buf[ptr_top-i];
1213     while (1)
1214         if (!--i || strcmp (prevcp, key_buf[ptr_top-i]))
1215         {
1216             key_y_len = strlen(prevcp)+1;
1217 #if 0
1218             logf (LOG_LOG, "key_y_len: %2d %02x %02x %s",
1219                       key_y_len, prevcp[0], prevcp[1], 2+prevcp);
1220 #endif
1221             qsort (key_buf + ptr_top-ptr_i, ptr_i - i,
1222                                    sizeof(char*), key_y_compare);
1223             cp = key_buf[ptr_top-ptr_i];
1224             --key_y_len;
1225             encode_key_init (&encode_info);
1226             encode_key_write (cp, &encode_info, outf);
1227             while (--ptr_i > i)
1228             {
1229                 cp = key_buf[ptr_top-ptr_i];
1230                 encode_key_write (cp+key_y_len, &encode_info, outf);
1231             }
1232             if (!i)
1233                 break;
1234             prevcp = key_buf[ptr_top-ptr_i];
1235         }
1236 #endif
1237     if (fclose (outf))
1238     {
1239         logf (LOG_FATAL|LOG_ERRNO, "fclose %s", out_fname);
1240         exit (1);
1241     }
1242     logf (LOG_LOG, "finished section %d", zh->key_file_no);
1243     zh->ptr_i = 0;
1244     zh->key_buf_used = 0;
1245 }
1246
1247 static void extract_flushRecordKeys (ZebraHandle zh, SYSNO sysno,
1248                                      int cmd, struct recKeys *reckeys)
1249 {
1250     unsigned char attrSet = (unsigned char) -1;
1251     unsigned short attrUse = (unsigned short) -1;
1252     int seqno = 0;
1253     int off = 0;
1254     ZebraExplainInfo zei = zh->service->zei;
1255
1256     if (!zh->key_buf)
1257     {
1258         int mem = 8*1024*1024;
1259         zh->key_buf = (char**) xmalloc (mem);
1260         zh->ptr_top = mem/sizeof(char*);
1261         zh->ptr_i = 0;
1262         zh->key_buf_used = 0;
1263         zh->key_file_no = 0;
1264     }
1265     zebraExplain_recordCountIncrement (zei, cmd ? 1 : -1);
1266     while (off < reckeys->buf_used)
1267     {
1268         const char *src = reckeys->buf + off;
1269         struct it_key key;
1270         int lead, ch;
1271     
1272         lead = *src++;
1273
1274         if (!(lead & 1))
1275         {
1276             memcpy (&attrSet, src, sizeof(attrSet));
1277             src += sizeof(attrSet);
1278         }
1279         if (!(lead & 2))
1280         {
1281             memcpy (&attrUse, src, sizeof(attrUse));
1282             src += sizeof(attrUse);
1283         }
1284         if (zh->key_buf_used + 1024 > (zh->ptr_top-zh->ptr_i)*sizeof(char*))
1285             extract_flushWriteKeys (zh);
1286         ++(zh->ptr_i);
1287         (zh->key_buf)[zh->ptr_top - zh->ptr_i] =
1288             (char*)zh->key_buf + zh->key_buf_used;
1289
1290         ch = zebraExplain_lookupSU (zei, attrSet, attrUse);
1291         if (ch < 0)
1292             ch = zebraExplain_addSU (zei, attrSet, attrUse);
1293         assert (ch > 0);
1294         zh->key_buf_used +=
1295             key_SU_code (ch,((char*)zh->key_buf) + zh->key_buf_used);
1296
1297         while (*src)
1298             ((char*)zh->key_buf) [(zh->key_buf_used)++] = *src++;
1299         src++;
1300         ((char*)(zh->key_buf))[(zh->key_buf_used)++] = '\0';
1301         ((char*)(zh->key_buf))[(zh->key_buf_used)++] = cmd;
1302
1303         if (lead & 60)
1304             seqno += ((lead>>2) & 15)-1;
1305         else
1306         {
1307             memcpy (&seqno, src, sizeof(seqno));
1308             src += sizeof(seqno);
1309         }
1310         key.seqno = seqno;
1311         key.sysno = sysno;
1312         memcpy ((char*)zh->key_buf + zh->key_buf_used, &key, sizeof(key));
1313         (zh->key_buf_used) += sizeof(key);
1314         off = src - reckeys->buf;
1315     }
1316     assert (off == reckeys->buf_used);
1317 }
1318
1319 static void extract_index (ZebraHandle zh)
1320 {
1321     extract_flushWriteKeys (zh);
1322     zebra_index_merge (zh);
1323 }
1324
1325 static int explain_extract (void *handle, Record rec, data1_node *n)
1326 {
1327     ZebraHandle zh = (ZebraHandle) handle;
1328     struct recExtractCtrl extractCtrl;
1329     int i;
1330
1331     if (zebraExplain_curDatabase (zh->service->zei,
1332                                   rec->info[recInfo_databaseName]))
1333     {
1334         abort();
1335         if (zebraExplain_newDatabase (zh->service->zei,
1336                                       rec->info[recInfo_databaseName], 0))
1337             abort ();
1338     }
1339
1340     zh->keys.buf_used = 0;
1341     zh->keys.prevAttrUse = -1;
1342     zh->keys.prevAttrSet = -1;
1343     zh->keys.prevSeqNo = 0;
1344     zh->sortKeys = 0;
1345     
1346     extractCtrl.init = extract_init;
1347     extractCtrl.tokenAdd = extract_token_add;
1348     extractCtrl.schemaAdd = extract_schema_add;
1349     extractCtrl.dh = zh->service->dh;
1350     for (i = 0; i<256; i++)
1351         extractCtrl.seqno[i] = 0;
1352     extractCtrl.zebra_maps = zh->service->zebra_maps;
1353     extractCtrl.flagShowRecords = 0;
1354     extractCtrl.handle = handle;
1355     
1356     grs_extract_tree(&extractCtrl, n);
1357
1358     logf (LOG_LOG, "flush explain record, sysno=%d", rec->sysno);
1359
1360     if (rec->size[recInfo_delKeys])
1361     {
1362         struct recKeys delkeys;
1363         struct sortKey *sortKeys = 0;
1364
1365         delkeys.buf_used = rec->size[recInfo_delKeys];
1366         delkeys.buf = rec->info[recInfo_delKeys];
1367         extract_flushSortKeys (zh, rec->sysno, 0, &sortKeys);
1368         extract_flushRecordKeys (zh, rec->sysno, 0, &delkeys);
1369     }
1370     extract_flushRecordKeys (zh, rec->sysno, 1, &zh->keys);
1371     extract_flushSortKeys (zh, rec->sysno, 1, &zh->sortKeys);
1372
1373     xfree (rec->info[recInfo_delKeys]);
1374     rec->size[recInfo_delKeys] = zh->keys.buf_used;
1375     rec->info[recInfo_delKeys] = zh->keys.buf;
1376     zh->keys.buf = NULL;
1377     zh->keys.buf_max = 0;
1378     return 0;
1379 }
1380
1381 static int extract_rec_in_mem (ZebraHandle zh, const char *recordType,
1382                                const char *buf, size_t buf_size,
1383                                const char *databaseName, int delete_flag,
1384                                int test_mode, int *sysno,
1385                                int store_keys, int store_data,
1386                                const char *match_criteria)
1387 {
1388     RecordAttr *recordAttr;
1389     struct recExtractCtrl extractCtrl;
1390     int i, r;
1391     RecType recType;
1392     char subType[1024];
1393     void *clientData;
1394     const char *fname = "<no file>";
1395     Record rec;
1396     long recordOffset = 0;
1397     struct zebra_fetch_control fc;
1398
1399     fc.fd = -1;
1400     fc.record_int_buf = buf;
1401     fc.record_int_len = buf_size;
1402     fc.record_int_pos = 0;
1403     fc.offset_end = 0;
1404     fc.record_offset = 0;
1405
1406     extractCtrl.offset = 0;
1407     extractCtrl.readf = zebra_record_int_read;
1408     extractCtrl.seekf = zebra_record_int_seek;
1409     extractCtrl.tellf = zebra_record_int_tell;
1410     extractCtrl.endf = zebra_record_int_end;
1411     extractCtrl.fh = &fc;
1412
1413     /* announce database */
1414     if (zebraExplain_curDatabase (zh->service->zei, databaseName))
1415     {
1416         if (zebraExplain_newDatabase (zh->service->zei, databaseName, 0))
1417             return 0;
1418     }
1419     if (!(recType =
1420           recType_byName (zh->service->recTypes, recordType, subType,
1421                           &clientData)))
1422     {
1423         logf (LOG_WARN, "No such record type: %s", recordType);
1424         return 0;
1425     }
1426
1427     zh->keys.buf_used = 0;
1428     zh->keys.prevAttrUse = -1;
1429     zh->keys.prevAttrSet = -1;
1430     zh->keys.prevSeqNo = 0;
1431     zh->sortKeys = 0;
1432
1433     extractCtrl.subType = subType;
1434     extractCtrl.init = extract_init;
1435     extractCtrl.tokenAdd = extract_token_add;
1436     extractCtrl.schemaAdd = extract_schema_add;
1437     extractCtrl.dh = zh->service->dh;
1438     extractCtrl.handle = zh;
1439     extractCtrl.zebra_maps = zh->service->zebra_maps;
1440     extractCtrl.flagShowRecords = 0;
1441     for (i = 0; i<256; i++)
1442     {
1443         if (zebra_maps_is_positioned(zh->service->zebra_maps, i))
1444             extractCtrl.seqno[i] = 1;
1445         else
1446             extractCtrl.seqno[i] = 0;
1447     }
1448
1449     r = (*recType->extract)(clientData, &extractCtrl);
1450
1451     if (r == RECCTRL_EXTRACT_EOF)
1452         return 0;
1453     else if (r == RECCTRL_EXTRACT_ERROR)
1454     {
1455         /* error occured during extraction ... */
1456 #if 1
1457         yaz_log (LOG_WARN, "extract error");
1458 #else
1459         if (rGroup->flagRw &&
1460             records_processed < rGroup->fileVerboseLimit)
1461         {
1462             logf (LOG_WARN, "fail %s %s %ld", rGroup->recordType,
1463                   fname, (long) recordOffset);
1464         }
1465 #endif
1466         return 0;
1467     }
1468     if (zh->keys.buf_used == 0)
1469     {
1470         /* the extraction process returned no information - the record
1471            is probably empty - unless flagShowRecords is in use */
1472         if (test_mode)
1473             return 1;
1474         logf (LOG_WARN, "No keys generated for record");
1475         logf (LOG_WARN, " The file is probably empty");
1476         return 1;
1477     }
1478     /* match criteria */
1479
1480     if (! *sysno)
1481     {
1482         /* new record */
1483         if (delete_flag)
1484         {
1485             logf (LOG_LOG, "delete %s %s %ld", recordType,
1486                   fname, (long) recordOffset);
1487             logf (LOG_WARN, "cannot delete record above (seems new)");
1488             return 1;
1489         }
1490         logf (LOG_LOG, "add %s %s %ld", recordType, fname,
1491               (long) recordOffset);
1492         rec = rec_new (zh->service->records);
1493
1494         *sysno = rec->sysno;
1495
1496         recordAttr = rec_init_attr (zh->service->zei, rec);
1497
1498 #if 0
1499         if (matchStr)
1500         {
1501             dict_insert (matchDict, matchStr, sizeof(*sysno), sysno);
1502         }
1503 #endif
1504         extract_flushRecordKeys (zh, *sysno, 1, &zh->keys);
1505         extract_flushSortKeys (zh, *sysno, 1, &zh->sortKeys);
1506     }
1507     else
1508     {
1509         /* record already exists */
1510         struct recKeys delkeys;
1511
1512         rec = rec_get (zh->service->records, *sysno);
1513         assert (rec);
1514         
1515         recordAttr = rec_init_attr (zh->service->zei, rec);
1516
1517         if (recordAttr->runNumber ==
1518             zebraExplain_runNumberIncrement (zh->service->zei, 0))
1519         {
1520             logf (LOG_LOG, "skipped %s %s %ld", recordType,
1521                   fname, (long) recordOffset);
1522             rec_rm (&rec);
1523             return 1;
1524         }
1525         delkeys.buf_used = rec->size[recInfo_delKeys];
1526         delkeys.buf = rec->info[recInfo_delKeys];
1527         extract_flushSortKeys (zh, *sysno, 0, &zh->sortKeys);
1528         extract_flushRecordKeys (zh, *sysno, 0, &delkeys);
1529         if (delete_flag)
1530         {
1531             /* record going to be deleted */
1532             if (!delkeys.buf_used)
1533             {
1534                 logf (LOG_LOG, "delete %s %s %ld", recordType,
1535                       fname, (long) recordOffset);
1536                 logf (LOG_WARN, "cannot delete file above, storeKeys false");
1537             }
1538             else
1539             {
1540                 logf (LOG_LOG, "delete %s %s %ld", recordType,
1541                       fname, (long) recordOffset);
1542 #if 0
1543                 if (matchStr)
1544                     dict_delete (matchDict, matchStr);
1545 #endif
1546                 rec_del (zh->service->records, &rec);
1547             }
1548             rec_rm (&rec);
1549             return 1;
1550         }
1551         else
1552         {
1553             /* record going to be updated */
1554             if (!delkeys.buf_used)
1555             {
1556                 logf (LOG_LOG, "update %s %s %ld", recordType,
1557                       fname, (long) recordOffset);
1558                 logf (LOG_WARN, "cannot update file above, storeKeys false");
1559             }
1560             else
1561             {
1562                 logf (LOG_LOG, "update %s %s %ld", recordType,
1563                       fname, (long) recordOffset);
1564                 extract_flushRecordKeys (zh, *sysno, 1, &zh->keys);
1565             }
1566         }
1567     }
1568     /* update file type */
1569     xfree (rec->info[recInfo_fileType]);
1570     rec->info[recInfo_fileType] =
1571         rec_strdup (recordType, &rec->size[recInfo_fileType]);
1572
1573     /* update filename */
1574     xfree (rec->info[recInfo_filename]);
1575     rec->info[recInfo_filename] =
1576         rec_strdup (fname, &rec->size[recInfo_filename]);
1577
1578     /* update delete keys */
1579     xfree (rec->info[recInfo_delKeys]);
1580     if (zh->keys.buf_used > 0 && store_keys == 1)
1581     {
1582         rec->size[recInfo_delKeys] = zh->keys.buf_used;
1583         rec->info[recInfo_delKeys] = zh->keys.buf;
1584         zh->keys.buf = NULL;
1585         zh->keys.buf_max = 0;
1586     }
1587     else
1588     {
1589         rec->info[recInfo_delKeys] = NULL;
1590         rec->size[recInfo_delKeys] = 0;
1591     }
1592
1593     /* save file size of original record */
1594     zebraExplain_recordBytesIncrement (zh->service->zei,
1595                                        - recordAttr->recordSize);
1596 #if 0
1597     recordAttr->recordSize = fi->file_moffset - recordOffset;
1598     if (!recordAttr->recordSize)
1599         recordAttr->recordSize = fi->file_max - recordOffset;
1600 #else
1601     recordAttr->recordSize = buf_size;
1602 #endif
1603     zebraExplain_recordBytesIncrement (zh->service->zei,
1604                                        recordAttr->recordSize);
1605
1606     /* set run-number for this record */
1607     recordAttr->runNumber =
1608         zebraExplain_runNumberIncrement (zh->service->zei, 0);
1609
1610     /* update store data */
1611     xfree (rec->info[recInfo_storeData]);
1612     if (store_data == 1)
1613     {
1614         rec->size[recInfo_storeData] = recordAttr->recordSize;
1615         rec->info[recInfo_storeData] = (char *)
1616             xmalloc (recordAttr->recordSize);
1617 #if 1
1618         memcpy (rec->info[recInfo_storeData], buf, recordAttr->recordSize);
1619 #else
1620         if (lseek (fi->fd, recordOffset, SEEK_SET) < 0)
1621         {
1622             logf (LOG_ERRNO|LOG_FATAL, "seek to %ld in %s",
1623                   (long) recordOffset, fname);
1624             exit (1);
1625         }
1626         if (read (fi->fd, rec->info[recInfo_storeData], recordAttr->recordSize)
1627             < recordAttr->recordSize)
1628         {
1629             logf (LOG_ERRNO|LOG_FATAL, "read %d bytes of %s",
1630                   recordAttr->recordSize, fname);
1631             exit (1);
1632         }
1633 #endif
1634     }
1635     else
1636     {
1637         rec->info[recInfo_storeData] = NULL;
1638         rec->size[recInfo_storeData] = 0;
1639     }
1640     /* update database name */
1641     xfree (rec->info[recInfo_databaseName]);
1642     rec->info[recInfo_databaseName] =
1643         rec_strdup (databaseName, &rec->size[recInfo_databaseName]); 
1644
1645     /* update offset */
1646     recordAttr->recordOffset = recordOffset;
1647     
1648     /* commit this record */
1649     rec_put (zh->service->records, &rec);
1650
1651     return 0;
1652 }