First work on threaded version.
[idzebra-moved-to-github.git] / bfile / mfile.c
1 /*
2  * Copyright (C) 1994-1999, Index Data
3  * All rights reserved.
4  * Sebastian Hammer, Adam Dickmeiss
5  *
6  * $Log: mfile.c,v $
7  * Revision 1.37  2000-03-15 15:00:30  adam
8  * First work on threaded version.
9  *
10  * Revision 1.36  1999/12/08 15:03:11  adam
11  * Implemented bf_reset.
12  *
13  * Revision 1.35  1999/10/14 14:33:50  adam
14  * Added truncation 5=106.
15  *
16  * Revision 1.34  1999/05/26 07:49:12  adam
17  * C++ compilation.
18  *
19  * Revision 1.33  1999/05/12 13:08:06  adam
20  * First version of ISAMS.
21  *
22  * Revision 1.32  1999/04/28 14:53:07  adam
23  * Fixed stupid bug regarding split-files.
24  *
25  * Revision 1.31  1999/02/18 12:49:33  adam
26  * Changed file naming scheme for register files as well as record
27  * store/index files.
28  *
29  * Revision 1.30  1999/02/02 14:50:02  adam
30  * Updated WIN32 code specific sections. Changed header.
31  *
32  * Revision 1.29  1998/05/27 14:28:34  adam
33  * Fixed bug in mf_write. 'Cap off' byte written at wrong offset.
34  *
35  * Revision 1.28  1998/05/20 10:00:35  adam
36  * Fixed register spec so that colon isn't treated as size separator
37  * unless followed by [0-9+-] in order to allow DOS drive specifications.
38  *
39  * Revision 1.27  1998/02/10 11:55:07  adam
40  * Minor changes.
41  *
42  * Revision 1.26  1997/10/27 14:25:38  adam
43  * Fixed memory leaks.
44  *
45  * Revision 1.25  1997/09/18 08:59:16  adam
46  * Extra generic handle for the character mapping routines.
47  *
48  * Revision 1.24  1997/09/17 12:19:06  adam
49  * Zebra version corresponds to YAZ version 1.4.
50  * Changed Zebra server so that it doesn't depend on global common_resource.
51  *
52  * Revision 1.23  1997/09/09 13:37:53  adam
53  * Partial port to WIN95/NT.
54  *
55  * Revision 1.22  1997/09/04 13:56:39  adam
56  * Added O_BINARY to open calls.
57  *
58  * Revision 1.21  1996/10/29 13:56:18  adam
59  * Include of zebrautl.h instead of alexutil.h.
60  *
61  * Revision 1.20  1996/05/14 12:10:16  quinn
62  * Bad areadef scan
63  *
64  * Revision 1.19  1996/05/01  07:16:30  quinn
65  * Fixed ancient bug.
66  *
67  * Revision 1.18  1996/04/09  06:47:30  adam
68  * Function scan_areadef doesn't use sscanf (%n fails on this Linux).
69  *
70  * Revision 1.17  1996/03/20 13:29:11  quinn
71  * Bug-fix
72  *
73  * Revision 1.16  1995/12/12  15:57:57  adam
74  * Implemented mf_unlink. cf_unlink uses mf_unlink.
75  *
76  * Revision 1.15  1995/12/08  16:21:14  adam
77  * Work on commit/update.
78  *
79  * Revision 1.14  1995/12/05  13:12:37  quinn
80  * Added <errno.h>
81  *
82  * Revision 1.13  1995/11/30  17:00:50  adam
83  * Several bug fixes. Commit system runs now.
84  *
85  * Revision 1.12  1995/11/24  17:26:11  quinn
86  * Mostly about making some ISAM stuff in the config file optional.
87  *
88  * Revision 1.11  1995/11/13  09:32:43  quinn
89  * Comment work.
90  *
91  * Revision 1.10  1995/09/04  12:33:22  adam
92  * Various cleanup. YAZ util used instead.
93  *
94  * Revision 1.9  1994/11/04  14:26:39  quinn
95  * bug-fix.
96  *
97  * Revision 1.8  1994/10/05  16:56:42  quinn
98  * Minor.
99  *
100  * Revision 1.7  1994/09/19  14:12:37  quinn
101  * dunno.
102  *
103  * Revision 1.6  1994/09/14  13:10:15  quinn
104  * Corrected some bugs in the init-phase
105  *
106  * Revision 1.5  1994/09/12  08:01:51  quinn
107  * Small
108  *
109  * Revision 1.4  1994/09/01  14:51:07  quinn
110  * Allowed mf_write to write beyond eof+1.
111  *
112  * Revision 1.3  1994/08/24  09:37:17  quinn
113  * Changed reaction to read return values.
114  *
115  * Revision 1.2  1994/08/23  14:50:48  quinn
116  * Fixed mf_close().
117  *
118  * Revision 1.1  1994/08/23  14:41:33  quinn
119  * First functional version.
120  *
121  */
122
123
124  /*
125   * TODO: The size estimates in init may not be accurate due to
126   * only partially written final blocks.
127   */
128
129 #include <sys/types.h>
130 #include <fcntl.h>
131 #ifdef WIN32
132 #include <io.h>
133 #else
134 #include <unistd.h>
135 #endif
136 #include <direntz.h>
137 #include <string.h>
138 #include <stdlib.h>
139 #include <stdio.h>
140 #include <assert.h>
141 #include <errno.h>
142
143 #include <zebra-lock.h>
144 #include <zebrautl.h>
145 #include <mfile.h>
146
147 static int scan_areadef(MFile_area ma, const char *name, const char *ad)
148 {
149     /*
150      * If no definition is given, use current directory, unlimited.
151      */
152     char dirname[FILENAME_MAX+1]; 
153     mf_dir **dp = &ma->dirs, *dir = *dp;
154
155     if (!ad)
156         ad = ".:-1b";
157     for (;;)
158     {
159         const char *ad0 = ad;
160         int i = 0, fact = 1, multi;
161         off_t size = 0;
162
163         while (*ad == ' ' || *ad == '\t')
164             ad++;
165         if (!*ad)
166             break;
167         while (*ad)
168         {
169             if (*ad == ':' && strchr ("+-0123456789", ad[1]))
170                 break;
171             if (i < FILENAME_MAX)
172                 dirname[i++] = *ad;
173             ad++;
174         }
175         dirname[i] = '\0';
176         if (*ad++ != ':')
177         {
178             logf (LOG_WARN, "Missing colon after path: %s", ad0);
179             return -1;
180         }
181         if (i == 0)
182         {
183             logf (LOG_WARN, "Empty path: %s", ad0);
184             return -1;
185         }
186         while (*ad == ' ' || *ad == '\t')
187             ad++;
188         if (*ad == '-')
189         {
190             fact = -1;
191             ad++;
192         }
193         else if (*ad == '+')
194             ad++;
195         size = 0;
196         if (*ad < '0' || *ad > '9')
197         {
198             logf (LOG_FATAL, "Missing size after path: %s", ad0);
199             return -1;
200         }
201         size = 0;
202         while (*ad >= '0' && *ad <= '9')
203             size = size*10 + (*ad++ - '0');
204         switch (*ad)
205         {
206         case 'B': case 'b': multi = 1; break;
207         case 'K': case 'k': multi = 1024; break;
208         case 'M': case 'm': multi = 1048576; break;
209         case 'G': case 'g': multi = 1073741824; break;
210             case '\0':
211                 logf (LOG_FATAL, "Missing unit: %s", ad0);
212                 return -1;
213             default:
214                 logf (LOG_FATAL, "Illegal unit: %c in %s", *ad, ad0);
215                 return -1;
216         }
217         ad++;
218         *dp = dir = (mf_dir *) xmalloc(sizeof(mf_dir));
219         dir->next = 0;
220         strcpy(dir->name, dirname);
221         dir->max_bytes = dir->avail_bytes = fact * size * multi;
222         dp = &dir->next;
223     }
224     return 0;
225 }
226
227 static int file_position(MFile mf, int pos, int offset)
228 {
229     int off = 0, c = mf->cur_file, ps;
230
231     if ((c > 0 && pos <= mf->files[c-1].top) ||
232         (c < mf->no_files -1 && pos > mf->files[c].top))
233     {
234         c = 0;
235         while (c + 1 < mf->no_files && mf->files[c].top < pos)
236         {
237             off += mf->files[c].blocks;
238             c++;
239         }
240         assert(c < mf->no_files);
241     }
242     else
243         off = c ? (mf->files[c-1].top + 1) : 0;
244     if (mf->files[c].fd < 0 && (mf->files[c].fd = open(mf->files[c].path,
245         mf->wr ? (O_BINARY|O_RDWR|O_CREAT) : (O_BINARY|O_RDONLY), 0666)) < 0)
246     {
247         if (!mf->wr && errno == ENOENT && off == 0)
248             return -2;
249         logf (LOG_WARN|LOG_ERRNO, "Failed to open %s", mf->files[c].path);
250         return -1;
251     }
252     if (lseek(mf->files[c].fd, (ps = pos - off) * mf->blocksize + offset,
253         SEEK_SET) < 0)
254     {
255         logf (LOG_WARN|LOG_ERRNO, "Failed to seek in %s", mf->files[c].path);
256         return -1;
257     }
258     mf->cur_file = c;
259     return ps;
260 }
261
262 static int cmp_part_file(const void *p1, const void *p2)
263 {
264     return ((part_file *)p1)->number - ((part_file *)p2)->number;
265 }
266
267 /*
268  * Create a new area, cotaining metafiles in directories.
269  * Find the part-files in each directory, and inventory the existing metafiles.
270  */
271 MFile_area mf_init(const char *name, const char *spec)
272 {
273     MFile_area ma = (MFile_area) xmalloc(sizeof(*ma));
274     mf_dir *dirp;
275     meta_file *meta_f;
276     part_file *part_f = 0;
277     DIR *dd;
278     struct dirent *dent;
279     int fd, number;
280     char metaname[FILENAME_MAX+1], tmpnam[FILENAME_MAX+1];
281     
282     logf (LOG_DEBUG, "mf_init(%s)", name);
283     strcpy(ma->name, name);
284     ma->mfiles = 0;
285     ma->dirs = 0;
286     if (scan_areadef(ma, name, spec) < 0)
287     {
288         logf (LOG_WARN, "Failed to access description of '%s'", name);
289         return 0;
290     }
291     /* look at each directory */
292     for (dirp = ma->dirs; dirp; dirp = dirp->next)
293     {
294         if (!(dd = opendir(dirp->name)))
295         {
296             logf (LOG_WARN|LOG_ERRNO, "Failed to open directory %s",
297                                      dirp->name);
298             return 0;
299         }
300         /* look at each file */
301         while ((dent = readdir(dd)))
302         {
303             if (*dent->d_name == '.')
304                 continue;
305             if (sscanf(dent->d_name, "%[^-]-%d.mf", metaname, &number) != 2)
306             {
307                 logf (LOG_DEBUG, "bf: %s is not a part-file.", dent->d_name);
308                 continue;
309             }
310             for (meta_f = ma->mfiles; meta_f; meta_f = meta_f->next)
311             {
312                 /* known metafile */
313                 if (!strcmp(meta_f->name, metaname))
314                 {
315                     part_f = &meta_f->files[meta_f->no_files++];
316                     break;
317                 }
318             }
319             /* new metafile */
320             if (!meta_f)
321             {
322                 meta_f = (meta_file *) xmalloc(sizeof(*meta_f));
323                 meta_f->ma = ma;
324                 meta_f->next = ma->mfiles;
325                 meta_f->open = 0;
326                 meta_f->cur_file = -1;
327                 ma->mfiles = meta_f;
328                 strcpy(meta_f->name, metaname);
329                 part_f = &meta_f->files[0];
330                 meta_f->no_files = 1;
331             }
332             part_f->number = number;
333             part_f->dir = dirp;
334             part_f->fd = -1;
335             sprintf(tmpnam, "%s/%s", dirp->name, dent->d_name);
336             part_f->path = xstrdup(tmpnam);
337             /* get size */
338             if ((fd = open(part_f->path, O_BINARY|O_RDONLY)) < 0)
339             {
340                 logf (LOG_FATAL|LOG_ERRNO, "Failed to access %s",
341                       dent->d_name);
342                 return 0;
343             }
344             if ((part_f->bytes = lseek(fd, 0, SEEK_END)) < 0)
345             {
346                 logf (LOG_FATAL|LOG_ERRNO, "Failed to seek in %s",
347                       dent->d_name);
348                 return 0;
349             }
350             close(fd);
351             if (dirp->max_bytes >= 0)
352                 dirp->avail_bytes -= part_f->bytes;
353         }
354         closedir(dd);
355     }
356     for (meta_f = ma->mfiles; meta_f; meta_f = meta_f->next)
357     {
358         logf (LOG_DEBUG, "mf_init: %s consists of %d part(s)", meta_f->name,
359               meta_f->no_files);
360         qsort(meta_f->files, meta_f->no_files, sizeof(part_file),
361               cmp_part_file);
362     }
363     return ma;
364 }
365
366 void mf_destroy(MFile_area ma)
367 {
368     mf_dir *dp;
369     meta_file *meta_f;
370
371     if (!ma)
372         return;
373     dp = ma->dirs;
374     while (dp)
375     {
376         mf_dir *d = dp;
377         dp = dp->next;
378         xfree (d);
379     }
380     meta_f = ma->mfiles;
381     while (meta_f)
382     {
383         int i;
384         meta_file *m = meta_f;
385         
386         for (i = 0; i<m->no_files; i++)
387         {
388             xfree (m->files[i].path);
389         }
390         zebra_mutex_destroy (&meta_f->mutex);
391         meta_f = meta_f->next;
392         xfree (m);
393     }
394     xfree (ma);
395 }
396
397 void mf_reset(MFile_area ma)
398 {
399     meta_file *meta_f;
400
401     if (!ma)
402         return;
403     meta_f = ma->mfiles;
404     while (meta_f)
405     {
406         int i;
407         meta_file *m = meta_f;
408
409         assert (!m->open);
410         for (i = 0; i<m->no_files; i++)
411         {
412             unlink (m->files[i].path);
413             xfree (m->files[i].path);
414         }
415         meta_f = meta_f->next;
416         xfree (m);
417     }
418     ma->mfiles = 0;
419 }
420
421 /*
422  * Open a metafile.
423  * If !ma, Use MF_DEFAULT_AREA.
424  */
425 MFile mf_open(MFile_area ma, const char *name, int block_size, int wflag)
426 {
427     meta_file *mnew;
428     int i;
429     char tmp[FILENAME_MAX+1];
430     mf_dir *dp;
431
432     logf(LOG_DEBUG, "mf_open(%s bs=%d, %s)", name, block_size,
433          wflag ? "RW" : "RDONLY");
434     assert (ma);
435     for (mnew = ma->mfiles; mnew; mnew = mnew->next)
436         if (!strcmp(name, mnew->name))
437         {
438             if (mnew->open)
439                 abort();
440             else
441                 break;
442         }
443     if (!mnew)
444     {
445         mnew = (meta_file *) xmalloc(sizeof(*mnew));
446         strcpy(mnew->name, name);
447         /* allocate one, empty file */
448         zebra_mutex_init (&mnew->mutex);
449         mnew->no_files = 1;
450         mnew->files[0].bytes = 0;
451         mnew->files[0].blocks = 0;
452         mnew->files[0].top = -1;
453         mnew->files[0].number = 0;
454         mnew->files[0].fd = -1;
455         mnew->min_bytes_creat = MF_MIN_BLOCKS_CREAT * block_size;
456         for (dp = ma->dirs; dp && dp->max_bytes >= 0 && dp->avail_bytes <
457             mnew->min_bytes_creat; dp = dp->next);
458         if (!dp)
459         {
460             logf (LOG_FATAL, "Insufficient space for new mfile.");
461             return 0;
462         }
463         mnew->files[0].dir = dp;
464         sprintf(tmp, "%s/%s-%d.mf", dp->name, mnew->name, 0);
465         mnew->files[0].path = xstrdup(tmp);
466         mnew->ma = ma;
467         mnew->next = ma->mfiles;
468         ma->mfiles = mnew;
469     }
470     else
471     {
472         for (i = 0; i < mnew->no_files; i++)
473         {
474             if (mnew->files[i].bytes % block_size)
475                 mnew->files[i].bytes += block_size - mnew->files[i].bytes %
476                     block_size;
477             mnew->files[i].blocks = mnew->files[i].bytes / block_size;
478         }
479         assert(!mnew->open);
480     }
481     mnew->blocksize = block_size;
482     mnew->min_bytes_creat = MF_MIN_BLOCKS_CREAT * block_size;
483     mnew->wr=wflag;
484     mnew->cur_file = 0;
485     mnew->open = 1;
486
487     for (i = 0; i < mnew->no_files; i++)
488     {
489         mnew->files[i].blocks = mnew->files[i].bytes / mnew->blocksize;
490         if (i == mnew->no_files - 1)
491             mnew->files[i].top = -1;
492         else
493             mnew->files[i].top =
494                 i ? (mnew->files[i-1].top + mnew->files[i].blocks)
495                 : (mnew->files[i].blocks - 1);
496     }
497     return mnew;
498 }
499
500 /*
501  * Close a metafile.
502  */
503 int mf_close(MFile mf)
504 {
505     int i;
506
507     logf (LOG_DEBUG, "mf_close(%s)", mf->name);
508     assert(mf->open);
509     for (i = 0; i < mf->no_files; i++)
510         if (mf->files[i].fd >= 0)
511         {
512             close(mf->files[i].fd);
513             mf->files[i].fd = -1;
514         }
515     mf->open = 0;
516     return 0;
517 }
518
519 /*
520  * Read one block from a metafile. Interface mirrors bfile.
521  */
522 int mf_read(MFile mf, int no, int offset, int nbytes, void *buf)
523 {
524     int rd, toread;
525
526     zebra_mutex_lock (&mf->mutex);
527     if ((rd = file_position(mf, no, offset)) < 0)
528     {
529         if (rd == -2)
530             return 0;
531         else
532             exit(1);
533     }
534     toread = nbytes ? nbytes : mf->blocksize;
535     if ((rd = read(mf->files[mf->cur_file].fd, buf, toread)) < 0)
536     {
537         logf (LOG_FATAL|LOG_ERRNO, "mf_read: Read failed (%s)",
538               mf->files[mf->cur_file].path);
539         exit(1);
540     }
541     zebra_mutex_unlock (&mf->mutex);
542     if (rd < toread)
543         return 0;
544     else
545         return 1;
546 }
547
548 /*
549  * Write.
550  */
551 int mf_write(MFile mf, int no, int offset, int nbytes, const void *buf)
552 {
553     int ps, nblocks, towrite;
554     mf_dir *dp;
555     char tmp[FILENAME_MAX+1];
556     unsigned char dummych = '\xff';
557
558     zebra_mutex_lock (&mf->mutex);
559     if ((ps = file_position(mf, no, offset)) < 0)
560         exit(1);
561     /* file needs to grow */
562     while (ps >= mf->files[mf->cur_file].blocks)
563     {
564         /* file overflow - allocate new file */
565         if (mf->files[mf->cur_file].dir->max_bytes >= 0 &&
566             (ps - mf->files[mf->cur_file].blocks + 1) * mf->blocksize >
567             mf->files[mf->cur_file].dir->avail_bytes)
568         {
569             /* cap off file? */
570             if ((nblocks = mf->files[mf->cur_file].dir->avail_bytes /
571                 mf->blocksize) > 0)
572             {
573                 logf (LOG_DEBUG, "Capping off file %s at pos %d",
574                     mf->files[mf->cur_file].path, nblocks);
575                 if ((ps = file_position(mf,
576                     (mf->cur_file ? mf->files[mf->cur_file-1].top : 0) +
577                     mf->files[mf->cur_file].blocks + nblocks - 1, 0)) < 0)
578                         exit(1);
579                 logf (LOG_DEBUG, "ps = %d", ps);
580                 if (write(mf->files[mf->cur_file].fd, &dummych, 1) < 1)
581                 {
582                     logf (LOG_ERRNO|LOG_FATAL, "write dummy");
583                     exit(1);
584                 }
585                 mf->files[mf->cur_file].blocks += nblocks;
586                 mf->files[mf->cur_file].bytes += nblocks * mf->blocksize;
587                 mf->files[mf->cur_file].dir->avail_bytes -= nblocks *
588                     mf->blocksize;
589             }
590             /* get other bit */
591             logf (LOG_DEBUG, "Creating new file.");
592             for (dp = mf->ma->dirs; dp && dp->max_bytes >= 0 &&
593                 dp->avail_bytes < mf->min_bytes_creat; dp = dp->next);
594             if (!dp)
595             {
596                 logf (LOG_FATAL, "Cannot allocate more space for %s",
597                       mf->name);
598                 exit(1);
599             }
600             mf->files[mf->cur_file].top = (mf->cur_file ?
601                 mf->files[mf->cur_file-1].top : -1) +
602                 mf->files[mf->cur_file].blocks;
603             mf->files[++(mf->cur_file)].top = -1;
604             mf->files[mf->cur_file].dir = dp;
605             mf->files[mf->cur_file].number =
606                 mf->files[mf->cur_file-1].number + 1;
607             mf->files[mf->cur_file].blocks =
608                 mf->files[mf->cur_file].bytes = 0;
609             mf->files[mf->cur_file].fd = -1;
610             sprintf(tmp, "%s/%s-%d.mf", dp->name, mf->name,
611                 mf->files[mf->cur_file].number);
612             mf->files[mf->cur_file].path = xstrdup(tmp);
613             mf->no_files++;
614             /* open new file and position at beginning */
615             if ((ps = file_position(mf, no, offset)) < 0)
616                 exit(1);
617         }
618         else
619         {
620             nblocks = ps - mf->files[mf->cur_file].blocks + 1;
621             mf->files[mf->cur_file].blocks += nblocks;
622             mf->files[mf->cur_file].bytes += nblocks * mf->blocksize;
623             if (mf->files[mf->cur_file].dir->max_bytes >= 0)
624                 mf->files[mf->cur_file].dir->avail_bytes -=
625                 nblocks * mf->blocksize;
626         }
627     }
628     towrite = nbytes ? nbytes : mf->blocksize;
629     if (write(mf->files[mf->cur_file].fd, buf, towrite) < towrite)
630     {
631         logf (LOG_FATAL|LOG_ERRNO, "Write failed for file %s part %d",
632                 mf->name, mf->cur_file);
633         exit(1);
634     }
635     zebra_mutex_unlock (&mf->mutex);
636     return 0;
637 }
638
639 /*
640  * Destroy a metafile, unlinking component files. File must be open.
641  */
642 int mf_unlink(MFile mf)
643 {
644     int i;
645
646     for (i = 0; i < mf->no_files; i++)
647         unlink (mf->files[i].path);
648     return 0;
649 }
650
651 /*
652  * Unlink the file by name, rather than MFile-handle. File should be closed.
653  */
654 int mf_unlink_name(MFile_area ma, const char *name)
655 {
656     abort();
657     return 0;
658 }