Extract uses file descriptors instead of FILE pointers.
[idzebra-moved-to-github.git] / index / extract.c
1 /*
2  * Copyright (C) 1994-1995, Index Data I/S 
3  * All rights reserved.
4  * Sebastian Hammer, Adam Dickmeiss
5  *
6  * $Log: extract.c,v $
7  * Revision 1.15  1995-10-02 15:42:53  adam
8  * Extract uses file descriptors instead of FILE pointers.
9  *
10  * Revision 1.14  1995/10/02  15:29:13  adam
11  * More logging in file_extract.
12  *
13  * Revision 1.13  1995/09/29  14:01:39  adam
14  * Bug fixes.
15  *
16  * Revision 1.12  1995/09/28  14:22:56  adam
17  * Sort uses smaller temporary files.
18  *
19  * Revision 1.11  1995/09/28  12:10:31  adam
20  * Bug fixes. Field prefix used in queries.
21  *
22  * Revision 1.10  1995/09/28  09:19:41  adam
23  * xfree/xmalloc used everywhere.
24  * Extract/retrieve method seems to work for text records.
25  *
26  * Revision 1.9  1995/09/27  12:22:28  adam
27  * More work on extract in record control.
28  * Field name is not in isam keys but in prefix in dictionary words.
29  *
30  * Revision 1.8  1995/09/14  07:48:22  adam
31  * Record control management.
32  *
33  * Revision 1.7  1995/09/11  13:09:32  adam
34  * More work on relevance feedback.
35  *
36  * Revision 1.6  1995/09/08  14:52:27  adam
37  * Minor changes. Dictionary is lower case now.
38  *
39  * Revision 1.5  1995/09/06  16:11:16  adam
40  * Option: only one word key per file.
41  *
42  * Revision 1.4  1995/09/05  15:28:39  adam
43  * More work on search engine.
44  *
45  * Revision 1.3  1995/09/04  12:33:41  adam
46  * Various cleanup. YAZ util used instead.
47  *
48  * Revision 1.2  1995/09/04  09:10:34  adam
49  * More work on index add/del/update.
50  * Merge sort implemented.
51  * Initial work on z39 server.
52  *
53  * Revision 1.1  1995/09/01  14:06:35  adam
54  * Split of work into more files.
55  *
56  */
57 #include <stdio.h>
58 #include <assert.h>
59 #include <unistd.h>
60 #include <fcntl.h>
61 #include <ctype.h>
62
63 #include <alexutil.h>
64 #include <recctrl.h>
65 #include "index.h"
66
67 static Dict file_idx;
68 static SYSNO sysno_next;
69 static int sys_idx_fd = -1;
70
71 static int key_cmd;
72 static int key_sysno;
73 static char **key_buf;
74 static size_t ptr_top;
75 static size_t ptr_i;
76 static size_t kused;
77 static int key_file_no;
78
79 void key_open (int mem)
80 {
81     void *file_key;
82
83     if (mem < 50000)
84         mem = 50000;
85     key_buf = xmalloc (mem);
86     ptr_top = mem/sizeof(char*);
87     ptr_i = 0;
88     kused = 0;
89     key_file_no = 0;
90
91     if (!(file_idx = dict_open (FNAME_FILE_DICT, 40, 1)))
92     {
93         logf (LOG_FATAL, "dict_open fail of %s", "fileidx");
94         exit (1);
95     }
96     file_key = dict_lookup (file_idx, ".");
97     if (file_key)
98         memcpy (&sysno_next, (char*)file_key+1, sizeof(sysno_next));
99     else
100         sysno_next = 1;
101     if ((sys_idx_fd = open (FNAME_SYS_IDX, O_RDWR|O_CREAT, 0666)) == -1)
102     {
103         logf (LOG_FATAL|LOG_ERRNO, "open %s", FNAME_SYS_IDX);
104         exit (1);
105     }
106 }
107     
108 void key_flush (void)
109 {
110     FILE *outf;
111     char out_fname[200];
112     char *prevcp, *cp;
113     
114     if (ptr_i <= 0)
115         return;
116
117     key_file_no++;
118     logf (LOG_LOG, "sorting section %d", key_file_no);
119     qsort (key_buf + ptr_top-ptr_i, ptr_i, sizeof(char*), key_qsort_compare);
120     sprintf (out_fname, TEMP_FNAME, key_file_no);
121
122     if (!(outf = fopen (out_fname, "w")))
123     {
124         logf (LOG_FATAL|LOG_ERRNO, "fopen (4) %s", out_fname);
125         exit (1);
126     }
127     logf (LOG_LOG, "writing section %d", key_file_no);
128     prevcp = cp = key_buf[ptr_top-ptr_i];
129     
130     if (fwrite (cp, strlen (cp)+2+sizeof(struct it_key), 1, outf) != 1)
131     {
132         logf (LOG_FATAL|LOG_ERRNO, "fwrite %s", out_fname);
133         exit (1);
134     }
135     while (--ptr_i > 0)
136     {
137         cp = key_buf[ptr_top-ptr_i];
138         if (strcmp (cp, prevcp))
139         {
140             if (fwrite (cp, strlen (cp)+2+sizeof(struct it_key), 1,
141                         outf) != 1)
142             {
143                 logf (LOG_FATAL|LOG_ERRNO, "fwrite %s", out_fname);
144                 exit (1);
145             }
146             prevcp = cp;
147         }
148         else
149         {
150             cp = strlen (cp) + cp;
151             if (fwrite (cp, 2+sizeof(struct it_key), 1, outf) != 1)
152             {
153                 logf (LOG_FATAL|LOG_ERRNO, "fwrite %s", out_fname);
154                 exit (1);
155             }
156         }
157     }
158     if (fclose (outf))
159     {
160         logf (LOG_FATAL|LOG_ERRNO, "fclose %s", out_fname);
161         exit (1);
162     }
163     logf (LOG_LOG, "finished section %d", key_file_no);
164     ptr_i = 0;
165     kused = 0;
166 }
167
168 int key_close (void)
169 {
170     key_flush ();
171     xfree (key_buf);
172     close (sys_idx_fd);
173     dict_insert (file_idx, ".", sizeof(sysno_next), &sysno_next);
174     dict_close (file_idx);
175     return key_file_no;
176 }
177
178 static void wordInit (RecWord *p)
179 {
180     p->attrSet = 1;
181     p->attrUse = 1016;
182     p->which = Word_String;
183 }
184
185 static void wordAdd (const RecWord *p)
186 {
187     struct it_key key;
188     size_t i;
189
190     if (kused + 1024 > (ptr_top-ptr_i)*sizeof(char*))
191         key_flush ();
192     ++ptr_i;
193     key_buf[ptr_top-ptr_i] = (char*)key_buf + kused;
194     kused += index_word_prefix ((char*)key_buf + kused,
195                                 p->attrSet, p->attrUse);
196     switch (p->which)
197     {
198     case Word_String:
199         for (i = 0; p->u.string[i]; i++)
200             ((char*)key_buf) [kused++] = index_char_cvt (p->u.string[i]);
201         ((char*)key_buf) [kused++] = '\0';
202         break;
203     default:
204         return ;
205     }
206     ((char*) key_buf)[kused++] = ((key_cmd == 'a') ? 1 : 0);
207     key.sysno = key_sysno;
208     key.seqno = p->seqno;
209     memcpy ((char*)key_buf + kused, &key, sizeof(key));
210     kused += sizeof(key);
211 }
212
213 static int file_read (int fd, char *buf, size_t count)
214 {
215     return read (fd, buf, count);
216 }
217
218 void file_extract (int cmd, const char *fname, const char *kname)
219 {
220     int i, r;
221     char ext[128];
222     SYSNO sysno;
223     char ext_res[128];
224     const char *file_type;
225     void *file_info;
226     struct recExtractCtrl extractCtrl;
227     RecType rt;
228
229     for (i = strlen(fname); --i >= 0; )
230         if (fname[i] == '/')
231         {
232             strcpy (ext, "");
233             break;
234         }
235         else if (fname[i] == '.')
236         {
237             strcpy (ext, fname+i+1);
238             break;
239         }
240     sprintf (ext_res, "fileExtension.%s", ext);
241     if (!(file_type = res_get (common_resource, ext_res)))
242         return;
243     if (!(rt = recType_byName (file_type)))
244         return;
245     logf (LOG_DEBUG, "%c %s k=%s", cmd, fname, kname);
246     file_info = dict_lookup (file_idx, kname);
247     if (!file_info)
248     {
249         sysno = sysno_next++;
250         dict_insert (file_idx, kname, sizeof(sysno), &sysno);
251         lseek (sys_idx_fd, sysno * SYS_IDX_ENTRY_LEN, SEEK_SET);
252         write (sys_idx_fd, file_type, strlen (file_type)+1);
253         write (sys_idx_fd, kname, strlen(kname)+1);
254     }
255     else
256         memcpy (&sysno, (char*) file_info+1, sizeof(sysno));
257
258     if ((extractCtrl.fd = open (fname, O_RDONLY)) == -1)
259     {
260         logf (LOG_WARN|LOG_ERRNO, "open %s", fname);
261         return;
262     }
263     extractCtrl.subType = "";
264     extractCtrl.init = wordInit;
265     extractCtrl.add = wordAdd;
266     extractCtrl.readf = file_read;
267     key_sysno = sysno;
268     key_cmd = cmd;
269     r = (*rt->extract)(&extractCtrl);
270     close (extractCtrl.fd);
271     if (r)
272         logf (LOG_WARN, "Couldn't extract file %s, code %d", fname, r);
273 }