Updated WIN32 code specific sections. Changed header.
[idzebra-moved-to-github.git] / dict / dicttest.c
1 /*
2  * Copyright (C) 1994-1999, Index Data
3  * All rights reserved.
4  * Sebastian Hammer, Adam Dickmeiss
5  *
6  * $Log: dicttest.c,v $
7  * Revision 1.22  1999-02-02 14:50:19  adam
8  * Updated WIN32 code specific sections. Changed header.
9  *
10  * Revision 1.21  1996/10/29 14:00:03  adam
11  * Page size given by DICT_DEFAULT_PAGESIZE in dict.h.
12  *
13  * Revision 1.20  1996/03/20 09:35:16  adam
14  * Function dict_lookup_grep got extra parameter, init_pos, which marks
15  * from which position in pattern approximate pattern matching should occur.
16  *
17  * Revision 1.19  1996/02/02  13:43:50  adam
18  * The public functions simply use char instead of Dict_char to represent
19  * search strings. Dict_char is used internally only.
20  *
21  * Revision 1.18  1996/02/01  20:39:52  adam
22  * Bug fix: insert didn't work on 8-bit characters due to unsigned char
23  * compares in dict_strcmp (strcmp) and signed Dict_char. Dict_char is
24  * unsigned now.
25  *
26  * Revision 1.17  1995/12/06  17:48:30  adam
27  * Bug fix: delete didn't work.
28  *
29  * Revision 1.16  1995/10/09  16:18:31  adam
30  * Function dict_lookup_grep got extra client data parameter.
31  *
32  * Revision 1.15  1995/09/04  12:33:31  adam
33  * Various cleanup. YAZ util used instead.
34  *
35  * Revision 1.14  1994/10/04  17:46:55  adam
36  * Function options now returns arg with error option.
37  *
38  * Revision 1.13  1994/10/04  12:08:05  adam
39  * Some bug fixes and some optimizations.
40  *
41  * Revision 1.12  1994/10/03  17:23:03  adam
42  * First version of dictionary lookup with regular expressions and errors.
43  *
44  * Revision 1.11  1994/09/28  13:07:09  adam
45  * Use log_mask_str now.
46  *
47  * Revision 1.10  1994/09/26  10:17:24  adam
48  * Minor changes.
49  *
50  * Revision 1.9  1994/09/22  14:43:56  adam
51  * First functional version of lookup with error correction. A 'range'
52  * specified the maximum number of insertions+deletions+substitutions.
53  *
54  * Revision 1.8  1994/09/22  10:43:44  adam
55  * Two versions of depend. Type 1 is the tail-type compatible with
56  * all make programs. Type 2 is the GNU make with include facility.
57  * Type 2 is default. depend rule chooses current rule.
58  *
59  * Revision 1.7  1994/09/19  16:34:26  adam
60  * Depend rule change. Minor changes in dicttest.c
61  *
62  * Revision 1.6  1994/09/16  15:39:12  adam
63  * Initial code of lookup - not tested yet.
64  *
65  * Revision 1.5  1994/09/06  13:05:14  adam
66  * Further development of insertion. Some special cases are
67  * not properly handled yet! assert(0) are put here. The
68  * binary search in each page definitely reduce usr CPU.
69  *
70  * Revision 1.4  1994/09/01  17:49:37  adam
71  * Removed stupid line. Work on insertion in dictionary. Not finished yet.
72  *
73  * Revision 1.3  1994/09/01  17:44:06  adam
74  * depend include change.
75  *
76  * Revision 1.2  1994/08/18  12:40:54  adam
77  * Some development of dictionary. Not finished at all!
78  *
79  * Revision 1.1  1994/08/16  16:26:47  adam
80  * Added dict.
81  *
82  */
83
84 #include <stdlib.h>
85 #include <string.h>
86 #include <stdio.h>
87 #include <ctype.h>
88
89 #include <dict.h>
90 #include <zebrautl.h>
91
92 char *prog;
93 static Dict dict;
94
95 static int look_hits;
96
97 static int grep_handle (char *name, const char *info, void *client)
98 {
99     look_hits++;
100     printf ("%s\n", name);
101     return 0;
102 }
103
104 int main (int argc, char **argv)
105 {
106     const char *name = NULL;
107     const char *inputfile = NULL;
108     const char *base = NULL;
109     int do_delete = 0;
110     int range = -1;
111     int srange = 0;
112     int rw = 0;
113     int infosize = 4;
114     int cache = 10;
115     int ret;
116     int unique = 0;
117     char *grep_pattern = NULL;
118     char *arg;
119     int no_of_iterations = 0;
120     int no_of_new = 0, no_of_same = 0, no_of_change = 0;
121     int no_of_hits = 0, no_of_misses = 0, no_not_found = 0, no_of_deleted = 0;
122     int max_pos;
123     
124     prog = argv[0];
125     if (argc < 2)
126     {
127         fprintf (stderr, "usage:\n "
128                  " %s [-d] [-r n] [-p n] [-u] [-g pat] [-s n] [-v n] [-i f]"
129                  " [-w] [-c n] base file\n\n",
130                  prog);
131         fprintf (stderr, "  -d      delete instead of insert\n");
132         fprintf (stderr, "  -r n    set regular match range\n");
133         fprintf (stderr, "  -p n    set regular match start range\n");
134         fprintf (stderr, "  -u      report if keys change during insert\n");
135         fprintf (stderr, "  -g p    try pattern n (see -r)\n");
136         fprintf (stderr, "  -s n    set info size to n (instead of 4)\n");
137         fprintf (stderr, "  -v n    set logging level\n");
138         fprintf (stderr, "  -i f    read file with words\n");
139         fprintf (stderr, "  -w      insert/delete instead of lookup\n");
140         fprintf (stderr, "  -c n    cache size (number of pages)\n");
141         exit (1);
142     }
143     while ((ret = options ("dr:p:ug:s:v:i:wc:", argv, argc, &arg)) != -2)
144     {
145         if (ret == 0)
146         {
147             if (!base)
148                 base = arg;
149             else if (!name)
150                 name = arg;
151             else
152             {
153                 logf (LOG_FATAL, "too many files specified\n");
154                 exit (1);
155             }
156         }
157         else if (ret == 'd')
158             do_delete = 1;
159         else if (ret == 'g')
160         {
161             grep_pattern = arg;
162         }
163         else if (ret == 'r')
164         {
165             range = atoi (arg);
166         }
167         else if (ret == 'p')
168         {
169             srange = atoi (arg);
170         }
171         else if (ret == 'u')
172         {
173             unique = 1;
174         }
175         else if (ret == 'c')
176         {
177             cache = atoi(arg);
178             if (cache<2)
179                 cache = 2;
180         }
181         else if (ret == 'w')
182             rw = 1;
183         else if (ret == 'i')
184             inputfile = arg;
185         else if (ret == 's')
186         {
187             infosize = atoi(arg);
188         }
189         else if (ret == 'v')
190         {
191             log_init (log_mask_str(arg), prog, NULL);
192         }
193         else
194         {
195             logf (LOG_FATAL, "Unknown option '-%s'", arg);
196             exit (1);
197         }
198     }
199     if (!base || !name)
200     {
201         logf (LOG_FATAL, "no base and/or dictionary specified");
202         exit (1);
203     }
204     common_resource = res_open (base);
205     if (!common_resource)
206     {
207         logf (LOG_FATAL, "cannot open resource `%s'", base);
208         exit (1);
209     }
210     dict = dict_open (name, cache, rw);
211     if (!dict)
212     {
213         logf (LOG_FATAL, "dict_open fail of `%s'", name);
214         exit (1);
215     }
216     if (inputfile)
217     {
218         FILE *ipf;
219         char ipf_buf[1024];
220         int line = 1;
221         char infobytes[120];
222         memset (infobytes, 0, 120);
223
224         if (!(ipf = fopen(inputfile, "r")))
225         {
226             logf (LOG_FATAL|LOG_ERRNO, "cannot open %s", inputfile);
227             exit (1);
228         }
229         
230         while (fgets (ipf_buf, 1023, ipf))
231         {
232             char *ipf_ptr = ipf_buf;
233             sprintf (infobytes, "%d", line);
234             for (;*ipf_ptr && *ipf_ptr != '\n';ipf_ptr++)
235             {
236                 if (isalpha(*ipf_ptr) || *ipf_ptr == '_')
237                 {
238                     int i = 1;
239                     while (ipf_ptr[i] && (isalnum(ipf_ptr[i]) ||
240                                           ipf_ptr[i] == '_'))
241                         i++;
242                     if (ipf_ptr[i])
243                         ipf_ptr[i++] = '\0';
244                     if (rw)
245                     {
246                         if (do_delete)
247                             switch (dict_delete (dict, ipf_ptr))
248                             {
249                             case 0:
250                                 no_not_found++;
251                                 break;
252                             case 1:
253                                 no_of_deleted++;
254                             }
255                         else
256                             switch(dict_insert (dict, ipf_ptr,
257                                                 infosize, infobytes))
258                             {
259                             case 0:
260                                 no_of_new++;
261                                 break;
262                             case 1:
263                                 no_of_change++;
264                                 if (unique)
265                                     logf (LOG_LOG, "%s change\n", ipf_ptr);
266                                 break;
267                             case 2:
268                                 if (unique)
269                                     logf (LOG_LOG, "%s duplicate\n", ipf_ptr);
270                                 no_of_same++;
271                                 break;
272                             }
273                     }
274                     else if(range < 0)
275                     {
276                         char *cp;
277
278                         cp = dict_lookup (dict, ipf_ptr);
279                         if (cp && *cp)
280                             no_of_hits++;
281                         else
282                             no_of_misses++;
283                     }
284                     else
285                     {
286                         look_hits = 0;
287                         dict_lookup_grep (dict, ipf_ptr, range, NULL,
288                                           &max_pos, srange, grep_handle);
289                         if (look_hits)
290                             no_of_hits++;
291                         else
292                             no_of_misses++;
293                     }
294                     ++no_of_iterations;
295                     ipf_ptr += (i-1);
296                 }
297             }
298             ++line;
299         }
300         fclose (ipf);
301     }
302     if (grep_pattern)
303     {
304         if (range < 0)
305             range = 0;
306         logf (LOG_LOG, "Grepping '%s'", grep_pattern);
307         dict_lookup_grep (dict, grep_pattern, range, NULL, &max_pos,
308                           srange, grep_handle);
309     }
310     if (rw)
311     {
312         logf (LOG_LOG, "Iterations.... %d", no_of_iterations);            
313         if (do_delete)
314         {
315             logf (LOG_LOG, "No of deleted. %d", no_of_deleted);
316             logf (LOG_LOG, "No not found.. %d", no_not_found);
317         }
318         else
319         {
320             logf (LOG_LOG, "No of new..... %d", no_of_new);
321             logf (LOG_LOG, "No of change.. %d", no_of_change);
322         }
323     }
324     else
325     {
326         logf (LOG_LOG, "Lookups....... %d", no_of_iterations);
327         logf (LOG_LOG, "No of hits.... %d", no_of_hits);
328         logf (LOG_LOG, "No of misses.. %d", no_of_misses);
329     }
330     dict_close (dict);
331     res_close (common_resource);
332     return 0;
333 }