d7f0b41eb3e38c34e8f82558f176a27a3345506e
[idzebra-moved-to-github.git] / test / api / test_icu_indexing.c
1 /* This file is part of the Zebra server.
2    Copyright (C) Index Data
3
4 Zebra is free software; you can redistribute it and/or modify it under
5 the terms of the GNU General Public License as published by the Free
6 Software Foundation; either version 2, or (at your option) any later
7 version.
8
9 Zebra is distributed in the hope that it will be useful, but WITHOUT ANY
10 WARRANTY; without even the implied warranty of MERCHANTABILITY or
11 FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
12 for more details.
13
14 You should have received a copy of the GNU General Public License
15 along with this program; if not, write to the Free Software
16 Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA
17
18 */
19
20 /** \file
21     \brief tests ICU enabled maps
22 */
23 #if HAVE_CONFIG_H
24 #include <config.h>
25 #endif
26 #include <yaz/test.h>
27 #include "testlib.h"
28
29 /* utf-8 sequences for some characters */
30 #define char_ae "\xc3\xa6"
31 #define char_AE "\xc3\x86"
32
33 #define char_oslash "\xc3\xb8"
34 #define char_Oslash "\xc3\x98"
35
36 #define char_aring "\xc3\xa5"
37 #define char_Aring "\xc3\x85"
38
39 #define char_comb_ring_above "\xcc\x8a"
40
41 #define char_aring1 "a" char_comb_ring_above
42 #define char_Aring1 "A" char_comb_ring_above
43
44 const char *myrec[] = {
45         "<gils>\n<title>My computer</title>\n</gils>\n",
46         "<gils>\n<title>My x computer</title>\n</gils>\n",
47         "<gils>\n<title>My computer x</title>\n</gils>\n" ,
48         "<gils>\n<title>" char_ae "rme</title>\n</gils>\n" ,
49         "<gils>\n<title>B" char_aring "d</title>\n"
50         "<abstract>זיהוי סדר הארועים בסיפור המרד הגדול מאת צביה בן-שלום 提示:直接点击数据库名称,将进入单库检索 Ngày xửa ngày xưa D.W. all wet</abstract>\n</gils>\n" ,
51         0} ;
52
53 static void tst(int argc, char **argv)
54 {
55 #if YAZ_HAVE_ICU
56     ZebraService zs = tl_start_up("test_icu_indexing.cfg", argc, argv);
57     ZebraHandle zh = zebra_open(zs, 0);
58
59     tl_check_filter(zs, "grs.xml");
60
61     YAZ_CHECK(tl_init_data(zh, myrec));
62
63     /* simple term */
64     YAZ_CHECK(tl_query(zh, "@attr 1=title notfound", 0));
65
66     YAZ_CHECK(tl_query(zh, "@attr 1=title computer", 3));
67
68     YAZ_CHECK(tl_query(zh, "@attr 5=1 @attr 1=title computer", 3));
69
70     YAZ_CHECK(tl_query(zh, "@attr 5=1 @attr 1=title compute", 3));
71
72     YAZ_CHECK(tl_query(zh, "@attr 5=1 @attr 1=title computee", 0));
73
74     YAZ_CHECK(tl_query(zh, "@attr 5=1 @attr 1=title co", 3));
75
76     YAZ_CHECK(tl_query(zh, "@attr 5=2 @attr 1=title computer", 3));
77
78     YAZ_CHECK(tl_query(zh, "@attr 5=2 @attr 1=title compute", 0));
79
80     YAZ_CHECK(tl_query(zh, "@attr 5=2 @attr 1=title er", 3));
81
82     YAZ_CHECK(tl_query(zh, "@attr 5=3 @attr 1=title computer", 3));
83
84     YAZ_CHECK(tl_query(zh, "@attr 5=3 @attr 1=title compute", 3));
85
86     YAZ_CHECK(tl_query(zh, "@attr 5=3 @attr 1=title er", 4));
87
88     YAZ_CHECK(tl_query(zh, "@attr 5=3 @attr 1=title ompute", 3));
89
90     YAZ_CHECK(tl_query(zh, "@attr 5=102 @attr 1=title com.*er", 3));
91
92     YAZ_CHECK(tl_query(zh, "@attr 5=102 @attr 1=title cm.*er", 0));
93
94     YAZ_CHECK(tl_query(zh, "@attr 5=102 @attr 1=title com.*ër", 3));
95
96     YAZ_CHECK(tl_query(zh, "@attr 5=102 @attr 1=title com?m.*er", 3));
97
98     YAZ_CHECK(tl_query(zh, "@attr 5=102 @attr 1=title coy?m.*er", 3));
99
100     YAZ_CHECK(tl_query(zh, "@attr 5=102 @attr 1=title co[m].*er", 3));
101
102     YAZ_CHECK(tl_query(zh, "@attr 5=102 @attr 1=title co[mn].*er", 3));
103
104     YAZ_CHECK(tl_query(zh, "@attr 5=102 @attr 1=title co[m-n].*er", 3));
105
106 #if 0
107     /* fails on some systems with older ICU */
108     YAZ_CHECK(tl_query(zh, "@attr 5=102 @attr 1=title co[a-z].*er", 3));
109
110     YAZ_CHECK(tl_query(zh, "@attr 5=102 @attr 1=title co[a-n].*er", 3));
111 #endif
112
113     YAZ_CHECK(tl_query(zh, "@attr 1=title com.*ër", 0));
114
115     YAZ_CHECK(tl_query(zh, "@attr 1=title @and @attr 5=102 com.*er x", 2));
116
117     YAZ_CHECK(tl_query(zh, "@attr 1=title @and x @attr 5=102 com.*er", 2));
118
119     YAZ_CHECK(tl_query(zh, "@attr 1=title .computer.", 3));
120
121     YAZ_CHECK(tl_query(zh, "@attr 1=title x", 2));
122
123     YAZ_CHECK(tl_query(zh, "@attr 1=title my", 3));
124
125     YAZ_CHECK(tl_query(zh, "@attr 1=title mY", 3));
126
127     YAZ_CHECK(tl_query(zh, char_ae "rme", 1));
128     YAZ_CHECK(tl_query(zh, char_AE "RME", 1));
129
130     YAZ_CHECK(tl_query(zh, "b" char_aring "d", 1));
131     YAZ_CHECK(tl_query(zh, "B" char_Aring "D", 1));
132     YAZ_CHECK(tl_query(zh, "b" char_aring1 "d", 1));
133     YAZ_CHECK(tl_query(zh, "B" char_Aring1 "D", 1));
134
135     YAZ_CHECK(tl_query(zh, "@attr 5=102 b" char_aring "d", 1));
136     YAZ_CHECK(tl_query(zh, "@attr 5=102 b.d", 1));
137
138     YAZ_CHECK(tl_query(zh, "@attr 5=102 " char_ae "rme", 1));
139     YAZ_CHECK(tl_query(zh, "@attr 5=102 " "..rme", 1));
140
141     /* Abstract searches . Chinese mostly */
142     YAZ_CHECK(tl_query(zh, "@attr 1=abstract בן-שלום", 1));
143     YAZ_CHECK(tl_query(zh, "@attr 1=abstract צביה", 1));
144     YAZ_CHECK(tl_query(zh, "@attr 1=abstract הגדול", 1));
145     YAZ_CHECK(tl_query(zh, "@attr 1=abstract בסיפור", 1));
146     YAZ_CHECK(tl_query(zh, "@attr 1=abstract בסיפ", 0));
147     YAZ_CHECK(tl_query(zh, "@attr 1=abstract 点", 1));
148     YAZ_CHECK(tl_query(zh, "@attr 1=abstract wet", 1));
149
150     YAZ_CHECK(tl_query(zh, "@attr 1=abstract @attr 5=1 בסיפ", 1));
151     YAZ_CHECK(tl_query(zh, "@attr 1=abstract @attr 5=1 סיפ", 0));
152     YAZ_CHECK(tl_query(zh, "@attr 1=abstract @attr 5=1 בסי", 1));
153     YAZ_CHECK(tl_query(zh, "@attr 1=abstract @attr 5=1 בס", 1));
154     YAZ_CHECK(tl_query(zh, "@attr 1=abstract @attr 5=1 ב", 1));
155
156     YAZ_CHECK(tl_query(zh, "@attr 1=abstract @attr 5=1 בן-שלום", 1));
157     /* below: should be 1, but the dash (-) is probably a problem */
158     YAZ_CHECK(tl_query(zh, "@attr 1=abstract @attr 5=102 בן-שלום", 0));
159     YAZ_CHECK(tl_query(zh, "@attr 1=abstract @attr 5=102 צביה", 1));
160
161     /* phrase search */
162     YAZ_CHECK(tl_query(zh, "@attr 1=title {my computer}", 2));
163     YAZ_CHECK(tl_query(zh, "@attr 1=title @attr 6=1 {my computer}", 2));
164     YAZ_CHECK(tl_query(zh, "@attr 1=title {computer x}", 1));
165
166     /* complete-subfield search */
167     YAZ_CHECK(tl_query(zh, "@attr 1=title @attr 6=2 {my computer}", 1));
168     YAZ_CHECK(tl_query(zh, "@attr 1=title @attr 6=2 {my}", 0));
169
170     /* always matches */
171     YAZ_CHECK(tl_query(zh, "@attr 1=_ALLRECORDS @attr 2=103 {}", 5));
172     YAZ_CHECK(tl_query(zh, "@attr 1=title @attr 2=103 {}", 5));
173     YAZ_CHECK(tl_query(zh, "@attr 1=abstract @attr 2=103 {}", 1));
174     YAZ_CHECK(tl_query(zh, "@attr 1=abstract @attr 2=103 {does not match}", 1));
175
176     /* scan */
177     {   /* word search */
178         const char *ent[] = { char_ae "rme", "B" char_aring "d", "computer",
179                               "My", "x", 0 };
180         YAZ_CHECK(tl_scan(zh, "@attr 1=title 0", 1, 10, 1, 5, 1, ent));
181     }
182
183     {   /* word search */
184         const char *ent[] = { "My", "x", 0 };
185         YAZ_CHECK(tl_scan(zh, "@attr 1=title cp", 1, 10, 1, 2, 1, ent));
186     }
187
188     {   /* phrase search */
189         const char *ent[] = { char_ae "rme", "B" char_aring "d", "My computer" };
190         YAZ_CHECK(tl_scan(zh, "@attr 1=title @attr 6=2 0", 1, 3, 1, 3, 0, ent));
191     }
192
193     YAZ_CHECK(tl_close_down(zh, zs));
194 #endif
195 }
196
197 TL_MAIN
198
199 /*
200  * Local variables:
201  * c-basic-offset: 4
202  * c-file-style: "Stroustrup"
203  * indent-tabs-mode: nil
204  * End:
205  * vim: shiftwidth=4 tabstop=8 expandtab
206  */
207