Merge branch 'master' of ssh://git.indexdata.com/home/git/pub/yaz
[yaz-moved-to-github.git] / test / tsticonv.c
1 /* This file is part of the YAZ toolkit.
2  * Copyright (C) 1995-2008 Index Data
3  * See the file LICENSE for details.
4  */
5
6 #if HAVE_CONFIG_H
7 #include <config.h>
8 #endif
9
10 #include <stdlib.h>
11 #include <errno.h>
12 #include <string.h>
13 #include <ctype.h>
14
15 #include <yaz/yaz-util.h>
16 #include <yaz/test.h>
17
18 #define ESC "\x1b"
19
20 static int compare_buffers(char *msg, int no,
21                            int expect_len, const char *expect_buf,
22                            int got_len, const char *got_buf)
23 {
24     if (expect_len == got_len
25         && !memcmp(expect_buf, got_buf, expect_len))
26         return 1;
27     
28     if (0) /* use 1 see how the buffers differ (for debug purposes) */
29     {
30         int i;
31         printf("tsticonv test=%s i=%d failed\n", msg, no);
32         printf("off got exp\n");
33         for (i = 0; i<got_len || i<expect_len; i++)
34         {
35             char got_char[10];
36             char expect_char[10];
37             
38             if (i < got_len)
39                 sprintf(got_char, "%02X", got_buf[i]);
40             else
41                 sprintf(got_char, "?  ");
42             
43             if (i < expect_len)
44                 sprintf(expect_char, "%02X", expect_buf[i]);
45             else
46                 sprintf(expect_char, "?  ");
47             
48             printf("%02d  %s  %s %c\n",
49                    i, got_char, expect_char, got_buf[i] == expect_buf[i] ?
50                    ' ' : '*');
51             
52         }
53     }
54     return 0;
55 }
56
57 static int tst_convert_l(yaz_iconv_t cd, size_t in_len, const char *in_buf,
58                          size_t expect_len, const char *expect_buf)
59 {
60     size_t r;
61     char *inbuf= (char*) in_buf;
62     size_t inbytesleft = in_len > 0 ? in_len : strlen(in_buf);
63     char outbuf0[64];
64     char *outbuf = outbuf0;
65
66     while (inbytesleft)
67     {
68         size_t outbytesleft = outbuf0 + sizeof(outbuf0) - outbuf;
69         if (outbytesleft > 12)
70             outbytesleft = 12;
71         r = yaz_iconv(cd, &inbuf, &inbytesleft, &outbuf, &outbytesleft);
72         if (r == (size_t) (-1))
73         {
74             int e = yaz_iconv_error(cd);
75             if (e != YAZ_ICONV_E2BIG)
76                 return 0;
77         }
78         else
79         {
80             yaz_iconv(cd, 0, 0, &outbuf, &outbytesleft);
81             break;
82         }
83     }
84
85     return compare_buffers("tsticonv 22", 0,
86                            expect_len, expect_buf,
87                            outbuf - outbuf0, outbuf0);
88 }
89
90 static int tst_convert_x(yaz_iconv_t cd, const char *buf, const char *cmpbuf,
91                          int expect_error)
92 {
93     int ret = 1;
94     WRBUF b = wrbuf_alloc();
95     char outbuf[16];
96     size_t inbytesleft = strlen(buf);
97     const char *inp = buf;
98     int rounds = 0;
99     for (rounds = 0; inbytesleft && rounds < sizeof(outbuf); rounds++)
100     {
101         size_t outbytesleft = sizeof(outbuf);
102         char *outp = outbuf;
103         size_t r = yaz_iconv(cd, (char**) &inp,  &inbytesleft,
104                              &outp, &outbytesleft);
105         wrbuf_write(b, outbuf, outp - outbuf);
106         if (r == (size_t) (-1))
107         {
108             int e = yaz_iconv_error(cd);
109             if (e != YAZ_ICONV_E2BIG)
110             {
111                 if (expect_error != -1)
112                     if (e != expect_error)
113                         ret = 0;
114                 break;
115             }
116         }
117         else
118         {
119             size_t outbytesleft = sizeof(outbuf);
120             char *outp = outbuf;
121             r = yaz_iconv(cd, 0, 0, &outp, &outbytesleft);
122             wrbuf_write(b, outbuf, outp - outbuf);
123             if (expect_error != -1)
124                 if (expect_error)
125                     ret = 0;
126             break;
127         }
128     }
129     if (wrbuf_len(b) == strlen(cmpbuf) 
130         && !memcmp(cmpbuf, wrbuf_buf(b), wrbuf_len(b)))
131         ;
132     else
133     {
134         WRBUF w = wrbuf_alloc();
135
136         ret = 0;
137         wrbuf_rewind(w);
138         wrbuf_puts_escaped(w, buf);
139         yaz_log(YLOG_LOG, "input %s", wrbuf_cstr(w));
140
141         wrbuf_rewind(w);
142         wrbuf_write_escaped(w, wrbuf_buf(b), wrbuf_len(b));
143         yaz_log(YLOG_LOG, "got %s", wrbuf_cstr(w));
144         
145         wrbuf_rewind(w);
146         wrbuf_puts_escaped(w, cmpbuf);
147         yaz_log(YLOG_LOG, "exp %s", wrbuf_cstr(w));
148
149         wrbuf_destroy(w);
150     }
151
152     wrbuf_destroy(b);
153     return ret;
154 }
155
156 static int tst_convert(yaz_iconv_t cd, const char *buf, const char *cmpbuf)
157 {
158     return tst_convert_x(cd, buf, cmpbuf, 0);
159 }
160
161 /* some test strings in ISO-8859-1 format */
162 static const char *iso_8859_1_a[] = {
163     "ax" ,
164     "\xd8",
165     "eneb\346r",
166     "\xe5" "\xd8",
167     "\xe5" "\xd8" "b",
168     "\xe5" "\xe5",
169     0 };
170
171 static void tst_marc8_to_ucs4b(void)
172 {
173     yaz_iconv_t cd = yaz_iconv_open("UCS4", "MARC8");
174     YAZ_CHECK(cd);
175     if (!cd)
176         return;
177     
178     YAZ_CHECK(tst_convert_l(
179                   cd,
180                   0,
181                   "\033$1" "\x21\x2B\x3B" /* FF1F */ "\033(B" "o",
182                   8, 
183                   "\x00\x00\xFF\x1F" "\x00\x00\x00o"));
184     YAZ_CHECK(tst_convert_l(
185                   cd,
186                   0,
187                   "\033$1" "\x6F\x77\x29" /* AE0E */
188                   "\x6F\x52\x7C" /* c0F4 */ "\033(B",
189                   8,
190                   "\x00\x00\xAE\x0E" "\x00\x00\xC0\xF4"));
191     YAZ_CHECK(tst_convert_l(
192                   cd,
193                   0,
194                   "\033$1"
195                   "\x21\x50\x6E"  /* UCS 7CFB */
196                   "\x21\x51\x31"  /* UCS 7D71 */
197                   "\x21\x3A\x67"  /* UCS 5B89 */
198                   "\x21\x33\x22"  /* UCS 5168 */
199                   "\x21\x33\x53"  /* UCS 5206 */
200                   "\x21\x44\x2B"  /* UCS 6790 */
201                   "\033(B",
202                   24, 
203                   "\x00\x00\x7C\xFB"
204                   "\x00\x00\x7D\x71"
205                   "\x00\x00\x5B\x89"
206                   "\x00\x00\x51\x68"
207                   "\x00\x00\x52\x06"
208                   "\x00\x00\x67\x90"));
209
210     YAZ_CHECK(tst_convert_l(
211                   cd,
212                   0,
213                   "\xB0\xB2",     /* AYN and oSLASH */
214                   8, 
215                   "\x00\x00\x02\xBB"  "\x00\x00\x00\xF8"));
216     YAZ_CHECK(tst_convert_l(
217                   cd,
218                   0,
219                   "\xF6\x61",     /* a underscore */
220                   8, 
221                   "\x00\x00\x00\x61"  "\x00\x00\x03\x32"));
222
223     YAZ_CHECK(tst_convert_l(
224                   cd,
225                   0,
226                   "\x61\xC2",     /* a, phonorecord mark */
227                   8,
228                   "\x00\x00\x00\x61"  "\x00\x00\x21\x17"));
229
230     /* bug #258 */
231     YAZ_CHECK(tst_convert_l(
232                   cd,
233                   0,
234                   "el" "\xe8" "am\xe8" "an", /* elaman where a is a" */
235                   32,
236                   "\x00\x00\x00" "e"
237                   "\x00\x00\x00" "l"
238                   "\x00\x00\x00" "a"
239                   "\x00\x00\x03\x08"
240                   "\x00\x00\x00" "m"
241                   "\x00\x00\x00" "a"
242                   "\x00\x00\x03\x08"
243                   "\x00\x00\x00" "n"));
244     /* bug #260 */
245     YAZ_CHECK(tst_convert_l(
246                   cd,
247                   0,
248                   "\xe5\xe8\x41",
249                   12, 
250                   "\x00\x00\x00\x41" "\x00\x00\x03\x04" "\x00\x00\x03\x08"));
251     /* bug #416 */
252     YAZ_CHECK(tst_convert_l(
253                   cd,
254                   0,
255                   "\xEB\x74\xEC\x73",
256                   12,
257                   "\x00\x00\x00\x74" "\x00\x00\x03\x61" "\x00\x00\x00\x73"));
258     /* bug #416 */
259     YAZ_CHECK(tst_convert_l(
260                   cd,
261                   0,
262                   "\xFA\x74\xFB\x73",
263                   12, 
264                   "\x00\x00\x00\x74" "\x00\x00\x03\x60" "\x00\x00\x00\x73"));
265
266     yaz_iconv_close(cd);
267 }
268
269 static void tst_ucs4b_to_utf8(void)
270 {
271     yaz_iconv_t cd = yaz_iconv_open("UTF8", "UCS4");
272     YAZ_CHECK(cd);
273     if (!cd)
274         return;
275     YAZ_CHECK(tst_convert_l(
276                   cd,
277                   8,
278                   "\x00\x00\xFF\x1F\x00\x00\x00o",
279                   4,
280                   "\xEF\xBC\x9F\x6F"));
281
282     YAZ_CHECK(tst_convert_l(
283                   cd,
284                   8, 
285                   "\x00\x00\xAE\x0E\x00\x00\xC0\xF4",
286                   6,
287                   "\xEA\xB8\x8E\xEC\x83\xB4"));
288     yaz_iconv_close(cd);
289 }
290
291 static void dconvert(int mandatory, const char *tmpcode)
292 {
293     int i;
294     int ret;
295     yaz_iconv_t cd;
296     for (i = 0; iso_8859_1_a[i]; i++)
297     {
298         size_t r;
299         char *inbuf = (char*) iso_8859_1_a[i];
300         size_t inbytesleft = strlen(inbuf);
301         char outbuf0[24];
302         char outbuf1[10];
303         char *outbuf = outbuf0;
304         size_t outbytesleft = sizeof(outbuf0);
305
306         cd = yaz_iconv_open(tmpcode, "ISO-8859-1");
307         YAZ_CHECK(cd || !mandatory);
308         if (!cd)
309             return;
310         r = yaz_iconv(cd, &inbuf, &inbytesleft, &outbuf, &outbytesleft);
311         YAZ_CHECK(r != (size_t) (-1));
312
313         r = yaz_iconv(cd, 0, 0, &outbuf, &outbytesleft);
314         YAZ_CHECK(r != (size_t) (-1));
315         yaz_iconv_close(cd);
316         if (r == (size_t) (-1))
317             return;
318         
319         cd = yaz_iconv_open("ISO-8859-1", tmpcode);
320         YAZ_CHECK(cd || !mandatory);
321         if (!cd)
322             return;
323         inbuf = outbuf0;
324         inbytesleft = sizeof(outbuf0) - outbytesleft;
325
326         outbuf = outbuf1;
327         outbytesleft = sizeof(outbuf1);
328         r = yaz_iconv(cd, &inbuf, &inbytesleft, &outbuf, &outbytesleft);
329         YAZ_CHECK(r != (size_t) (-1));
330
331         r = yaz_iconv(cd, 0, 0, &outbuf, &outbytesleft);
332         if (r == (size_t)(-1))
333         {
334             fprintf(stderr, "failed\n");
335         }
336         YAZ_CHECK(r != (size_t) (-1));
337
338         if (r != (size_t)(-1)) 
339         {
340             ret = compare_buffers("dconvert", i,
341                                   strlen(iso_8859_1_a[i]), iso_8859_1_a[i],
342                                   sizeof(outbuf1) - outbytesleft, outbuf1);
343             YAZ_CHECK(ret);
344         }
345         yaz_iconv_close(cd);
346     }
347 }
348
349 int utf8_check(unsigned c)
350 {
351     if (sizeof(c) >= 4)
352     {
353         size_t r;
354         char src[4];
355         char dst[4];
356         char utf8buf[6];
357         char *inbuf = src;
358         size_t inbytesleft = 4;
359         char *outbuf = utf8buf;
360         size_t outbytesleft = sizeof(utf8buf);
361         int i;
362         yaz_iconv_t cd = yaz_iconv_open("UTF-8", "UCS4LE");
363         if (!cd)
364             return 0;
365         for (i = 0; i<4; i++)
366             src[i] = c >> (i*8);
367         
368         r = yaz_iconv(cd, &inbuf, &inbytesleft, &outbuf, &outbytesleft);
369         yaz_iconv_close(cd);
370
371         if (r == (size_t)(-1))
372             return 0;
373
374         cd = yaz_iconv_open("UCS4LE", "UTF-8");
375         if (!cd)
376             return 0;
377         inbytesleft = sizeof(utf8buf) - outbytesleft;
378         inbuf = utf8buf;
379
380         outbuf = dst;
381         outbytesleft = 4;
382
383         r = yaz_iconv(cd, &inbuf, &inbytesleft, &outbuf, &outbytesleft);
384         if (r == (size_t)(-1))
385             return 0;
386
387         yaz_iconv_close(cd);
388
389         if (memcmp(src, dst, 4))
390             return 0;
391     }
392     return 1;
393 }
394         
395 static void tst_marc8_to_utf8(void)
396 {
397     yaz_iconv_t cd = yaz_iconv_open("UTF-8", "MARC8");
398
399     YAZ_CHECK(cd);
400     if (!cd)
401         return;
402
403     YAZ_CHECK(tst_convert(cd, "Cours de math", 
404                           "Cours de math"));
405     /* COMBINING ACUTE ACCENT */
406     YAZ_CHECK(tst_convert(cd, "Cours de mathâe", 
407                           "Cours de mathe\xcc\x81"));
408
409     YAZ_CHECK(tst_convert(cd, "\xea" "a", "a\xcc\x8a"));
410     YAZ_CHECK(tst_convert(cd, "a" "\xea" "\x1e", "a" "\x1e\xcc\x8a"));
411     YAZ_CHECK(tst_convert(cd, "a" "\xea" "p", "a" "p\xcc\x8a"));
412
413     YAZ_CHECK(tst_convert_x(cd, "a\xea", "a", YAZ_ICONV_EINVAL));
414     YAZ_CHECK(tst_convert(cd, "p", "\xcc\x8a")); /* note: missing p */
415     yaz_iconv(cd, 0, 0, 0, 0);     /* incomplete. so we have to reset */
416
417     /* bug #2115 */
418     YAZ_CHECK(tst_convert(cd, ESC "(N" ESC ")Qp" ESC "(B", "\xd0\x9f"));
419
420     YAZ_CHECK(tst_convert_x(cd, ESC , "", YAZ_ICONV_EINVAL));
421     YAZ_CHECK(tst_convert_x(cd, ESC "(", "", YAZ_ICONV_EINVAL));
422     YAZ_CHECK(tst_convert_x(cd, ESC "(B", "", 0));
423
424     YAZ_CHECK(tst_convert(cd, ESC "(B" "\x31", "1"));  /* ASCII in G0 */
425     YAZ_CHECK(tst_convert(cd, ESC ")B" "\xB1", "1"));  /* ASCII in G1 */
426
427     yaz_iconv_close(cd);
428 }
429
430 static void tst_marc8s_to_utf8(void)
431 {
432     yaz_iconv_t cd = yaz_iconv_open("UTF-8", "MARC8s");
433
434     YAZ_CHECK(cd);
435     if (!cd)
436         return;
437
438     YAZ_CHECK(tst_convert(cd, "Cours de math", 
439                           "Cours de math"));
440     /* E9: LATIN SMALL LETTER E WITH ACUTE */
441     YAZ_CHECK(tst_convert(cd, "Cours de mathâe", 
442                           "Cours de math\xc3\xa9"));
443
444     yaz_iconv_close(cd);
445 }
446
447
448 static void tst_marc8_to_latin1(void)
449 {
450     yaz_iconv_t cd = yaz_iconv_open("ISO-8859-1", "MARC8");
451
452     YAZ_CHECK(cd);
453     if (!cd)
454         return;
455
456     YAZ_CHECK(tst_convert(cd, "ax", "ax"));
457
458     /* latin capital letter o with stroke */
459     YAZ_CHECK(tst_convert(cd, "\xa2", "\xd8"));
460
461     /* with latin small letter ae */
462     YAZ_CHECK(tst_convert(cd, "eneb\xb5r", "eneb\346r"));
463
464     YAZ_CHECK(tst_convert(cd, "\xea" "a\xa2", "\xe5" "\xd8"));
465
466     YAZ_CHECK(tst_convert(cd, "\xea" "a\xa2" "b", "\xe5" "\xd8" "b"));
467
468     YAZ_CHECK(tst_convert(cd, "\xea" "a"  "\xea" "a", "\xe5" "\xe5"));
469
470     YAZ_CHECK(tst_convert(cd, "Cours de math", 
471                           "Cours de math"));
472     YAZ_CHECK(tst_convert(cd, "Cours de mathâe", 
473                           "Cours de mathé"));
474     YAZ_CHECK(tst_convert(cd, "12345678âe", 
475                           "12345678é"));
476     YAZ_CHECK(tst_convert(cd, "123456789âe", 
477                           "123456789é"));
478     YAZ_CHECK(tst_convert(cd, "1234567890âe", 
479                           "1234567890é"));
480     YAZ_CHECK(tst_convert(cd, "12345678901âe", 
481                           "12345678901é"));
482     YAZ_CHECK(tst_convert(cd, "Cours de mathâem", 
483                           "Cours de mathém"));
484     YAZ_CHECK(tst_convert(cd, "Cours de mathâematiques", 
485                           "Cours de mathématiques"));
486
487     yaz_iconv_close(cd);
488 }
489
490 static void tst_utf8_to_marc8(const char *marc8_type)
491 {
492     yaz_iconv_t cd = yaz_iconv_open(marc8_type, "UTF-8");
493
494     YAZ_CHECK(cd);
495     if (!cd)
496         return;
497
498     YAZ_CHECK(tst_convert(cd, "Cours ", "Cours "));
499
500     /** Pure ASCII. 11 characters (sizeof(outbuf)-1) */
501     YAZ_CHECK(tst_convert(cd, "Cours de mat", "Cours de mat"));
502
503     /** Pure ASCII. 12 characters (sizeof(outbuf)) */
504     YAZ_CHECK(tst_convert(cd, "Cours de math", "Cours de math"));
505
506     /** Pure ASCII. 13 characters (sizeof(outbuf)+1) */
507     YAZ_CHECK(tst_convert(cd, "Cours de math.", "Cours de math."));
508
509     /** UPPERCASE SCANDINAVIAN O */
510     YAZ_CHECK(tst_convert(cd, "S\xc3\x98", "S\xa2"));
511
512     /** ARING */
513     YAZ_CHECK(tst_convert(cd, "A" "\xCC\x8A", "\xEA" "A"));
514
515     /** A MACRON + UMLAUT, DIAERESIS */
516     YAZ_CHECK(tst_convert(cd, "A" "\xCC\x84" "\xCC\x88",
517                           "\xE5\xE8\x41"));
518     
519     /* Ligature spanning two characters */
520     YAZ_CHECK(tst_convert(cd,
521                           "\x74" "\xCD\xA1" "\x73",  /* UTF-8 */
522                           "\xEB\x74\xEC\x73"));      /* MARC-8 */
523
524     /* Double title spanning two characters */
525     YAZ_CHECK(tst_convert(cd,
526                           "\x74" "\xCD\xA0" "\x73",  /* UTF-8 */
527                           "\xFA\x74\xFB\x73"));      /* MARC-8 */
528
529     /** Ideographic question mark (Unicode FF1F) */
530     YAZ_CHECK(tst_convert(cd,
531                           "\xEF\xBC\x9F" "o",        /* UTF-8 */
532                           "\033$1" "\x21\x2B\x3B" "\033(B" "o" ));
533
534
535     /** Ideographic space per ANSI Z39.64 */
536     YAZ_CHECK(tst_convert(cd,
537                           "\xe3\x80\x80" "o",        /* UTF-8 */
538                           "\033$1" "\x21\x23\x21" "\033(B" "o" ));
539
540     /** Superscript 0 . bug #642 */
541     YAZ_CHECK(tst_convert(cd,
542                           "(\xe2\x81\xb0)",        /* UTF-8 */
543                           "(\033p0\x1bs)"));
544     
545     
546     /** bug #1778 */
547     YAZ_CHECK(tst_convert(cd,
548                           /* offset 0x530 in UTF-8 rec marccol4.u8.marc */
549                           "\xE3\x83\xB3" "\xE3\x82\xBF" 
550                           "\xCC\x84" "\xCC\x84" "\xE3\x83\xBC" /* UTF-8 */,
551                           "\x1B\x24\x31" "\x69\x25\x73"
552                           "\x1B\x28\x42" "\xE5\xE5" "\x1B\x24\x31" 
553                           "\x69\x25\x3F"
554                           "\x69\x21\x3C" "\x1B\x28\x42"));
555
556     
557     /** bug #2120 */
558     YAZ_CHECK(tst_convert(cd, 
559                           "\xCE\x94\xCE\xB5\xCF\x84"
560                           "\xCE\xBF\xCF\x81\xCE\xB1"
561                           "\xCE\xBA\xCE\xB7\xCF\x82\x2C",
562
563                           "\x1B\x28\x53\x45\x66\x78\x72\x75"
564                           "\x61\x6D\x6A\x77"
565                           "\x1B\x28\x42\x2C"
566                   ));
567  
568     {
569         char *inbuf0 = "\xe2\x81\xb0";
570         char *inbuf = inbuf0;
571         size_t inbytesleft = strlen(inbuf);
572         char outbuf0[64];
573         char *outbuf = outbuf0;
574         size_t outbytesleft = sizeof(outbuf0)-1;
575         size_t r;
576 #if 0
577         int i;
578 #endif
579         r = yaz_iconv(cd, &inbuf, &inbytesleft, &outbuf, &outbytesleft);
580         YAZ_CHECK(r != (size_t) (-1));
581
582 #if 0
583         *outbuf = '\0';  /* so we know when to stop printing */
584         for (i = 0; outbuf0[i]; i++)
585         {
586             int ch = outbuf0[i] & 0xff;
587             yaz_log(YLOG_LOG, "ch%d %02X %c", i, ch, ch >= ' ' ? ch : '?');
588         }
589 #endif
590
591         r = yaz_iconv(cd, 0, 0, &outbuf, &outbytesleft);
592         YAZ_CHECK(r != (size_t) (-1));
593         *outbuf = '\0';  /* for strcmp test below and printing */
594 #if 0
595         for (i = 0; outbuf0[i]; i++)
596         {
597             int ch = outbuf0[i] & 0xff;
598             yaz_log(YLOG_LOG, "ch%d %02X %c", i, ch, ch >= ' ' ? ch : '?');
599         }
600 #endif
601         YAZ_CHECK(strcmp("\033p0\x1bs", outbuf0) == 0);
602     }
603     yaz_iconv(cd, 0, 0, 0, 0);
604     yaz_iconv_close(cd);
605 }
606
607 static void tst_advance_to_utf8(void)
608 {
609     yaz_iconv_t cd = yaz_iconv_open("utf-8", "advancegreek");
610
611     YAZ_CHECK(cd);
612     if (!cd)
613         return;
614
615     YAZ_CHECK(tst_convert(cd, "Cours ", "Cours "));
616     yaz_iconv_close(cd);
617 }
618
619 static void tst_utf8_to_advance(void)
620 {
621     yaz_iconv_t cd = yaz_iconv_open("advancegreek", "utf-8");
622
623     YAZ_CHECK(cd);
624     if (!cd)
625         return;
626
627     YAZ_CHECK(tst_convert(cd, "Cours ", "Cours "));
628     yaz_iconv_close(cd);
629 }
630
631 static void tst_latin1_to_marc8(void)
632 {
633     yaz_iconv_t cd = yaz_iconv_open("MARC8", "ISO-8859-1");
634
635     YAZ_CHECK(cd);
636     if (!cd)
637         return;
638
639     YAZ_CHECK(tst_convert(cd, "Cours ", "Cours "));
640
641     /** Pure ASCII. 11 characters (sizeof(outbuf)-1) */
642     YAZ_CHECK(tst_convert(cd, "Cours de mat", "Cours de mat"));
643
644     /** Pure ASCII. 12 characters (sizeof(outbuf)) */
645     YAZ_CHECK(tst_convert(cd, "Cours de math", "Cours de math"));
646
647     /** Pure ASCII. 13 characters (sizeof(outbuf)) */
648     YAZ_CHECK(tst_convert(cd, "Cours de math.", "Cours de math."));
649
650     /** D8: UPPERCASE SCANDINAVIAN O */
651     YAZ_CHECK(tst_convert(cd, "S\xd8", "S\xa2"));
652
653     /** E9: LATIN SMALL LETTER E WITH ACUTE */
654     YAZ_CHECK(tst_convert(cd, "Cours de math\xe9", "Cours de mathâe"));
655     YAZ_CHECK(tst_convert(cd, "Cours de math", "Cours de math"
656                   ));
657     YAZ_CHECK(tst_convert(cd, "Cours de mathé", "Cours de mathâe" ));
658     YAZ_CHECK(tst_convert(cd, "12345678é","12345678âe"));
659     YAZ_CHECK(tst_convert(cd, "123456789é", "123456789âe"));
660     YAZ_CHECK(tst_convert(cd, "1234567890é","1234567890âe"));
661     YAZ_CHECK(tst_convert(cd, "12345678901é", "12345678901âe"));
662     YAZ_CHECK(tst_convert(cd, "Cours de mathém", "Cours de mathâem"));
663     YAZ_CHECK(tst_convert(cd, "Cours de mathématiques",
664                           "Cours de mathâematiques"));
665     yaz_iconv_close(cd);
666 }
667
668 static void tst_utf8_codes(void)
669 {
670     YAZ_CHECK(utf8_check(3));
671     YAZ_CHECK(utf8_check(127));
672     YAZ_CHECK(utf8_check(128));
673     YAZ_CHECK(utf8_check(255));
674     YAZ_CHECK(utf8_check(256));
675     YAZ_CHECK(utf8_check(900));
676     YAZ_CHECK(utf8_check(1000));
677     YAZ_CHECK(utf8_check(10000));
678     YAZ_CHECK(utf8_check(100000));
679     YAZ_CHECK(utf8_check(1000000));
680     YAZ_CHECK(utf8_check(10000000));
681     YAZ_CHECK(utf8_check(100000000));
682 }
683
684 static void tst_danmarc_to_latin1(void)
685 {
686     yaz_iconv_t cd = yaz_iconv_open("iso-8859-1", "danmarc");
687
688     YAZ_CHECK(cd);
689     if (!cd)
690         return;
691
692     YAZ_CHECK(tst_convert(cd, "ax", "ax"));
693
694     YAZ_CHECK(tst_convert(cd, "a@@b", "a@b"));
695     YAZ_CHECK(tst_convert(cd, "a@@@@b", "a@@b"));
696     YAZ_CHECK(tst_convert(cd, "@000ab", "\nb"));
697
698     YAZ_CHECK(tst_convert(cd, "@\xe5", "aa"));
699     YAZ_CHECK(tst_convert(cd, "@\xc5.", "Aa."));
700     
701     yaz_iconv_close(cd);
702 }
703
704
705 int main (int argc, char **argv)
706 {
707     YAZ_CHECK_INIT(argc, argv);
708
709     tst_utf8_codes();
710
711     tst_marc8_to_utf8();
712
713     tst_marc8s_to_utf8();
714
715     tst_marc8_to_latin1();
716
717     tst_advance_to_utf8();
718     tst_utf8_to_advance();
719
720     tst_utf8_to_marc8("marc8");
721     tst_utf8_to_marc8("marc8lossy");
722     tst_utf8_to_marc8("marc8lossless");
723
724     tst_danmarc_to_latin1();
725
726     tst_latin1_to_marc8();
727
728     tst_marc8_to_ucs4b();
729     tst_ucs4b_to_utf8();
730
731     dconvert(1, "UTF-8");
732     dconvert(1, "ISO-8859-1");
733     dconvert(1, "UCS4");
734     dconvert(1, "UCS4LE");
735     dconvert(0, "CP865");
736
737     YAZ_CHECK_TERM;
738 }
739 /*
740  * Local variables:
741  * c-basic-offset: 4
742  * indent-tabs-mode: nil
743  * End:
744  * vim: shiftwidth=4 tabstop=8 expandtab
745  */