src/icu_I18N.c

   1 /* This file is part of the YAZ toolkit.
   2  * Copyright (C) 1995-2009 Index Data
   3  * See the file LICENSE for details.
   4  */
   5
   6 /**
   7  * \file icu_I18N.c
   8  * \brief ICU utilities
   9  */
  10
  11 #if HAVE_CONFIG_H
  12 #include "config.h"
  13 #endif
  14
  15 #define USE_TIMING 0
  16 #if USE_TIMING
  17 #include <yaz/timing.h>
  18 #endif
  19
  20 #if YAZ_HAVE_ICU
  21 #include <yaz/xmalloc.h>
  22
  23 #include <yaz/icu_I18N.h>
  24
  25 #include <yaz/log.h>
  26
  27 #include <string.h>
  28 #include <stdlib.h>
  29 #include <stdio.h>
  30
  31 #include <unicode/ustring.h>  /* some more string fcns*/
  32 #include <unicode/uchar.h>    /* char names           */
  33 #include <unicode/ucol.h>
  34
  35 int icu_check_status(UErrorCode status)
  36 {
  37     if (U_FAILURE(status))
  38     {
  39         yaz_log(YLOG_WARN, "ICU: %d %s\n", status, u_errorName(status));
  40         return 0;
  41     }
  42     return 1;
  43 }
  44
  45 struct icu_buf_utf16 * icu_buf_utf16_create(size_t capacity)
  46 {
  47     struct icu_buf_utf16 * buf16
  48         = (struct icu_buf_utf16 *) xmalloc(sizeof(struct icu_buf_utf16));
  49
  50     buf16->utf16 = 0;
  51     buf16->utf16_len = 0;
  52     buf16->utf16_cap = 0;
  53
  54     if (capacity > 0)
  55     {
  56         buf16->utf16 = (UChar *) xmalloc(sizeof(UChar) * capacity);
  57         buf16->utf16[0] = (UChar) 0;
  58         buf16->utf16_cap = capacity;
  59     }
  60     return buf16;
  61 }
  62
  63 struct icu_buf_utf16 * icu_buf_utf16_clear(struct icu_buf_utf16 * buf16)
  64 {
  65     if (buf16)
  66     {
  67         if (buf16->utf16)
  68             buf16->utf16[0] = (UChar) 0;
  69         buf16->utf16_len = 0;
  70     }
  71     return buf16;
  72 }
  73
  74 struct icu_buf_utf16 * icu_buf_utf16_resize(struct icu_buf_utf16 * buf16,
  75                                             size_t capacity)
  76 {
  77     if (!buf16)
  78         return 0;
  79
  80     if (capacity >  0)
  81     {
  82         if (0 == buf16->utf16)
  83             buf16->utf16 = (UChar *) xmalloc(sizeof(UChar) * capacity);
  84         else
  85             buf16->utf16
  86                 = (UChar *) xrealloc(buf16->utf16, sizeof(UChar) * capacity);
  87
  88         icu_buf_utf16_clear(buf16);
  89         buf16->utf16_cap = capacity;
  90     }
  91     else
  92     {
  93         xfree(buf16->utf16);
  94         buf16->utf16 = 0;
  95         buf16->utf16_len = 0;
  96         buf16->utf16_cap = 0;
  97     }
  98
  99     return buf16;
 100 }
 101
 102
 103 struct icu_buf_utf16 * icu_buf_utf16_copy(struct icu_buf_utf16 * dest16,
 104                                           struct icu_buf_utf16 * src16)
 105 {
 106     if (!dest16 || !src16 || dest16 == src16)
 107         return 0;
 108
 109     if (dest16->utf16_cap < src16->utf16_len)
 110         icu_buf_utf16_resize(dest16, src16->utf16_len * 2);
 111
 112     u_strncpy(dest16->utf16, src16->utf16, src16->utf16_len);
 113     dest16->utf16_len = src16->utf16_len;
 114
 115     return dest16;
 116 }
 117
 118 void icu_buf_utf16_destroy(struct icu_buf_utf16 * buf16)
 119 {
 120     if (buf16)
 121         xfree(buf16->utf16);
 122     xfree(buf16);
 123 }
 124
 125 struct icu_buf_utf8 * icu_buf_utf8_create(size_t capacity)
 126 {
 127     struct icu_buf_utf8 * buf8
 128         = (struct icu_buf_utf8 *) xmalloc(sizeof(struct icu_buf_utf8));
 129
 130     buf8->utf8 = 0;
 131     buf8->utf8_len = 0;
 132     buf8->utf8_cap = 0;
 133
 134     if (capacity > 0)
 135     {
 136         buf8->utf8 = (uint8_t *) xmalloc(sizeof(uint8_t) * capacity);
 137         buf8->utf8[0] = (uint8_t) 0;
 138         buf8->utf8_cap = capacity;
 139     }
 140     return buf8;
 141 }
 142
 143 struct icu_buf_utf8 * icu_buf_utf8_clear(struct icu_buf_utf8 * buf8)
 144 {
 145     if (buf8)
 146     {
 147         if (buf8->utf8)
 148             buf8->utf8[0] = (uint8_t) 0;
 149         buf8->utf8_len = 0;
 150     }
 151     return buf8;
 152 }
 153
 154 struct icu_buf_utf8 * icu_buf_utf8_resize(struct icu_buf_utf8 * buf8,
 155                                           size_t capacity)
 156 {
 157     if (!buf8)
 158         return 0;
 159
 160     if (capacity >  0){
 161         if (0 == buf8->utf8)
 162             buf8->utf8 = (uint8_t *) xmalloc(sizeof(uint8_t) * capacity);
 163         else
 164             buf8->utf8
 165                 = (uint8_t *) xrealloc(buf8->utf8, sizeof(uint8_t) * capacity);
 166
 167         buf8->utf8_cap = capacity;
 168     }
 169     else {
 170         xfree(buf8->utf8);
 171         buf8->utf8 = 0;
 172         buf8->utf8_len = 0;
 173         buf8->utf8_cap = 0;
 174     }
 175
 176     return buf8;
 177 }
 178
 179 const char *icu_buf_utf8_to_cstr(struct icu_buf_utf8 *src8)
 180 {
 181     if (!src8 || src8->utf8_len == 0)
 182         return "";
 183
 184     if (src8->utf8_len == src8->utf8_cap)
 185         src8 = icu_buf_utf8_resize(src8, src8->utf8_len * 2 + 1);
 186
 187     src8->utf8[src8->utf8_len] = '\0';
 188
 189     return (const char *) src8->utf8;
 190 }
 191
 192 void icu_buf_utf8_destroy(struct icu_buf_utf8 * buf8)
 193 {
 194     if (buf8)
 195         xfree(buf8->utf8);
 196     xfree(buf8);
 197 }
 198
 199 UErrorCode icu_utf16_from_utf8_cstr(struct icu_buf_utf16 * dest16,
 200                                     const char * src8cstr,
 201                                     UErrorCode * status)
 202 {
 203     size_t src8cstr_len = 0;
 204     int32_t utf16_len = 0;
 205
 206     *status = U_ZERO_ERROR;
 207     src8cstr_len = strlen(src8cstr);
 208
 209     u_strFromUTF8(dest16->utf16, dest16->utf16_cap,
 210                   &utf16_len,
 211                   src8cstr, src8cstr_len, status);
 212
 213     /* check for buffer overflow, resize and retry */
 214     if (*status == U_BUFFER_OVERFLOW_ERROR)
 215     {
 216         icu_buf_utf16_resize(dest16, utf16_len * 2);
 217         *status = U_ZERO_ERROR;
 218         u_strFromUTF8(dest16->utf16, dest16->utf16_cap,
 219                       &utf16_len,
 220                       src8cstr, src8cstr_len, status);
 221     }
 222
 223     if (U_SUCCESS(*status)
 224         && utf16_len <= dest16->utf16_cap)
 225         dest16->utf16_len = utf16_len;
 226     else
 227         icu_buf_utf16_clear(dest16);
 228
 229     return *status;
 230 }
 231
 232 UErrorCode icu_utf16_to_utf8(struct icu_buf_utf8 * dest8,
 233                              struct icu_buf_utf16 * src16,
 234                              UErrorCode * status)
 235 {
 236     int32_t utf8_len = 0;
 237
 238     u_strToUTF8((char *) dest8->utf8, dest8->utf8_cap,
 239                 &utf8_len,
 240                 src16->utf16, src16->utf16_len, status);
 241
 242     /* check for buffer overflow, resize and retry */
 243     if (*status == U_BUFFER_OVERFLOW_ERROR)
 244     {
 245         icu_buf_utf8_resize(dest8, utf8_len * 2);
 246         *status = U_ZERO_ERROR;
 247         u_strToUTF8((char *) dest8->utf8, dest8->utf8_cap,
 248                     &utf8_len,
 249                     src16->utf16, src16->utf16_len, status);
 250     }
 251
 252     if (U_SUCCESS(*status)
 253         && utf8_len <= dest8->utf8_cap)
 254         dest8->utf8_len = utf8_len;
 255     else
 256         icu_buf_utf8_clear(dest8);
 257
 258     return *status;
 259 }
 260
 261
 262
 263 struct icu_casemap * icu_casemap_create(char action, UErrorCode *status)
 264 {
 265     struct icu_casemap * casemap
 266         = (struct icu_casemap *) xmalloc(sizeof(struct icu_casemap));
 267     casemap->action = action;
 268
 269     switch(casemap->action)
 270     {
 271     case 'l':
 272     case 'L':
 273     case 'u':
 274     case 'U':
 275     case 't':
 276     case 'T':
 277     case 'f':
 278     case 'F':
 279         break;
 280     default:
 281         icu_casemap_destroy(casemap);
 282         return 0;
 283     }
 284     return casemap;
 285 }
 286
 287 void icu_casemap_destroy(struct icu_casemap * casemap)
 288 {
 289     xfree(casemap);
 290 }
 291
 292 int icu_casemap_casemap(struct icu_casemap * casemap,
 293                         struct icu_buf_utf16 * dest16,
 294                         struct icu_buf_utf16 * src16,
 295                         UErrorCode *status,
 296                         const char *locale)
 297 {
 298     if(!casemap)
 299         return 0;
 300
 301     return icu_utf16_casemap(dest16, src16, locale,
 302                              casemap->action, status);
 303 }
 304
 305 int icu_utf16_casemap(struct icu_buf_utf16 * dest16,
 306                       struct icu_buf_utf16 * src16,
 307                       const char *locale, char action,
 308                       UErrorCode *status)
 309 {
 310     int32_t dest16_len = 0;
 311
 312     if (!src16->utf16_len)
 313     {           /* guarding for empty source string */
 314         if (dest16->utf16)
 315             dest16->utf16[0] = (UChar) 0;
 316         dest16->utf16_len = 0;
 317         return U_ZERO_ERROR;
 318     }
 319
 320     switch(action)
 321     {
 322     case 'l':
 323     case 'L':
 324         dest16_len = u_strToLower(dest16->utf16, dest16->utf16_cap,
 325                                   src16->utf16, src16->utf16_len,
 326                                   locale, status);
 327         break;
 328     case 'u':
 329     case 'U':
 330         dest16_len = u_strToUpper(dest16->utf16, dest16->utf16_cap,
 331                                   src16->utf16, src16->utf16_len,
 332                                   locale, status);
 333         break;
 334     case 't':
 335     case 'T':
 336         dest16_len = u_strToTitle(dest16->utf16, dest16->utf16_cap,
 337                                   src16->utf16, src16->utf16_len,
 338                                   0, locale, status);
 339         break;
 340     case 'f':
 341     case 'F':
 342         dest16_len = u_strFoldCase(dest16->utf16, dest16->utf16_cap,
 343                                    src16->utf16, src16->utf16_len,
 344                                    U_FOLD_CASE_DEFAULT, status);
 345         break;
 346
 347     default:
 348         return U_UNSUPPORTED_ERROR;
 349         break;
 350     }
 351
 352     /* check for buffer overflow, resize and retry */
 353     if (*status == U_BUFFER_OVERFLOW_ERROR
 354         && dest16 != src16        /* do not resize if in-place conversion */
 355         )
 356     {
 357         icu_buf_utf16_resize(dest16, dest16_len * 2);
 358         *status = U_ZERO_ERROR;
 359
 360         switch(action) {
 361         case 'l':
 362         case 'L':
 363             dest16_len = u_strToLower(dest16->utf16, dest16->utf16_cap,
 364                                       src16->utf16, src16->utf16_len,
 365                                       locale, status);
 366             break;
 367         case 'u':
 368         case 'U':
 369             dest16_len = u_strToUpper(dest16->utf16, dest16->utf16_cap,
 370                                       src16->utf16, src16->utf16_len,
 371                                       locale, status);
 372             break;
 373         case 't':
 374         case 'T':
 375             dest16_len = u_strToTitle(dest16->utf16, dest16->utf16_cap,
 376                                       src16->utf16, src16->utf16_len,
 377                                       0, locale, status);
 378             break;
 379         case 'f':
 380         case 'F':
 381             dest16_len = u_strFoldCase(dest16->utf16, dest16->utf16_cap,
 382                                        src16->utf16, src16->utf16_len,
 383                                        U_FOLD_CASE_DEFAULT, status);
 384             break;
 385
 386         default:
 387             return U_UNSUPPORTED_ERROR;
 388             break;
 389         }
 390     }
 391
 392     if (U_SUCCESS(*status)
 393         && dest16_len <= dest16->utf16_cap)
 394         dest16->utf16_len = dest16_len;
 395     else
 396     {
 397         if (dest16->utf16)
 398             dest16->utf16[0] = (UChar) 0;
 399         dest16->utf16_len = 0;
 400     }
 401
 402     return *status;
 403 }
 404
 405 void icu_sortkey8_from_utf16(UCollator *coll,
 406                              struct icu_buf_utf8 * dest8,
 407                              struct icu_buf_utf16 * src16,
 408                              UErrorCode * status)
 409 {
 410     int32_t sortkey_len = 0;
 411
 412     sortkey_len = ucol_getSortKey(coll, src16->utf16, src16->utf16_len,
 413                                   dest8->utf8, dest8->utf8_cap);
 414
 415     /* check for buffer overflow, resize and retry */
 416     if (sortkey_len > dest8->utf8_cap)
 417     {
 418         icu_buf_utf8_resize(dest8, sortkey_len * 2);
 419         sortkey_len = ucol_getSortKey(coll, src16->utf16, src16->utf16_len,
 420                                       dest8->utf8, dest8->utf8_cap);
 421     }
 422
 423     if (U_SUCCESS(*status)
 424         && sortkey_len > 0)
 425         dest8->utf8_len = sortkey_len;
 426     else
 427         icu_buf_utf8_clear(dest8);
 428 }
 429
 430
 431
 432 struct icu_tokenizer * icu_tokenizer_create(const char *locale, char action,
 433                                             UErrorCode *status)
 434 {
 435     struct icu_tokenizer * tokenizer
 436         = (struct icu_tokenizer *) xmalloc(sizeof(struct icu_tokenizer));
 437
 438     tokenizer->action = action;
 439     tokenizer->bi = 0;
 440     tokenizer->buf16 = 0;
 441     tokenizer->token_count = 0;
 442     tokenizer->token_id = 0;
 443     tokenizer->token_start = 0;
 444     tokenizer->token_end = 0;
 445
 446     switch(tokenizer->action)
 447     {
 448     case 'l':
 449     case 'L':
 450         tokenizer->bi = ubrk_open(UBRK_LINE, locale, 0, 0, status);
 451         break;
 452     case 's':
 453     case 'S':
 454         tokenizer->bi = ubrk_open(UBRK_SENTENCE, locale, 0, 0, status);
 455         break;
 456     case 'w':
 457     case 'W':
 458         tokenizer->bi = ubrk_open(UBRK_WORD, locale, 0, 0, status);
 459         break;
 460     case 'c':
 461     case 'C':
 462         tokenizer->bi = ubrk_open(UBRK_CHARACTER, locale, 0, 0, status);
 463         break;
 464     case 't':
 465     case 'T':
 466         tokenizer->bi = ubrk_open(UBRK_TITLE, locale, 0, 0, status);
 467         break;
 468     default:
 469         *status = U_UNSUPPORTED_ERROR;
 470         return 0;
 471         break;
 472     }
 473
 474     /* ICU error stuff is a very  funny business */
 475     if (U_SUCCESS(*status))
 476         return tokenizer;
 477
 478     /* freeing if failed */
 479     icu_tokenizer_destroy(tokenizer);
 480     return 0;
 481 }
 482
 483 void icu_tokenizer_destroy(struct icu_tokenizer * tokenizer)
 484 {
 485     if (tokenizer) {
 486         if (tokenizer->bi)
 487             ubrk_close(tokenizer->bi);
 488         xfree(tokenizer);
 489     }
 490 }
 491
 492 int icu_tokenizer_attach(struct icu_tokenizer * tokenizer,
 493                          struct icu_buf_utf16 * src16,
 494                          UErrorCode *status)
 495 {
 496     if (!tokenizer || !tokenizer->bi || !src16)
 497         return 0;
 498
 499     tokenizer->buf16 = src16;
 500     tokenizer->token_count = 0;
 501     tokenizer->token_id = 0;
 502     tokenizer->token_start = 0;
 503     tokenizer->token_end = 0;
 504
 505     ubrk_setText(tokenizer->bi, src16->utf16, src16->utf16_len, status);
 506
 507     if (U_FAILURE(*status))
 508         return 0;
 509
 510     return 1;
 511 };
 512
 513 int32_t icu_tokenizer_next_token(struct icu_tokenizer * tokenizer,
 514                          struct icu_buf_utf16 * tkn16,
 515                          UErrorCode *status)
 516 {
 517     int32_t tkn_start = 0;
 518     int32_t tkn_end = 0;
 519     int32_t tkn_len = 0;
 520
 521     if (!tokenizer || !tokenizer->bi
 522         || !tokenizer->buf16 || !tokenizer->buf16->utf16_len)
 523         return 0;
 524     /*
 525     never change tokenizer->buf16 and keep always invariant
 526     0 <= tokenizer->token_start
 527        <= tokenizer->token_end
 528        <= tokenizer->buf16->utf16_len
 529     returns length of token
 530     */
 531
 532     if (0 == tokenizer->token_end) /* first call */
 533         tkn_start = ubrk_first(tokenizer->bi);
 534     else /* successive calls */
 535         tkn_start = tokenizer->token_end;
 536
 537     /* get next position */
 538     tkn_end = ubrk_next(tokenizer->bi);
 539
 540     /* repairing invariant at end of ubrk, which is UBRK_DONE = -1 */
 541     if (UBRK_DONE == tkn_end)
 542         tkn_end = tokenizer->buf16->utf16_len;
 543
 544     /* copy out if everything is well */
 545     if(U_FAILURE(*status))
 546         return 0;
 547
 548     /* everything OK, now update internal state */
 549     tkn_len = tkn_end - tkn_start;
 550
 551     if (0 < tkn_len){
 552         tokenizer->token_count++;
 553         tokenizer->token_id++;
 554     } else {
 555         tokenizer->token_id = 0;
 556     }
 557     tokenizer->token_start = tkn_start;
 558     tokenizer->token_end = tkn_end;
 559
 560     /* copying into token buffer if it exists */
 561     if (tkn16){
 562         if (tkn16->utf16_cap < tkn_len)
 563             icu_buf_utf16_resize(tkn16, (size_t) tkn_len * 2);
 564
 565         u_strncpy(tkn16->utf16, &(tokenizer->buf16->utf16)[tkn_start],
 566                   tkn_len);
 567
 568         tkn16->utf16_len = tkn_len;
 569     }
 570
 571     return tkn_len;
 572 }
 573
 574 int32_t icu_tokenizer_token_id(struct icu_tokenizer * tokenizer)
 575 {
 576     return tokenizer->token_id;
 577 }
 578
 579 int32_t icu_tokenizer_token_start(struct icu_tokenizer * tokenizer)
 580 {
 581     return tokenizer->token_start;
 582 }
 583
 584 int32_t icu_tokenizer_token_end(struct icu_tokenizer * tokenizer)
 585 {
 586     return tokenizer->token_end;
 587 }
 588
 589 int32_t icu_tokenizer_token_length(struct icu_tokenizer * tokenizer)
 590 {
 591     return (tokenizer->token_end - tokenizer->token_start);
 592 }
 593
 594 int32_t icu_tokenizer_token_count(struct icu_tokenizer * tokenizer)
 595 {
 596     return tokenizer->token_count;
 597 }
 598
 599 struct icu_transform * icu_transform_create(const char *id, char action,
 600                                             const char *rules,
 601                                             UErrorCode *status)
 602 {
 603     struct icu_buf_utf16 *id16 = icu_buf_utf16_create(0);
 604     struct icu_buf_utf16 *rules16 = icu_buf_utf16_create(0);
 605
 606     struct icu_transform * transform
 607         = (struct icu_transform *) xmalloc(sizeof(struct icu_transform));
 608
 609     transform->action = action;
 610     transform->trans = 0;
 611
 612     if (id)
 613         icu_utf16_from_utf8_cstr(id16, id, status);
 614     if (rules)
 615         icu_utf16_from_utf8_cstr(rules16, rules, status);
 616
 617     switch(transform->action)
 618     {
 619     case 'f':
 620     case 'F':
 621         transform->trans
 622             = utrans_openU(id16->utf16,
 623                            id16->utf16_len,
 624                            UTRANS_FORWARD,
 625                            rules16->utf16,
 626                            rules16->utf16_len,
 627                            &transform->parse_error, status);
 628         break;
 629     case 'r':
 630     case 'R':
 631         transform->trans
 632             = utrans_openU(id16->utf16,
 633                            id16->utf16_len,
 634                            UTRANS_REVERSE ,
 635                            rules16->utf16,
 636                            rules16->utf16_len,
 637                            &transform->parse_error, status);
 638         break;
 639     default:
 640         *status = U_UNSUPPORTED_ERROR;
 641         break;
 642     }
 643     icu_buf_utf16_destroy(rules16);
 644     icu_buf_utf16_destroy(id16);
 645
 646     if (U_SUCCESS(*status))
 647         return transform;
 648
 649     /* freeing if failed */
 650     icu_transform_destroy(transform);
 651     return 0;
 652 }
 653
 654 void icu_transform_destroy(struct icu_transform * transform)
 655 {
 656     if (transform)
 657     {
 658         if (transform->trans)
 659             utrans_close(transform->trans);
 660         xfree(transform);
 661     }
 662 }
 663
 664 int icu_transform_trans(struct icu_transform * transform,
 665                         struct icu_buf_utf16 * dest16,
 666                         struct icu_buf_utf16 * src16,
 667                         UErrorCode *status)
 668 {
 669     if (!transform || !transform->trans
 670         || !src16  || !dest16)
 671         return 0;
 672
 673     if (!src16->utf16_len)
 674     {           /* guarding for empty source string */
 675         icu_buf_utf16_clear(dest16);
 676         return 0;
 677     }
 678
 679     if (!icu_buf_utf16_copy(dest16, src16))
 680         return 0;
 681
 682     utrans_transUChars (transform->trans,
 683                         dest16->utf16, &(dest16->utf16_len),
 684                         dest16->utf16_cap,
 685                         0, &(src16->utf16_len), status);
 686
 687     if (U_FAILURE(*status))
 688         icu_buf_utf16_clear(dest16);
 689
 690     return dest16->utf16_len;
 691 }
 692
 693 struct icu_chain_step * icu_chain_step_create(struct icu_chain * chain,
 694                                               enum icu_chain_step_type type,
 695                                               const uint8_t * rule,
 696                                               struct icu_buf_utf16 * buf16,
 697                                               UErrorCode *status)
 698 {
 699     struct icu_chain_step * step = 0;
 700
 701     if(!chain || !type || !rule)
 702         return 0;
 703
 704     step = (struct icu_chain_step *) xmalloc(sizeof(struct icu_chain_step));
 705
 706     step->type = type;
 707
 708     step->buf16 = buf16;
 709
 710     /* create auxilary objects */
 711     switch(step->type)
 712     {
 713     case ICU_chain_step_type_display:
 714         break;
 715     case ICU_chain_step_type_casemap:
 716         step->u.casemap = icu_casemap_create(rule[0], status);
 717         break;
 718     case ICU_chain_step_type_transform:
 719         /* rule omitted. Only ID used */
 720         step->u.transform = icu_transform_create((const char *) rule, 'f',
 721                                                  0, status);
 722         break;
 723     case ICU_chain_step_type_tokenize:
 724         step->u.tokenizer = icu_tokenizer_create((char *) chain->locale,
 725                                                  (char) rule[0], status);
 726         break;
 727     case ICU_chain_step_type_transliterate:
 728         /* we pass a dummy ID to utrans_openU.. */
 729         step->u.transform = icu_transform_create("custom", 'f',
 730                                                  (const char *) rule, status);
 731         break;
 732     default:
 733         break;
 734     }
 735     return step;
 736 }
 737
 738
 739 void icu_chain_step_destroy(struct icu_chain_step * step)
 740 {
 741     if (!step)
 742         return;
 743
 744     icu_chain_step_destroy(step->previous);
 745
 746     switch(step->type)
 747     {
 748     case ICU_chain_step_type_display:
 749         break;
 750     case ICU_chain_step_type_casemap:
 751         icu_casemap_destroy(step->u.casemap);
 752         icu_buf_utf16_destroy(step->buf16);
 753         break;
 754     case ICU_chain_step_type_transform:
 755     case ICU_chain_step_type_transliterate:
 756         icu_transform_destroy(step->u.transform);
 757         icu_buf_utf16_destroy(step->buf16);
 758         break;
 759     case ICU_chain_step_type_tokenize:
 760         icu_tokenizer_destroy(step->u.tokenizer);
 761         icu_buf_utf16_destroy(step->buf16);
 762         break;
 763     default:
 764         break;
 765     }
 766     xfree(step);
 767 }
 768
 769
 770 struct icu_chain * icu_chain_create(const char *locale,  int sort,
 771                                     UErrorCode * status)
 772 {
 773     struct icu_chain * chain
 774         = (struct icu_chain *) xmalloc(sizeof(struct icu_chain));
 775
 776     *status = U_ZERO_ERROR;
 777
 778     chain->locale = xstrdup(locale);
 779
 780     chain->sort = sort;
 781
 782     chain->coll = ucol_open((const char *) chain->locale, status);
 783
 784     if (U_FAILURE(*status))
 785         return 0;
 786
 787     chain->token_count = 0;
 788
 789     chain->src8cstr = 0;
 790
 791     chain->display8 = icu_buf_utf8_create(0);
 792     chain->norm8 = icu_buf_utf8_create(0);
 793     chain->sort8 = icu_buf_utf8_create(0);
 794
 795     chain->src16 = icu_buf_utf16_create(0);
 796
 797     chain->steps = 0;
 798
 799     return chain;
 800 }
 801
 802
 803 void icu_chain_destroy(struct icu_chain * chain)
 804 {
 805     if (chain)
 806     {
 807         if (chain->coll)
 808             ucol_close(chain->coll);
 809
 810         icu_buf_utf8_destroy(chain->display8);
 811         icu_buf_utf8_destroy(chain->norm8);
 812         icu_buf_utf8_destroy(chain->sort8);
 813
 814         icu_buf_utf16_destroy(chain->src16);
 815
 816         icu_chain_step_destroy(chain->steps);
 817         xfree(chain->locale);
 818         xfree(chain);
 819     }
 820 }
 821
 822 struct icu_chain * icu_chain_xml_config(const xmlNode *xml_node,
 823                                         int sort,
 824                                         UErrorCode * status)
 825 {
 826     xmlNode *node = 0;
 827     struct icu_chain * chain = 0;
 828
 829     *status = U_ZERO_ERROR;
 830
 831     if (!xml_node ||xml_node->type != XML_ELEMENT_NODE)
 832         return 0;
 833
 834     {
 835         xmlChar * xml_locale = xmlGetProp((xmlNode *) xml_node,
 836                                           (xmlChar *) "locale");
 837
 838         if (xml_locale)
 839         {
 840             chain = icu_chain_create((const char *) xml_locale, sort, status);
 841             xmlFree(xml_locale);
 842         }
 843
 844     }
 845     if (!chain)
 846         return 0;
 847
 848     for (node = xml_node->children; node; node = node->next)
 849     {
 850         xmlChar *xml_rule;
 851         struct icu_chain_step * step = 0;
 852
 853         if (node->type != XML_ELEMENT_NODE)
 854             continue;
 855
 856         xml_rule = xmlGetProp(node, (xmlChar *) "rule");
 857
 858         if (!strcmp((const char *) node->name, "casemap"))
 859             step = icu_chain_insert_step(chain, ICU_chain_step_type_casemap,
 860                                          (const uint8_t *) xml_rule, status);
 861         else if (!strcmp((const char *) node->name, "transform"))
 862             step = icu_chain_insert_step(chain, ICU_chain_step_type_transform,
 863                                          (const uint8_t *) xml_rule, status);
 864         else if (!strcmp((const char *) node->name, "transliterate"))
 865             step = icu_chain_insert_step(chain, ICU_chain_step_type_transliterate,
 866                                          (const uint8_t *) xml_rule, status);
 867         else if (!strcmp((const char *) node->name, "tokenize"))
 868             step = icu_chain_insert_step(chain, ICU_chain_step_type_tokenize,
 869                                          (const uint8_t *) xml_rule, status);
 870         else if (!strcmp((const char *) node->name, "display"))
 871             step = icu_chain_insert_step(chain, ICU_chain_step_type_display,
 872                                          (const uint8_t *) "", status);
 873         else if (!strcmp((const char *) node->name, "normalize"))
 874         {
 875             yaz_log(YLOG_WARN, "Element %s is deprecated. "
 876                     "Use transform instead", node->name);
 877             step = icu_chain_insert_step(chain, ICU_chain_step_type_transform,
 878                                          (const uint8_t *) xml_rule, status);
 879         }
 880         else if (!strcmp((const char *) node->name, "index")
 881                  || !strcmp((const char *) node->name, "sortkey"))
 882         {
 883             yaz_log(YLOG_WARN, "Element %s is no longer needed. "
 884                     "Remove it from the configuration", node->name);
 885         }
 886         else
 887         {
 888             yaz_log(YLOG_WARN, "Unknown element %s", node->name);
 889             icu_chain_destroy(chain);
 890             return 0;
 891         }
 892         xmlFree(xml_rule);
 893         if (step && U_FAILURE(*status))
 894         {
 895             icu_chain_destroy(chain);
 896             return 0;
 897         }
 898     }
 899     return chain;
 900 }
 901
 902 struct icu_chain_step * icu_chain_insert_step(struct icu_chain * chain,
 903                                               enum icu_chain_step_type type,
 904                                               const uint8_t * rule,
 905                                               UErrorCode *status)
 906 {
 907     struct icu_chain_step * step = 0;
 908     struct icu_buf_utf16 * src16 = 0;
 909     struct icu_buf_utf16 * buf16 = 0;
 910
 911     if (!chain || !type || !rule)
 912         return 0;
 913
 914     /* assign utf16 src buffers as needed */
 915     if (chain->steps && chain->steps->buf16)
 916         src16 = chain->steps->buf16;
 917     else if (chain->src16)
 918         src16 = chain->src16;
 919     else
 920         return 0;
 921
 922     /* create utf16 destination buffers as needed, or */
 923     switch(type)
 924     {
 925     case ICU_chain_step_type_display:
 926         buf16 = src16;
 927         break;
 928     case ICU_chain_step_type_casemap:
 929         buf16 = icu_buf_utf16_create(0);
 930         break;
 931     case ICU_chain_step_type_transform:
 932     case ICU_chain_step_type_transliterate:
 933         buf16 = icu_buf_utf16_create(0);
 934         break;
 935     case ICU_chain_step_type_tokenize:
 936         buf16 = icu_buf_utf16_create(0);
 937         break;
 938         break;
 939     default:
 940         break;
 941     }
 942
 943     /* create actual chain step with this buffer */
 944     step = icu_chain_step_create(chain, type, rule, buf16, status);
 945
 946     step->previous = chain->steps;
 947     chain->steps = step;
 948
 949     return step;
 950 }
 951
 952
 953 int icu_chain_step_next_token(struct icu_chain * chain,
 954                               struct icu_chain_step * step,
 955                               UErrorCode *status)
 956 {
 957     struct icu_buf_utf16 * src16 = 0;
 958     int got_new_token = 0;
 959
 960     if (!chain || !chain->src16 || !step || !step->more_tokens)
 961         return 0;
 962
 963     /* assign utf16 src buffers as neeed, advance in previous steps
 964        tokens until non-zero token met, and setting stop condition */
 965
 966     if (step->previous)
 967     {
 968         src16 = step->previous->buf16;
 969         /* tokens might be killed in previous steps, therefore looping */
 970
 971         while (step->need_new_token
 972                && step->previous->more_tokens
 973                && !got_new_token)
 974             got_new_token
 975                 = icu_chain_step_next_token(chain, step->previous, status);
 976     }
 977     else
 978     { /* first step can only work once on chain->src16 input buffer */
 979         src16 = chain->src16;
 980         step->more_tokens = 0;
 981         got_new_token = 1;
 982     }
 983
 984     if (!src16)
 985         return 0;
 986
 987     /* stop if nothing to process */
 988     if (step->need_new_token && !got_new_token)
 989     {
 990         step->more_tokens = 0;
 991         return 0;
 992     }
 993
 994     /* either an old token not finished yet, or a new token, thus
 995        perform the work, eventually put this steps output in
 996        step->buf16 or the chains UTF8 output buffers  */
 997
 998     switch(step->type)
 999     {
1000     case ICU_chain_step_type_display:
1001         icu_utf16_to_utf8(chain->display8, src16, status);
1002         break;
1003     case ICU_chain_step_type_casemap:
1004         icu_casemap_casemap(step->u.casemap,
1005                             step->buf16, src16, status,
1006                             chain->locale);
1007         break;
1008     case ICU_chain_step_type_transform:
1009     case ICU_chain_step_type_transliterate:
1010         icu_transform_trans(step->u.transform,
1011                             step->buf16, src16, status);
1012         break;
1013     case ICU_chain_step_type_tokenize:
1014         /* attach to new src16 token only first time during splitting */
1015         if (step->need_new_token)
1016         {
1017             icu_tokenizer_attach(step->u.tokenizer, src16, status);
1018             step->need_new_token = 0;
1019         }
1020
1021         /* splitting one src16 token into multiple buf16 tokens */
1022         step->more_tokens
1023             = icu_tokenizer_next_token(step->u.tokenizer,
1024                                        step->buf16, status);
1025
1026         /* make sure to get new previous token if this one had been used up
1027            by recursive call to _same_ step */
1028
1029         if (!step->more_tokens)
1030         {
1031             step->more_tokens = icu_chain_step_next_token(chain, step, status);
1032             return step->more_tokens;  /* avoid one token count too much! */
1033         }
1034         break;
1035     default:
1036         return 0;
1037         break;
1038     }
1039
1040     if (U_FAILURE(*status))
1041         return 0;
1042
1043     /* if token disappered into thin air, tell caller */
1044     /* if (!step->buf16->utf16_len && !step->more_tokens) */
1045     /*    return 0; */
1046
1047     return 1;
1048 }
1049
1050
1051 int icu_chain_assign_cstr(struct icu_chain * chain, const char * src8cstr,
1052                           UErrorCode *status)
1053 {
1054     struct icu_chain_step * stp = 0;
1055
1056     if (!chain || !src8cstr)
1057         return 0;
1058
1059     chain->src8cstr = src8cstr;
1060
1061     stp = chain->steps;
1062
1063     /* clear token count */
1064     chain->token_count = 0;
1065
1066     /* clear all steps stop states */
1067     while (stp)
1068     {
1069         stp->more_tokens = 1;
1070         stp->need_new_token = 1;
1071         stp = stp->previous;
1072     }
1073
1074     /* finally convert UTF8 to UTF16 string if needed */
1075     if (chain->steps || chain->sort)
1076         icu_utf16_from_utf8_cstr(chain->src16, chain->src8cstr, status);
1077
1078     if (U_FAILURE(*status))
1079         return 0;
1080
1081     return 1;
1082 }
1083
1084 int icu_chain_next_token(struct icu_chain * chain, UErrorCode *status)
1085 {
1086     int got_token = 0;
1087
1088     *status = U_ZERO_ERROR;
1089
1090     if (!chain)
1091         return 0;
1092
1093     /* special case with no steps - same as index type binary */
1094     if (!chain->steps)
1095     {
1096         if (chain->token_count)
1097             return 0;
1098         else
1099         {
1100             chain->token_count++;
1101
1102             if (chain->sort)
1103                 icu_sortkey8_from_utf16(chain->coll,
1104                                         chain->sort8, chain->steps->buf16,
1105                                         status);
1106             return chain->token_count;
1107         }
1108     }
1109     /* usual case, one or more icu chain steps existing */
1110     else
1111     {
1112         while(!got_token && chain->steps && chain->steps->more_tokens)
1113             got_token = icu_chain_step_next_token(chain, chain->steps, status);
1114
1115         if (got_token)
1116         {
1117             chain->token_count++;
1118
1119             icu_utf16_to_utf8(chain->norm8, chain->steps->buf16, status);
1120
1121             if (chain->sort)
1122                 icu_sortkey8_from_utf16(chain->coll,
1123                                         chain->sort8, chain->steps->buf16,
1124                                         status);
1125             return chain->token_count;
1126         }
1127     }
1128
1129     return 0;
1130 }
1131
1132 int icu_chain_token_number(struct icu_chain * chain)
1133 {
1134     if (!chain)
1135         return 0;
1136
1137     return chain->token_count;
1138 }
1139
1140 const char * icu_chain_token_display(struct icu_chain * chain)
1141 {
1142     if (chain->display8)
1143         return icu_buf_utf8_to_cstr(chain->display8);
1144
1145     return 0;
1146 }
1147
1148 const char * icu_chain_token_norm(struct icu_chain * chain)
1149 {
1150     if (!chain->steps)
1151         return chain->src8cstr;
1152
1153     if (chain->norm8)
1154         return icu_buf_utf8_to_cstr(chain->norm8);
1155
1156     return 0;
1157 }
1158
1159 const char * icu_chain_token_sortkey(struct icu_chain * chain)
1160 {
1161     if (chain->sort8)
1162         return icu_buf_utf8_to_cstr(chain->sort8);
1163
1164     return 0;
1165 }
1166
1167 const UCollator * icu_chain_get_coll(struct icu_chain * chain)
1168 {
1169     return chain->coll;
1170 }
1171
1172 #endif /* YAZ_HAVE_ICU */
1173
1174 /*
1175  * Local variables:
1176  * c-basic-offset: 4
1177  * c-file-style: "Stroustrup"
1178  * indent-tabs-mode: nil
1179  * End:
1180  * vim: shiftwidth=4 tabstop=8 expandtab
1181  */
1182