Update source headers for 2008. Omit CVS ID keyword subst.
[yaz-moved-to-github.git] / src / iconv_encode_iso_8859_1.c
1 /* This file is part of the YAZ toolkit.
2  * Copyright (C) 1995-2008 Index Data
3  * See the file LICENSE for details.
4  */
5 /**
6  * \file
7  * \brief ISO-8859-1 encoding / decoding
8  *
9  */
10
11 #if HAVE_CONFIG_H
12 #include <config.h>
13 #endif
14
15 #include <assert.h>
16 #include <errno.h>
17 #include <string.h>
18 #include <ctype.h>
19
20 #if HAVE_ICONV_H
21 #include <iconv.h>
22 #endif
23
24 #include <yaz/xmalloc.h>
25 #include <yaz/nmem.h>
26 #include "iconv-p.h"
27
28 struct encoder_data
29 {
30     unsigned long compose_char;
31 };
32
33
34
35 static struct {
36     unsigned long x1, x2;
37     unsigned y;
38 } latin1_comb[] = {
39     { 'A', 0x0300, 0xc0}, /* LATIN CAPITAL LETTER A WITH GRAVE */
40     { 'A', 0x0301, 0xc1}, /* LATIN CAPITAL LETTER A WITH ACUTE */
41     { 'A', 0x0302, 0xc2}, /* LATIN CAPITAL LETTER A WITH CIRCUMFLEX */
42     { 'A', 0x0303, 0xc3}, /* LATIN CAPITAL LETTER A WITH TILDE */
43     { 'A', 0x0308, 0xc4}, /* LATIN CAPITAL LETTER A WITH DIAERESIS */
44     { 'A', 0x030a, 0xc5}, /* LATIN CAPITAL LETTER A WITH RING ABOVE */
45     /* no need for 0xc6      LATIN CAPITAL LETTER AE */
46     { 'C', 0x0327, 0xc7}, /* LATIN CAPITAL LETTER C WITH CEDILLA */
47     { 'E', 0x0300, 0xc8}, /* LATIN CAPITAL LETTER E WITH GRAVE */
48     { 'E', 0x0301, 0xc9}, /* LATIN CAPITAL LETTER E WITH ACUTE */
49     { 'E', 0x0302, 0xca}, /* LATIN CAPITAL LETTER E WITH CIRCUMFLEX */
50     { 'E', 0x0308, 0xcb}, /* LATIN CAPITAL LETTER E WITH DIAERESIS */
51     { 'I', 0x0300, 0xcc}, /* LATIN CAPITAL LETTER I WITH GRAVE */
52     { 'I', 0x0301, 0xcd}, /* LATIN CAPITAL LETTER I WITH ACUTE */
53     { 'I', 0x0302, 0xce}, /* LATIN CAPITAL LETTER I WITH CIRCUMFLEX */
54     { 'I', 0x0308, 0xcf}, /* LATIN CAPITAL LETTER I WITH DIAERESIS */
55     { 'N', 0x0303, 0xd1}, /* LATIN CAPITAL LETTER N WITH TILDE */
56     { 'O', 0x0300, 0xd2}, /* LATIN CAPITAL LETTER O WITH GRAVE */
57     { 'O', 0x0301, 0xd3}, /* LATIN CAPITAL LETTER O WITH ACUTE */
58     { 'O', 0x0302, 0xd4}, /* LATIN CAPITAL LETTER O WITH CIRCUMFLEX */
59     { 'O', 0x0303, 0xd5}, /* LATIN CAPITAL LETTER O WITH TILDE */
60     { 'O', 0x0308, 0xd6}, /* LATIN CAPITAL LETTER O WITH DIAERESIS */
61     /* omitted:    0xd7      MULTIPLICATION SIGN */
62     /* omitted:    0xd8      LATIN CAPITAL LETTER O WITH STROKE */
63     { 'U', 0x0300, 0xd9}, /* LATIN CAPITAL LETTER U WITH GRAVE */
64     { 'U', 0x0301, 0xda}, /* LATIN CAPITAL LETTER U WITH ACUTE */
65     { 'U', 0x0302, 0xdb}, /* LATIN CAPITAL LETTER U WITH CIRCUMFLEX */
66     { 'U', 0x0308, 0xdc}, /* LATIN CAPITAL LETTER U WITH DIAERESIS */
67     { 'Y', 0x0301, 0xdd}, /* LATIN CAPITAL LETTER Y WITH ACUTE */
68     /* omitted:    0xde      LATIN CAPITAL LETTER THORN */
69     /* omitted:    0xdf      LATIN SMALL LETTER SHARP S */
70     { 'a', 0x0300, 0xe0}, /* LATIN SMALL LETTER A WITH GRAVE */
71     { 'a', 0x0301, 0xe1}, /* LATIN SMALL LETTER A WITH ACUTE */
72     { 'a', 0x0302, 0xe2}, /* LATIN SMALL LETTER A WITH CIRCUMFLEX */
73     { 'a', 0x0303, 0xe3}, /* LATIN SMALL LETTER A WITH TILDE */
74     { 'a', 0x0308, 0xe4}, /* LATIN SMALL LETTER A WITH DIAERESIS */
75     { 'a', 0x030a, 0xe5}, /* LATIN SMALL LETTER A WITH RING ABOVE */
76     /* omitted:    0xe6      LATIN SMALL LETTER AE */
77     { 'c', 0x0327, 0xe7}, /* LATIN SMALL LETTER C WITH CEDILLA */
78     { 'e', 0x0300, 0xe8}, /* LATIN SMALL LETTER E WITH GRAVE */
79     { 'e', 0x0301, 0xe9}, /* LATIN SMALL LETTER E WITH ACUTE */
80     { 'e', 0x0302, 0xea}, /* LATIN SMALL LETTER E WITH CIRCUMFLEX */
81     { 'e', 0x0308, 0xeb}, /* LATIN SMALL LETTER E WITH DIAERESIS */
82     { 'i', 0x0300, 0xec}, /* LATIN SMALL LETTER I WITH GRAVE */
83     { 'i', 0x0301, 0xed}, /* LATIN SMALL LETTER I WITH ACUTE */
84     { 'i', 0x0302, 0xee}, /* LATIN SMALL LETTER I WITH CIRCUMFLEX */
85     { 'i', 0x0308, 0xef}, /* LATIN SMALL LETTER I WITH DIAERESIS */
86     /* omitted:    0xf0      LATIN SMALL LETTER ETH */
87     { 'n', 0x0303, 0xf1}, /* LATIN SMALL LETTER N WITH TILDE */
88     { 'o', 0x0300, 0xf2}, /* LATIN SMALL LETTER O WITH GRAVE */
89     { 'o', 0x0301, 0xf3}, /* LATIN SMALL LETTER O WITH ACUTE */
90     { 'o', 0x0302, 0xf4}, /* LATIN SMALL LETTER O WITH CIRCUMFLEX */
91     { 'o', 0x0303, 0xf5}, /* LATIN SMALL LETTER O WITH TILDE */
92     { 'o', 0x0308, 0xf6}, /* LATIN SMALL LETTER O WITH DIAERESIS */
93     /* omitted:    0xf7      DIVISION SIGN */
94     /* omitted:    0xf8      LATIN SMALL LETTER O WITH STROKE */
95     { 'u', 0x0300, 0xf9}, /* LATIN SMALL LETTER U WITH GRAVE */
96     { 'u', 0x0301, 0xfa}, /* LATIN SMALL LETTER U WITH ACUTE */
97     { 'u', 0x0302, 0xfb}, /* LATIN SMALL LETTER U WITH CIRCUMFLEX */
98     { 'u', 0x0308, 0xfc}, /* LATIN SMALL LETTER U WITH DIAERESIS */
99     { 'y', 0x0301, 0xfd}, /* LATIN SMALL LETTER Y WITH ACUTE */
100     /* omitted:    0xfe      LATIN SMALL LETTER THORN */
101     { 'y', 0x0308, 0xff}, /* LATIN SMALL LETTER Y WITH DIAERESIS */
102     
103     { 0, 0, 0}
104 };
105
106 int yaz_iso_8859_1_lookup_y(unsigned long v,
107                             unsigned long *x1, unsigned long *x2)
108 {
109     if (v >= 0xc0 && v <= 0xff) /* optimization. min and max .y values */
110     {
111         int i;
112         for (i = 0; latin1_comb[i].x1; i++)
113         {
114             if (v == latin1_comb[i].y)
115             {
116                 *x1 = latin1_comb[i].x1;
117                 *x2 = latin1_comb[i].x2;
118                 return 1;
119             }
120         }
121     }
122     return 0;
123 }
124
125 int yaz_iso_8859_1_lookup_x12(unsigned long x1, unsigned long x2,
126                               unsigned long *y)
127 {
128     /* For MARC8s we try to get a Latin-1 page code out of it */
129     int i;
130     for (i = 0; latin1_comb[i].x1; i++)
131         if (x2 == latin1_comb[i].x2 && x1 == latin1_comb[i].x1)
132         {
133             *y = latin1_comb[i].y;
134             return 1;
135         }
136     return 0;
137 }
138
139 static size_t write_iso_8859_1(yaz_iconv_t cd, yaz_iconv_encoder_t e,
140                                unsigned long x,
141                                char **outbuf, size_t *outbytesleft)
142 {
143     struct encoder_data *w = e->data;
144     /* list of two char unicode sequence that, when combined, are
145        equivalent to single unicode chars that can be represented in
146        ISO-8859-1/Latin-1.
147        Regular iconv on Linux at least does not seem to convert these,
148        but since MARC-8 to UTF-8 generates these composed sequence
149        we get a better chance of a successful MARC-8 -> ISO-8859-1
150        conversion */
151     unsigned char *outp = (unsigned char *) *outbuf;
152
153     if (w->compose_char)
154     {
155         int i;
156         for (i = 0; latin1_comb[i].x1; i++)
157             if (w->compose_char == latin1_comb[i].x1 && x == latin1_comb[i].x2)
158             {
159                 x = latin1_comb[i].y;
160                 break;
161             }
162         if (*outbytesleft < 1)
163         {  /* no room. Retain compose_char and bail out */
164             yaz_iconv_set_errno(cd, YAZ_ICONV_E2BIG);
165             return (size_t)(-1);
166         }
167         if (!latin1_comb[i].x1) 
168         {   /* not found. Just write compose_char */
169             *outp++ = (unsigned char) w->compose_char;
170             (*outbytesleft)--;
171             *outbuf = (char *) outp;
172         }
173         /* compose_char used so reset it. x now holds current char */
174         w->compose_char = 0;
175     }
176
177     if (x > 32 && x < 127 && w->compose_char == 0)
178     {
179         w->compose_char = x;
180         return 0;
181     }
182     else if (x > 255 || x < 1)
183     {
184         yaz_iconv_set_errno(cd, YAZ_ICONV_EILSEQ);
185         return (size_t) -1;
186     }
187     else if (*outbytesleft < 1)
188     {
189         yaz_iconv_set_errno(cd, YAZ_ICONV_E2BIG);
190         return (size_t)(-1);
191     }
192     *outp++ = (unsigned char) x;
193     (*outbytesleft)--;
194     *outbuf = (char *) outp;
195     return 0;
196 }
197
198 static size_t flush_iso_8859_1(yaz_iconv_t cd, yaz_iconv_encoder_t e,
199                                char **outbuf, size_t *outbytesleft)
200 {
201     struct encoder_data *w = e->data;
202     if (w->compose_char)
203     {
204         unsigned char *outp = (unsigned char *) *outbuf;
205         if (*outbytesleft < 1)
206         {
207             yaz_iconv_set_errno(cd, YAZ_ICONV_E2BIG);
208             return (size_t)(-1);
209         }
210         *outp++ = (unsigned char) w->compose_char;
211         (*outbytesleft)--;
212         *outbuf = (char *) outp;
213         w->compose_char = 0;
214     }
215     return 0;
216 }
217
218
219 void init_iso_8859_1(yaz_iconv_encoder_t e)
220 {
221     struct encoder_data *w = e->data;
222     w->compose_char = 0;
223 }
224
225 void destroy_iso_8859_1(yaz_iconv_encoder_t e)
226 {
227     xfree(e->data);
228 }
229
230 yaz_iconv_encoder_t yaz_iso_8859_1_encoder(const char *tocode,
231                                            yaz_iconv_encoder_t e)
232     
233 {
234     if (!yaz_matchstr(tocode, "iso88591"))
235     {
236         struct encoder_data *data = xmalloc(sizeof(*data));
237         e->data = data;
238         e->write_handle = write_iso_8859_1;
239         e->flush_handle = flush_iso_8859_1;
240         e->init_handle = init_iso_8859_1;
241         e->destroy_handle = destroy_iso_8859_1;
242         return e;
243     }
244     return 0;
245 }
246
247
248 /*
249  * Local variables:
250  * c-basic-offset: 4
251  * indent-tabs-mode: nil
252  * End:
253  * vim: shiftwidth=4 tabstop=8 expandtab
254  */