Update headers and omit CVS Ids.
[yaz-moved-to-github.git] / src / iconv_encode_iso_8859_1.c
1 /* This file is part of the YAZ toolkit.
2  * Copyright (C) 1995-2008 Index Data
3  * See the file LICENSE for details.
4  */
5 /**
6  * \file
7  * \brief ISO-8859-1 encoding / decoding
8  *
9  */
10
11 #if HAVE_CONFIG_H
12 #include <config.h>
13 #endif
14
15 #include <assert.h>
16 #include <errno.h>
17 #include <string.h>
18 #include <ctype.h>
19
20 #include <yaz/xmalloc.h>
21 #include "iconv-p.h"
22
23 struct encoder_data
24 {
25     unsigned long compose_char;
26 };
27
28
29
30 static struct {
31     unsigned long x1, x2;
32     unsigned y;
33 } latin1_comb[] = {
34     { 'A', 0x0300, 0xc0}, /* LATIN CAPITAL LETTER A WITH GRAVE */
35     { 'A', 0x0301, 0xc1}, /* LATIN CAPITAL LETTER A WITH ACUTE */
36     { 'A', 0x0302, 0xc2}, /* LATIN CAPITAL LETTER A WITH CIRCUMFLEX */
37     { 'A', 0x0303, 0xc3}, /* LATIN CAPITAL LETTER A WITH TILDE */
38     { 'A', 0x0308, 0xc4}, /* LATIN CAPITAL LETTER A WITH DIAERESIS */
39     { 'A', 0x030a, 0xc5}, /* LATIN CAPITAL LETTER A WITH RING ABOVE */
40     /* no need for 0xc6      LATIN CAPITAL LETTER AE */
41     { 'C', 0x0327, 0xc7}, /* LATIN CAPITAL LETTER C WITH CEDILLA */
42     { 'E', 0x0300, 0xc8}, /* LATIN CAPITAL LETTER E WITH GRAVE */
43     { 'E', 0x0301, 0xc9}, /* LATIN CAPITAL LETTER E WITH ACUTE */
44     { 'E', 0x0302, 0xca}, /* LATIN CAPITAL LETTER E WITH CIRCUMFLEX */
45     { 'E', 0x0308, 0xcb}, /* LATIN CAPITAL LETTER E WITH DIAERESIS */
46     { 'I', 0x0300, 0xcc}, /* LATIN CAPITAL LETTER I WITH GRAVE */
47     { 'I', 0x0301, 0xcd}, /* LATIN CAPITAL LETTER I WITH ACUTE */
48     { 'I', 0x0302, 0xce}, /* LATIN CAPITAL LETTER I WITH CIRCUMFLEX */
49     { 'I', 0x0308, 0xcf}, /* LATIN CAPITAL LETTER I WITH DIAERESIS */
50     { 'N', 0x0303, 0xd1}, /* LATIN CAPITAL LETTER N WITH TILDE */
51     { 'O', 0x0300, 0xd2}, /* LATIN CAPITAL LETTER O WITH GRAVE */
52     { 'O', 0x0301, 0xd3}, /* LATIN CAPITAL LETTER O WITH ACUTE */
53     { 'O', 0x0302, 0xd4}, /* LATIN CAPITAL LETTER O WITH CIRCUMFLEX */
54     { 'O', 0x0303, 0xd5}, /* LATIN CAPITAL LETTER O WITH TILDE */
55     { 'O', 0x0308, 0xd6}, /* LATIN CAPITAL LETTER O WITH DIAERESIS */
56     /* omitted:    0xd7      MULTIPLICATION SIGN */
57     /* omitted:    0xd8      LATIN CAPITAL LETTER O WITH STROKE */
58     { 'U', 0x0300, 0xd9}, /* LATIN CAPITAL LETTER U WITH GRAVE */
59     { 'U', 0x0301, 0xda}, /* LATIN CAPITAL LETTER U WITH ACUTE */
60     { 'U', 0x0302, 0xdb}, /* LATIN CAPITAL LETTER U WITH CIRCUMFLEX */
61     { 'U', 0x0308, 0xdc}, /* LATIN CAPITAL LETTER U WITH DIAERESIS */
62     { 'Y', 0x0301, 0xdd}, /* LATIN CAPITAL LETTER Y WITH ACUTE */
63     /* omitted:    0xde      LATIN CAPITAL LETTER THORN */
64     /* omitted:    0xdf      LATIN SMALL LETTER SHARP S */
65     { 'a', 0x0300, 0xe0}, /* LATIN SMALL LETTER A WITH GRAVE */
66     { 'a', 0x0301, 0xe1}, /* LATIN SMALL LETTER A WITH ACUTE */
67     { 'a', 0x0302, 0xe2}, /* LATIN SMALL LETTER A WITH CIRCUMFLEX */
68     { 'a', 0x0303, 0xe3}, /* LATIN SMALL LETTER A WITH TILDE */
69     { 'a', 0x0308, 0xe4}, /* LATIN SMALL LETTER A WITH DIAERESIS */
70     { 'a', 0x030a, 0xe5}, /* LATIN SMALL LETTER A WITH RING ABOVE */
71     /* omitted:    0xe6      LATIN SMALL LETTER AE */
72     { 'c', 0x0327, 0xe7}, /* LATIN SMALL LETTER C WITH CEDILLA */
73     { 'e', 0x0300, 0xe8}, /* LATIN SMALL LETTER E WITH GRAVE */
74     { 'e', 0x0301, 0xe9}, /* LATIN SMALL LETTER E WITH ACUTE */
75     { 'e', 0x0302, 0xea}, /* LATIN SMALL LETTER E WITH CIRCUMFLEX */
76     { 'e', 0x0308, 0xeb}, /* LATIN SMALL LETTER E WITH DIAERESIS */
77     { 'i', 0x0300, 0xec}, /* LATIN SMALL LETTER I WITH GRAVE */
78     { 'i', 0x0301, 0xed}, /* LATIN SMALL LETTER I WITH ACUTE */
79     { 'i', 0x0302, 0xee}, /* LATIN SMALL LETTER I WITH CIRCUMFLEX */
80     { 'i', 0x0308, 0xef}, /* LATIN SMALL LETTER I WITH DIAERESIS */
81     /* omitted:    0xf0      LATIN SMALL LETTER ETH */
82     { 'n', 0x0303, 0xf1}, /* LATIN SMALL LETTER N WITH TILDE */
83     { 'o', 0x0300, 0xf2}, /* LATIN SMALL LETTER O WITH GRAVE */
84     { 'o', 0x0301, 0xf3}, /* LATIN SMALL LETTER O WITH ACUTE */
85     { 'o', 0x0302, 0xf4}, /* LATIN SMALL LETTER O WITH CIRCUMFLEX */
86     { 'o', 0x0303, 0xf5}, /* LATIN SMALL LETTER O WITH TILDE */
87     { 'o', 0x0308, 0xf6}, /* LATIN SMALL LETTER O WITH DIAERESIS */
88     /* omitted:    0xf7      DIVISION SIGN */
89     /* omitted:    0xf8      LATIN SMALL LETTER O WITH STROKE */
90     { 'u', 0x0300, 0xf9}, /* LATIN SMALL LETTER U WITH GRAVE */
91     { 'u', 0x0301, 0xfa}, /* LATIN SMALL LETTER U WITH ACUTE */
92     { 'u', 0x0302, 0xfb}, /* LATIN SMALL LETTER U WITH CIRCUMFLEX */
93     { 'u', 0x0308, 0xfc}, /* LATIN SMALL LETTER U WITH DIAERESIS */
94     { 'y', 0x0301, 0xfd}, /* LATIN SMALL LETTER Y WITH ACUTE */
95     /* omitted:    0xfe      LATIN SMALL LETTER THORN */
96     { 'y', 0x0308, 0xff}, /* LATIN SMALL LETTER Y WITH DIAERESIS */
97     
98     { 0, 0, 0}
99 };
100
101 int yaz_iso_8859_1_lookup_y(unsigned long v,
102                             unsigned long *x1, unsigned long *x2)
103 {
104     if (v >= 0xc0 && v <= 0xff) /* optimization. min and max .y values */
105     {
106         int i;
107         for (i = 0; latin1_comb[i].x1; i++)
108         {
109             if (v == latin1_comb[i].y)
110             {
111                 *x1 = latin1_comb[i].x1;
112                 *x2 = latin1_comb[i].x2;
113                 return 1;
114             }
115         }
116     }
117     return 0;
118 }
119
120 int yaz_iso_8859_1_lookup_x12(unsigned long x1, unsigned long x2,
121                               unsigned long *y)
122 {
123     /* For MARC8s we try to get a Latin-1 page code out of it */
124     int i;
125     for (i = 0; latin1_comb[i].x1; i++)
126         if (x2 == latin1_comb[i].x2 && x1 == latin1_comb[i].x1)
127         {
128             *y = latin1_comb[i].y;
129             return 1;
130         }
131     return 0;
132 }
133
134 static size_t write_iso_8859_1(yaz_iconv_t cd, yaz_iconv_encoder_t e,
135                                unsigned long x,
136                                char **outbuf, size_t *outbytesleft)
137 {
138     struct encoder_data *w = e->data;
139     /* list of two char unicode sequence that, when combined, are
140        equivalent to single unicode chars that can be represented in
141        ISO-8859-1/Latin-1.
142        Regular iconv on Linux at least does not seem to convert these,
143        but since MARC-8 to UTF-8 generates these composed sequence
144        we get a better chance of a successful MARC-8 -> ISO-8859-1
145        conversion */
146     unsigned char *outp = (unsigned char *) *outbuf;
147
148     if (w->compose_char)
149     {
150         int i;
151         for (i = 0; latin1_comb[i].x1; i++)
152             if (w->compose_char == latin1_comb[i].x1 && x == latin1_comb[i].x2)
153             {
154                 x = latin1_comb[i].y;
155                 break;
156             }
157         if (*outbytesleft < 1)
158         {  /* no room. Retain compose_char and bail out */
159             yaz_iconv_set_errno(cd, YAZ_ICONV_E2BIG);
160             return (size_t)(-1);
161         }
162         if (!latin1_comb[i].x1) 
163         {   /* not found. Just write compose_char */
164             *outp++ = (unsigned char) w->compose_char;
165             (*outbytesleft)--;
166             *outbuf = (char *) outp;
167         }
168         /* compose_char used so reset it. x now holds current char */
169         w->compose_char = 0;
170     }
171
172     if (x > 32 && x < 127 && w->compose_char == 0)
173     {
174         w->compose_char = x;
175         return 0;
176     }
177     else if (x > 255 || x < 1)
178     {
179         yaz_iconv_set_errno(cd, YAZ_ICONV_EILSEQ);
180         return (size_t) -1;
181     }
182     else if (*outbytesleft < 1)
183     {
184         yaz_iconv_set_errno(cd, YAZ_ICONV_E2BIG);
185         return (size_t)(-1);
186     }
187     *outp++ = (unsigned char) x;
188     (*outbytesleft)--;
189     *outbuf = (char *) outp;
190     return 0;
191 }
192
193 static size_t flush_iso_8859_1(yaz_iconv_t cd, yaz_iconv_encoder_t e,
194                                char **outbuf, size_t *outbytesleft)
195 {
196     struct encoder_data *w = e->data;
197     if (w->compose_char)
198     {
199         unsigned char *outp = (unsigned char *) *outbuf;
200         if (*outbytesleft < 1)
201         {
202             yaz_iconv_set_errno(cd, YAZ_ICONV_E2BIG);
203             return (size_t)(-1);
204         }
205         *outp++ = (unsigned char) w->compose_char;
206         (*outbytesleft)--;
207         *outbuf = (char *) outp;
208         w->compose_char = 0;
209     }
210     return 0;
211 }
212
213
214 void init_iso_8859_1(yaz_iconv_encoder_t e)
215 {
216     struct encoder_data *w = e->data;
217     w->compose_char = 0;
218 }
219
220 void destroy_iso_8859_1(yaz_iconv_encoder_t e)
221 {
222     xfree(e->data);
223 }
224
225 yaz_iconv_encoder_t yaz_iso_8859_1_encoder(const char *tocode,
226                                            yaz_iconv_encoder_t e)
227     
228 {
229     if (!yaz_matchstr(tocode, "iso88591"))
230     {
231         struct encoder_data *data = xmalloc(sizeof(*data));
232         e->data = data;
233         e->write_handle = write_iso_8859_1;
234         e->flush_handle = flush_iso_8859_1;
235         e->init_handle = init_iso_8859_1;
236         e->destroy_handle = destroy_iso_8859_1;
237         return e;
238     }
239     return 0;
240 }
241
242 static unsigned long read_ISO8859_1(yaz_iconv_t cd, 
243                                     yaz_iconv_decoder_t d,
244                                     unsigned char *inp,
245                                     size_t inbytesleft, size_t *no_read)
246 {
247     unsigned long x = inp[0];
248     *no_read = 1;
249     return x;
250 }
251
252 yaz_iconv_decoder_t yaz_iso_8859_1_decoder(const char *fromcode,
253                                            yaz_iconv_decoder_t d)
254     
255 {
256     if (!yaz_matchstr(fromcode, "iso88591"))
257     {
258         d->read_handle = read_ISO8859_1;
259         return d;
260     }
261     return 0;
262 }
263
264
265 /*
266  * Local variables:
267  * c-basic-offset: 4
268  * indent-tabs-mode: nil
269  * End:
270  * vim: shiftwidth=4 tabstop=8 expandtab
271  */