Fixed bug 104: Bad default encoding for XML records for grs.xml filter.
[idzebra-moved-to-github.git] / recctrl / xmlread.c
index 90b17d3..6bc8efa 100644 (file)
@@ -1,5 +1,5 @@
-/* $Id: xmlread.c,v 1.3 2002-08-28 12:47:10 adam Exp $
-   Copyright (C) 1995,1996,1997,1998,1999,2000,2001,2002
+/* $Id: xmlread.c,v 1.12 2004-07-26 12:26:25 adam Exp $
+   Copyright (C) 1995,1996,1997,1998,1999,2000,2001,2002,2003,2004
    Index Data Aps
 
 This file is part of the Zebra server.
@@ -36,7 +36,7 @@ Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
 
 #include <yaz/xmalloc.h>
 #include <yaz/log.h>
-#include <yaz/data1.h>
+#include <data1.h>
 
 #include <expat.h>
 
@@ -79,7 +79,7 @@ static void cb_chardata (void *user, const char *s, int len)
                                                    ui->d1_stack[ui->level -1]);
 }
 
-static void cb_decl (void *user, const char *version, const char*encoding,
+static void cb_decl (void *user, const char *version, const char *encoding,
                      int standalone)
 {
     struct user_info *ui = (struct user_info*) user;
@@ -89,7 +89,7 @@ static void cb_decl (void *user, const char *version, const char*encoding,
     attr_list[1] = version;
 
     attr_list[2] = "encoding";
-    attr_list[3] = "UTF-8"; /* encoding */
+    attr_list[3] = "UTF-8"; /* internally it's always UTF-8 */
 
     attr_list[4] = "standalone";
     attr_list[5] = standalone  ? "yes" : "no";
@@ -98,7 +98,7 @@ static void cb_decl (void *user, const char *version, const char*encoding,
     
     data1_mk_preprocess (ui->dh, ui->nmem, "xml", attr_list,
                              ui->d1_stack[ui->level-1]);
-    yaz_log (ui->loglevel, "decl version=%s encoding=%s",
+    yaz_log (LOG_LOG, "decl version=%s encoding=%s",
              version ? version : "null",
              encoding ? encoding : "null");
 }
@@ -115,8 +115,6 @@ static void cb_processing (void *user, const char *target,
     yaz_log (ui->loglevel, "decl processing target=%s data=%s",
              target ? target : "null",
              data ? data : "null");
-    
-    
 }
 
 static void cb_comment (void *user, const char *data)
@@ -202,7 +200,11 @@ static int cb_external_entity (XML_Parser pparser,
         }
         if (!XML_ParseBuffer (parser, r, done))
         {
-            yaz_log (LOG_WARN, "XML_ParseBuffer failed %s",
+           done = 1;
+           yaz_log (LOG_WARN, "%s:%d:%d:XML error: %s",
+                    systemId,
+                    XML_GetCurrentLineNumber(parser),
+                    XML_GetCurrentColumnNumber(parser),
                     XML_ErrorString(XML_GetErrorCode(parser)));
        }
     }
@@ -223,6 +225,9 @@ static int cb_encoding_convert (void *data, const char *s)
     char *inbuf = (char *) s;
     unsigned short code;
 
+#if 1
+    yaz_log(LOG_LOG, "------------------------- cb_encoding_convert --- ");
+#endif
     ret = iconv (t, &inbuf, &inleft, &outbuf, &outleft);
     if (ret == (size_t) (-1) && errno != E2BIG)
     {
@@ -336,8 +341,9 @@ static int cb_encoding_handler (void *userData, const char *name,
             if (errno == E2BIG)
             {
                 info->map[i] = -1;  /* no room for output */
-                yaz_log (LOG_WARN, "Encoding %d: no room for output",
-                         i);
+                if (i != 0)
+                    yaz_log (LOG_WARN, "Encoding %d: no room for output",
+                             i);
             }
         }
         else if (outleft == 0)
@@ -372,7 +378,19 @@ static int cb_encoding_handler (void *userData, const char *name,
 /* HAVE_ICONV_H */
 #endif
 
+static void cb_ns_start(void *userData, const char *prefix, const char *uri)
+{
+    struct user_info *ui = (struct user_info*) userData;
+    if (prefix && uri)
+       yaz_log(ui->loglevel, "cb_ns_start %s %s", prefix, uri);
+}
 
+static void cb_ns_end(void *userData, const char *prefix)
+{
+    struct user_info *ui = (struct user_info*) userData;
+    if (prefix)
+       yaz_log(ui->loglevel, "cb_ns_end %s", prefix);
+}
 data1_node *zebra_read_xml (data1_handle dh,
                             int (*rf)(void *, char *, size_t), void *fh,
                             NMEM m)
@@ -380,8 +398,9 @@ data1_node *zebra_read_xml (data1_handle dh,
     XML_Parser parser;
     struct user_info uinfo;
     int done = 0;
+    data1_node *first_node;
 
-    uinfo.loglevel = LOG_LOG;
+    uinfo.loglevel = LOG_DEBUG;
     uinfo.level = 1;
     uinfo.dh = dh;
     uinfo.nmem = m;
@@ -399,6 +418,7 @@ data1_node *zebra_read_xml (data1_handle dh,
     XML_SetDoctypeDeclHandler (parser, cb_doctype_start, cb_doctype_end);
     XML_SetEntityDeclHandler (parser, cb_entity_decl);
     XML_SetExternalEntityRefHandler (parser, cb_external_entity);
+    XML_SetNamespaceDeclHandler(parser, cb_ns_start, cb_ns_end);
 #if HAVE_ICONV_H
     XML_SetUnknownEncodingHandler (parser, cb_encoding_handler, &uinfo);
 #endif
@@ -423,23 +443,47 @@ data1_node *zebra_read_xml (data1_handle dh,
             done = 1;
         if (!XML_ParseBuffer (parser, r, done))
         {
-            yaz_log (LOG_WARN, "XML_ParseBuffer (1) failed %s",
+           done = 1;
+           yaz_log (LOG_WARN, "%d:%d:XML error: %s",
+                    XML_GetCurrentLineNumber(parser),
+                    XML_GetCurrentColumnNumber(parser),
                     XML_ErrorString(XML_GetErrorCode(parser)));
        }
     }
     XML_ParserFree (parser);
     if (!uinfo.d1_stack[1] || !done)
         return 0;
+    /* insert XML header if not present .. */
+    first_node = uinfo.d1_stack[0]->child;
+    if (first_node->which != DATA1N_preprocess ||
+       strcmp(first_node->u.preprocess.target, "xml"))
+    {
+        const char *attr_list[5];
+
+        attr_list[0] = "version";
+        attr_list[1] = "1.0";
+
+        attr_list[2] = "encoding";
+        attr_list[3] = "UTF-8"; /* encoding */
+
+        attr_list[4] = 0;
+    
+        data1_insert_preprocess (uinfo.dh, uinfo.nmem, "xml", attr_list,
+                                uinfo.d1_stack[0]);
+    }
     return uinfo.d1_stack[0];
 }
 
 struct xml_info {
-    int dummy;
+    XML_Expat_Version expat_version;
 };
 
 static void *grs_init_xml(void)
 {
     struct xml_info *p = (struct xml_info *) xmalloc (sizeof(*p));
+
+    p->expat_version = XML_ExpatVersionInfo();
+
     return p;
 }
 
@@ -450,7 +494,7 @@ static data1_node *grs_read_xml (struct grs_read_info *p)
 
 static void grs_destroy_xml(void *clientData)
 {
-    struct sgml_getc_info *p = (struct sgml_getc_info *) clientData;
+    struct xml_info *p = (struct xml_info *) clientData;
 
     xfree (p);
 }