Support for approximation
[pazpar2-moved-to-github.git] / src / client.c
index ac2e01b..f80e302 100644 (file)
@@ -1,5 +1,5 @@
 /* This file is part of Pazpar2.
-   Copyright (C) 2006-2011 Index Data
+   Copyright (C) 2006-2012 Index Data
 
 Pazpar2 is free software; you can redistribute it and/or modify it under
 the terms of the GNU General Public License as published by the Free
@@ -108,8 +108,10 @@ struct client {
     struct session *session;
     char *pquery; // Current search
     char *cqlquery; // used for SRU targets only
+    char *addinfo; // diagnostic info for most resent error
     Odr_int hits;
     int record_offset;
+    int filtered; // When using local:, this will count the number of filtered records.
     int maxrecs;
     int startrecs;
     int diagnostic;
@@ -138,6 +140,7 @@ struct show_raw {
     int binary;
     char *syntax;
     char *esn;
+    char *nativesyntax;
     void (*error_handler)(void *data, const char *addinfo);
     void (*record_handler)(void *data, const char *buf, size_t sz);
     void *data;
@@ -215,15 +218,15 @@ const char *client_get_pquery(struct client *cl)
 }
 
 static void client_send_raw_present(struct client *cl);
-static int nativesyntax_to_type(struct session_database *sdb, char *type,
-                                ZOOM_record rec);
+static int nativesyntax_to_type(const char *s, char *type, ZOOM_record rec);
 
 static void client_show_immediate(
     ZOOM_resultset resultset, struct session_database *sdb, int position,
     void *data,
     void (*error_handler)(void *data, const char *addinfo),
     void (*record_handler)(void *data, const char *buf, size_t sz),
-    int binary)
+    int binary,
+    const char *nativesyntax)
 {
     ZOOM_record rec = 0;
     char type[80];
@@ -235,16 +238,13 @@ static void client_show_immediate(
         error_handler(data, "no resultset");
         return;
     }
-    rec = ZOOM_resultset_record(resultset, position-1);
+    rec = ZOOM_resultset_record_immediate(resultset, position-1);
     if (!rec)
     {
         error_handler(data, "no record");
         return;
     }
-    if (binary)
-        strcpy(type, "raw");
-    else
-        nativesyntax_to_type(sdb, type, rec);
+    nativesyntax_to_type(nativesyntax, type, rec);
     buf = ZOOM_record_get(rec, type, &len);
     if (!buf)
     {
@@ -261,13 +261,25 @@ int client_show_raw_begin(struct client *cl, int position,
                           void (*error_handler)(void *data, const char *addinfo),
                           void (*record_handler)(void *data, const char *buf,
                                                  size_t sz),
-                          int binary)
+                          int binary,
+                          const char *nativesyntax)
 {
+    if (!nativesyntax)
+    {
+        if (binary)
+            nativesyntax = "raw";
+        else
+        {
+            struct session_database *sdb = client_get_database(cl);
+            nativesyntax = session_setting_oneval(sdb, PZ_NATIVESYNTAX);
+        }
+    }
+
     if (syntax == 0 && esn == 0)
         client_show_immediate(cl->resultset, client_get_database(cl),
                               position, data,
                               error_handler, record_handler,
-                              binary);
+                              binary, nativesyntax);
     else
     {
         struct show_raw *rr, **rrp;
@@ -291,6 +303,10 @@ int client_show_raw_begin(struct client *cl, int position,
             rr->esn = xstrdup(esn);
         else
             rr->esn = 0;
+
+        assert(nativesyntax);
+        rr->nativesyntax = xstrdup(nativesyntax);
+            
         rr->next = 0;
         
         for (rrp = &cl->show_raw; *rrp; rrp = &(*rrp)->next)
@@ -317,6 +333,7 @@ static void client_show_raw_delete(struct show_raw *r)
 {
     xfree(r->syntax);
     xfree(r->esn);
+    xfree(r->nativesyntax);
     xfree(r);
 }
 
@@ -385,11 +402,9 @@ static void client_send_raw_present(struct client *cl)
     connection_continue(co);
 }
 
-static int nativesyntax_to_type(struct session_database *sdb, char *type,
+static int nativesyntax_to_type(const char *s, char *type,
                                 ZOOM_record rec)
 {
-    const char *s = session_setting_oneval(sdb, PZ_NATIVESYNTAX);
-
     if (s && *s)
     {
         if (!strncmp(s, "iso2709", 7))
@@ -407,7 +422,7 @@ static int nativesyntax_to_type(struct session_database *sdb, char *type,
             yaz_snprintf(type, 80, "txml; charset=%s", cp ? cp+1 : "marc-8s");
         }
         else
-            return -1;
+            strcpy(type, s);
         return 0;
     }
     else  /* attempt to deduce structure */
@@ -485,14 +500,7 @@ static void ingest_raw_record(struct client *cl, ZOOM_record rec)
     int len;
     char type[80];
 
-    if (cl->show_raw->binary)
-        strcpy(type, "raw");
-    else
-    {
-        struct session_database *sdb = client_get_database(cl);
-        nativesyntax_to_type(sdb, type, rec);
-    }
-
+    nativesyntax_to_type(cl->show_raw->nativesyntax, type, rec);
     buf = ZOOM_record_get(rec, type, &len);
     cl->show_raw->record_handler(cl->show_raw->data,  buf, len);
     client_show_raw_dequeue(cl);
@@ -539,8 +547,7 @@ void client_search_response(struct client *cl)
     }
     else
     {
-        yaz_log(YLOG_DEBUG, "client_search_response: hits "
-                ODR_INT_PRINTF, cl->hits);
+        yaz_log(YLOG_DEBUG, "client_search_response: hits " ODR_INT_PRINTF, cl->hits);
         client_report_facets(cl, resultset);
         cl->record_offset = cl->startrecs;
         cl->hits = ZOOM_resultset_size(resultset);
@@ -573,11 +580,12 @@ static void client_record_ingest(struct client *cl)
     ZOOM_record rec = 0;
     ZOOM_resultset resultset = cl->resultset;
     int offset = cl->record_offset;
-    if ((rec = ZOOM_resultset_record(resultset, offset)))
+    if ((rec = ZOOM_resultset_record_immediate(resultset, offset)))
     {
         cl->record_offset++;
-        if (cl->session == 0)
-            ;
+        if (cl->session == 0) {
+            /* no operation */
+        }
         else if (ZOOM_record_error(rec, &msg, &addinfo, 0))
         {
             yaz_log(YLOG_WARN, "Record error %s (%s): %s (rec #%d)",
@@ -591,7 +599,8 @@ static void client_record_ingest(struct client *cl)
             const char *xmlrec;
             char type[80];
             
-            if (nativesyntax_to_type(sdb, type, rec))
+            const char *s = session_setting_oneval(sdb, PZ_NATIVESYNTAX);
+            if (nativesyntax_to_type(s, type, rec))
                 yaz_log(YLOG_WARN, "Failed to determine record type");
             xmlrec = ZOOM_record_get(rec, type, NULL);
             if (!xmlrec)
@@ -600,8 +609,11 @@ static void client_record_ingest(struct client *cl)
             else
             {
                 /* OK = 0, -1 = failure, -2 = Filtered */
-                if (ingest_record(cl, xmlrec, cl->record_offset, nmem) == -1)
+                int rc = ingest_record(cl, xmlrec, cl->record_offset, nmem);
+                if (rc == -1)
                     yaz_log(YLOG_WARN, "Failed to ingest from %s", client_get_id(cl));
+                if (rc == -2)
+                    cl->filtered += 1;
             }
             nmem_destroy(nmem);
         }
@@ -631,8 +643,8 @@ void client_record_response(struct client *cl)
         if (cl->show_raw && cl->show_raw->active)
         {
             ZOOM_record rec = 0;
-            if ((rec = ZOOM_resultset_record(resultset,
-                                             cl->show_raw->position-1)))
+            if ((rec = ZOOM_resultset_record_immediate(
+                     resultset, cl->show_raw->position-1)))
             {
                 cl->show_raw->active = 0;
                 ingest_raw_record(cl, rec);
@@ -654,6 +666,7 @@ void client_reingest(struct client *cl)
 {
     int i = cl->startrecs;
     int to = cl->record_offset;
+    cl->filtered = 0;
 
     cl->record_offset = i;
     for (; i < to; i++)
@@ -703,12 +716,37 @@ int client_has_facet(struct client *cl, const char *name)
     return 0;
 }
 
-void client_start_search(struct client *cl, const char *sort_strategy_and_spec,
-                         int increasing)
+static const char *get_strategy_plus_sort(struct client *l, const char *field)
+{
+    struct session_database *sdb = client_get_database(l);
+    struct setting *s;
+
+    const char *strategy_plus_sort = 0;
+    
+    for (s = sdb->settings[PZ_SORTMAP]; s; s = s->next)
+    {
+        char *p = strchr(s->name + 3, ':');
+        if (!p)
+        {
+            yaz_log(YLOG_WARN, "Malformed sortmap name: %s", s->name);
+            continue;
+        }
+        p++;
+        if (!strcmp(p, field))
+        {
+            strategy_plus_sort = s->value;
+            break;
+        }
+    }
+    return strategy_plus_sort;
+}
+
+void client_start_search(struct client *cl)
 {
     struct session_database *sdb = client_get_database(cl);
     struct connection *co = client_get_connection(cl);
     ZOOM_connection link = connection_get_link(co);
+    struct session *se = client_get_session(cl);
     ZOOM_resultset rs;
     const char *opt_piggyback   = session_setting_oneval(sdb, PZ_PIGGYBACK);
     const char *opt_queryenc    = session_setting_oneval(sdb, PZ_QUERYENCODING);
@@ -719,13 +757,17 @@ void client_start_search(struct client *cl, const char *sort_strategy_and_spec,
     const char *opt_sort        = session_setting_oneval(sdb, PZ_SORT);
     const char *opt_preferred   = session_setting_oneval(sdb, PZ_PREFERRED);
     const char *extra_args      = session_setting_oneval(sdb, PZ_EXTRA_ARGS);
-    char maxrecs_str[24], startrecs_str[24];
+    const char *opt_present_chunk = session_setting_oneval(sdb, PZ_PRESENT_CHUNK);
+    /* Default present chunk */
+    int present_chunk = 20;
+    if (opt_present_chunk && strcmp(opt_present_chunk,"")) {
+        present_chunk = atoi(opt_present_chunk);
+    }
+    char maxrecs_str[24], startrecs_str[24], present_chunk_str[24];
     ZOOM_query q;
 
     assert(link);
 
-    cl->hits = 0;
-    cl->record_offset = 0;
     cl->diagnostic = 0;
 
     if (extra_args && *extra_args)
@@ -737,7 +779,6 @@ void client_start_search(struct client *cl, const char *sort_strategy_and_spec,
             yaz_log(YLOG_LOG, "Target %s has preferred status: %d",
                     client_get_id(cl), cl->preferred);
     }
-    client_set_state(cl, Client_Working);
 
     if (*opt_piggyback)
         ZOOM_connection_option_set(link, "piggyback", opt_piggyback);
@@ -761,8 +802,11 @@ void client_start_search(struct client *cl, const char *sort_strategy_and_spec,
     sprintf(maxrecs_str, "%d", cl->maxrecs);
     ZOOM_connection_option_set(link, "count", maxrecs_str);
 
-    if (cl->maxrecs > 20)
-        ZOOM_connection_option_set(link, "presentChunk", "20");
+    /* A present_chunk less than 1 will disable chunking. */
+    if (present_chunk > 0 && cl->maxrecs > present_chunk) {
+        sprintf(present_chunk_str, "%d", present_chunk);
+        ZOOM_connection_option_set(link, "presentChunk", opt_present_chunk);
+    }
     else
         ZOOM_connection_option_set(link, "presentChunk", maxrecs_str);
 
@@ -788,25 +832,43 @@ void client_start_search(struct client *cl, const char *sort_strategy_and_spec,
         
         ZOOM_query_prefix(q, cl->pquery);
     }
-    if (sort_strategy_and_spec &&
-        strlen(sort_strategy_and_spec) < 40 /* spec below */)
-    {
-        char spec[50], *p;
-        strcpy(spec, sort_strategy_and_spec);
-        p = strchr(spec, ':');
-        if (p)
+    if (se->sorted_results)
+    {   /* first entry is current sorting ! */
+        const char *sort_strategy_and_spec =
+            get_strategy_plus_sort(cl, se->sorted_results->field);
+        int increasing = se->sorted_results->increasing;
+        if (sort_strategy_and_spec && strlen(sort_strategy_and_spec) < 40)
         {
-            *p++ = '\0'; /* cut the string in two */
-            while (*p == ' ')
-                p++;
-            if (increasing)
-                strcat(p, " <");
-            else
-                strcat(p, " >");
-            yaz_log(YLOG_LOG, "applying %s %s", spec, p);
-            ZOOM_query_sortby2(q, spec, p);
+            char spec[50], *p;
+            strcpy(spec, sort_strategy_and_spec);
+            p = strchr(spec, ':');
+            if (p)
+            {
+                *p++ = '\0'; /* cut the string in two */
+                while (*p == ' ')
+                    p++;
+                if (increasing)
+                    strcat(p, " <");
+                else
+                    strcat(p, " >");
+                yaz_log(YLOG_LOG, "applying %s %s", spec, p);
+                ZOOM_query_sortby2(q, spec, p);
+            }
+        }
+        else
+        {
+            /* no native sorting.. If this is not the first search, then
+               skip it entirely */
+            if (se->sorted_results->next)
+            {
+                ZOOM_query_destroy(q);
+                return;
+            }
         }
     }
+    client_set_state(cl, Client_Working);
+    cl->hits = 0;
+    cl->record_offset = 0;
     rs = ZOOM_connection_search(link, q);
     ZOOM_query_destroy(q);
     ZOOM_resultset_destroy(cl->resultset);
@@ -821,11 +883,13 @@ struct client *client_create(const char *id)
     cl->startrecs = 0;
     cl->pquery = 0;
     cl->cqlquery = 0;
+    cl->addinfo = 0;
     cl->database = 0;
     cl->connection = 0;
     cl->session = 0;
     cl->hits = 0;
     cl->record_offset = 0;
+    cl->filtered = 0;
     cl->diagnostic = 0;
     cl->state = Client_Disconnected;
     cl->show_raw = 0;
@@ -872,6 +936,8 @@ int client_destroy(struct client *c)
             c->pquery = 0;
             xfree(c->cqlquery);
             c->cqlquery = 0;
+            xfree(c->addinfo);
+            c->addinfo = 0;
             xfree(c->id);
             assert(!c->connection);
             facet_limits_destroy(c->facet_limits);
@@ -940,60 +1006,44 @@ static CCL_bibset prepare_cclmap(struct client *cl)
 }
 
 // returns a xmalloced CQL query corresponding to the pquery in client
-static char *make_cqlquery(struct client *cl)
+static char *make_cqlquery(struct client *cl, Z_RPNQuery *zquery)
 {
     cql_transform_t cqlt = cql_transform_create();
-    Z_RPNQuery *zquery;
-    char *r;
+    char *r = 0;
     WRBUF wrb = wrbuf_alloc();
     int status;
-    ODR odr_out = odr_createmem(ODR_ENCODE);
 
-    zquery = p_query_rpn(odr_out, cl->pquery);
-    yaz_log(YLOG_LOG, "PQF: %s", cl->pquery);
     if ((status = cql_transform_rpn2cql_wrbuf(cqlt, wrb, zquery)))
     {
         yaz_log(YLOG_WARN, "Failed to generate CQL query, code=%d", status);
-        r = 0;
     }
     else
     {
         r = xstrdup(wrbuf_cstr(wrb));
     }     
     wrbuf_destroy(wrb);
-    odr_destroy(odr_out);
     cql_transform_close(cqlt);
     return r;
 }
 
 // returns a xmalloced SOLR query corresponding to the pquery in client
 // TODO Could prob. be merge with the similar make_cqlquery
-static char *make_solrquery(struct client *cl)
+static char *make_solrquery(struct client *cl, Z_RPNQuery *zquery)
 {
     solr_transform_t sqlt = solr_transform_create();
-    Z_RPNQuery *zquery;
-    char *r;
+    char *r = 0;
     WRBUF wrb = wrbuf_alloc();
     int status;
-    ODR odr_out = odr_createmem(ODR_ENCODE);
-
-    zquery = p_query_rpn(odr_out, cl->pquery);
-    if (zquery == 0) {
-        yaz_log(YLOG_WARN, "Failed to generate RPN from PQF: %s", cl->pquery);
-        return 0;
-    }
-    yaz_log(YLOG_LOG, "PQF: %s", cl->pquery);
+    
     if ((status = solr_transform_rpn2solr_wrbuf(sqlt, wrb, zquery)))
     {
-        yaz_log(YLOG_WARN, "Failed to generate SOLR query from PQF %s, code=%d", cl->pquery, status);
-        r = 0;
+        yaz_log(YLOG_WARN, "Failed to generate SOLR query, code=%d", status);
     }
     else
     {
         r = xstrdup(wrbuf_cstr(wrb));
     }
     wrbuf_destroy(wrb);
-    odr_destroy(odr_out);
     solr_transform_close(sqlt);
     return r;
 }
@@ -1015,10 +1065,14 @@ const char *client_get_facet_limit_local(struct client *cl,
             if (p && !strcmp(p + 1, name) && s->value &&
                 !strncmp(s->value, "local:", 6))
             {
+                const char *cp = s->value + 6;
+                while (*cp == ' ')
+                    cp++;
+                    
                 nmem_strsplit_escape2(nmem, "|", value, values,
                                       num, 1, '\\', 1);
                 (*l)++;
-                return name;
+                return *cp ? cp : name;
             }
         }
     }
@@ -1081,8 +1135,9 @@ static int apply_limit(struct session_database *sdb,
                     wrbuf_puts(w_ccl, ")");
 
                 }
-                else if (!strncmp(s->value, "local:", 6))
-                    ;
+                else if (!strncmp(s->value, "local:", 6)) {
+                    /* no operation */
+                }
                 else
                 {
                     yaz_log(YLOG_WARN, "Target %s: Bad limitmap '%s'",
@@ -1104,6 +1159,10 @@ static int apply_limit(struct session_database *sdb,
 }
                         
 // Parse the query given the settings specific to this client
+// return 0 if query is OK but different from before
+// return 1 if query is OK but same as before
+// return -1 on query error
+// return -2 on limit error
 int client_parse_query(struct client *cl, const char *query,
                        facet_limits_t facet_limits,
                        const char *startrecs, const char *maxrecs)
@@ -1112,6 +1171,7 @@ int client_parse_query(struct client *cl, const char *query,
     struct session_database *sdb = client_get_database(cl);
     struct ccl_rpn_node *cn;
     int cerror, cpos;
+    ODR odr_out;
     CCL_bibset ccl_map = prepare_cclmap(cl);
     const char *sru = session_setting_oneval(sdb, PZ_SRU);
     const char *pqf_prefix = session_setting_oneval(sdb, PZ_PQF_PREFIX);
@@ -1119,11 +1179,11 @@ int client_parse_query(struct client *cl, const char *query,
     const char *query_syntax = session_setting_oneval(sdb, PZ_QUERY_SYNTAX);
     WRBUF w_ccl, w_pqf;
     int ret_value = 1;
+    Z_RPNQuery *zquery;
 
     if (!ccl_map)
         return -1;
 
-
     if (maxrecs && atoi(maxrecs) != cl->maxrecs)
     {
         ret_value = 0;
@@ -1187,6 +1247,7 @@ int client_parse_query(struct client *cl, const char *query,
                 wrbuf_putc(w_pqf, cp[0]);
         }
     }
+
     if (!cl->pquery || strcmp(cl->pquery, wrbuf_cstr(w_pqf)))
     {
         xfree(cl->pquery);
@@ -1194,27 +1255,36 @@ int client_parse_query(struct client *cl, const char *query,
         ret_value = 0;
     }
     wrbuf_destroy(w_pqf);
-
-    yaz_log(YLOG_LOG, "PQF query: %s", cl->pquery);
-
+    
     xfree(cl->cqlquery);
+    cl->cqlquery = 0;
 
-    /* Support for PQF on SRU targets. */
-    /* TODO Refactor */
-    yaz_log(YLOG_DEBUG, "Query syntax: %s", query_syntax);
-    if (strcmp(query_syntax, "pqf") != 0 && *sru)
+    odr_out = odr_createmem(ODR_ENCODE);    
+    zquery = p_query_rpn(odr_out, cl->pquery);
+    if (!zquery)
     {
-        if (!strcmp(sru, "solr")) {
-            if (!(cl->cqlquery = make_solrquery(cl)))
-                return -1;
-        }
-        else {
-            if (!(cl->cqlquery = make_cqlquery(cl)))
-                return -1;
-        }
+
+        session_log(se, YLOG_WARN, "Invalid PQF query for %s: %s",
+                    client_get_id(cl), cl->pquery);
+        ret_value = -1;
     }
     else
-        cl->cqlquery = 0;
+    {
+        session_log(se, YLOG_LOG, "PQF for %s: %s",
+                    client_get_id(cl), cl->pquery);
+        
+        /* Support for PQF on SRU targets. */
+        if (strcmp(query_syntax, "pqf") != 0 && *sru)
+        {
+            if (!strcmp(sru, "solr"))
+                cl->cqlquery = make_solrquery(cl, zquery);
+            else
+                cl->cqlquery = make_cqlquery(cl, zquery);
+            if (!cl->cqlquery)
+                ret_value = -1;
+        }
+    }
+    odr_destroy(odr_out);
 
     /* TODO FIX Not thread safe */
     if (!se->relevance)
@@ -1223,7 +1293,6 @@ int client_parse_query(struct client *cl, const char *query,
         se->relevance = relevance_create_ccl(
             se->service->charsets, se->nmem, cn);
     }
-
     ccl_rpn_delete(cn);
     return ret_value;
 }
@@ -1258,18 +1327,38 @@ Odr_int client_get_hits(struct client *cl)
     return cl->hits;
 }
 
+Odr_int client_get_approximation(struct client *cl)
+{
+    int records = cl->record_offset + cl->filtered;
+    if (records > 0)
+        return cl->hits * cl->record_offset / records;
+    return cl->hits;
+}
+
 int client_get_num_records(struct client *cl)
 {
     return cl->record_offset;
 }
 
-void client_set_diagnostic(struct client *cl, int diagnostic)
+int client_get_num_records_filtered(struct client *cl)
+{
+    return cl->filtered;
+}
+
+void client_set_diagnostic(struct client *cl, int diagnostic,
+                           const char *addinfo)
 {
     cl->diagnostic = diagnostic;
+    xfree(cl->addinfo);
+    cl->addinfo = 0;
+    if (addinfo)
+        cl->addinfo = xstrdup(addinfo);
 }
 
-int client_get_diagnostic(struct client *cl)
+int client_get_diagnostic(struct client *cl, const char **addinfo)
 {
+    if (addinfo)
+        *addinfo = cl->addinfo;
     return cl->diagnostic;
 }