Doc: relevance section refer to config description
[pazpar2-moved-to-github.git] / doc / book.xml
index f11e68a..58e9ca6 100644 (file)
@@ -1,6 +1,6 @@
 <?xml version="1.0" standalone="no"?>
 <!DOCTYPE book PUBLIC "-//OASIS//DTD DocBook XML V4.4//EN"
-    "http://www.oasis-open.org/docbook/xml/4.4/docbookx.dtd" 
+    "http://www.oasis-open.org/docbook/xml/4.4/docbookx.dtd"
 [
      <!ENTITY % local SYSTEM "local.ent">
      %local;
    </simpara>
   </abstract>
  </bookinfo>
+
  <chapter id="introduction">
   <title>Introduction</title>
-  
+
   <section id="what.pazpar2.is">
    <title>What Pazpar2 is</title>
    <para>
@@ -78,8 +78,8 @@
     other <ulink url="&url.xml;">XML</ulink>-structured response format
     -- <ulink url="&url.xslt;">XSLT</ulink> is used to normalize and extract
     data from retrieval records for display and analysis. It can be used
-    against any server which supports the 
-    <ulink url="&url.z39.50;">Z39.50</ulink>, <ulink url="&url.sru;">SRU/SRW</ulink> 
+    against any server which supports the
+    <ulink url="&url.z39.50;">Z39.50</ulink>, <ulink url="&url.sru;">SRU/SRW</ulink>
     or <ulink url="&url.solr;">SOLR</ulink> protocol. Proprietary
     backend modules can function as connectors between these standard
     protocols and any non-standard API, including web-site scraping, to
   <section id="connectors">
    <title>Connectors to non-standard databases</title>
    <para>
-    If you wish to connect to commercial or other databases which do not
-    support open standards, please contact Index Data on
-    <email>info@indexdata.com</email>. We have a
-    proprietary framework for building connectors that enable Pazpar2
-    to access
-    thousands of online databases, in addition to the vast number of catalogs
-    and online services that support the Z39.50/SRU/SRW/SOLR protocols.
+    If you need to access commercial or open access resources that don't support
+    Z39.50 or SRU, one approach would be to use a tool like <ulink
+    url="&url.simpleserver;">SimpleServer</ulink> to build a
+    gateway. An easier option is to use Index Data's <ulink
+    url="&url.mkc;">MasterKey Connect</ulink>
+    service, which will expose virtually <emphasis>any</emphasis> resource
+    through Z39.50/SRU, dead easy to integrate with Pazpar2.
+    The service is hosted, so all you have to do is to let us
+    know which resources you are interested in, and we operate the gateways,
+    or Connectors for you for a low annual charge.
+    Types of resources supported include
+    commercial databases, free online resources, and even local resources;
+    almost anything that can be accessed through a web-facing user
+    interface can be accessed in this way.
+    Contact <email>info@indexdata.com</email> for more information.
+    See <xref linkend="masterkey_connect"/> for an example.
    </para>
   </section>
-  
+
   <section id="name">
    <title>A note on the name Pazpar2</title>
    <para>
       Greek, Russian, German and French. Pazpar2 uses the ICU
       Unicode character conversions, Unicode normalization, case
       folding and other fundamental operations needed in
-      tokenization, normalization and ranking of records. 
+      tokenization, normalization and ranking of records.
      </para>
      <para>
       Compiling, linking, and usage of the ICU libraries is optional,
       but strongly recommended for usage in an international
-      environment.  
+      environment.
      </para>
     </listitem>
     </varlistentry>
     For example, if Libxml2/libXSLT libraries
     are already installed as development packages, use these.
    </para>
-   
+
    <para>
     Ensure that the development libraries and header files are
     available on your system before compiling Pazpar2. For installation
    </screen>
    <para>
     The <literal>make install</literal> will install manpages as well as the
-    Pazpar2 server, <literal>pazpar2</literal>, 
+    Pazpar2 server, <literal>pazpar2</literal>,
     in PREFIX<literal>/sbin</literal>.
     By default, PREFIX is <literal>/usr/local/</literal> . This can be
     changed with configure option <option>--prefix</option>.
    </para>
   </section>
-  
+
   <section id="installation.win32">
    <title>Installation from source on Windows</title>
    <para>
    </para>
    <para>
     The Windows version of Pazpar2 is a console application. It may
-    be installed as a Windows Service by adding option 
+    be installed as a Windows Service by adding option
     <literal>-install</literal> for the pazpar2 program. This will
     register Pazpar2 as a service and use the other options provided
     in the same invocation. For example:
     </screen>
    </para>
   </section>
-  
+
   <section id="installation.test1">
    <title>Installation of test interfaces</title>
    <para>
     In this section we show how to make available the set of simple
     interfaces that are part of the Pazpar2 source package, and which
-    demonstrate some ways to use Pazpar2.  (Note that Debian users can 
+    demonstrate some ways to use Pazpar2.  (Note that Debian users can
     save time by just installing the package <literal>pazpar2-test1</literal>.)
    </para>
    <para>
      copy pazpar2.cfg.dist pazpar2.cfg
      ..\bin\pazpar2 -f pazpar2.cfg
     </screen>
-    This will start a Pazpar2 listener on port 9004. It will proxy 
+    This will start a Pazpar2 listener on port 9004. It will proxy
     HTTP requests to port 80 on localhost, which we assume will be the regular
     HTTP server on the system. Inspect and modify pazpar2.cfg as needed
     if this is to be changed. The pazpar2.cfg file includes settings from the
    <para>
     The test UIs are located in <literal>www</literal>. Ensure that this
     directory is available to the web server by copying
-    <literal>www</literal> to the document root, 
+    <literal>www</literal> to the document root,
     using Apache's <literal>Alias</literal> directive, or
     creating a symbolic link: for example, on a Debian or Ubuntu
     system with Apache2 installed from the standard package, you might
      sudo ln -s `pwd`/www /var/www/pazpar2-demo
     </screen>
    </para>
-   
+
    <para>
     This makes the test applications visible at
     <ulink url="http://localhost/pazpar2-demo/"/>
     accessed: <literal>test1</literal>, <literal>test2</literal> and
     <literal>jsdemo</literal>
     are pure HTML+JavaScript setups, needing no server-side
-    intelligence; 
+    intelligence;
     <literal>demo</literal>
     requires PHP on the server.
    </para>
    </para>
    <para>
     In order to use Apache as frontend for the interface on port 80
-    for public access etc., refer to 
+    for public access etc., refer to
     <xref linkend="installation.apache2proxy"/>.
    </para>
   </section>
     <ulink url="&url.pazpar2.download.ubuntu;"/>.
    </para>
   </section>
-  
+
   <section id="installation.apache2proxy">
    <title>Apache 2 Proxy</title>
    <para>
-    Apache 2 has a 
+    Apache 2 has a
     <ulink
        url="http://httpd.apache.org/docs/2.2/mod/mod_proxy.html">
      proxy module
     based web service. The Apache 2 proxy must operate in the
     <emphasis>Reverse</emphasis> Proxy mode.
    </para>
-   
+
    <para>
     On a Debian based Apache 2 system, the relevant modules can
     be enabled with:
      sudo a2enmod proxy_http proxy_balancer
     </screen>
    </para>
-   
+
    <para>
-    Traditionally Pazpar2 interprets URL paths with suffix 
+    Traditionally Pazpar2 interprets URL paths with suffix
     <literal>/search.pz2</literal>.
-    The 
+    The
     <ulink
        url="http://httpd.apache.org/docs/2.2/mod/mod_proxy.html#proxypass">
     ProxyPass
      <screen><![CDATA[
       <IfModule mod_proxy.c>
        ProxyRequests Off
-      
+
        <Proxy *>
         AddDefaultCharset off
         Order deny,allow
         Allow from all
        </Proxy>
-      
+
        ProxyPass /myportal/search.pz2 http://localhost:8004/search.pz2
        ProxyVia Off
       </IfModule>
     </para>
    </example>
   </section>
-  
+
  </chapter>
+
  <chapter id="using">
   <title>Using Pazpar2</title>
   <para>
    This chapter provides a general introduction to the use and
-   deployment of Pazpar2. 
+   deployment of Pazpar2.
   </para>
-  
+
   <section id="architecture">
    <title>Pazpar2 and your systems architecture</title>
    <para>
     with the server from which the enclosing HTML page or object
     originated, Pazpar2 is designed so that it can act as a transparent
     proxy in front of an existing webserver (see <xref
-    linkend="pazpar2_conf"/> for details). 
+    linkend="pazpar2_conf"/> for details).
     In this mode, all regular
     HTTP requests are transparently passed through to your webserver,
     while Pazpar2 only intercepts search-related webservice requests.
     The intermediate, internal representation of the record looks like
     this:
     <screen><![CDATA[
-     <record   xmlns="http://www.indexdata.com/pazpar2/1.0"
-     mergekey="title The Shining author King, Stephen">
+     <record xmlns="http://www.indexdata.com/pazpar2/1.0"
+       mergekey="title The Shining author King, Stephen">
 
-     <metadata type="title">The Shining</metadata>
+       <metadata type="title" rank="2">The Shining</metadata>
 
-     <metadata type="author">King, Stephen</metadata>
+       <metadata type="author">King, Stephen</metadata>
 
-     <metadata type="kind">ebook</metadata>
+       <metadata type="kind">ebook</metadata>
+       <!-- ... and so on -->
+     </record>
+]]></screen>
 
-     <!-- ... and so on -->
-    </record>
-     ]]></screen>
-    
     As you can see, there isn't much to it. There are really only a few
     important elements to this file.
    </para>
-   
+
    <para>
     Elements should belong to the namespace
     <literal>http://www.indexdata.com/pazpar2/1.0</literal>.
     records are never merged. The 'metadata' elements provide the meat
     of the elements -- the content. the 'type' attribute is used to
     match each element against processing rules that determine what
-    happens to the data element next.
+    happens to the data element next. The attribute, 'rank' specifies
+    specifies a multipler for ranking for this element.
    </para>
 
    <para>
     in the retrieval record ultimately drives merging, sorting, ranking,
     the extraction of browse facets, and display, all configurable.
    </para>
+
+   <para>
+    Pazpar2 1.6.37 and later also allows already clustered records to
+    be ingested. Suppose a database already clusters for us and we would like
+    to keep that cluster for Pazpar2. In that case we can generate a
+    <literal>cluster</literal> wrapper element that holds individual
+    <literal>record</literal> elements.
+   </para>
+   <para>
+    Cluster record example:
+    <screen><![CDATA[
+     <cluster xmlns="http://www.indexdata.com/pazpar2/1.0">
+       <record>
+         <metadata type="title" rank="2">The Shining</metadata>
+        <metadata type="author">King, Stephen</metadata>
+        <metadata type="kind">ebook</metadata>
+       </record>
+       <record>
+         <metadata type="title" rank="2">The Shining</metadata>
+        <metadata type="author">King, Stephen</metadata>
+        <metadata type="kind">audio</metadata>
+       </record>
+    </cluster>
+     ]]></screen>
+   </para>
   </section>
 
   <section id="client">
     The webservice API of Pazpar2 is described in detail in <xref
      linkend="pazpar2_protocol"/>.
    </para>
-   
+
    <para>
     In brief, you use the 'init' command to create a session, a
     temporary workspace which carries information about the current
     search. You start a new search using the 'search' command. Once the
     search has been started, you can follow its progress using the
     'stat', 'bytarget', 'termlist', or 'show' commands. Detailed records
-    can be fetched using the 'record' command.
+    can be fetched using the 'record' command. 
    </para>
   </section>
 
   &sect-ajaxdev;
 
-  <section id="nonstandard">
-   <title>Connecting to non-standard resources</title>
-   <para>
-    Pazpar2 uses Z39.50 as its switchboard language -- i.e. as far as it
-    is concerned, all resources speak Z39.50, its webservices derivatives,
-    SRU/SRW and SOLR servers exposing Lucene indexes. It is, however, equipped
-    to handle a broad range of different server behavior, through
-    configurable query mapping and record normalization. If you develop
-    configuration, stylesheets, etc., for a new type of resources, we
-    encourage you to share your work. But you can also use Pazpar2 to
-    connect to hundreds of resources that do not support standard
-    protocols.
-   </para>
-
-   <para>
-    For a growing number of resources, Z39.50 is all you need. Over the
-    last few years, a number of commercial, full-text resources have
-    implemented Z39.50. These can be used through Pazpar2 with little or
-    no effort. Resources that use non-standard record formats will
-    require a bit of XSLT work, but that's all.
-   </para>
-   
-   <para>
-    But what about resources that don't support Z39.50 at all?
-    Some resources might support OpenSearch, private, XML/HTTP-based
-    protocols, or something else entirely.
-    Some databases exist only as web user interfaces and
-    will require screen-scraping. Still others exist only as static
-    files, or perhaps as databases supporting the OAI-PMH protocol.
-    There is hope! Read on.
-   </para>
-
-   <para>
-    Index Data continues to advocate the support of open standards. We
-    work with database vendors to support standards, so you don't have
-    to worry about programming against non-standard services. We also
-    provide tools (see <ulink
-    url="http://www.indexdata.com/simpleserver">SimpleServer</ulink>)
-    which make it comparatively easy to build gateways against servers
-    with non-standard behavior. Again, we encourage you to share any
-    work you do in this direction.
-   </para>
-   
-   <para>
-    But the bottom line is that working with non-standard resources in
-    metasearching is really, really hard. If you want to build a
-    project with Pazpar2, and you need access to resources with
-    non-standard interfaces, we can help. We run gateways to more than
-    2,000 popular, commercial databases and other resources,
-    making it simple 
-    to plug them directly into Pazpar2. For a small annual fee per
-    database, we can help you establish connections to your licensed
-    resources. Meanwhile, you can help! If you build your own
-    standards-compliant gateways, host them for others, or share the
-    code! And tell your vendors that they can save everybody money and
-    increase the appeal of their resources by supporting standards.
-   </para>
-
-   <para>
-    There are those who will ask us why we are using Z39.50 as our
-    switchboard language rather than a different protocol. Basically,
-    we believe that Z39.50 is presently the most widely implemented 
-    information retrieval protocol that has the level of functionality
-    required to support a good metasearching experience (structured
-    searching, structured, well-defined results). It is also compact and
-    efficient, and there is a very broad range of tools available to
-    implement it.
-   </para>
-  </section>
-
   <section id="unicode">
    <title>Unicode Compliance</title>
    <para>
    </para>
    <para>
     In addition, the ICU tokenization and normalization rules must
-    be defined in the master configuration file described in 
+    be defined in the master configuration file described in
     <xref linkend="config-server"/>.
    </para>
   </section>
      </ulink>
      module in your Apache2 installation.
    </para>
-   
+
    <para>
     On a Debian based Apache 2 system, the relevant modules can
     be enabled with:
      could use the following Apache 2 configuration to expose a single
      pazpar2 'endpoint' on a standard
      (<filename>/pazpar2/search.pz2</filename>) location:
-     
+
      <screen><![CDATA[
        <Proxy *>
          AddDefaultCharset off
          BalancerMember http://localhost:8007 route=pz4
        </Proxy>
 
-       # route is resent in the 'session' param which has the form: 
+       # route is resent in the 'session' param which has the form:
        # 'sessid.serverid', understandable by the mod_proxy_load_balancer
        # this is not going to work if the client tampers with the 'session' param
        ProxyPass /pazpar2/search.pz2 balancer://pz2cluster lbmethod=byrequests stickysession=session nofailover=On
      ]]></screen>
-     
+
      The 'ProxyPass' line sets up a reverse proxy for request
      ‘/pazpar2/search.pz2’ and delegates all requests to the load balancer
      (virtual worker) with name ‘pz2cluster’.
      The ‘Proxy’ section lists all the servers (real workers) which the
      load balancer can use.
     </para>
-    
+
    </example>
-   
+
+  </section>
+
+  <section id="relevance_ranking">
+   <title>Relevance ranking</title>
+   <para>
+    Pazpar2 uses a variant of the fterm frequency–inverse document frequency
+    (Tf-idf) ranking algorithm.
+   </para>
+   <para>
+    The Tf-part is straightforward to calculate and is based on the
+    documents that Pazpar2 fetches. The idf-part, however, is more tricky
+    since the corpus at hand is ONLY the relevant documents and not
+    irrelevant ones. Pazpar2 does not have the full corpus -- only the
+    documents that match a particular search.
+   </para>
+   <para>
+    Computatation of the Tf-part is based on the normalized documents.
+    The length, the position and terms are thus normalized at this point.
+    Also the computation if performed for each document received from the
+    target - before merging takes place. The result of a TF-compuation is
+    added to the TF-total of a cluster. Thus, if a document occurs twice,
+    then the TF-part is doubled. That, however, can be adjusted, because the
+    TF-part may be divided by the number of documents in a cluster.
+   </para>
+   <para>
+    The algorithm used by Pazpar2 has two phases. In phase one
+    Pazpar2 computes a tf-array .. This is being done as records are
+    fetched form the database. In this case, the rank weigth
+    <literal>w</literal>, the and rank tweaks <literal>lead</literal>,
+    <literal>follow</literal> and <literal>length</literal>.
+
+   </para>
+   <screen><![CDATA[
+    tf[1,2,..N] = 0;
+    foreach document in a cluster
+       foreach field
+          w[1,2,..N] = 0;
+          for i = 1, .. N:  (each term)
+             foreach pos (where term i occurs in field)
+                // w is configured weight for field
+                // pos is position of term in field
+                w[i] += w / (1 + log2(1+lead*pos))
+                if (d > 0)
+                    w[i] += w[i] * follow / (1+log2(d)
+          // length: length of field (number of terms that is)
+         if (length strategy is "linear")
+             tf[i] += w[i] / length;
+          else if (length strategy is "log")
+             tf[i] += w[i] / log2(length);
+          else if (length strategy is "none")
+             tf[i] += w[i];
+         ]]></screen>
+   <para>
+    In phase two, the idf-array is computed and the final score
+    is computed. This is done for each cluster as part of each show command.
+    The rank tweak <literal>cluster</literal> is in use here.
+   </para>
+   <screen><![CDATA[
+    // dococcur[i]: number of records where term occurs
+    // doctotal: number of records
+    for i = 1, .., N (each term)
+      if (dococcur[i] > 0)
+         idf[i] = log(1 + doctotal / dococcur[i])
+      else
+         idf[i] = 0;
+
+    relevance = 0;
+    for i = 1, .., N: (each term)
+       if (cluster is "yes")
+          tf[i] = tf[i] / cluster_size;
+       relevance += 100000 * tf[i] / idf[i];
+       ]]></screen>
+   <para>
+    For controlling the ranking parameters, refer to the
+    <link linkend="service-rank">rank</link> element of the 
+    service definition.
+    Refer to the <link linkend="metadata-rank">rank</link> attribute
+    of the metadata element for how to control ranking for individual
+    metadata fields.
+   </para>
+  </section> <!-- relevance_ranking -->
+
+  <section id="masterkey_connect">
+   <title>Pazpar2 and MasterKey Connect</title>
+   <para>
+    MasterKey Connect is a hosted connector, or gateway, service that exposes
+    whatever searchable resources you need. Since the service exposes all
+    resources using Z39.50 (or SRU), it is easy to set up Pazpar2 to use the
+    service. In particular, since all connectors expose basically the same core
+    behavior, it is a good use of Pazpar2's mechanism for managing default
+    behaviors across similar databases.
+   </para>
+   <para>
+    After installation of Pazpar2, the directory
+    <filename>/etc/pazpar2/settings/mkc</filename> (location may
+    vary depending on installation preferences) contains an example setup that
+    searches two different resources through a MasterKey Connect demo account.
+    The file mkc.xml contains default parameters that will work for all
+    MasterKey Connect resources (if you decide to become a customer of the
+    service, you will substitute your own account credentials for
+    the guest/guest). The other files contain specific information about
+    a couple of demonstration resources.
+   </para>
+
+   <para>
+    To play with the demo, just create a symlink from
+    <filename>/etc/pazpar2/services-enabled/default.xml</filename>
+    to <filename>/etc/pazpar2/services-available/mkc.xml</filename>.
+    And restart Pazpar2. You should now be able to search the two demo
+    resources using JSDemo or any user interface of your choice.
+    If you are interested in learning more about MasterKey Connect, or to
+    try out the service for free against your favorite online resource, just
+    contact us at <email>info@indexdata.com</email>.
+   </para>
   </section>
-  
 
  </chapter> <!-- Using Pazpar2 -->
 
 
  <appendix id="license">
   <title>License</title>
+
  <para>
   Pazpar2,
-  Copyright &copy; &copyright-year; Index Data.
+  Copyright &#xa9; &copyright-year; Index Data.
  </para>
+
  <para>
   Pazpar2 is free software; you can redistribute it and/or modify it under
   the terms of the GNU General Public License as published by the Free
   Software Foundation; either version 2, or (at your option) any later
   version.
  </para>
+
  <para>
   Pazpar2 is distributed in the hope that it will be useful, but WITHOUT ANY
   WARRANTY; without even the implied warranty of MERCHANTABILITY or
   FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
   for more details.
  </para>
+
  <para>
   You should have received a copy of the GNU General Public License
   along with Pazpar2; see the file LICENSE.  If not, write to the
-  Free Software Foundation, 
+  Free Software Foundation,
   51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA
  </para>
+
  </appendix>
 
  &gpl2;
+
 </book>
 
 <!-- Keep this comment at the end of the file