Factor IRSpy-independent _really_write_record() out of
[irspy-moved-to-github.git] / lib / ZOOM / IRSpy.pm
index 35257c5..52c586e 100644 (file)
@@ -1,4 +1,4 @@
-# $Id: IRSpy.pm,v 1.24 2006-10-10 13:16:31 mike Exp $
+# $Id: IRSpy.pm,v 1.42 2006-10-27 15:36:04 mike Exp $
 
 package ZOOM::IRSpy;
 
@@ -6,13 +6,24 @@ use 5.008;
 use strict;
 use warnings;
 
-use Data::Dumper; # For debugging only
+use Exporter 'import';
+our @EXPORT_OK = qw(xml_encode irspy_xpath_context);
+
+use Data::Dumper;              # For debugging only
+use File::Basename;
+use XML::LibXSLT;
+use XML::LibXML;
+use XML::LibXML::XPathContext;
+use ZOOM;
+use Net::Z3950::ZOOM 1.13;     # For the ZOOM version-check only
 use ZOOM::IRSpy::Node;
 use ZOOM::IRSpy::Connection;
 use ZOOM::IRSpy::Record;
 
 our @ISA = qw();
 our $VERSION = '0.02';
+our $irspy_ns = 'http://indexdata.com/irspy/1.0';
+our $irspy_to_zeerex_xsl = dirname(__FILE__) . '/../../xsl/irspy2zeerex.xsl';
 
 
 # Enumeration for callback functions to return
@@ -44,10 +55,11 @@ protocols.  It is a successor to the ZSpy program.
 
 BEGIN {
     ZOOM::Log::mask_str("irspy");
-    ZOOM::Log::mask_str("irspy_test");
     ZOOM::Log::mask_str("irspy_debug");
     ZOOM::Log::mask_str("irspy_event");
     ZOOM::Log::mask_str("irspy_unhandled");
+    ZOOM::Log::mask_str("irspy_test");
+    ZOOM::Log::mask_str("irspy_task");
 }
 
 sub new {
@@ -61,12 +73,19 @@ sub new {
     my $conn = new ZOOM::Connection($dbname, 0, @options)
        or die "$0: can't connection to IRSpy database 'dbname'";
 
+    my $xslt = new XML::LibXSLT;
+    my $libxml = new XML::LibXML;
+    my $xsl_doc = $libxml->parse_file($irspy_to_zeerex_xsl);
+    my $irspy_to_zeerex_style = $xslt->parse_stylesheet($xsl_doc);
+
     my $this = bless {
        conn => $conn,
        allrecords => 1,        # unless overridden by targets()
        query => undef,         # filled in later
        targets => undef,       # filled in later
        connections => undef,   # filled in later
+        libxml => $libxml,
+        irspy_to_zeerex_style => $irspy_to_zeerex_style,
        tests => [],            # stack of tests currently being executed
     }, $class;
     $this->log("irspy", "starting up with database '$dbname'");
@@ -191,7 +210,8 @@ sub initialise {
 
     my @connections;
     foreach my $target (@{ $this->{targets} }) {
-       my $conn = new ZOOM::IRSpy::Connection($this, $target, 0, async => 1);
+       my $conn = create ZOOM::IRSpy::Connection($this, async => 1);
+       $conn->option(host => $target);
        my $record = delete $target2record{lc($target)};
        $conn->record($record);
        push @connections, $conn;
@@ -220,38 +240,75 @@ sub _render_record {
 }
 
 
-sub _rewrite_records {
+sub _irspy_to_zeerex {
+    my ($this, $conn) = @_;
+    my $irspy_doc = $conn->record()->{zeerex}->ownerDocument;
+    my %params = ();
+    my $result = $this->{irspy_to_zeerex_style}->transform($irspy_doc, %params);
+
+    return $result->documentElement();
+}
+
+
+sub _rewrite_record {
     my $this = shift();
+    my($conn) = @_;
 
-    # Write modified records back to database
-    foreach my $conn (@{ $this->{connections} }) {
-       my $rec = $conn->record();
-       my $p = $this->{conn}->package();
-       $p->option(action => "specialUpdate");
-       my $xml = $rec->{zeerex}->toString();
-       $p->option(record => $xml);
-       $p->send("update");
-       $p->destroy();
-
-       $p = $this->{conn}->package();
-       $p->send("commit");
-       $p->destroy();
-       if (0) {
-           $xml =~ s/&/&amp/g;
-           $xml =~ s/</&lt;/g;
-           $xml =~ s/>/&gt;/g;
-           print "Updated with xml=<br/>\n<pre>$xml</pre>\n";
-       }
+    $conn->log("irspy", "rewriting XML record");
+    my $rec = $this->_irspy_to_zeerex($conn);
+    _really_rewrite_record($this->{conn}, $rec);
+}
+
+
+sub _really_rewrite_record {
+    my($conn, $rec) = @_;
+
+    my $p = $conn->package();
+    $p->option(action => "specialUpdate");
+    my $xml = $rec->toString();
+    $p->option(record => $xml);
+    $p->send("update");
+    $p->destroy();
+
+    $p = $conn->package();
+    $p->send("commit");
+    $p->destroy();
+    if (0) {
+       $xml =~ s/&/&amp/g;
+       $xml =~ s/</&lt;/g;
+       $xml =~ s/>/&gt;/g;
+       print "Updated $conn with xml=<br/>\n<pre>$xml</pre>\n";
     }
 }
 
 
-# New approach:
-# 1. Gather declarative information about test hierarchy.
-# 2. For each connection, start the initial test -- invokes run().
-# 3. Run each connection's first queued task.
-# 4. while (1) { wait() }.  Callbacks return a ZOOM::IRSpy::Status value
-# No individual test ever calls wait: tests just set up tasks.
+# The approach: gather declarative information about test hierarchy,
+# then go into a loop.  In the loop, we ensure that each connection is
+# running a test, and within that test a task, until its list of tests
+# is exhausted.  No individual test ever calls wait(): tests just queue
+# up tasks and return immediately.  When the tasks are run (one at a
+# time on each connection) they generate events, and it is these that
+# are harvested by ZOOM::event().  Since each connection knows what
+# task it is running, it can invoke the appropriate callbacks.
+# Callbacks return a ZOOM::IRSpy::Status value which tells the main
+# loop how to continue.
+#
+# Invariants:
+#      While a connection is running a task, its current_task()
+#      points at the task structure.  When it finishes its task, 
+#      next_task() is pointed at the next task to execute (if there
+#      is one), and its current_task() is set to zero.  When the next
+#      task is executed, the connection's next_task() is set to zero
+#      and its current_task() pointed to the task structure.
+#      current_task() and next_task() are both zero only when there
+#      are no more queued tasks, which is when a new test is
+#      started.
+#
+#      Each connection's current test is stored in its
+#      "current_test_address" option.  The next test to execute is
+#      calculated by walking the declarative tree of tests.  This
+#      option begins empty; the "next test" after this is of course
+#      the root test.
 #
 sub check {
     my $this = shift();
@@ -259,25 +316,85 @@ sub check {
 
     $tname = "Main" if !defined $tname;
     $this->{tree} = $this->_gather_tests($tname)
-       or die "No tests defined";
+       or die "No tests defined for '$tname'";
     #$this->{tree}->print(0);
+    my $nskipped = 0;
 
     my @conn = @{ $this->{connections} };
-    foreach my $conn (@conn) {
-       $this->_start_test($conn, "");
-    }
 
-    while ((my $i0 = ZOOM::event(\@conn)) != 0) {
+    while (1) {
+       my @copy_conn = @conn;  # avoid alias problems after splice()
+       my $nconn = scalar(@copy_conn);
+       foreach my $i0 (0 .. $#copy_conn) {
+           my $conn = $copy_conn[$i0];
+           #print "connection $i0 of $nconn/", scalar(@conn), " is $conn\n";
+           if (!$conn->current_task()) {
+               if (!$conn->next_task()) {
+                   # Out of tasks: we need a new test
+                 NEXT_TEST:
+                   my $address = $conn->option("current_test_address");
+                   my $nextaddr;
+                   if (!defined $address) {
+                       $nextaddr = "";
+                   } else {
+                       $this->log("irspy_test",
+                                  "checking for next test after '$address'");
+                       $nextaddr = $this->_next_test($address);
+                   }
+                   if (!defined $nextaddr) {
+                       $conn->log("irspy", "has no more tests: removing");
+                       splice @conn, $i0, 1;
+                       $this->_rewrite_record($conn);
+                       next;
+                   }
+
+                   my $node = $this->{tree}->select($nextaddr)
+                       or die "invalid nextaddr '$nextaddr'";
+                   $conn->option(current_test_address => $nextaddr);
+                   my $tname = $node->name();
+                   $conn->log("irspy_test",
+                              "starting test '$nextaddr' = $tname");
+                   my $tasks = $conn->tasks();
+                   my $oldcount = @$tasks;
+                   "ZOOM::IRSpy::Test::$tname"->start($conn);
+                   $tasks = $conn->tasks();
+                   if (@$tasks > $oldcount) {
+                       # Prepare to start the first of the newly added tasks
+                       $conn->next_task($tasks->[$oldcount]);
+                   } else {
+                       $conn->log("irspy_task",
+                                  "no tasks added by new test $tname");
+                       goto NEXT_TEST;
+                   }
+               }
+
+               my $task = $conn->next_task();
+               die "no next task queued for $conn" if !defined $task;
+               $conn->log("irspy_task", "preparing task $task");
+               $conn->next_task(0);
+               $conn->current_task($task);
+               $task->run();
+           }
+
+           # Do we need to test $conn->is_idle()?  I don't think so!
+       }
+
+       my $i0 = ZOOM::event(\@conn);
+       $this->log("irspy_event",
+                  "ZOOM_event(", scalar(@conn), " connections) = $i0");
+       last if $i0 == 0 || $i0 == -3; # no events or no connections
        my $conn = $conn[$i0-1];
        my $ev = $conn->last_event();
        my $evstr = ZOOM::event_str($ev);
        $conn->log("irspy_event", "event $ev ($evstr)");
 
        my $task = $conn->current_task();
-       my $res;
-       eval {
-           $conn->_check();
-       }; if ($@) {
+       die "$conn has no current task for event $ev ($evstr)" if !$task;
+       eval { $conn->_check() };
+       if ($@ &&
+           ($ev == ZOOM::Event::RECV_DATA ||
+            $ev == ZOOM::Event::RECV_APDU ||
+            $ev == ZOOM::Event::ZEND)) {
            # An error in, say, a search response, becomes visible to
            # ZOOM before the Receive Data event is sent and persists
            # until after the End, which means that successive events
@@ -285,112 +402,60 @@ sub check {
            # "unimportant" events.  ### But this doesn't work for,
            # say, a Connection Refused, as the only event that shows
            # us this error is the End.
-           if ($ev == ZOOM::Event::RECV_DATA ||
-               $ev == ZOOM::Event::RECV_APDU ||
-               $ev == ZOOM::Event::ZEND) {
-               $conn->log("irspy_event", "ignoring error ",
-                          "on event $ev ($evstr): $@");
-           } else {
-               my $sub = $task->{cb}->{exception};
-               die $@ if !defined $sub;
-               $res = &$sub($conn, $task, $@);
-               goto HANDLE_RESULT;
-           }
+           $conn->log("irspy_event", "ignoring error ",
+                      "on event $ev ($evstr): $@");
+           next;
        }
 
-       my $sub = $task ? $task->{cb}->{$ev} : undef;
-       if (!defined $sub) {
-           $conn->log("irspy_unhandled", "event $ev ($evstr)");
-           # Catch the case of a pure-container test ending
-           if ($ev == ZOOM::Event::ZEND && !$conn->current_task()) {
-               $conn->log("irspy", "last event, no task queued");
-               goto NEXT_TEST;
+       my $res;
+       if ($@) {
+           my $sub = $task->{cb}->{exception};
+           die $@ if !defined $sub;
+           $res = &$sub($conn, $task, $task->udata(), $@);
+       } else {
+           my $sub = $task->{cb}->{$ev};
+           if (!defined $sub) {
+               $conn->log("irspy_unhandled", "event $ev ($evstr)");
+               next;
            }
-           next;
+
+           $res = &$sub($conn, $task, $task->udata(), $ev);
        }
 
-       $res = &$sub($conn, $task, $ev);
-      HANDLE_RESULT:
        if ($res == ZOOM::IRSpy::Status::OK) {
            # Nothing to do -- life continues
 
        } elsif ($res == ZOOM::IRSpy::Status::TASK_DONE) {
            my $task = $conn->current_task();
-           die "can't happen" if !$task;
-           $conn->log("irspy", "completed task $task");
-           my $nexttask = $task->{next};
-           if (defined $nexttask) {
-               $conn->log("irspy_debug", "next task is '$nexttask'");
-               $conn->start_task($nexttask);
-           } else {
-               $conn->log("irspy_debug", "jumping to NEXT_TEST");
-               $conn->current_task(0);
-               goto NEXT_TEST;
-           }
-
-       } elsif ($res == ZOOM::IRSpy::Status::TEST_GOOD) {
-           $conn->log("irspy", "test completed (GOOD)");
-         NEXT_TEST:
-           my $address = $conn->option("address");
-           my $nextaddr = $this->_next_test($address);
-           if (defined $nextaddr) {
-               $this->_start_test($conn, $nextaddr);
-           } else {
-               $conn->log("irspy", "has no tests after '$address'");
-               # Nothing else to do: we will get no more meaningful
-               # events on this connection, and when all the
-               # connections have reached this state, ZOOM::event()
-               # will return 0 and we will fall out of the loop.
+           die "no task for TASK_DONE on $conn" if !$task;
+           die "next task already defined for $conn" if $conn->next_task();
+           $conn->log("irspy_task", "completed task $task");
+           $conn->next_task($task->{next});
+           $conn->current_task(0);
+
+       } elsif ($res == ZOOM::IRSpy::Status::TEST_GOOD ||
+                $res == ZOOM::IRSpy::Status::TEST_BAD) {
+           my $x = ($res == ZOOM::IRSpy::Status::TEST_GOOD) ? "good" : "bad";
+           $conn->log("irspy_task", "test ended during task $task ($x)");
+           $conn->log("irspy_test", "test completed ($x)");
+           $conn->current_task(0);
+           $conn->next_task(0);
+           if ($res == ZOOM::IRSpy::Status::TEST_BAD) {
+               my $address = $conn->option('current_test_address');
+               ($address, my $n) = $this->_last_sibling_test($address);
+               if (defined $address) {
+                   $conn->log("irspy_test", "skipped $n tests");
+                   $conn->option(current_test_address => $address);
+                   $nskipped += $n;
+               }
            }
-
-       } elsif ($res == ZOOM::IRSpy::Status::TEST_BAD) {
-           $conn->log("irspy", "test completed (BAD)");
-           ### Should skip over remaining sibling tests
-           goto NEXT_TEST;
+       } else {
+           die "unknown callback return-value '$res'";
        }
     }
 
-    $this->log("irspy_event", "ZOOM::event() returned 0");
-
-    #$this->_rewrite_records();
-    return 0;                  # What does this mean?
-}
-
-
-# Preconditions:
-# - called only when there no tasks remain for the connection
-# - called with valid address
-sub _start_test {
-    my $this = shift();
-    my($conn, $address) = @_;
-    {
-       my $task = $conn->current_task();
-       die "_start_test(): $conn already has task $task"
-           if $task;
-    }
-
-    my $node = $this->{tree}->select($address)
-       or die "_start_test(): invalid address '$address'";
-
-    $conn->option(address => $address);
-    my $tname = $node->name();
-    $conn->log("irspy", " starting test '$address' = $tname");
-
-    # We will need to find the first of the tasks that are added by
-    # the test we're about to start, so we can start that task.  This
-    # requires a little trickery: noting the current length of the
-    # tasks array first, then fetching the next one off the end.
-    my $alltasks = $conn->tasks();
-    my $ntasks = defined $alltasks ? @$alltasks : 0;
-    my $test = "ZOOM::IRSpy::Test::$tname"->start($conn);
-
-    $alltasks = $conn->tasks();
-    if (defined $alltasks && @$alltasks > $ntasks) {
-       my $task = $alltasks->[$ntasks];
-       $conn->start_task($task);
-    } else {
-       $this->log("irspy", "no tasks added for test '$address' = $tname");
-    }
+    $this->log("irspy", "exiting main loop");
+    return $nskipped;
 }
 
 
@@ -402,11 +467,22 @@ sub _gather_tests {
        join(" -> ", @ancestors, $tname))
        if grep { $_ eq $tname } @ancestors;
 
+    my $slashSeperatedTname = $tname;
+    $slashSeperatedTname =~ s/::/\//g;
+    my $fullName = "ZOOM/IRSpy/Test/$slashSeperatedTname.pm";
+
     eval {
-       my $slashSeperatedTname = $tname;
-       $slashSeperatedTname =~ s/::/\//g;
-       require "ZOOM/IRSpy/Test/$slashSeperatedTname.pm";
+       ### This next line shouldn't be necessary, as we should
+       #   already be running in an environment where the test
+       #   modules are available -- otherwise, how did _this_ module
+       #   get loaded?  But it seems that for reasons I don't
+       #   understand we do sometimes (not always!) need this when
+       #   running under Apache.
+       use lib '/usr/local/src/cvs/irspy/lib';
+       require $fullName;
+       $this->log("irspy", "successfully required '$fullName'");
     }; if ($@) {
+       $this->log("irspy", "couldn't require '$fullName': $@");
        $this->log("warn", "can't load test '$tname': skipping",
                   $@ =~ /^Can.t locate/ ? () : " ($@)");
        return undef;
@@ -423,12 +499,11 @@ sub _gather_tests {
 }
 
 
+# These next three should arguably be Node methods
 sub _next_test {
     my $this = shift();
     my($address, $omit_child) = @_;
 
-    $this->log("irspy", "checking for next test after '$address'");
-
     # Try first child
     if (!$omit_child) {
        my $maybe = $address eq "" ? "0" : "$address:0";
@@ -449,6 +524,70 @@ sub _next_test {
 }
 
 
+sub _last_sibling_test {
+    my $this = shift();
+    my($address) = @_;
+
+    return undef
+       if !defined $this->_next_sibling_test($address);
+
+    my $nskipped = 0;
+    while (1) {
+       my $maybe = $this->_next_sibling_test($address);
+       last if !defined $maybe;
+       $nskipped++;
+       $this->log("irspy", "skipping $nskipped tests to '$address'");
+       $address = $maybe;
+    }
+
+    return ($address, $nskipped);
+}
+
+
+sub _next_sibling_test {
+    my $this = shift();
+    my($address) = @_;
+
+    my @components = split /:/, $address;
+    my $last = pop @components;
+    my $maybe = join(":", @components, $last+1);
+    return $maybe if $this->{tree}->select($maybe);
+    return undef;
+}
+
+
+# Utility functions follow, exported for use of web UI
+
+# I can't -- just can't, can't, can't -- believe that this function
+# isn't provided by one of the core XML modules.  But the evidence all
+# says that it's not: among other things, XML::Generator and
+# Template::Plugin both roll their own.  So I will do likewise.  D'oh!
+#
+sub xml_encode {
+    my ($text) = @_;
+    $text =~ s/&/&amp;/g;
+    $text =~ s/</&lt;/g;
+    $text =~ s/>/&gt;/g;
+    $text =~ s/['']/&apos;/g;
+    $text =~ s/[""]/&quot;/g;
+    return $text;
+}
+
+
+sub irspy_xpath_context {
+    my($zoom_record) = @_;
+
+    my $xml = $zoom_record->render();
+    my $parser = new XML::LibXML();
+    my $doc = $parser->parse_string($xml);
+    my $root = $doc->getDocumentElement();
+    my $xc = XML::LibXML::XPathContext->new($root);
+    $xc->registerNs(e => 'http://explain.z3950.org/dtd/2.0/');
+    $xc->registerNs(i => $irspy_ns);
+    return $xc;
+}
+
+
 =head1 SEE ALSO
 
 ZOOM::IRSpy::Record,