Tweak rank/relevance algorithm
[pazpar2-moved-to-github.git] / NEWS
1
2 Rank algorithm configurable by 'rank' element inside service. So far
3 only, attribute 'cluster' is recognized. If cluster="yes", multiple
4 records inside a cluster boosts higher than single records. This
5 is default behavior and existing behavior. cluster="no" takes the
6 average score of each record in a cluster.
7
8 --- 1.6.17 2012/09/05
9
10 Fix bad re-use of connections (connections with changing proxy should not
11 be reused).
12
13 --- 1.6.16 2012/08/22
14
15 Fix a bug introduce in 1.6.15 around the position sorting. It resetted the 
16 resultset and sorting when the sort order is position. However this will be done on
17 every client poll, which will make pazpar2 continuing reset and fetching. 
18 It should only be done on FIRST request where the sort order change. 
19
20 Fix an issue on suggestion option: Also disable suggestions on empty string. 
21
22 Clean up in turbo marc stylesheet. 
23
24 Remove the hardcoded size of termlists.
25
26 --- 1.6.15 2012/06/27
27
28 New facility: ccldirective may be given in service definition. Allows
29 CCL parsing to be customized a bit, such as defining names of operators
30 and, or, not.
31
32 New facility: raw record by checksum, rather than offset. The record
33 command optionally takes checksum which identifies certain record from
34 a database.
35
36 New facility: per field ranking. Rank may be given as M [F N] where
37 M is default rank and N is rank for CCL terms from field F.
38
39 --- 1.6.14 2012/06/04
40
41 Fix for IE7/8 in pz.js
42
43 Applied patch from Giannis Kosmas on keepAlive, which also adds keepAlive to init response. 
44
45 Lower log level some places.
46
47 Remove some invalid test results. 
48
49 --- 1.6.13 2012/05/23
50
51 Introducing a version=2 parameter for show, termlist and bytarget commands.
52 This enables pazpar2 to return approximation on hit and count count when 
53 doing record filtering using the limit parameter on search and a 
54 limitmap with a value of "local:"
55
56 Setting pz:xslt may embed local XSLT as an alternative to referring
57 to filenames.
58 Value is not CDATA but XML nodes embedded, so escaping is not necessary
59 but a root element *must* be present. For example:
60 <settings target="target="z3950.indexdata.com/marc">
61      <set name="pz:xslt">
62        <xsl:stylesheet
63           version="1.0"
64         ..
65        </xsl:stylesheet>
66      </set>
67     </settings>
68
69 Metadata field rank may given by XML internal document (pz:xslt
70 result). If rank is not given, the rank from service description is
71 used - as before.
72
73 Metadata field can now configured a default limitmap and facetmap. 
74 Setting limitmap to "local:" would work for all kind of targets, but would
75 prob. not be the optimal solution. But at least better than the default behavior 
76 of pazpar2 where no filtering is done. 
77
78 A service definition can now also contains <set/> that defines service-wide
79 settings. These will override server-wide sets and will be overridded by 
80 settings.
81
82 New setting, pz:present_chunk, that specifies number of records to fetch
83 at a time. Zero will disable chunkation; will fetch max_records at once.
84
85 --- 1.6.12 2012/03/14
86
87 Revert the format change in termlist response, that could break 
88 some clients / UIs since they were expecting an (empty) element 
89 if no facet values was found. 
90
91 --- 1.6.11 2012/03/07
92
93 Revert the behavior of returning errors when unable to block 
94 on termlist, bytarget and search, when unable to block due to 
95 other block. The client will now receive a regular response, 
96 but it will be logged in the server. A parameter (report) is
97 added to change behavior to return error response or WARNING 
98 status message. Consider this "API" as private, as it is mostly 
99 untested and could be changed in future releases. 
100
101 Fix spell error in pz2.js fix in 1.6.10.
102
103 New Marc2TurboMarc.xsl (contribution from Sven Porst). 
104 Can solve the missing marc21.xsl updates in some cases. 
105
106 tmarc.xsl: Simplify the 6xx to subject-long and fix 1-based 
107 substring (contribtion from Sven Porst)
108
109 marc21.xsl: fix 1-based substring call
110
111 tmarc.xsl and marc21.xsl: use 856$a as last option for electronic-text. 
112
113 Add test_termlist_block to test suite
114
115 --- 1.6.10 2012/02/23
116
117 Fix SEGV for invalid PQFs and SRU/SOLR targets
118 Also refactor a bit the code that converts from PQF to SRU/SOLR queries.
119
120 Fix pz2.js: "null object" due to change in in bytarget result XML.
121
122 Fixes in tmarc.xsl: Subject-long shorten for extra commas only. 
123 Added this normalization to the other subject-long fields (d6xx), 
124 where it was missing.
125
126 Fixes in marc21.xsl: Updated with most of the new tmarc.xsl. 
127 Still differences around medium and holdings. marc21.xsl is not 
128 longer active used by Index Data, and should be considered unsupported.
129 Use tmarc.xsl instead. 
130
131 --- 1.6.9 2012/01/19
132
133 Fix SEGV that could occur for failed connections.
134
135 --- 1.6.8 2012/01/17
136
137 Fix bug for command sort that could return no results for active clients
138 (from previous search). This bug was present in 1.6.6-1.6.7.
139
140 Fix bug in results that could include results that should have been
141 filtered out. This bug was present in 1.6.6-1.6.7.
142
143 --- 1.6.7 2011/12/23
144
145 Fix bug introduced in 1.6.6 where a connection re-use could stall
146 incoming requests.
147
148 Local filtering may now specify a local metadata field, eg.
149  pz:limitmap:somefield[t]=local:otherfield
150
151 --- 1.6.6 2011/11/25
152
153 For search, when limit and or filtering is in place and search
154 is identical to previous search, the result set is re-used and the
155 target is not searched.
156
157 Limits may work perform local filtering as well, by using "local:"
158 for a limitmap.
159
160 --- 1.6.5 2011/11/01
161
162 Updated bytarget command to contain a suggestions element with misspelled
163 words and suggestions to these. pz2.js has been updated to deliver this 
164 onwards as well. Only target that currently delivers this is the solr 
165 client in YAZ 4.2.18. 
166
167 --- 1.6.4 2011/10/28
168
169 New service definition element, xslt, that allows an embedded stylesheet
170 to be defined. This can be referred to from pz:xslt as an alternative to
171 external files.
172
173 New pz:sortmap:field setting for specifying hints on how to make
174 a target natively sort on a field. This is used for command=show in
175 conjunction with sort.
176
177 New pz:url setting for specifying the actual URL for a target. When
178 this is used the target ID is not used as URL anymore and the target ID
179 may be almost any string (not including []).
180
181 command=termlist without name parameter returns all termlists/facets.
182 Previously if name parameter was omitted, only "subject" was returned.
183
184 --- 1.6.3 2011/09/22
185
186 Make termlist sorting stable. Terms with same frequency are now sorted by
187 their display name. This makes a pretty display and improves our
188 regression test because qsort is not a stable sort.
189
190 New sort parameter value 'position'. The 'position' sorts merged records
191 by their original position from the remote target. This is primarily useful
192 for debugging and may be used for targets that already perform some kind
193 of relevance ranking. Note that sort by default is decreasing; so to get
194 records in their original order sort=position:1 must be used.
195
196 --- 1.6.2 2011/09/15
197
198 tmarc.xsl: yet another 773$g fix. Was broken in 1.6.1 as well.
199
200 Facility to change working directory for pazpar2 daemon. Option -wdir
201 sets working directory to dir. This facility is useful if core dumps
202 must be saved. In this case, the current working directory must be
203 writable by the running user, such as "nobody".
204
205 --- 1.6.1 2011/09/14
206
207 New configuration element <icu_chain> for <server>/<service> which
208 allows a named ICU rule (chain) to be defined. The names relevance,
209 sort, mergekey and facet are used for those operations. The definition
210   <icu_chain id="sort" locale="en"> ..  </icu_chain>
211 is identical to
212   <sort> <icu_chain locale="en> ... </icu_chain> </sort>
213 And so on.. for relevance, mergekey and facet as well. The latter
214 style is deprecated. The facet terms are normalized by the facet
215 rule by default. This may be changed on a metadata field basis by
216 defining the new attribute 'facetrule' for the metadata element.
217 For example:
218   <icu_chain id="myrule" locale="en"> ... </icu_chain>
219   <metadata name="author" termlist="yes" facetrule="myrule"/>
220
221 Preserve rorder for merged metadata. Fixes issue as reported by Sven
222 Porst: http://lists.indexdata.dk/pipermail/yazlist/2011-July/003230.html
223
224 tmarc.xsl: set journal-subpart to 773$ only.
225
226 --- 1.6.0 2011/09/12
227
228 Modify the behavior for the limit parameter (first defined in 1.5.7).
229 Mapping of limit searches are now defined by the new configuration item
230 pz:limitmap. Fix a dead-lock problem with the limit parameter.
231
232 Extend tmarc.xsl to extract 773$g data (OpenURL).
233
234 --- 1.5.7 2011/08/19
235
236 ICU default maps remove backquote (`).
237
238 Command 'search' takes limit parameter (optional).  The limit parameter
239 allows a search to be limited one or more facets and the corresponding
240 values. This is for server side filtering.
241
242 Configure tweak: Use -lm for log(3) if needed
243
244 --- 1.5.6 2011/04/15
245
246 Fix a problem with skiparticle sortkey that could be completely
247 ignored (and reduced to "").
248
249 Fix dependency problem in pazpar2 RPM package (did not require
250 libyaz4 as it should).
251
252 --- 1.5.5 2011/03/28
253
254 Fix memory leak that occurred for command=termlist&name=xtargets .
255
256 Pazpar2 may save HTTP requests. Enabled by option -R.
257
258 --- 1.5.4 2011/03/08
259
260 Experimental support for DTIC DADS target. New dads-pz2.xsl.
261
262 Support for query_syntax (overrides the default for SRU | Z39.50) 
263
264 Support for extraArgs (ZOOM "extraArgs" option) for targets
265
266 New commands: status-server and status-session
267
268 --- 1.5.3 2011/02/18
269
270 Fix for threaded runs: Client now have a copy of the database URL, 
271 which can used after the database has been release from the client. 
272 This makes the logging in the connection idle timeout of the client nicer (no NOURL) and should be thread-safe.  
273
274 tmarc.xsl: Add journal-title-abbrev and full text. 
275
276 cf.xsl: new fields: isbn, issn, journaltitle, volume, issue
277
278 Fix for cmd=record before search.
279
280 Session Logging clean up.
281
282 Fix wrong termlist factor when maxrecs is different from 100.
283
284 --- 1.5.2 2011/01/18
285
286 Fix missing pz:termlist_term_factor in settings.c messed up pz:preferred.
287 Term factor is default enabled but can be diseabled by
288 pz:termlist_term_factor=0
289
290 --- 1.5.1 2011/01/06
291
292 Add scaling of facet count. Currently always enabled, needs fixing.
293 Allow user-defined info for target suffix. This has no meaning in
294 Pazpar2 except to distinguish targets from each other. The suffix
295 data begins with #. For example z3950.indexdata.com/gils#Mydata
296
297 Added exact-match recordfilter; format name=value
298
299 --- 1.5.0 2010/10/05
300
301 SOLR support. Pazpar2 may operate as web service client for SOLR.
302
303 --- 1.4.4 2010/08/17
304
305 Fix for show command and block=1 (dead lock). Bug was introduced in
306 1.4.0.
307
308 --- 1.4.3 2010/07/02
309
310 New RPM packages: pazpar2, pazpar2-js, pazpar2-doc. These have been
311 tested on CentOS 5.5 only.
312
313 --- 1.4.2 2010/06/18
314
315 Fix problem with result sets being removed from a client session
316 if the connection for it was resused by another session. Bug #3489.
317
318 New iphone UI for Pazpar2 (www/iphone).
319
320 --- 1.4.1 2010/05/21
321
322 Fixes for threaded operation.
323
324 New stylesheets for TurboMARC: tmarc.xsl and opac_turbomarc.xsl.
325
326 New example services in etc/services in source. In the Debian packages
327 these are located in /etc/pazpar2/services-available
328
329 Threaded mode operational on Windows. Requires Windows 7 or Windows
330 Server 2008.
331
332 Default value of setting pz:max_connections is 0 which means that there
333 is no limit on number of connections.
334
335 --- 1.4.0 2010/03/29
336
337 Pazpar2 may operate in threaded mode. Enabled by element threads in
338 the configuration. See pazpar2_conf for details.
339
340 New setting setting: pz:max_connections. Setting pz:max_connections is
341 a limit of number of sockets to a host. When this limit is reached,
342 Pazpar2 will wait up to 5 seconds for a connection to becomes available.
343 The client will be marked Client_Error when it can not be searched
344 (other clients in a session may work). If pz:max_connections is not set
345 for a target, a value of 30 will be used. Note: the pz:max_connections
346 will only work in threaded mode.
347
348 pz2.js: JSON support for show.
349
350 Debian package: Enable default service, default.xml, before starting
351 Pazpar2 only if there is no service already in /etc/pazpar2/services-enabled.
352
353 --- 1.3.0 2010/01/25
354
355 Debian version depends on on libyaz4. Note that Pazpar2 will still
356 compile from source with YAZ 3.
357
358 Split services into separate files. The example configuration file
359 pazpar2.cfg.dist now includes a default service default.xml (part of
360 etc). And default.xml includes settings/edu.xml. The default.xml file,
361 not to be confused with settings/defaults.xml, is a template for jsdemo
362 and other services. The Debian package installs /etc/pazpar2/server.xml
363 which is now the main pazpar2 configuration (used to be called pazpar2.cfg).
364 server.xml includes services from /etc/pazpar2/services-enabled/*.xml .
365 The default.xml (from etc) is installed in /etc/pazpar2/services-available
366 and a symlink to it is created from services-enabled. The default.xml
367 service is unnamed and, thus, will be used by jsdemo and test1.
368
369 New setting pz:negotiation_charset. Patch from Andrei V. Toutoukine. The
370 new setting pz:negotiation_charset specifies character set for Z39.50 Init.  
371
372 --- 1.2.4 2010/01/15
373
374 Support for additional fields in cf.xsl and pazpar2.conf.dist:
375 publisher, available, due, location (=locallocation), callno
376 (=callnumber), thumburl and score.
377
378 Describe pz:xslt and the auto setting.
379
380 Move mergekey definition away from the normalization stylesheets and
381 define a mergekey common for all target types in pazpar2.cfg.
382
383 Code update: Use the Odr_int type for hit counts. This is part of
384 YAZ 3.0.47 and later and so configure checks for that.
385
386 --- 1.2.3 2009/11/24
387
388 Metadata attribute 'skiparticle' also works for ICU based
389 normalization. (was only working for the non-ICU/ASCII before).
390
391 Command bytarget with argument settings=1 will show settings per
392 target.. This is to be able to verify correct settings and be able to
393 test that they are correct. The database settings array size is now
394 also stored..  Problems with database settings array is that if not
395 careful it will be too small (smaller than dictionary per-service
396 in settings).
397
398 Make record list sorting stable by comparing mergekey for records if
399 relevance/title or other sorting criteria all match. This is merely to
400 ensure that our regressions tests works (reproducible output).
401
402 Relevance calculation changes: use a different denominator (length) for
403 per-field relevance scoring.. Instead of length of all ranked fields we
404 now use length of individual fields (as if they were individual "free"
405 text fields). This will ensure that documents with a long field with no
406 match (say description) will not "hurt" a title match.
407
408 Diagnostic member was not set on connection error. Fixed
409
410 --- 1.2.2 2009/10/13
411
412 Command search takes two optional parameters, startecs and maxrecs,
413 that specifies the start offset (0, 1, ...) and maximum number of records
414 to fetch for each target.
415
416 XSLTs + MARC maps are cached within a session so we don't re-parse
417 them over and over again. Even for a session with a single search
418 there's much to be gained because many targets use the same
419 transformation.
420
421 The metadata attribute 'mergekey' now takes one of three values 'no',
422 'required', 'optional' .  And the resulting mergekey from metadata
423 is now ordered in the same way as metadata in the service definition.
424 Older Pazpar2 version use the order in which metadata appeared in a
425 record instance.
426
427 The search argument 'filter' now offers a new operator ~ which does a 
428 substring match. The = operator works as before: string match for
429 anything but pz:id, or target match for pz:id.
430
431 New setting pz:recordfilter. The value of this setting takes the
432 form name[~value]. This setting makes Pazpar2 ignore all retrieved
433 records that do not have the metadata element name with value substring
434 (if given).
435
436 Pazpar2 allows YAZ log level to be set (option -v).
437
438 --- 1.2.1 2009/10/05
439
440 For WS responses Pazpar2 creates XML header. Exception: raw record.
441
442 Setting XML files are now stored in etc/settings instead of etc. This
443 reflects the layout with the Debian package layout.
444
445 Settings may be posted for command=settings. The POSTed settings must
446 have root element 'settings' like regular setting files. In order to be
447 recognized, the POST request must use Content-Type=text/xml.
448
449 A service may be posted for command=init. This service will be used
450 during the session. The service may have its own target settings,
451 ICU config, timeout, etc. In order to be recognized, the POST request
452 must use Content-Type=text/xml.
453
454 Timeout values may be given per-service. That's element 'timeout' 
455 which takes three attribute values (a subset may be given): 'session',
456 'z3950_operation', 'z3950_session'. Option -T is no longer supported
457 - used to specify session timeout.
458
459 Option -t tests the Pazpar2 configuration and returns exit code
460 (0=success, non-zero=failure). In previous version of Pazpar2, -t
461 specified local settings.
462
463 In version 1.2.0 the configuration file - after include processing -
464 was dumped to stdout. Now, the configuration is only dumped to the
465 yaz log file if option -d is given.
466
467 --- 1.2.0 2009/09/10
468
469 Configuration may now have multiple server areas. This means that a
470 Pazpar2 instance may listen on multiple ports. Virtual hosting is not
471 yet supported - on a server basis. Configuration may also have multiple
472 services .. That is repeating service elements inside a server. Each
473 has an attribute 'id' which serves as service ID. This ID in turn may
474 be used in a Pazpar2 session, by specifying parameter service=ID for
475 command init. There can be at most one unnamed service inside a server
476 which can be referred to by not specifying an service ID for command
477 init (backwards compatible). In order to partition multiple servers and
478 services a new include directive has been added. This takes an attribute
479 'src' which specifies one or more sub-files. For example to include
480 service files, one might use:
481   <server >.. <include src=/"etc/pazpar2/conf.d/*.xml"/> .. </server>.
482 It is the intention that that completely makes the settings directive
483 redundant.
484
485 Fix problem where the record command would wait forever if there were
486 no targets to wait for (activeclients == 0).
487
488 --- 1.1.1 2009/08/28
489
490 One result set is created per session (last search) rather than for
491 each connection which happen to be shared (bug #3009).
492
493 marc21 stylesheets changed for efficiency.
494
495 --- 1.1.0 2009/08/19
496
497 Session timeout may be specified on the command-line as option -T.
498
499 Pazpar2 may now be operated in a no-merged mode for records.. All records
500 will be considered unique. This mode is enabled if no mergekey is
501 generated by the normalization stylesheet (pz:xslt). 
502
503 Pazpar2 caches original records from each target and the 'record' command
504 with offset returns the original record if 'syntax' and 'esn' are NOT
505 specified. This speeds up retrieval of original records but also means
506 that Pazpar2 uses more memory. The cached records will be freed when the
507 session terminates or a new search is executed.
508
509 Pazpar2 no longer uses its own ICU wrapper. Instead the ICU wrapper
510 library part of YAZ is used.
511
512 Added SRU client support.
513
514 Automatically computes pz:nativesyntax if not provided. Works for XML and
515 MARC.
516
517 --- 1.0.13 2008/11/24
518
519 Command bytarget returns name of target (if defined).
520
521 --- 1.0.12 2008/11/04
522
523 Fixed bug #2021.. location now holds all brief elements.
524
525 --- 1.0.11 2008/10/15
526
527 Fixed check for application/x-www-form-urlencoded parameters.
528
529 --- 1.0.10 2008/10/14
530
531 Fixes for IE in pz2.js.
532
533 Fixed bug #2021: non-merged, brief meta data NOT included for command=show.
534
535 --- 1.0.9 2008/05/23
536
537 Changed the JS library pz2.js to use POST for long URL (+ params).
538
539 Added installation instructions for Windows. Note: NT services is
540 NOT available until we make a new release of YAZ.
541
542 Preserve order of repeated metadata fields (they were reversed before).
543
544 More MARC21 information extracted for metadata.
545
546 --- 1.0.8 2008/04/22
547
548 Fixed bug #1162: HTML entities are not escaped properly.
549
550 Native Windows port of Pazpar2. Makefile for Visual Studio provided.
551
552 --- 1.0.7 2008/04/14
553
554 Marc21 stylesheet updated to reflect multiple full text fields
555
556 --- 1.0.6 2008/03/12
557
558 Fixed bug in pz2.js WRT DOMElement attributes on IE.
559
560 Fixed bug 2100: Database wildcards not working
561
562 --- 1.0.5 2007/11/09
563
564 Added support for retrieval of records in binary.
565
566 Fixed bug 1794: Pazpar2 does not return valid XML.
567
568 Deal with ICU not returning sortkey (resulted in SEGV before).
569
570 --- 1.0.4 2007/09/28
571
572 JavaScript library pzw2.js throws error if WS response (from Pazpar2 or
573 other) is malformed (non-wellformed XML or missing Pazpar2 OK status).
574
575 Improved diagnostics when Pazpar2 HTTP decoding fails.
576
577 Pazpar2 requests may be POSTed as using Content-Type
578 application/x-www-form-urlencoded.
579
580 Pazpar2 honors LF in HTTP headers.
581
582 Handle targets that handle negative hit counts (should not happen, but it
583 does).
584
585 --- 1.0.3 2007/09/19
586
587 ICU is used for tokenization and normalization of the following: mergekey,
588 sorting, relevance terms.
589
590 Debian package now enables ICU tokenization and normalization by default.
591
592 --- 1.0.2 2007/08/22
593
594 Exposed user setting values (i.e. non-pz: names) to the record systems in two
595 ways: Either as parameters to the normalization stylesheets (which would allow the
596 programmer to postprocess or use the values in any way) or after the normalization
597 step, in which case values are made part of the normalized record (and available for
598 sorting, termlists, display, or other interface-related use.
599
600 Implemented sorting by year.
601
602 Option -d dumps records to the current log file instead of stderr.
603
604 Fixes for compilation on cygwin.
605
606 Z39.50 client code uses pz:elements. pz:elements was recognized in
607 earlier Pazpar2 versions but it was not used for anything.
608
609 icu_chain_test is using fgets instead of getline - fixes compilation
610 on MacOSX .
611
612 Loosen the CCL query parsing so that Pazpar2 only returns error if _all_
613 query conversions fail (rather than _any_). This means targets that do
614 not support some fields are ignored in a search.
615
616 --- 1.0.1 2007/07/03
617
618 Improved handling of socket timeout for Z39.50 connections. 
619
620 Misc documentation updates and spell fixes.
621
622 Debian package pazpar2 creates log rotate entry.
623
624 Debian package pazpar2-apache2 reloads Apache2.
625
626 jsdemo included in distribution. It illustrates the use of the js/pz2.js
627 JavaScript library.
628
629 --- 1.0.0 2007/06/20
630
631 First public release.
632