7月 172012
 

バグっぽい。

@Override
public void indexFiles(Long harvestResultOid) throws ServiceException {
    
    // sort the crawl.log file to create a sortedcrawl.log file in the same
    // directory.
    log.info("Generating " + sortedLogFileName + " file for " + getResult().getTargetInstanceOid());

    // create path to log files folder from input directory..
    String logPath = directory.getAbsolutePath().substring(0, directory.getAbsolutePath().length()-1);
    logPath = logPath + logsSubFolder + "\\";

    // write new 'stripped' crawl.log, replacing multiple spaces with a single space in each record..
    try {

セパレータとしてバックスラッシュを使用しているが、これではWindows環境でしかセパレータとして認識しない。
本来はFile.separator()かFile.separatorChar()で取得すべきである。
これのせいで正常にログ処理ができていないと考えられる。

7月 132012
 

WebCuratorToolのProfileにて、Writeする際に401レコードを出力しないよう対応することで回避可能

回避例:

WebCuratorTool > Management > profile > Edit > Writers > org.archive.crawler.writer.ARCWriterProcessor > Archiver#decide-rules
に以下を追加

  • class org.archive.crawler.deciderules.FetchStatusDecideRule
  • decision REJECT
  • target-status 401