Easier and more self documenting patterns for loading/saving Persistent
[python_utils.git] / logging_utils.py
index fdbb7a3d48daecb4e3b81ed4aad4bf0e11a79241..f7e3be62ccd0adf8a472e5126e2c5d3f76692faa 100644 (file)
@@ -1,6 +1,31 @@
 #!/usr/bin/env python3
-
-"""Utilities related to logging."""
+# -*- coding: utf-8 -*-
+
+# © Copyright 2021-2022, Scott Gasch
+
+"""Utilities related to logging.  To use it you must invoke
+:meth:`initialize_logging`.  If you use the
+:meth:`bootstrap.initialize` decorator on your program's entry point,
+it will call this for you.  See :meth:`python_modules.bootstrap.initialize`
+for more details.  If you use this you get:
+
+* Ability to set logging level,
+* ability to define the logging format,
+* ability to tee all logging on stderr,
+* ability to tee all logging into a file,
+* ability to rotate said file as it grows,
+* ability to tee all logging into the system log (syslog) and
+  define the facility and level used to do so,
+* easy automatic pid/tid stamp on logging for debugging threads,
+* ability to squelch repeated log messages,
+* ability to log probabilistically in code,
+* ability to only see log messages from a particular module or
+  function,
+* ability to clear logging handlers added by earlier loaded modules.
+
+All of these are controlled via commandline arguments to your program,
+see the code below for details.
+"""
 
 import collections
 import contextlib
@@ -13,7 +38,7 @@ import random
 import sys
 from logging.config import fileConfig
 from logging.handlers import RotatingFileHandler, SysLogHandler
-from typing import Any, Callable, Dict, Iterable, List, Mapping, Optional
+from typing import Any, Callable, Dict, Iterable, List, Optional
 
 import pytz
 from overrides import overrides
@@ -174,8 +199,8 @@ cfg.add_argument(
     ),
 )
 
-built_in_print = print
-logging_initialized = False
+BUILT_IN_PRINT = print
+LOGGING_INITIALIZED = False
 
 
 # A map from logging_callsite_id -> count of logged messages.
@@ -188,11 +213,13 @@ def squelch_repeated_log_messages(squelch_after_n_repeats: int) -> Callable:
     messages that it produces be squelched (ignored) after it logs the
     same message more than N times.
 
-    Note: this decorator affects *ALL* logging messages produced
-    within the decorated function.  That said, messages must be
-    identical in order to be squelched.  For example, if the same line
-    of code produces different messages (because of, e.g., a format
-    string), the messages are considered to be different.
+    .. note::
+
+        This decorator affects *ALL* logging messages produced
+        within the decorated function.  That said, messages must be
+        identical in order to be squelched.  For example, if the same line
+        of code produces different messages (because of, e.g., a format
+        string), the messages are considered to be different.
 
     """
 
@@ -207,24 +234,22 @@ def squelch_repeated_log_messages(squelch_after_n_repeats: int) -> Callable:
 
 
 class SquelchRepeatedMessagesFilter(logging.Filter):
-    """
-    A filter that only logs messages from a given site with the same
+    """A filter that only logs messages from a given site with the same
     (exact) message at the same logging level N times and ignores
     subsequent attempts to log.
 
-    This filter only affects logging messages that repeat more than
-    a threshold number of times from functions that are tagged with
-    the @logging_utils.squelched_logging_ok decorator; others are
-    ignored.
+    This filter only affects logging messages that repeat more than a
+    threshold number of times from functions that are tagged with the
+    @logging_utils.squelched_logging_ok decorator (see above); others
+    are ignored.
 
     This functionality is enabled by default but can be disabled via
-    the --no_logging_squelch_repeats commandline flag.
-
+    the :code:`--no_logging_squelch_repeats` commandline flag.
     """
 
     def __init__(self) -> None:
-        self.counters: collections.Counter = collections.Counter()
         super().__init__()
+        self.counters: collections.Counter = collections.Counter()
 
     @overrides
     def filter(self, record: logging.LogRecord) -> bool:
@@ -240,8 +265,7 @@ class SquelchRepeatedMessagesFilter(logging.Filter):
 
 class DynamicPerScopeLoggingLevelFilter(logging.Filter):
     """This filter only allows logging messages from an allow list of
-    module names or module:function names.  Blocks others.
-
+    module names or module:function names.  Blocks all others.
     """
 
     @staticmethod
@@ -257,9 +281,7 @@ class DynamicPerScopeLoggingLevelFilter(logging.Filter):
         per_scope_logging_levels: str,
     ) -> None:
         super().__init__()
-        self.valid_levels = set(
-            ['NOTSET', 'DEBUG', 'INFO', 'WARNING', 'ERROR', 'CRITICAL']
-        )
+        self.valid_levels = set(['NOTSET', 'DEBUG', 'INFO', 'WARNING', 'ERROR', 'CRITICAL'])
         self.default_logging_level = default_logging_level
         self.level_by_scope = {}
         if per_scope_logging_levels is not None:
@@ -286,12 +308,14 @@ class DynamicPerScopeLoggingLevelFilter(logging.Filter):
                         file=sys.stderr,
                     )
                     continue
-                self.level_by_scope[
-                    scope
-                ] = DynamicPerScopeLoggingLevelFilter.level_name_to_level(level)
+                self.level_by_scope[scope] = DynamicPerScopeLoggingLevelFilter.level_name_to_level(
+                    level
+                )
 
     @overrides
     def filter(self, record: logging.LogRecord) -> bool:
+        """Decides whether or not to log based on an allow list."""
+
         # First try to find a logging level by scope (--lmodule)
         if len(self.level_by_scope) > 0:
             min_level = None
@@ -318,18 +342,17 @@ probabilistic_logging_levels: Dict[str, float] = {}
 
 
 def logging_is_probabilistic(probability_of_logging: float) -> Callable:
-    """
-    A decorator that indicates that all logging statements within the
+    """A decorator that indicates that all logging statements within the
     scope of a particular (marked) function are not deterministic
     (i.e. they do not always unconditionally log) but rather are
-    probabilistic (i.e. they log N% of the time randomly).
+    probabilistic (i.e. they log N% of the time, randomly).
 
-    Note that this functionality can be disabled (forcing all logged
-    messages to produce output) via the --no_logging_probabilistically
-    cmdline argument.
-
-    This affects *ALL* logging statements within the marked function.
+    .. note::
+        This affects *ALL* logging statements within the marked function.
 
+    That this functionality can be disabled (forcing all logged
+    messages to produce output) via the
+    :code:`--no_logging_probabilistically` cmdline argument.
     """
 
     def probabilistic_logging_wrapper(f: Callable):
@@ -349,7 +372,6 @@ class ProbabilisticFilter(logging.Filter):
 
     This filter only affects logging messages from functions that have
     been tagged with the @logging_utils.probabilistic_logging decorator.
-
     """
 
     @overrides
@@ -362,12 +384,10 @@ class ProbabilisticFilter(logging.Filter):
 
 
 class OnlyInfoFilter(logging.Filter):
-    """
-    A filter that only logs messages produced at the INFO logging
-    level.  This is used by the logging_info_is_print commandline
-    option to select a subset of the logging stream to send to a
-    stdout handler.
-
+    """A filter that only logs messages produced at the INFO logging
+    level.  This is used by the ::code`--logging_info_is_print`
+    commandline option to select a subset of the logging stream to
+    send to a stdout handler.
     """
 
     @overrides
@@ -379,99 +399,131 @@ class MillisecondAwareFormatter(logging.Formatter):
     """
     A formatter for adding milliseconds to log messages which, for
     whatever reason, the default python logger doesn't do.
-
     """
 
     converter = datetime.datetime.fromtimestamp  # type: ignore
 
     @overrides
     def formatTime(self, record, datefmt=None):
-        ct = MillisecondAwareFormatter.converter(
-            record.created, pytz.timezone("US/Pacific")
-        )
+        ct = MillisecondAwareFormatter.converter(record.created, pytz.timezone("US/Pacific"))
         if datefmt:
             s = ct.strftime(datefmt)
         else:
             t = ct.strftime("%Y-%m-%d %H:%M:%S")
-            s = "%s,%03d" % (t, record.msecs)
+            s = f"{t},{record.msecs:%03d}"
         return s
 
 
 def log_about_logging(
-    logger, default_logging_level, preexisting_handlers_count, fmt, facility_name
+    logger,
+    default_logging_level,
+    preexisting_handlers_count,
+    fmt,
+    facility_name,
 ):
-    level_name = logging._levelToName.get(
-        default_logging_level, str(default_logging_level)
-    )
-    logger.debug(f'Initialized global logging; default logging level is {level_name}.')
-    if (
-        config.config['logging_clear_preexisting_handlers']
-        and preexisting_handlers_count > 0
-    ):
-        msg = f'Logging cleared {preexisting_handlers_count} global handlers (--logging_clear_preexisting_handlers)'
-        logger.warning(msg)
-    logger.debug(f'Logging format specification is "{fmt}"')
-    if config.config['logging_debug_threads']:
+    """Some of the initial messages in the debug log are about how we
+    have set up logging itself."""
+
+    level_name = logging._levelToName.get(default_logging_level, str(default_logging_level))
+    logger.debug('Initialized global logging; default logging level is %s.', level_name)
+    if config.config['logging_clear_preexisting_handlers'] and preexisting_handlers_count > 0:
         logger.debug(
-            '...Logging format spec captures tid/pid (--logging_debug_threads)'
+            'Logging cleared %d global handlers (--logging_clear_preexisting_handlers)',
+            preexisting_handlers_count,
         )
+    logger.debug('Logging format specification is "%s"', fmt)
+    if config.config['logging_debug_threads']:
+        logger.debug('...Logging format spec captures tid/pid. (--logging_debug_threads)')
     if config.config['logging_debug_modules']:
         logger.debug(
-            '...Logging format spec captures files/functions/lineno (--logging_debug_modules)'
+            '...Logging format spec captures files/functions/lineno. (--logging_debug_modules)'
         )
     if config.config['logging_syslog']:
         logger.debug(
-            f'Logging to syslog as {facility_name} with priority mapping based on level'
+            'Logging to syslog as %s with priority mapping based on level. (--logging_syslog)',
+            facility_name,
         )
     if config.config['logging_filename']:
-        logger.debug(f'Logging to filename {config.config["logging_filename"]}')
         logger.debug(
-            f'...with {config.config["logging_filename_maxsize"]} bytes max file size.'
+            'Logging to file "%s". (--logging_filename)', config.config["logging_filename"]
         )
         logger.debug(
-            f'...and {config.config["logging_filename_count"]} rotating backup file count.'
+            '...with %d bytes max file size. (--logging_filename_maxsize)',
+            config.config["logging_filename_maxsize"],
+        )
+        logger.debug(
+            '...and %d rotating backup file count. (--logging_filename_count)',
+            config.config["logging_filename_count"],
         )
     if config.config['logging_console']:
-        logger.debug('Logging to the console (stderr).')
+        logger.debug('Logging to the console (stderr). (--logging_console)')
     if config.config['logging_info_is_print']:
         logger.debug(
-            'Logging logger.info messages will be repeated on stdout (--logging_info_is_print)'
+            'Logging logger.info messages will be repeated on stdout. (--logging_info_is_print)'
         )
     if config.config['logging_squelch_repeats']:
         logger.debug(
-            'Logging code allowed to request repeated messages be squelched (--logging_squelch_repeats)'
+            'Logging code allowed to request repeated messages be squelched. (--logging_squelch_repeats)'
         )
     else:
         logger.debug(
-            'Logging code forbidden to request messages be squelched; all messages logged (--no_logging_squelch_repeats)'
+            'Logging code forbidden to request messages be squelched; all messages logged. (--no_logging_squelch_repeats)'
         )
     if config.config['logging_probabilistically']:
         logger.debug(
-            'Logging code is allowed to request probabilistic logging (--logging_probabilistically)'
+            'Logging code is allowed to request probabilistic logging. (--logging_probabilistically)'
         )
     else:
         logger.debug(
-            'Logging code is forbidden to request probabilistic logging; messages always logged (--no_logging_probabilistically)'
+            'Logging code is forbidden to request probabilistic logging; messages always logged. (--no_logging_probabilistically)'
         )
     if config.config['lmodule']:
         logger.debug(
-            f'Logging dynamic per-module logging enabled (--lmodule={config.config["lmodule"]})'
+            f'Logging dynamic per-module logging enabled. (--lmodule={config.config["lmodule"]})'
         )
     if config.config['logging_captures_prints']:
         logger.debug(
-            'Logging will capture printed data as logger.info messages (--logging_captures_prints)'
+            'Logging will capture printed data as logger.info messages. (--logging_captures_prints)'
         )
 
 
 def initialize_logging(logger=None) -> logging.Logger:
-    global logging_initialized
-    if logging_initialized:
+    """Initialize logging for the program.  This must be called if you want
+    to use any of the functionality provided by this module such as:
+
+    * Ability to set logging level,
+    * ability to define the logging format,
+    * ability to tee all logging on stderr,
+    * ability to tee all logging into a file,
+    * ability to rotate said file as it grows,
+    * ability to tee all logging into the system log (syslog) and
+      define the facility and level used to do so,
+    * easy automatic pid/tid stamp on logging for debugging threads,
+    * ability to squelch repeated log messages,
+    * ability to log probabilistically in code,
+    * ability to only see log messages from a particular module or
+      function,
+    * ability to clear logging handlers added by earlier loaded modules.
+
+    All of these are controlled via commandline arguments to your program,
+    see the code below for details.
+
+    If you use the
+    :meth:`bootstrap.initialize` decorator on your program's entry point,
+    it will call this for you.  See :meth:`python_modules.bootstrap.initialize`
+    for more details.
+    """
+    global LOGGING_INITIALIZED
+    if LOGGING_INITIALIZED:
         return logging.getLogger()
-    logging_initialized = True
+    LOGGING_INITIALIZED = True
 
     if logger is None:
         logger = logging.getLogger()
 
+    # --logging_clear_preexisting_handlers removes logging handlers
+    # that were registered by global statements during imported module
+    # setup.
     preexisting_handlers_count = 0
     assert config.has_been_parsed()
     if config.config['logging_clear_preexisting_handlers']:
@@ -479,6 +531,8 @@ def initialize_logging(logger=None) -> logging.Logger:
             logger.removeHandler(logger.handlers[0])
             preexisting_handlers_count += 1
 
+    # --logging_config_file pulls logging settings from a config file
+    # skipping the rest of this setup.
     if config.config['logging_config_file'] is not None:
         fileConfig(config.config['logging_config_file'])
         return logger
@@ -486,13 +540,13 @@ def initialize_logging(logger=None) -> logging.Logger:
     handlers: List[logging.Handler] = []
     handler: Optional[logging.Handler] = None
 
-    # Global default logging level (--logging_level)
-    default_logging_level = getattr(
-        logging, config.config['logging_level'].upper(), None
-    )
+    # Global default logging level (--logging_level); messages below
+    # this level will be silenced.
+    default_logging_level = getattr(logging, config.config['logging_level'].upper(), None)
     if not isinstance(default_logging_level, int):
-        raise ValueError('Invalid level: %s' % config.config['logging_level'])
+        raise ValueError(f'Invalid level: {config.config["logging_level"]}')
 
+    # Custom or default --logging_format?
     if config.config['logging_format']:
         fmt = config.config['logging_format']
     else:
@@ -500,18 +554,25 @@ def initialize_logging(logger=None) -> logging.Logger:
             fmt = '%(levelname).1s:%(filename)s[%(process)d]: %(message)s'
         else:
             fmt = '%(levelname).1s:%(asctime)s: %(message)s'
+
+    # --logging_debug_threads and --logging_debug_modules both affect
+    # the format by prepending information about the pid/tid or
+    # file/function.
     if config.config['logging_debug_threads']:
         fmt = f'%(process)d.%(thread)d|{fmt}'
     if config.config['logging_debug_modules']:
         fmt = f'%(filename)s:%(funcName)s:%(lineno)s|{fmt}'
 
+    # --logging_syslog (optionally with --logging_syslog_facility)
+    # sets up for logging to use the standard system syslogd as a
+    # sink.
     facility_name = None
     if config.config['logging_syslog']:
         if sys.platform not in ('win32', 'cygwin'):
             if config.config['logging_syslog_facility']:
                 facility_name = 'LOG_' + config.config['logging_syslog_facility']
             facility = SysLogHandler.__dict__.get(facility_name, SysLogHandler.LOG_USER)  # type: ignore
-            assert facility
+            assert facility is not None
             handler = SysLogHandler(facility=facility, address='/dev/log')
             handler.setFormatter(
                 MillisecondAwareFormatter(
@@ -521,6 +582,9 @@ def initialize_logging(logger=None) -> logging.Logger:
             )
             handlers.append(handler)
 
+    # --logging_filename (with friends --logging_filename_count and
+    # --logging_filename_maxsize) set up logging to a file on the
+    # filesystem with automatic rotation when it gets too big.
     if config.config['logging_filename']:
         handler = RotatingFileHandler(
             config.config['logging_filename'],
@@ -535,6 +599,7 @@ def initialize_logging(logger=None) -> logging.Logger:
         )
         handlers.append(handler)
 
+    # --logging_console is, ahem, logging to the console.
     if config.config['logging_console']:
         handler = logging.StreamHandler(sys.stderr)
         handler.setFormatter(
@@ -547,23 +612,37 @@ def initialize_logging(logger=None) -> logging.Logger:
 
     if len(handlers) == 0:
         handlers.append(logging.NullHandler())
-
     for handler in handlers:
         logger.addHandler(handler)
 
+    # --logging_info_is_print echoes any message to logger.info(x) as
+    # a print statement on stdout.
     if config.config['logging_info_is_print']:
         handler = logging.StreamHandler(sys.stdout)
         handler.addFilter(OnlyInfoFilter())
         logger.addHandler(handler)
 
+    # --logging_squelch_repeats allows code to request repeat logging
+    # messages (identical log site and message contents) to be
+    # silenced.  Logging code must request this explicitly, it isn't
+    # automatic.  This option just allows the silencing to happen.
     if config.config['logging_squelch_repeats']:
         for handler in handlers:
             handler.addFilter(SquelchRepeatedMessagesFilter())
 
+    # --logging_probabilistically allows code to request
+    # non-deterministic logging where messages have some probability
+    # of being produced.  Logging code must request this explicitly.
+    # This option just allows the non-deterministic behavior to
+    # happen.  Disabling it will cause every log message to be
+    # produced.
     if config.config['logging_probabilistically']:
         for handler in handlers:
             handler.addFilter(ProbabilisticFilter())
 
+    # --lmodule is a way to have a special logging level for just on
+    # module or one set of modules that is different than the one set
+    # globally via --logging_level.
     for handler in handlers:
         handler.addFilter(
             DynamicPerScopeLoggingLevelFilter(
@@ -574,8 +653,9 @@ def initialize_logging(logger=None) -> logging.Logger:
     logger.setLevel(0)
     logger.propagate = False
 
+    # --logging_captures_prints, if set, will capture and log.info
+    # anything printed on stdout.
     if config.config['logging_captures_prints']:
-        global built_in_print
         import builtins
 
         def print_and_also_log(*arg, **kwarg):
@@ -584,7 +664,7 @@ def initialize_logging(logger=None) -> logging.Logger:
                 logger.warning(*arg)
             else:
                 logger.info(*arg)
-            built_in_print(*arg, **kwarg)
+            BUILT_IN_PRINT(*arg, **kwarg)
 
         builtins.print = print_and_also_log
 
@@ -601,6 +681,7 @@ def initialize_logging(logger=None) -> logging.Logger:
 
 
 def get_logger(name: str = ""):
+    """Get the global logger"""
     logger = logging.getLogger(name)
     return initialize_logging(logger)
 
@@ -609,7 +690,6 @@ def tprint(*args, **kwargs) -> None:
     """Legacy function for printing a message augmented with thread id
     still needed by some code.  Please use --logging_debug_threads in
     new code.
-
     """
     if config.config['logging_debug_threads']:
         from thread_utils import current_thread_id
@@ -624,18 +704,15 @@ def dprint(*args, **kwargs) -> None:
     """Legacy function used to print to stderr still needed by some code.
     Please just use normal logging with --logging_console which
     accomplishes the same thing in new code.
-
     """
     print(*args, file=sys.stderr, **kwargs)
 
 
 class OutputMultiplexer(object):
-    """
-    A class that broadcasts printed messages to several sinks (including
-    various logging levels, different files, different file handles,
-    the house log, etc...).  See also OutputMultiplexerContext for an
-    easy usage pattern.
-
+    """A class that broadcasts printed messages to several sinks
+    (including various logging levels, different files, different file
+    handles, the house log, etc...).  See also
+    :class:`OutputMultiplexerContext` for an easy usage pattern.
     """
 
     class Destination(enum.IntEnum):
@@ -665,6 +742,20 @@ class OutputMultiplexer(object):
         filenames: Optional[Iterable[str]] = None,
         handles: Optional[Iterable[io.TextIOWrapper]] = None,
     ):
+        """
+        Constructs the OutputMultiplexer instance.
+
+        Args:
+            destination_bitv: a bitvector where each bit represents an
+                output destination.  Multiple bits may be set.
+            logger: if LOG_* bits are set, you must pass a logger here.
+            filenames: if FILENAMES bit is set, this should be a list of
+                files you'd like to output into.  This code handles opening
+                and closing said files.
+            handles: if FILEHANDLES bit is set, this should be a list of
+                already opened filehandles you'd like to output into.  The
+                handles will remain open after the scope of the multiplexer.
+        """
         if logger is None:
             logger = logging.getLogger(None)
         self.logger = logger
@@ -679,7 +770,7 @@ class OutputMultiplexer(object):
 
         self.h: Optional[List[Any]] = None
         if handles is not None:
-            self.h = [handle for handle in handles]
+            self.h = list(handles)
         else:
             if destination_bitv & OutputMultiplexer.Destination.FILEHANDLES:
                 raise ValueError("Handle argument is required if bitv & FILEHANDLES")
@@ -688,9 +779,11 @@ class OutputMultiplexer(object):
         self.set_destination_bitv(destination_bitv)
 
     def get_destination_bitv(self):
+        """Where are we outputting?"""
         return self.destination_bitv
 
     def set_destination_bitv(self, destination_bitv: int):
+        """Change the output destination_bitv to the one provided."""
         if destination_bitv & self.Destination.FILENAMES and self.f is None:
             raise ValueError("Filename argument is required if bitv & FILENAMES")
         if destination_bitv & self.Destination.FILEHANDLES and self.h is None:
@@ -698,6 +791,7 @@ class OutputMultiplexer(object):
         self.destination_bitv = destination_bitv
 
     def print(self, *args, **kwargs):
+        """Produce some output to all sinks."""
         from string_utils import sprintf, strip_escape_sequences
 
         end = kwargs.pop("end", None)
@@ -743,6 +837,7 @@ class OutputMultiplexer(object):
             hlog(buf)
 
     def close(self):
+        """Close all open files."""
         if self.f is not None:
             for _ in self.f:
                 _.close()
@@ -750,7 +845,7 @@ class OutputMultiplexer(object):
 
 class OutputMultiplexerContext(OutputMultiplexer, contextlib.ContextDecorator):
     """
-    A context that uses an OutputMultiplexer.  e.g.
+    A context that uses an :class:`OutputMultiplexer`.  e.g.::
 
         with OutputMultiplexerContext(
                 OutputMultiplexer.LOG_INFO |
@@ -761,7 +856,6 @@ class OutputMultiplexerContext(OutputMultiplexer, contextlib.ContextDecorator):
                 handles = [ f, g ]
             ) as mplex:
                 mplex.print("This is a log message!")
-
     """
 
     def __init__(
@@ -793,9 +887,8 @@ def hlog(message: str) -> None:
     """Write a message to the house log (syslog facility local7 priority
     info) by calling /usr/bin/logger.  This is pretty hacky but used
     by a bunch of code.  Another way to do this would be to use
-    --logging_syslog and --logging_syslog_facility but I can't
-    actually say that's easier.
-
+    :code:`--logging_syslog` and :code:`--logging_syslog_facility` but
+    I can't actually say that's easier.
     """
     message = message.replace("'", "'\"'\"'")
     os.system(f"/usr/bin/logger -p local7.info -- '{message}'")