Stop saying Belleve Reporter!

[kiosk.git] / bellevue_reporter_rss_renderer.py
diff --git a/bellevue_reporter_rss_renderer.py b/bellevue_reporter_rss_renderer.py

index 104147dfc170facc6008f4ecef4e5c3ad98be125..1e0ec0f700ece7e39367f859ac52c91cbab47ada 100644 (file)
--- a/bellevue_reporter_rss_renderer.py
+++ b/bellevue_reporter_rss_renderer.py
@@ -1,12 +1,17 @@
  #!/usr/bin/env python3
  
+import logging
  import re
  from typing import List, Dict
  import xml
+import xml.etree.ElementTree as ET
  
  import generic_news_rss_renderer as gnrss
  
  
+logger = logging.getLogger(__file__)
+
+
  class bellevue_reporter_rss_renderer(gnrss.generic_news_rss_renderer):
      """Read the Bellevue Reporter's RSS feed."""
  
@@ -17,13 +22,7 @@ class bellevue_reporter_rss_renderer(gnrss.generic_news_rss_renderer):
          feed_uris: List[str],
          page_title: str,
      ):
-        super(bellevue_reporter_rss_renderer, self).__init__(
-            name_to_timeout_dict, feed_site, feed_uris, page_title
-        )
-        self.debug = True
-
-    def debug_prefix(self) -> str:
-        return "bellevue_reporter(%s)" % (self.page_title)
+        super().__init__(name_to_timeout_dict, feed_site, feed_uris, page_title)
  
      def get_headlines_page_prefix(self) -> str:
          return "bellevue-reporter"
@@ -34,7 +33,7 @@ class bellevue_reporter_rss_renderer(gnrss.generic_news_rss_renderer):
      def should_use_https(self) -> bool:
          return True
  
-    def munge_description(self, description: str) -> str:
+    def munge_description(self, description: str, item: ET.Element) -> str:
          description = re.sub("<[^>]+>", "", description)
          description = re.sub(
              "Bellevue\s+Reporter\s+Bellevue\s+Reporter", "", description
@@ -56,31 +55,68 @@ class bellevue_reporter_rss_renderer(gnrss.generic_news_rss_renderer):
      def looks_like_review(title: str, description: str) -> bool:
          return "review" in title or "Review" in title
  
+    @staticmethod
+    def looks_like_spam(title: str, description: str) -> bool:
+        return (
+            description is not None
+            and title is not None
+            and (
+                "marketplace" in description
+                or "national-marketplace" in description
+                or re.search("[Ww]eed", title) is not None
+                or re.search("[Cc]annabis", title) is not None
+                or re.search("[Cc]annabis", description) is not None
+                or "THC" in title
+                or re.search("[Tt]op.[Rr]ated", title) is not None
+                or re.search("[Ll]ose [Ww]eight", title) is not None
+                or re.search("[Ll]ose [Ww]eight", description) is not None
+            )
+        )
+
+    @staticmethod
+    def looks_very_boring(title: str, description: str) -> bool:
+        return description in title
+
      def item_is_interesting_for_headlines(
          self, title: str, description: str, item: xml.etree.ElementTree.Element
      ) -> bool:
+        unfiltered_description = item.findtext("description")
          if self.is_item_older_than_n_days(item, 10):
-            self.debug_print("%s: is too old!" % title)
+            logger.info(f"{title}: is too old!")
+            return False
+        if bellevue_reporter_rss_renderer.looks_like_spam(
+            title, unfiltered_description
+        ):
+            logger.debug(f"{title}: looks like spam")
              return False
          if bellevue_reporter_rss_renderer.looks_like_football(title, description):
-            self.debug_print("%s: looks like it's about football." % title)
+            logger.debug(f"{title}: looks like it's about football.")
              return False
          if bellevue_reporter_rss_renderer.looks_like_review(title, description):
-            self.debug_print("%s: looks like bullshit." % title)
+            logger.debug(f"{title}: looks like a review.")
+            return False
+        if bellevue_reporter_rss_renderer.looks_very_boring(title, description):
+            logger.debug(f"{title}: looks very boring.")
              return False
          return True
  
      def item_is_interesting_for_article(
          self, title: str, description: str, item: xml.etree.ElementTree.Element
      ) -> bool:
+        unfiltered_description = item.findtext("description")
          if self.is_item_older_than_n_days(item, 10):
-            self.debug_print("%s: is too old!" % title)
+            logger.debug(f"{title}: is too old!")
+            return False
+        if bellevue_reporter_rss_renderer.looks_like_spam(
+            title, unfiltered_description
+        ):
+            logger.debug(f"{title}: looks like spam")
              return False
          if bellevue_reporter_rss_renderer.looks_like_football(title, description):
-            self.debug_print("%s: looks like it's about football." % title)
+            logger.debug(f"{title}: looks like it's about football.")
              return False
          if bellevue_reporter_rss_renderer.looks_like_review(title, description):
-            self.debug_print("%s: looks like bullshit." % title)
+            logger.debug(f"{title}: looks like a review.")
              return False
          return True