[minutes20] fix parsing insolite pages parsing

2014-09-16 20:39:31 +02:00 · 2014-09-16 20:39:31 +02:00 · 9d36e7a0e6
commit 9d36e7a0e6
parent 6e0af47492
1 changed files with 4 additions and 1 deletions
--- a/modules/minutes20/pages/article.py
+++ b/modules/minutes20/pages/article.py
@ -28,7 +28,7 @@ class ArticlePage(SimplePage):
        self.main_div = self.document.getroot()
        self.element_title_selector = "h1"
        self.element_author_selector = "div.mna-signature"
-        self.element_body_selector = "div.mna-body"
+        self.element_body_selector = "div[role=main], div.mna-body"

    def get_body(self):
        try:
@ -38,6 +38,9 @@ class ArticlePage(SimplePage):
        else:
            try_remove(self.parser, element_body, "div.mna-tools")
            try_remove(self.parser, element_body, "div.mna-comment-call")
+            try_remove(self.parser, element_body, "ul[class^=content-related]")
+            try_remove(self.parser, element_body, "ul[class^=content-related]")
+            try_remove(self.parser, element_body, "p.author-sign")
            try:
                element_body.remove(self.get_element_author())
            except NoAuthorElement: