fix parsing of crappy DLFP pages

2010-05-11 15:08:40 +02:00 · 2010-05-11 15:08:40 +02:00 · 937e8ca370
commit 937e8ca370
parent eb9118133b
1 changed files with 13 additions and 0 deletions
--- a/weboob/backends/dlfp/browser.py
+++ b/weboob/backends/dlfp/browser.py
@ -19,12 +19,21 @@ Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 """

 import urllib
+from cStringIO import StringIO

 from weboob.tools.browser import BaseBrowser
+from weboob.tools.parsers.elementtidyparser import ElementTidyParser
+
 from .pages.index import IndexPage, LoginPage
 from .pages.news import ContentPage
 from .tools import id2url, id2threadid, id2contenttype

+class Parser(ElementTidyParser):
+    def parse(self, data, encoding=None):
+        # Want to kill templeet coders
+        data = StringIO(data.read().replace('<<', '<'))
+        return ElementTidyParser.parse(self, data, encoding)
+
 # Browser
 class DLFP(BaseBrowser):
    DOMAIN = 'linuxfr.org'
@ -36,6 +45,10 @@ class DLFP(BaseBrowser):
             'https://linuxfr.org/.*/\d+.html': ContentPage
            }

+    def __init__(self, *args, **kwargs):
+        kwargs['parser'] = Parser()
+        BaseBrowser.__init__(self, *args, **kwargs)
+
    def home(self):
        return self.location('https://linuxfr.org')