[radiofrance] handle podcasts

2015-07-02 15:33:51 +02:00 · 2015-07-02 15:33:51 +02:00 · 19a785a643
commit 19a785a643
parent b892aafec3
4 changed files with 223 additions and 16 deletions
--- a/modules/radiofrance/browser.py
+++ b/modules/radiofrance/browser.py
@ -18,7 +18,7 @@
 # along with weboob. If not, see <http://www.gnu.org/licenses/>.
 from weboob.browser import PagesBrowser, URL
-from .pages import PlayerPage, JsonPage
+from .pages import RadioPage, JsonPage, PodcastPage
 __all__ = ['RadioFranceBrowser']
@ -26,11 +26,12 @@ __all__ = ['RadioFranceBrowser']
 class RadioFranceBrowser(PagesBrowser):
    json_page = URL('sites/default/files/(?P<json_url>.*).json',
                    'player-json/reecoute/(?P<json_url_fip>.*)', JsonPage)
-    player_page = URL('(?P<player>.*)', PlayerPage)
+    podcast_page = URL('podcast09/rss_(?P<podcast_id>.*)\.xml', PodcastPage)
    radio_page = URL('(?P<page>.*)', RadioPage)
    def get_radio_url(self, radio, player):
        self.BASEURL = 'http://www.%s.fr/' % radio
-        return self.player_page.go(player=player).get_url()
+        return self.radio_page.go(page=player).get_url()
    def get_current(self, radio, json_url):
        self.BASEURL = 'http://www.%s.fr/' % radio
@ -53,3 +54,24 @@ class RadioFranceBrowser(PagesBrowser):
        for item in self.get_selection(radio_url, json_url, radio_id):
            if pattern.upper() in item.title.upper():
                yield item
    def get_podcast_emissions(self, radio_url, podcast_url, split_path):
        self.BASEURL = 'http://www.%s.fr/' % radio_url
        if split_path[0] == 'franceinter':
            return self.radio_page.go(page=podcast_url).get_france_inter_podcast_emissions(split_path=split_path)
        elif split_path[0] == 'franceculture':
            return self.radio_page.go(page=podcast_url).get_france_culture_podcast_emissions(split_path=split_path)
        elif split_path[0] == 'franceinfo':
            return self.radio_page.go(page=podcast_url).get_france_info_podcast_emissions(split_path=split_path)
        elif split_path[0] == 'francemusique':
            return self.radio_page.go(page=podcast_url).get_france_musique_podcast_emissions(split_path=split_path)
        elif split_path[0] == 'mouv':
            return self.radio_page.go(page=podcast_url).get_mouv_podcast_emissions(split_path=split_path)
    def get_podcasts(self, podcast_id):
        self.BASEURL = 'http://radiofrance-podcast.net/'
        return self.podcast_page.go(podcast_id=podcast_id).iter_podcasts()
    def get_france_culture_podcasts_url(self, url):
        self.BASEURL = 'http://www.franceculture.fr/podcast/'
        return self.radio_page.go(page=url).get_france_culture_podcasts_url()
--- a/modules/radiofrance/module.py
+++ b/modules/radiofrance/module.py
@ -48,14 +48,17 @@ class RadioFranceModule(Module, CapRadio, CapCollection, CapAudio):
        'franceinter': {u'title': u'France Inter',
                        u'player': u'player',
                        u'live': u'lecteur_commun_json/timeline',
                        u'podcast': u'podcasts',
                        u'selection': u'lecteur_commun_json/reecoute-%s' % int(time.mktime(datetime.now().replace(hour=14, minute=0, second=0).timetuple()))},
        'franceculture': {u'title': u'France Culture',
                          u'player': u'player',
                          u'live': u'lecteur_commun_json/timeline',
                          u'podcast': u'podcasts',
                          u'selection': u'lecteur_commun_json/reecoute-%s' % int(time.mktime(datetime.now().replace(hour=14, minute=0, second=0).timetuple()))},
        'franceinfo': {u'title': u'France Info',
                       u'player': u'player',
                       u'live': u'lecteur_commun_json/timeline',
                       u'podcast': u'programmes-chroniques/podcasts',
                       u'selection': u'lecteur_commun_json/reecoute-%s' % int(time.mktime(datetime.now().replace(hour=14, minute=0, second=0).timetuple()))},
        'fbidf': {u'title': u'France Bleu Île-de-France (Paris)',
                  u'player': u'player/france-bleu-107-1',
@ -68,10 +71,12 @@ class RadioFranceModule(Module, CapRadio, CapCollection, CapAudio):
        'francemusique': {u'title': u'France Musique',
                          u'player': u'player',
                          u'live': u'lecteur_commun_json/reecoute-%s' % int(time.mktime(datetime.now().replace(hour=14, minute=0, second=0).timetuple())),
                          u'podcast': u'emissions',
                          u'selection': u'lecteur_commun_json/reecoute-%s' % int(time.mktime(datetime.now().replace(hour=14, minute=0, second=0).timetuple()))},
        'mouv': {u'title': u'Le Mouv\'',
                 u'player': u'player',
                 u'live': u'lecteur_commun_json/timeline',
                 u'podcast': u'podcasts',
                 u'selection': u'lecteur_commun_json/reecoute-%s' % int(time.mktime(datetime.now().replace(hour=14, minute=0, second=0).timetuple()))},
        'fbalsace': {u'title': u'France Bleu Alsace (Strasbourg)',
                     u'player': u'player/station/france-bleu-alsace',
@ -252,7 +257,13 @@ class RadioFranceModule(Module, CapRadio, CapCollection, CapAudio):
    }
    def iter_resources(self, objs, split_path):
-        if split_path and split_path[0] == u'francebleu':
+        if len(split_path) == 0:
            for _id, item in sorted(self._RADIOS.iteritems()):
                if not _id.startswith('fb'):
                    yield Collection([_id], item['title'])
            yield Collection([u'francebleu'], u'France Bleu')
        elif split_path[0] == u'francebleu':
            if len(split_path) == 1:
                for _id, item in sorted(self._RADIOS.iteritems()):
                    if _id.startswith('fb'):
@ -264,18 +275,33 @@ class RadioFranceModule(Module, CapRadio, CapCollection, CapAudio):
                        for item in self.browser.get_selection('francebleu', selection_url, _id):
                            yield item
                        break
-        elif len(split_path) == 0:
+
            for _id, item in sorted(self._RADIOS.iteritems()):
                if not _id.startswith('fb'):
                    yield Collection([_id], item['title'])
            yield Collection([u'francebleu'], u'France Bleu')
        elif len(split_path) == 1:
            yield Collection([split_path[0], u'selection'], u'Selection')
            if 'podcast' in self._RADIOS[split_path[0]]:
                yield Collection([split_path[0], u'podcasts'], u'Podcast')
        elif len(split_path) == 2 and split_path[1] == 'selection':
            for _id, item in sorted(self._RADIOS.iteritems()):
                if _id == split_path[0]:
                    selection_url = self._RADIOS[_id]['selection']
                    for item in self.browser.get_selection(_id, selection_url, _id):
                        yield item
                    break
        elif len(split_path) == 2 and split_path[1] == 'podcasts':
            for item in self.browser.get_podcast_emissions(split_path[0],
                                                           self._RADIOS[split_path[0]]['podcast'],
                                                           split_path):
                yield item
        elif len(split_path) == 3:
            podcasts_url = split_path[-1]
            if split_path[0] == 'franceculture':
                podcasts_url = self.browser.get_france_culture_podcasts_url(split_path[-1])
            for item in self.browser.get_podcasts(podcasts_url):
                yield item
        else:
            raise CollectionNotFound(split_path)
@ -347,6 +373,12 @@ class RadioFranceModule(Module, CapRadio, CapCollection, CapAudio):
            selection_url = self._RADIOS[radio]['selection']
            radio_url = radio if not radio.startswith('fb') else 'francebleu'
            return self.browser.get_audio(_id, radio_url, selection_url, radio)
        elif radio == 'podcast':
            m = re.match('audio\.podcast\.(\d*)-.*', _id)
            if m:
                for item in self.browser.get_podcasts(m.group(1)):
                    if _id == item.id:
                        return item
    def iter_radios_search(self, pattern):
        for key, radio in self._RADIOS.iteritems():
--- a/modules/radiofrance/pages.py
+++ b/modules/radiofrance/pages.py
@ -17,21 +17,161 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with weboob. If not, see <http://www.gnu.org/licenses/>.
-from weboob.browser.elements import ItemElement, DictElement, method
+from weboob.browser.elements import ItemElement, DictElement, ListElement, method
-from weboob.browser.pages import HTMLPage, JsonPage
+from weboob.browser.pages import HTMLPage, JsonPage, XMLPage
 from weboob.browser.filters.json import Dict
-from weboob.browser.filters.standard import Format, CleanText, Join, Env
+from weboob.browser.filters.standard import Format, CleanText, Join, Env, Regexp, Duration
 from weboob.capabilities.audio import BaseAudio, BaseAudioIdFilter
 from weboob.capabilities.image import BaseImage
 from weboob.capabilities.collection import Collection
 import time
 from datetime import timedelta
-class PlayerPage(HTMLPage):
+class PodcastPage(XMLPage):
    @method
    class iter_podcasts(ListElement):
        item_xpath = '//item'
        class item(ItemElement):
            klass = BaseAudio
            obj_id = BaseAudioIdFilter(Format('podcast.%s',
                                              Regexp(CleanText('./guid'),
                                                     'http://media.radiofrance-podcast.net/podcast09/(.*).mp3')))
            obj_title = CleanText('title')
            obj_format = u'mp3'
            obj_url = CleanText('enclosure/@url')
            obj_description = CleanText('description')
            def obj_author(self):
                author = self.el.xpath('itunes:author',
                                       namespaces={'itunes': 'http://www.itunes.com/dtds/podcast-1.0.dtd'})
                return CleanText('.')(author[0])
            def obj_duration(self):
                duration = self.el.xpath('itunes:duration',
                                         namespaces={'itunes': 'http://www.itunes.com/dtds/podcast-1.0.dtd'})
                return Duration(CleanText('.'))(duration[0])
            def obj_thumbnail(self):
                thumbnail = BaseImage(CleanText('//image[1]/url')(self))
                thumbnail.url = thumbnail.id
                return thumbnail
 class RadioPage(HTMLPage):
    def get_url(self):
        return CleanText('//a[@id="player"][1]/@href')(self.doc)
    def get_france_culture_podcasts_url(self):
        return Regexp(CleanText('//a[@class="lien-rss"][1]/@href'),
                      'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')(self.doc)
    @method
    class get_france_culture_podcast_emissions(ListElement):
        item_xpath = '//li/h3/a'
        class item(ItemElement):
            klass = Collection
            def condition(self):
                return u'/podcast/' in CleanText('./@href')(self)
            def obj_split_path(self):
                _id = Regexp(CleanText('./@href'), '/podcast/(.*)')(self)
                self.env['split_path'].append(_id)
                return self.env['split_path']
            obj_id = Regexp(CleanText('./@href'), '/podcast/(.*)')
            obj_title = CleanText('.')
    @method
    class get_france_info_podcast_emissions(ListElement):
        item_xpath = '//div[@class="emission-gdp"]'
        ignore_duplicate = True
        class item(ItemElement):
            klass = Collection
            def obj_split_path(self):
                _id = Regexp(CleanText('./div/div/div/div/ul/li/a[@class="ico-rss"]/@href'),
                             'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')(self)
                self.env['split_path'].append(_id)
                return self.env['split_path']
            obj_id = Regexp(CleanText('./div/div/div/div/ul/li/a[@class="ico-rss"]/@href'),
                            'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')
            obj_title = CleanText('./h2/a')
    @method
    class get_mouv_podcast_emissions(ListElement):
        item_xpath = '//div[@class="view-content"]/div'
        class item(ItemElement):
            klass = Collection
            def condition(self):
                return CleanText('./div/a[@class="podcast-rss"]/@href')(self) and \
                    Regexp(CleanText('./div/a[@class="podcast-rss"]/@href'),
                           'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')(self)
            def obj_split_path(self):
                _id = Regexp(CleanText('./div/a[@class="podcast-rss"]/@href'),
                             'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')(self)
                self.env['split_path'].append(_id)
                return self.env['split_path']
            obj_id = Regexp(CleanText('./div/a[@class="podcast-rss"]/@href'),
                            'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')
            obj_title = CleanText('./h2')
    @method
    class get_france_musique_podcast_emissions(ListElement):
        item_xpath = '//div[@class="liste-emissions"]/ul/li'
        class item(ItemElement):
            klass = Collection
            def condition(self):
                return CleanText('./div/ul/li/a[@class="ico-rss"]/@href')(self) and\
                    Regexp(CleanText('./div/ul/li/a[@class="ico-rss"]/@href'),
                           'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')(self)
            def obj_split_path(self):
                _id = Regexp(CleanText('./div/ul/li/a[@class="ico-rss"]/@href'),
                             'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')(self)
                self.env['split_path'].append(_id)
                return self.env['split_path']
            obj_id = Regexp(CleanText('./div/ul/li/a[@class="ico-rss"]/@href'),
                            'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')
            obj_title = CleanText('./div/h3')
    @method
    class get_france_inter_podcast_emissions(ListElement):
        item_xpath = '//div[has-class("item-list")]/ul/li/div/div'
        ignore_duplicate = True
        class item(ItemElement):
            klass = Collection
            def condition(self):
                return CleanText('./div/a[@class="podrss"]/@href')(self) and\
                    Regexp(CleanText('./div/a[@class="podrss"]/@href'),
                           'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')(self)
            def obj_split_path(self):
                _id = Regexp(CleanText('./div/a[@class="podrss"]/@href'),
                             'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')(self)
                self.env['split_path'].append(_id)
                return self.env['split_path']
            obj_id = Regexp(CleanText('./div/a[@class="podrss"]/@href'),
                            'http://radiofrance-podcast.net/podcast09/rss_(.*).xml')
            obj_title = CleanText('./h2/a')
 class JsonPage(JsonPage):
    @method
--- a/modules/radiofrance/test.py
+++ b/modules/radiofrance/test.py
@ -26,7 +26,7 @@ from weboob.capabilities.radio import Radio
 class RadioFranceTest(BackendTest):
    MODULE = 'radiofrance'
-    def test_get_radios_and_selections(self):
+    def test_ls_radios_and_selections(self):
        l = list(self.backend.iter_resources(objs=[Radio], split_path=[]))
        self.assertTrue(0 < len(l) < 30)
@ -36,7 +36,7 @@ class RadioFranceTest(BackendTest):
                streams = self.backend.get_radio(name).streams
                self.assertTrue(len(streams) > 0)
-                l_sel = list(self.backend.iter_resources(objs=[BaseAudio], split_path=[name]))
+                l_sel = list(self.backend.iter_resources(objs=[BaseAudio], split_path=[name, 'selection']))
                self.assertTrue(len(l_sel) > 0)
                self.assertTrue(len(l_sel[0].url) > 0)
@ -47,10 +47,23 @@ class RadioFranceTest(BackendTest):
            streams = self.backend.get_radio(radio.split_path[-1]).streams
            self.assertTrue(len(streams) > 0)
-            l_sel = list(self.backend.iter_resources(objs=[BaseAudio], split_path=['francebleu', radio.split_path[-1]]))
+            l_sel = list(self.backend.iter_resources(objs=[BaseAudio],
                                                     split_path=['francebleu',
                                                                 radio.split_path[-1],
                                                                 'selection']))
            if len(l_sel) > 0:
                self.assertTrue(len(l_sel[0].url) > 0)
    def test_podcasts(self):
        for key, item in self.backend._RADIOS.iteritems():
            if 'podcast' in item:
                emissions = list(self.backend.iter_resources(objs=[BaseAudio], split_path=[key, 'podcasts']))
                self.assertTrue(len(emissions) > 0)
                podcasts = list(self.backend.iter_resources(objs=[BaseAudio], split_path=emissions[0].split_path))
                self.assertTrue(len(podcasts) > 0)
                podcast = self.backend.get_audio(podcasts[0].id)
                self.assertTrue(podcast.url)
    def test_search_radio(self):
        l = list(self.backend.iter_radios_search('bleu'))
        self.assertTrue(len(l) > 0)