Deez is la tech — Épisode 5 — La gestion du catalogue

93 millions de titres. 100 000 nouveaux morceaux reçus chaque jour.

De tels volumes nécessitent de nos équipes une attention et un travail de tous les instants afin de maintenir un catalogue propre, utilisable, intelligible et à jour des dernières sorties.

Ce sont justement ces problématiques de gestion du catalogue que nous avons choisi d’aborder dans le cinquième épisode de Deez is la tech.

Note: This post accompanies the release of the fifth episode of “Deez is la tech”, a podcast created by Deezer’s Product & Tech teams — in French only for now. You will still find English content on deezer.io though, like Lucie Haddad’s latest post about lyrics. Go check it out!

Résumé de l’épisode

Le catalogue musical de Deezer s’élève aujourd’hui à plus de 90 millions de titres, et c’est sans compter les podcasts, radios, audiobooks et autres types de contenus proposés sur la plateforme. Nos équipes en charge du catalogue travaillent donc d’arrache-pied pour importer, ranger et exposer tous ces éléments.

Concrètement, qu’est-ce qu’un catalogue ? Comment le constitue-t-on ? Qu’est-ce que les métadonnées et comment les exploite-t-on ? Comment s’assure-t-on de la qualité des informations que l’on affiche dans les applications ? Pour quelles raisons certains contenus ne sont-ils plus disponibles du jour au lendemain ?

Dans cet épisode, Loïc Boulakras (Team Manager Backend | LinkedIn), Romain Cottard (Senior Software Architect | Mastodon | GitHub), Lucie Haddad (Senior Product Manager | LinkedIn | Twitter) et Paul Tremberth (Senior Data Engineer | LinkedIn | GitHub) détaillent les différentes techniques et sources utilisées (identifiants, fingerprinting, wikis, etc.) pour catégoriser le catalogue, contextualiser l’expérience utilisateur et résoudre des problématiques de dates et d’homonymie notamment. Ils évoquent également l’importance de l’humain et le rôle de l’éthique dans la mise à disposition des contenus. Enfin, ils nous révèlent pourquoi certains morceaux sont parfois grisés !

Comme toujours, cet épisode est animé par Loïc Doubinine (Twitter) et Vincent Lepot (Twitter | Mastodon).

Transcript

[00:00:07.020] — Loïc D. : Bonjour et bienvenue dans Deez is la tech, le podcast qui n’pète ni les plombs, ni les crons ! Moi, c’est Loïc et à mes côtés, Vincent. Bonjour Vincent !

[00:00:14.220] — Vincent : Salut Loïc, heureux de co-animer ce nouvel épisode avec toi.

[00:00:22.170] — Loïc D. : Dans un précédent épisode, on parlait du Flow et de comment Deezer et les services de streaming utilisent les algorithmes pour nous aider à choisir ce qu’on écoute. Car 90 millions de titres, c’est décidément beaucoup trop de choix ! Avec nous, aujourd’hui, quatre invités. Romain Cottard, Senior Software Architect. Bonjour Romain.

[00:00:40.430] — Romain : Bonjour tout le monde ! Moi, c’est Romain, ça fait plus de neuf ans que je travaille chez Deezer. J’étais en charge du catalogue jusqu’à pas si longtemps, et d’importer toutes les données.

[00:00:53.240] — Loïc D. : Il y a aussi Lucie Haddad, Senior Product Manager. Bonjour Lucie.

[00:00:57.350] — Lucie : Bonjour tout le monde ! En effet, moi, c’est Lucie. J’ai rejoint Deezer il y a presque deux ans et demi. Avant ça, j’ai travaillé chez France Télévisions et encore avant chez Canal+, donc dans le monde des catalogues de contenus, et celui de la musique maintenant.

[00:01:13.640] — Loïc D. : Nous avons aussi Paul Tremberth. J’espère l’avoir dit correctement. Senior Data Engineer. Bonjour Paul !

[00:01:20.330] — Paul : Salut ! Moi, c’est Paul, très bonne prononciation. Je suis Data Engineer chez Deezer depuis bientôt quatre ans et avant ça, j’avais une carrière dans la téléphonie mobile et les logiciels embarqués.

[00:01:34.370] — Loïc D. : Et pour finir, nous avons aussi Loïc Boulakras, Team Manager Backend. Bonjour Loïc.

[00:01:39.620] — Loïc B. : Bonjour tout le monde. En effet, suite au changement de poste de Romain pour prendre le lead technique sur toute la stack, j’ai repris le flambeau du catalogue. Donc, évidemment, de l’ingestion de contenu toujours.

[00:01:51.820] — Loïc D. : J’imagine qu’on ne va pas à la Fnac tous les jeudis pour acheter des CD, les convertir en FLAC et MP3 à la main comme on faisait dans les années 2000. Du coup, comment ça se passe à Deezer ? Romain peut-être ?

[00:02:05.550] — Romain : C’est simple, on contacte les maisons de disques qui nous disent : “OK, on veut bien vous fournir notre contenu”. Ensuite, elles nous envoient leur contenu par Internet. Nous, on récupère ce contenu, on le traite, on l’importe, on le stocke en base de données pour ensuite le resservir aux utilisateurs de Deezer.

[00:02:25.570] — Loïc B. : Pour donner un peu de contexte, en gros, on a une équipe de supply chain qui fait de l’acquisition de labels, qui signe des contrats avec eux pour obtenir tout leur catalogue. Du coup, on parle de catalogue entier. On ne va pas leur demander release par release, “on veut l’album de tel artiste”. Ça, ça peut arriver s’il manque des choses. Ce qu’on négocie, ce sont des catalogues qui arrivent chez Deezer, mais il peut y avoir des choses manquantes parfois.

[00:02:49.600] — Loïc D. : Et du coup, c’est quoi un catalogue, concrètement ?

[00:02:52.390] — Loïc B. : Un catalogue, c’est un ensemble d’albums qui ont été signés par des labels, qui utilisent un distributeur pour gérer toute leur distribution musicale.

[00:03:03.850] — Loïc D. : Distributeurs comme Deezer par exemple ?

[00:03:04.940] — Loïc B. : Non, distributeurs comme Warner, UMG (Universal Music Group), etc.

[00:03:11.270] — Lucie : Peut-être pour compléter là-dessus : ce qui est important, c’est de faire la différence entre le label qui va, lui, produire la musique avec l’artiste, gérer l’enregistrement, et ensuite toute la chaîne de distribution. Et donc, les labels vont être rattachés à des providers, i.e. des distributeurs — les plus connus étant Universal, Warner, etc. — qui vont servir de distribution pour distribuer le contenu jusqu’aux DSP, i.e. les plateformes de streaming.

[00:03:34.340] — Vincent : Juste, peut-être, “DSP” ?

[00:03:36.110] — Lucie : Oui, Digital Streaming Platform. Merci !

[00:03:40.780] — Vincent : Comment ingère-t-on un catalogue ? En gros, quels sont les éléments qu’on reçoit et comment constitue-t-on ce catalogue de manière générale ?

[00:03:50.220] — Loïc B. : On reçoit beaucoup de choses. Il y a des metadata à données textuelles, il y a des fichiers audio pour écouter la musique et il y a également des images, par exemple pour les covers d’albums. Je peux laisser Romain parler de la partie “comment ça se présente pour nous”.

[00:04:07.990] — Romain : Pour nous, les distributeurs déposent ça sur un répertoire FTP. Ensuite, nous avons des scripts qui tournent, qui traitent toutes ces metadata textuelles et qui les importent en base de données. Pour les audios, on est souvent livré en FLAC — contenu audio haute qualité — qu’on va réencoder en format MP3 plus basse qualité, notamment pour les mobiles en streaming 4G, pour économiser de la bande passante. On va retraiter ça, on va tout stocker…

[00:04:41.980] — Vincent : Donc, en gros, on a le contenu dans une certaine forme et on le refait en différentes qualités ?

[00:04:48.400] — Romain : C’est ça. Parce qu’il faut savoir qu’il y a beaucoup de distributeurs qui livrent le contenu. Et il est livré sous différentes normes de livraison, notamment DDEX ou des formats personnels en fonction des distributeurs. Donc on a besoin de normaliser ça pour fournir le même contenu, quel que soit le distributeur, de la même façon au client.

[00:05:15.790] — Loïc B. : Historiquement, il y avait, dans l’écosystème de l’industrie musicale, beaucoup de formats différents, ou même des distributeurs qui n’avaient pas leur propre format de livraison et ont dû demander aux DSP comment faire. Mais maintenant, ça se standardise. Il y a donc DDEX, pour Digital Data Exchange. C’est un énorme consortium auquel les majors, les DSP et d’autres acteurs de l’industrie musicale participent afin d’uniformiser la livraison de contenus et la rendre plus facile pour tout le monde. Dans une delivery DDEX comme chez nous, on va retrouver un énorme fichier XML avec toutes les métadonnées, et donc des références vers les fichiers audio et les fichiers images, qu’on peut facilement traiter car on sait exactement ce qu’on doit y trouver.

[00:06:03.050] — Loïc D. : Il y a des ressources disponibles sur ce format-là ?

[00:06:06.590] — Loïc B. : Il y a effectivement une documentation Confluence officielle. On peut trouver le XSD, c’est-à-dire la documentation du format XML, avec toutes les informations qu’on peut y trouver. Ce qui est un peu plus dur, c’est de trouver ce à quoi doit servir chaque élément. Parfois, les descriptions ne sont pas très claires ou il peut y avoir des descriptions qui semblent être un peu les mêmes, des éléments dupliqués… Pour la compréhension globale, la documentation n’est pas hyper simple, donc ça prend un certain temps avant d’appréhender le format totalement.

[00:06:38.640] — Romain : Même parfois des interprétations, que ce soit de notre côté ou du côté des distributeurs… Ils vont interpréter “tiens, dans tel champ, je dois mettre telle donnée” et nous, finalement, on va dire “bah non, c’est tel champ qu’on devait traiter”. Voilà, ça amène à des petites erreurs ou des petites incompréhensions. Et parfois, on peut ingérer le mauvais contenu ou dire “non, ça n’a pas été bien livré” alors que c’était juste une erreur d’interprétation. Parce que ça doit notamment correspondre à l’industrie de la musique, mais DDEX sert aussi pour l’industrie vidéo, et maintenant les audiobooks.

[00:07:14.400] — Lucie : C’est pour ça qu’on s’attache à maintenir une relation continuelle avec l’ensemble de nos providers pour toujours continuer de travailler avec eux, et en effet, résoudre toutes ces différentes interprétations possibles. Ce sont des choses qu’on fait en interne chez Deezer, avec nos équipes supply chain qui parlent avec les équipes supply chain des providers. Et de plus en plus, on se rapproche de ces équipes-là pour toujours faciliter la compréhension mutuelle.

[00:07:39.420] — Loïc B. : Et également, le format DDEX évolue. Il y a des summits tous les ans pour discuter du format, de ce qu’il y manque et de ce qu’on pourrait y ajouter pour simplifier la vie de tout le monde.

[00:07:49.600] — Vincent : Donc c’est un format qui est relativement ouvert et sur lequel…

[00:07:55.030] — Lucie : …tous les acteurs de la musique discutent lors de ces sommets. Effectivement, il est en continuelle évolution et aujourd’hui, c’est vraiment le format standard que tout le monde utilise. On n’est évidemment pas les seuls à recourir à DDEX.

[00:08:08.590] — Vincent : Et en proportion, à peu près, qui utilise DDEX par rapport à ceux qui ne l’utilisent pas ? On a une statistique là-dessus ?

[00:08:15.420] — Loïc B. : Je ne pense pas qu’on ait de statistique, mais je dirais qu’on doit être à plus de 95%, peut-être même 99%, ce qui n’était pas le cas dans le passé.

[00:08:24.220] — Vincent : D’accord, donc c’est vraiment un format bien installé.

[00:08:24.220] — Lucie : Oui oui.

[00:08:24.990] — Romain : Oui, ça a bien changé puisqu’il y a trois ou quatre ans encore, j’aurais dit entre 50 et 70%.

[00:08:31.590] — Lucie : Ça évolue. En fait, aujourd’hui, on pourrait se passer de toutes les livraisons qui ne sont pas DDEX.

[00:08:36.030] — Loïc B. : Presque oui.

[00:08:38.210] — Vincent : C’est chouette.

[00:08:39.020] — Lucie : Oui ! Parce que quand tu sais que malheureusement — enfin, malheureusement ou heureusement — en gros, on écoute à peu près tous la même chose et que vraiment 86% des utilisateurs — je crois que c’est ça la data — streament la même chose, d’un point de vue impact, tu pourrais quasiment te passer de ceux qui ne livrent pas en DDEX et ne pas voir ton business réellement impacté par ce que tu viens de faire. Je dis pas que c’est souhaitable.

[00:09:01.070] — Vincent : D’accord. On perdrait juste le fond de catalogue, là où il y a peut-être les petites pépites sympas à aller chercher.

[00:09:04.790] — Lucie : Oui, c’est ça. Et après, d’un point de vue éthique, ça se discute parce que tu perds aussi en diversité du contenu que tu proposes, etc.

[00:09:12.830] — Loïc D. : Ce sont les petits acteurs qui ne suivent pas le format DDEX et qui sont amenés à le suivre à terme ?

[00:09:17.960] — Loïc B. : Des petits et moyens. Il y a des acteurs de moyenne taille qui ont leur propre supply chain pas en DDEX mais qui n’ont pas forcément les ressources en termes d’ingénieurs pour faire le passage au format DDEX.

[00:09:31.310] — Loïc D. : Quels sont les formats alternatifs ? Ce sont des trucs vraiment exotiques ou c’est juste un truc similaire mais un peu différent ?

[00:09:36.500] — Loïc B. : Ils ne sont pas exotiques dans la mesure où ils se ressemblent quand même globalement. Le deuxième format le plus utilisé chez nous, c’est le format Deezer. C’est un format qu’on a mis en place, qui ressemble un peu à DDEX mais en simplifié, justement pour les supply chains qui n’en avaient pas. Et il me semble qu’on a peut-être encore un peu de FUGA, qui est un autre distributeur avec son propre format.

[00:10:01.740] — Loïc D. : Qu’est-ce que vous avez dans les métadonnées ?

[00:10:04.050] — Lucie : Ce qu’on appelle une métadonnée, c’est tout ce qui contextualise le contenu, c’est-à-dire tout ce qui n’est pas le fichier audio mais qui l’entoure. Typiquement, le titre de la chanson, le titre de l’album, le nom de l’artiste, mais aussi l’image. Et en fait, il y a des métadonnées qu’on va recevoir de la part de ces distributeurs et des métadonnées qu’on va aller chercher de sources extérieures. Et c’est ça qui permet, après l’ingestion, de ranger le contenu là où il doit être et de le servir de la meilleure des manières à l’utilisateur, en passant par toutes les équipes de Deezer qui vont avoir besoin d’un catalogue.

[00:10:40.120] — Paul : En fait, il y a des choses qui sont très codifiées, comme les UPC des albums, i.e. les codes barres, et les codes ISRC pour les audios, mais pour tout ce qui est identifiants d’artistes par exemple — ça peut paraître étonnant — on n’a quasiment rien, on a juste le nom de l’artiste. C’est pour ça qu’on a besoin de regarder un peu les sources extérieures à Deezer pour faire le tri entre qui est qui dans ce que l’on reçoit.

[00:11:03.850] — Vincent : Oui, parce que j’imagine que, derrière, tu dois avoir des problématiques de qualité où, si tu as deux artistes qui ont le même nom, tout à coup, tu as des problèmes d’homonymie…

[00:11:10.300] — Lucie : Oh oui !

[00:11:12.400] — Loïc B. : Exactement. L’industrie musicale est très archaïque au niveau des artistes.

[00:11:17.570] — Paul : Il y a beaucoup d’identifiants qui existent, mais chaque organisme a un peu le sien. Il n’y a pas vraiment de base unifiée qui simplifierait la vie de tout le monde. Il y a des standards qui commencent à émerger et certains pourraient alors commencer à jouer le jeu et nous remplir des bons identifiants, mais souvent, on reçoit des identifiants propriétaires ou alors pas d’identifiant du tout, ce qui rend la tâche un peu compliquée.

[00:11:40.250] — Romain : Il faut savoir que, souvent, les organismes qui fournissent les identifiants sont des organismes payants et la certification ou la délivrance de ces identifiants est rendue payante. C’est notamment le cas pour les ISRC, i.e. les identifiants uniques des tracks, des œuvres. C’est pour ça que je pense que les maisons de disques et les labels ne se pressent pas forcément pour certifier et faire identifier leurs artistes.

[00:12:07.280] — Vincent : Et j’imagine qu’en termes de qualité, il n’y a pas que les noms d’artistes qui posent problème. Vous avez d’autres cas de choses…?

[00:12:14.750] — Lucie : Je pense que le cas des dates de sortie est un très bon exemple de ce que c’est que…

[00:12:19.160] — Loïc D. : Mais de quelle date de sortie tu parles ?

[00:12:22.400] — Lucie : This is the question! Paul, tu en parleras beaucoup mieux que moi, et surtout, c’est ton travail et ton expertise.

[00:12:30.250] — Paul : Il faut savoir que l’on peut recevoir la même collection, le même album, de plusieurs providers différents en fonction des pays, en fonction des droits. On peut avoir le même album mais avec des métadonnées un peu différentes. Concernant les dates de sortie des albums dans la norme DDEX, il n’est pas vraiment très clair ce qu’on doit mettre dans quelle date. Il y a plusieurs champs qui ont été définis et la norme évolue sur ce point-là aussi. Mais pour un même album, toutes les versions des albums n’ont pas les mêmes dates, certains ont des mauvaises dates — parfois c’est la date originale de sortie de l’album, parfois c’est la date du remaster qui vient de sortir. Donc il faut faire un peu le tri. Parfois, le plus simple, c’est de regarder ce qu’on peut avoir sur Wikipédia par exemple. Là, ce sont des données qui ont été relues par beaucoup plus de gens que par le label lui-même. Et on peut parfois faire confiance à Wikipédia plus qu’à ce qui nous est livré. Ça peut paraître étonnant !

[00:13:23.040] — Loïc D. : Mais du coup, comment récupérez-vous les informations de Wikipédia ? C’est un humain qui doit passer pour corriger ou c’est automatisé ?

[00:13:30.610] — Paul : C’est un mélange des deux, c’est-à-dire qu’on peut avoir des sources de données discographiques de partenaires ou de projets comme MusicBrainz ou Discogs, de données Creative Commons, donc on s’en sert pas mal. Et parfois, c’est à la main : on a une équipe de Metadata Curators qui, si on leur remonte un souci avec une date de sortie, vont aller la vérifier soit avec nos outils en compilant des données externes, soit à la main sur Wikipédia.

[00:14:00.710] — Romain : Il peut y avoir des problème de dates parce que les mœurs évoluent tout simplement. Avant, ce qui faisait foi, c’était la date de sortie physique. Pourquoi ? Parce qu’il y a quelques années, quand on voulait écouter de la musique, on allait l’acheter. Donc c’était vraiment la date de sortie physique qui faisait foi. Aujourd’hui, ce n’est plus toujours vrai, tout simplement parce que l’on écoute beaucoup en streaming et donc, parfois, des albums sortent avec une date de sortie numérique. Nous, par exemple, on prenait toujours la date de sortie physique avant, mais ce n’est plus forcément le cas. Du coup, ça amène à des incompréhensions parce qu’on va avoir une date de sortie physique qui se situe après la date de sortie numérique. Donc ça aussi, ce sont des choses qui évoluent. Et la norme DDEX évolue dans ce sens-là en proposant de nouveaux champs qu’ils vont appeler “date de sortie originale” qui, théoriquement, permettent de régler ce genre de problématique.

[00:14:46.810] — Loïc B. : Et une autre source erreur qu’on voit souvent aussi, ce sont les labels qui vont simplement faire des typos, qui vont se tromper de date. Il y a des labels qui rentrent les dates à la main dans les DDEX, donc une typo est vite arrivée, ou qui font simplement des erreurs de leur côté. À savoir que c’est assez récurrent d’avoir des problèmes au niveau des deliveries, auquel cas il faut soit qu’on demande une redelivery avec les corrections, soit qu’on le corrige nous-mêmes si on peut.

[00:15:11.840] — Vincent : Et est-ce qu’il n’y en a pas qui profitent aussi de ce genre de coquilles plus ou moins volontaires pour essayer de remonter un peu dans le catalogue, du genre “hop, on fait une sortie du nouvel album de — je ne sais pas — Frank Sinatra” — qui a un peu de mal à faire des nouveaux albums ces derniers temps ?

[00:15:27.350] — Lucie : En fait, dans ces cas-là, ce n’est pas vraiment une coquille. Ils vont sortir un album anniversaire, une réédition, un remaster, ce que tu veux. Et du coup, la date de sortie de cet album remaster est celle d’aujourd’hui. En revanche, c’est une version revisitée d’un album qui est sorti il y a probablement 20–30 ans. Et donc, la date la plus intéressante et la plus pertinente pour l’auditeur n’est pas celle d’aujourd’hui. Parce que ce serait un peu étonnant de te dire que la discographie de Bob Marley est dans les années 2020 ! C’est tout le travail qu’on a fait l’an dernier, justement, sur la récupération et l’intelligence qu’on a apporté. En fait, on a “enrichi” la métadonnée si tu veux, pour aller chercher cette fameuse date de sortie originelle ou originale qui, selon nous, apporte beaucoup plus de valeur à l’utilisateur.

[00:16:11.000] — Loïc B. : Effectivement, c’est une date qui est la première date de sortie toutes versions confondues. C’est-à-dire que s’il y a un remaster, une version deluxe ou autre, quelque soit la version, on va parler de la première date à laquelle cette œuvre a été released. Et même si elle n’est pas dans la delivery, théoriquement, si l’album contient les mêmes tracks, on va être capable de le détecter et donc de reporter l’”original release date” qu’on avait déjà calculé sur ce nouvel album. Ça évite un peu les triches d’avoir un album ancien qui remonte dans les nouveautés.

[00:16:40.030] — Lucie : Voilà, plein de belles choses qu’on fait avec les métadonnées. Et sur les métadonnées, j’ai un dernier exemple que j’adore parce que je trouve qu’il est rigolo. Donc dans les métadonnées, il y a plein d’informations très sérieuses qui nous permettent de catégoriser le catalogue, de bien le ranger, de bien l’organiser. Et il y a aussi des métadonnées qu’on pourrait qualifier d’un peu plus “fun”. Ma métadonnée préférée : les paroles des chansons, que j’appelle “Queen of Metadata”. Parce que typiquement, les paroles des chansons nous permettent de développer des expériences qui vont littéralement apporter une couche émotionnelle différente, ou supplémentaire en tout cas, à ce qu’on peut vivre quand on écoute de la musique sur une plateforme de streaming. C’est ce type de métadonnées qui nous permet de développer l’expérience où tu vois les paroles de la chanson s’afficher en temps réel — à la ligne, quoi. Et c’est également via les métadonnées que l’on reçoit qu’on est aussi capable d’afficher aujourd’hui les traductions des paroles. Voilà, ce ne sont évidemment pas des métadonnées que l’on reçoit directement des providers, sinon ce serait trop facile ! Mais quand on voit ce type d’expérience, on ne pense pas forcément à ce que ça veut dire derrière. Et en fait, c’est ça : c’est ni plus ni moins qu’une métadonnée qui a été transformée en expérience utilisateur. Donc “we love metadata”, c’est trop bien !

[00:17:56.290] — Loïc D. : On en a parlé rapidement, mais comment gère-t-on l’homonymie des artistes ?

[00:18:02.540] — Romain : Au tout début, on ne gérait pas les homonymies donc ça posait problème parce que si deux artistes avaient le même nom, leurs discographies étaient mélangées. Du coup, on a commencé à s’intéresser un peu au problème et ce qu’on a fait, c’est qu’on a attribué des couples entre les providers et les artistes. Parce que, souvent, il y avait peu d’homonymie entre un distributeur ou un label et un artiste — souvent, un artiste avec un nom donné, il n’y en avait qu’un par label. Donc on créait des couples entre les labels et les artist ID et on essayait de séparer les discographies comme ça. Cependant, ce n’était pas toujours vrai. Il y avait quand même quelques cas, notamment chez les majors — qui sont des regroupements de beaucoup de labels — où il pouvait y avoir des cas d’homonymie. Et maintenant, il y a aussi les petits distributeurs qui jouent sur la notoriété de certains artistes pour essayer de se glisser dans la discographie d’artistes connus, pour essayer de faire augmenter leurs parts de marché. Donc ce qu’on avait mis en place n’était pas suffisant, et Paul a commencé à travailler sur le sujet de manière plus professionnelle et beaucoup plus complète pour essayer de régler ces problèmes-là.

[00:19:04.940] — Paul : Au début, c’était un travail vraiment humain : quelqu’un remontait un problème d’homonymie, quelqu’un allait sur le back office, créait un artiste homonyme et déplaçait les albums. Mais vu la quantité d’albums qu’on reçoit et d’artistes homonymes, il a fallu utiliser les machines pour nous aider dans ce travail. J’en ai parlé un peu tout à l’heure, il existe des projets sur Internet qui essaient de compiler les créations de tous les artistes du monde. MusicBrainz et Discogs sont deux exemples de bases de données “crowdsourcées” qui sont de très bonne qualité. Des gens, sur leur temps libre, compilent les informations — quel artiste a sorti quoi, créent les artistes homonymes… C’est une source de données vraiment très riche. On s’en sert beaucoup pour détecter ces problèmes d’homonymie et, si on peut, automatiser la création de pages, le déplacement d’albums sur la bonne page… Mais ça ne suffit pas toujours parce qu’il y a certains artistes qui sont tellement “petits” que personne n’a rien écrit sur eux sur Internet. Ça nous arrive beaucoup avec les distributeurs utilisés par les artistes indépendants : il y a beaucoup de productions, les gens n’ont pas le temps de suivre et les seules informations que l’on a pour savoir qui est qui, ce sont les informations textuelles qu’on reçoit — c’est-à-dire les artistes, les artistes avec qui ils collaborent, les auteurs, les compositeurs et aussi les genres musicaux qui peuvent nous aider à différencier un artiste de métal d’un artiste classique ou de house. Ce sont des informations qu’on commence à exploiter de plus en plus parce qu’il y a une grosse partie du catalogue qui n’est pas couverte par les sources de données externes qu’on peut trouver.

[00:20:40.760] — Vincent : Est-ce que ce genre de bases de données te permet aussi de régler d’autres problèmes de qualité de données, au-delà de l’homonymie ?

[00:20:47.060] — Paul : Oui, exactement. En fait, on est parti de ce problème d’homonymie. Et après, vu qu’on avait fait le travail de matching entre nos albums Deezer et les albums qu’on peut trouver chez MusicBrainz, on s’est dit : “est-ce que les métadonnées qui sont incluses dans ces bases de données peuvent nous aider à enrichir les métadonnées que l’on expose aux utilisateurs ?” Les “original release dates” sont parties de ça. Et aussi le tagging de certains albums. En fait, on ne reçoit pas forcément l’information qu’un album est une compilation — ça peut paraître idiot mais on ne le sait pas forcément. Par contre, il y a des gens sur MusicBrainz qui ont rentré “cet album est une compilation”. Ils ont regardé sur Wikipédia, ils ont compilé ça et on a le tag “compilation”. Ça, c’est une information qu’on peut utiliser pour enrichir notre catalogue, même si le provider ne nous a pas envoyé l’information. On peut mettre l’album dans la bonne section en ajoutant la couche “métadonnées externes” à ce qu’on a reçu en interne.

[00:21:39.850] — Vincent : Et est-ce que ça pourrait permettre aussi de vérifier qu’une discographie d’un artiste est complète ?

[00:21:45.360] — Paul : Pour des artistes établis, on peut se dire que l’Internet a bien compilé les informations de Bob Marley sur MusicBrainz par exemple, ou sur Wikipédia. Par contre, pour des artistes plus récents, ce n’est pas évident de savoir si la discographie est complète. Parfois, il y a des albums qui sont sortis sous le manteau, qui ne sont pas officiels, que les gens s’attendent à avoir, mais nous, on ne les a pas reçus. Les gens vont dire que c’est incomplet, aucun label ne les a, on pourrait dire que la discographie n’est pas complète, mais c’est le maximum qu’on peut avoir, nous. C’est difficile de savoir qu’une discographie est complète, vraiment.

[00:22:18.600] — Loïc D. : Pour être contributeur MusicBrainz, je rajoute beaucoup de ces petits artistes qui sont absolument inconnus, et on est peut être 200 sur la Terre à avoir entendu parler d’eux. Moi, ça me fait plaisir de les ajouter, mais il n’y a pas des personnes comme moi partout, sur tous les artistes, qui vont penser à remplir MusicBrainz et Discogs. C’est rare de remplir les deux systématiquement — enfin, que les contributeurs contribuent aux deux. Du coup, c’est rare d’avoir la même complétude sur des tout petits artistes. Moi, je le vis régulièrement ce que tu dis, d’un point de vue purement personnel, sans même être un distributeur de musique.

[00:22:53.440] — Paul : Tu touches du doigt le problème : on ne peut corriger des métadonnées que sur des choses que les autres ont pu écouter ou renseigner. C’est-à-dire que si l’on reçoit un album en avance, ça va être difficile de le comparer avec ce qu’il y a dans MusicBrainz, parce que MusicBrainz ne l’aura pas. Donc il faut aussi utiliser d’autres algorithmes, d’autres sources de données, pour enrichir les métadonnées si l’album n’est pas sorti.

[00:23:13.960] — Lucie : Et c’est exactement ce que fait Paul en ce moment sur l’homonymie, d’essayer de retravailler à partir des données textuelles comme il le disait — donc des choses qu’on peut avoir avant que le contenu soit disponible à l’écoute. Et je le redis, parce que c’était un peu humble la manière dont tu l’as décrit, Paul, mais c’est une grande innovation qui, je l’espère, va voir le jour dans la belle maison Deezer.

[00:23:33.220] — Loïc B. : Ça nous fait effectivement plusieurs manières de régler le problème de manière automatisée. On a la première dont on parlait, c’est-à-dire des règles automatiques par couples de label et d’artiste, mais aussi l’utilisation des ID qui commencent à arriver dans les deliveries — donc les ID global qu’on appelle les ISNI, mais aussi nos ID à nous ou les ID internes des distributeurs, et maintenant l’exploitation des métadonnées de genres, etc., pour essayer de regrouper les artistes qui semblent être les mêmes.

[00:24:02.290] — Lucie : Tout à fait.

[00:24:02.800] — Paul : Je voulais juste ajouter qu’on utilise MusicBrainz et Discogs, mais on y contribue aussi. Quand on trouve des problèmes d’incohérence — Discogs ou MusicBrainz qui ont une erreur, on tente de les corriger aussi nous-mêmes. Pas de manière automatique parce que ce n’est pas évident de contribuer de manière automatique à MusicBrainz et Discogs, mais pour les erreurs flagrantes sur des artistes qui ont été corrigées par nos Metadata Curators ou par nos algorithmes, tant que faire se peut, je rapporte les corrections quand on les détecte.

[00:24:30.340] — Lucie : On n’est pas que des profiteurs ! Chez Deezer, on a également recours à d’autres partenaires, qui sont des partenaires avec lesquels on a des contrats donc qu’on paye. Notamment Music Story, qui est un partenaire qu’on utilise énormément pour toute une partie de matching de catalogue entre ce qu’on a, nous, et ce que d’autres providers de metadata comme celui qui nous envoie les lyrics, qui s’appelle LyricFind, ont. Donc il y a tout ça qu’on fait avec eux et on récupère aussi de leur part tout un nombre d’images d’artistes. Sur les images d’artistes, le sujet est la “clearance”, c’est-à-dire avoir le droit d’utiliser cette image, qu’elle ait été validée au préalable par le label ou le détenteur des droits. Et également tout ce qui est biographies d’artistes ou textes plus ou moins courts ou longs qui peuvent entourer une sortie, l’artiste, etc. Donc les sources de données qu’on utilise sont variées, très différentes, gratuites ou payantes, et ensuite, c’est à nous de faire la bonne combinaison, de choisir ce qui est le plus important à prendre partout et composer le meilleur catalogue possible. Et un dernier mot sur ça, plus sur la composition du catalogue. C’est très important parce que c’est le cœur. Quand quelqu’un appuie sur “play”, il s’attend à écouter quelque chose qu’il a plus ou moins compris, qu’il a pu mettre dans un contexte. Et ça, c’est, au fond, un peu la mission qu’on a de faire en sorte d’avoir un catalogue qui est propre, qui est utilisable et qui est intelligible. Donc toutes ces notions d’homonymie — aussi complexes soient-elles — font vraiment partie de ce qu’on appelle les “travaux fondamentaux”. Il y a un véritable enjeu business qui est de se dire qu’étant donné que c’est le cœur du métier, la base de la base, il faut que ce soit correct pour que les gens nous fassent confiance, restent et valorisent l’expérience Deezer plus que celle des autres.

[00:26:06.610] — Paul : Tout ce qu’on fait dans le catalogue a un impact sur la recommandation, sur la recherche que vous faites sur le site ou sur les apps. Il y a beaucoup d’impacts en fait. Si la donnée est mauvaise au départ, les autres équipes derrière auront beaucoup de travail de nettoyage, donc il faut que ça soit propre le plus tôt possible dans la chaîne de traitement.

[00:26:22.210] — Lucie : Tout à fait.

[00:26:23.380] — Vincent : D’ailleurs, dans l’épisode qu’on a fait sur le Flow, Aurélien nous a beaucoup parlé déjà des problématiques de cohérence du catalogue et de tout ce que ça peut effectivement générer comme problématique au niveau de la recommandation, et de tous les projets que ça a pu faire découler chez Deezer, comme le fingerprinting et les choses dans le genre-là.

[00:26:39.460] — Loïc B. : Effectivement. D’ailleurs, tu fais bien de parler de fingerprinting, on ne l’a pas encore abordé jusque-là ! C’est aussi un gros sujet chez Deezer. Je pense que tout le monde connaît un peu le système de content ID chez YouTube, qui permet de se dire “tiens, cet audio, on le connaît, du coup il va falloir reverser de l’argent aux autres”. Et en fait, on a un peu développé le même système en interne, qui va permettre d’identifier l’empreinte audio d’un son et de retrouver tous les autres sons suffisamment similaires chez Deezer. On va dire “tous ces sons, c’est exactement la même chose” et on va pouvoir les catégoriser ensemble. Ça nous permet de faire beaucoup de choses, notamment de propager des lyrics sur toutes les tracks similaires, de regrouper les albums — par exemple, on pourrait imaginer un système d’albums canoniques, c’est quelque chose auquel on réfléchit — et d’autres choses.

[00:27:23.200] — Loïc D. : Ça me fait penser à un autre sujet dans lequel — je crois — le fingerprinting joue un rôle : pourquoi des tracks sont-elles grisées parfois ?

[00:27:32.600] — Loïc B. : Alors, c’est assez simple : les tracks sont grisées quand il n’y a pas les droits de streaming dessus dans un pays donné. Il faut savoir que, quand on reçoit une musique, ce n’est pas juste “il y a une release date et c’est dispo”. Il y a des droits qui sont possédés par un label pour un ensemble de pays, et le label va nous donner cet album et dire “c’est dispo dans cette liste de pays à partir de cette date”. Mais potentiellement, on peut avoir un autre label qui a acheté les droits pour d’autres pays. Et quand il y a des rachats de l’album entre labels, le premier est obligé d’envoyer ce qu’on appelle un “takedown”, c’est-à-dire le retrait des droits de streaming sur la plateforme, et on doit attendre de recevoir ensuite la nouvelle delivery du nouveau label. Donc on peut se retrouver avec des sons grisés temporairement ou même pour toujours si jamais ils ne sont pas relivrés. Ce qui peut arriver, si on a un album dans nos favoris qui se retrouve takedown — donc retiré, quand le nouveau arrivera, on n’aura pas tout de suite une redirection. On est capable de faire des redirections dans la recherche, etc., sur la nouvelle version de l’album mais il est possible qu’on garde du contenu grisé à certains endroits.

[00:28:33.710] — Loïc D. : Du coup, le fingerprinting permet de faire le lien entre ce qu’on avait mis dans nos favoris, qui appartenait probablement à un label qui n’a donc plus les droits, vers le nouveau label qui nous a relivré la même track ?

[00:28:43.760] — Loïc B. : Exactement. C’est déjà le cas sur les pages album. Par exemple, si tu as une track qui n’est pas dispo dans un pays mais qu’on a la même version sur un autre album, on va pouvoir faire la redirection automatiquement. Mais ce n’est pas fait partout sur l’app pour l’instant.

[00:28:58.400] — Lucie : Oui, je crois que c’est dispo partout sauf dans les…

[00:29:01.070] — Loïc B. : Sauf dans les favoris normalement.

[00:29:03.140] — Lucie : Oui, c’est ça. Donc dans les playlists créées par l’utilisateur. Mais en discussion avec l’équipe en charge de ces pages ! Et donc, la logique dont parlait Loïc, c’est ce qu’on appelle dans le jargon une logique de “fallback”. En fait, on va “fall backer” — donc se replier — sur un contenu qui a été relivré et qu’on identifie comme étant suffisamment semblable au précédent.

[00:29:30.990] — Vincent : J’aurais voulu un peu élargir. Tu nous disais tout à l’heure que, dans le passé, tu avais travaillé sur d’autres catalogues de contenus. Est-ce qu’il y a des similitudes, par exemple, entre du catalogue vidéo et du catalogue audio ?

[00:29:43.450] — Lucie : Oui, il y a en effet énormément de similitudes. Les premières similitudes — et c’est encore plus vrai dans le milieu de la musique que dans le milieu de l’audiovisuel, c’est que le contenu, c’est du droit. C’est avant tout du droit. Il faut gérer les droits et c’est souvent la complexité. Ensuite, l’autre énorme point commun, c’est la gestion de la métadonnée et de ce que ça permet de faire. Un contenu seul sans sa métadonnée n’est quasiment pas exploitable en réalité. Maintenant, ce qui, je pense, est très différent quand tu passes du monde de l’audiovisuel — donc plutôt de la vidéo — au monde de la musique en termes de gestion de catalogue, ce n’est pas tant sur “comment est-ce qu’on va le construire”, “comment est-ce qu’on va le codifier”, etc., mais sur l’acquisition de celui-ci. Le principe de toutes les boîtes de contenus vidéo, que ce soit Canal, Netflix, France Télévisions ou autre, c’est d’acquérir un catalogue qui va être plus ou moins exclusif. En fait, tu négocies des fenêtres de droits. Donc pendant deux ans, pendant quatre mois, pendant peu importe, tu vas être le seul à disposer de ce contenu sur ta plateforme. Et en gros, la logique business derrière est différente puisque tu proposes un catalogue plus ou moins unique, plus ou moins profond, etc. Là où dans la musique on propose — OK, 93 millions de tracks, on a le plus gros catalogue du monde ! Mais grosso modo, il est tout à fait similaire à celui de Spotify ou à celui d’Apple Music. Donc il faut ruser, trouver d’autres moyens de se différencier. Tu peux produire du contenu original — ce qui est plus ou moins facile dans la musique — ou tu peux proposer l’expérience la plus funky, la plus puissante, la plus profonde, etc., avec l’ensemble des fonctionnalités qui vont être autour. Et ça, c’est la grosse différence sur la manière de se différencier — en tout cas de mon point de vue de Product Manager.

[00:31:17.790] — Paul : Il y a aussi la taille du catalogue, non ?

[00:31:20.130] — Lucie : Oui. Et forcément, la taille du catalogue est bien plus réduite dans l’audiovisuel puisque tu l’acquiers pour une certaine durée donnée. Je n’ai jamais connu de catalogue avec 93 millions de films, ça n’existe pas !

[00:31:32.850] — Loïc B. : Et encore, quand on parle de 93 millions, on parle de 93 millions de produits, c’est-à-dire de tracks uniques. Dans les faits, sans compter tout ce qui a été retiré, on est à plus de 173 millions de tracks.

[00:31:44.040] — Loïc D. : Donc 173 millions de tracks stockées aujourd’hui ?

[00:31:46.620] — Loïc B. : Stockées, plus ! Parce qu’on a toujours le contenu qui est takedown mais pour lequel les droits ont disparu. Là, on dépasse les 200 millions. Pour faire simple, on est à environ cent milles nouvelles tracks par jour.

[00:31:58.050] — Loïc D. : Et le jeudi ?

[00:31:59.650] — Loïc B. : Un peu plus le jeudi !

[00:32:02.170] — Vincent : J’allais dire, le vendredi, quand tout à coup à minuit, il y a l’album attendu. Comment gérez-vous ça ? Comment faites-vous pour que ce soit disponible en temps et en heure ?

[00:32:12.190] — Loïc B. : Pour ça, on a développé des scripts qui tournent tout le temps, qui vont lire sur les FTP dont on a parlé — où les distributeurs laissent les deliveries avec la musique, et qui vont simplement les importer, lire les métadonnées, tout enregistrer dans nos bases de données. En fait, certains de ces contenus — en général la majorité — sont livrés en avance. On peut, du coup, les importer en avance pour être sûr qu’il n’y ait pas de délai. Seulement, on les met à disposition au dernier moment. Et de toute façon, même quand ils sont pré-publiés au dernier moment, ils ne seront pas disponibles tant qu’on n’aura pas atteint la date de streaming. En gros, il ne faut pas se fier à la release date, qui est juste un affichage. Ce qui compte vraiment pour l’utilisateur — et savoir s’il peut accéder au contenu — ce sont les streaming rights, c’est-à-dire une date à la minute près qui te dit : “voilà, dans tel pays, à cette minute exacte, tu as le droit de streamer”. Donc, à moins que le contenu soit livré en retard, normalement il arrive à l’heure.

[00:33:02.330] — Lucie : C’est ce que j’allais dire. Ça arrive que le contenu soit livré tard.

[00:33:05.150] — Loïc B. : Effectivement, on a déjà reçu des livraisons 3–4 heures après la sortie.

[00:33:10.670] — Loïc D. : Et ça râle sur les réseaux sociaux du coup.

[00:33:12.680] — Loïc B. : Énormément.

[00:33:13.610] — Lucie : Bien sûr. Mais c’est logique quand tu te places du point de vue de l’utilisateur.

[00:33:18.650] — Loïc D. : C’est Deezer qu’ils ont en face.

[00:33:19.480] — Lucie : C’est forcément Deezer.

[00:33:20.470] — Vincent : Oui, voilà.

[00:33:21.230] — Loïc B. : De manière générale, l’utilisateur n’a pas forcément connaissance de comment marche l’industrie. Je pense que, dans l’esprit de beaucoup de personnes, c’est le distributeur comme Deezer qui va chercher les musiques. Du genre, “pourquoi vous n’avez pas mis ça sur Deezer ?” En fait, nous, on n’est pas au courant de quelle musique doit arriver. La musique arrive, on la découvre en même temps que les utilisateurs.

[00:33:38.450] — Lucie : C’est ça. Après, sur le fonctionnement de l’industrie, en gros, ce qui se passe, c’est que nous, on est basé en France, en Europe. Les grosses sorties américaines — qui vont être des albums aussi super streamés en France, en général, ce sont des albums qu’on va recevoir lorsqu’ils sont livrés un peu last minute — grosso modo entre 4 heures et 8 heures du matin. C’est aussi pour ça qu’il peut y avoir des surprises le vendredi, parce qu’on n’est pas encore en train de travailler à 4 heures du matin le vendredi ! Donc il y a aussi tout un processus de suivi de certaines sorties très attendues, via notamment l’équipe des Metadata Curators. Certains d’entre eux se trouvent à plusieurs endroits dans le monde, du coup on joue un peu avec les différents fuseaux horaires et on arrive à savoir le jeudi soir avant de partir du boulot si on va passer un bon vendredi ou pas.

[00:34:19.590] — Loïc D. : Et pourquoi le vendredi ?

[00:34:21.950] — Lucie : Le vendredi, c’est le jour traditionnel des sorties de nouveaux albums. Dans le cinéma, c’est le mercredi ; dans la musique, c’est le vendredi. C’est tout à fait en lien avec ce que l’on observe dans l’usage, en gros. On voit bien que les gens écoutent de la musique et donc utilisent nos produits principalement durant le week-end. Le jeudi est évidemment le dernier jour de la semaine pendant lequel on peut recevoir l’une de ces sorties qui va être très attendue dès le lendemain matin.

[00:34:51.280] — Vincent : Comment gère-t-on les cas où l’on doit supprimer du contenu en urgence ? Je pense à un artiste pour qui il faut qu’on enlève des tracks parce qu’il a des problèmes judiciaires ou de droits X ou Y. Comment est-ce géré ?

[00:35:08.830] — Loïc B. : En fait, ça dépend un peu de la gravité du manque d’éthique de l’artiste. Par exemple, si on est sur une track avec des propos vraiment haineux qu’on ne peut pas accepter, on va simplement avoir un takedown de la track. Elle ne pourra plus jamais être livrée, elle sera blacklistée. Sinon, on a des formes de “censure” — on va appeler ça comme ça — qui sont plus soft. Si par exemple, un artiste est décrété peu éthique dans ce qu’il a fait — on avait eu le cas, il me semble, avec R. Kelly, on va pouvoir le retirer des recommandations pour éviter qu’il ne soit trop mis en avant, faire en sorte qu’on parle moins de lui et ne pas se prendre un backlash de la part des utilisateurs.

[00:35:43.900] — Vincent : Et comment sont décidées ces notions d’éthique ?

[00:35:46.780] — Loïc B. : Eh bien, on a un Ethics Commitee pour ça, c’est-à-dire un groupe de personnes dont c’est le travail d’aller récupérer ces informations et de décider si le contenu est acceptable ou non. Ils sont plusieurs, ils votent pour essayer d’être le plus fair possible. On travaille aussi sur des solutions pour automatiser ça parce qu’il y a quand même beaucoup de contenus et on ne peut pas attendre qu’il y ait quelqu’un qui nous remonte que telle ou telle musique est un peu compromettante. Du coup, on va essayer d’automatiser, de détecter le contenu haineux, le contenu à caractère terroriste, etc., que ce soit textuel ou dans les covers des albums par exemple. Ce sont des solutions qui ne sont pas encore en place mais sur lesquelles on travaille avec des partenaires.

[00:36:28.660] — Lucie : Là, ça pose une question super intéressante, qui est la question de la valeur, de l’éthique et de la morale que tu vas mettre derrière. Est-ce que c’est une très bonne chose, une bonne chose, moyenne, etc. ? Est-ce que c’est à Deezer — mais là, j’enfonce un peu les portes ouvertes — de décider de ce qui est éthique ou non ?

[00:36:43.030] — Vincent : Et en fonction des pays, est-ce qu’on ne va pas avoir des règles différentes, en fonction des cultures ?

[00:36:47.260] — Lucie : Oui. Là, ça rejoint encore autre chose, qui est la gestion de ce qu’on appelle l’”explicit”. Effectivement, tu as, en fonction des pays et donc des cultures connues, des règles d’affichage par défaut qui ne sont pas nécessairement les mêmes. Mais pour la question du contenu haineux, il me semble que quand on prend la décision de dire qu’un contenu est jugé non-éthique ou portant atteinte à la morale et aux bonnes mœurs, on le supprime partout.

[00:37:10.700] — Loïc B. : Sinon, on parle beaucoup de musique, mais un catalogue, ça ne fait pas que de la musique !

[00:37:14.660] — Vincent : Oui, c’est ce que j’allais dire parce que je crois que les problématiques de tout ce qui est haineux, etc.,. on les voit aussi dans les podcasts. Parce que, finalement, Deezer fait aussi du podcast, de l’audiobook…

[00:37:22.880] — Loïc D. : D’ailleurs, retrouvez notre podcast sur Deezer !

[00:37:25.310] — Loïc B. : Tout à fait, oui. Pour les podcasts, ça marche un peu différemment. En gros, on a une détection pour détecter la musique dans les podcasts, parce que c’est ça le principal problème qu’on a au niveau des podcasts, en fait : des gens vont aller pirater des musiques et les mettre dans le podcast pour pouvoir faire des écoutes sans royalties. On a des algorithmes qui essaient de détecter ça et les désactivent automatiquement. Après, pour tout ce qui est contenu haineux, malheureusement, on va dépendre des retours des utilisateurs qui nous l’ont remonté. Sinon, on doit simplement faire confiance à nos distributeurs de podcasts. Parce qu’il faut savoir que ce sont des distributeurs qui nous envoient les podcasts et, malheureusement, toutes les plateformes ne sont pas égales en termes de…

[00:38:03.560] — Lucie : Qualité de service.

[00:38:04.460] — Loïc B. : De qualité de service, exactement. Ils n’ont pas tous les moyens de mettre en place des détections de spams ou de contenus haineux, justement. Donc c’est un peu aléatoire à ce niveau-là.

[00:38:13.640] — Lucie : Et juste, “royalties” — au cas où ça ne soit pas connu de tous nos auditeurs, c’est la rétribution financière qu’on paye aux labels en échange de la mise à disposition du contenu.

[00:38:23.120] — Vincent : On a eu tout un épisode dessus — le précédent, il me semble.

[00:38:26.027] — Lucie : Donc l’audimat est au courant !

[00:38:26.450] — Loïc D. : Normalement, vous devez tout savoir sur les royalties, chers auditeurs.

[00:38:27.470] — Loïc B. : Parfait ! Et sinon, à part les podcasts, on a aussi plein d’autres contenus. On en a un peu parlé tout à l’heure. On a l’import de lyrics qui, en effet, ne vient pas des distributeurs. Ce qui est très marrant avec les lyrics justement, c’est qu’on reverse les royalties aux distributeurs (rectification : ces royalties sont en fait reversées aux publishers), mais on doit se débrouiller pour les obtenir nous-mêmes. Donc on a des compagnies tierces, comme LyricFind par exemple, qui vont clearer les droits sur ces lyrics et nous les envoyer. Ensuite, on a notre partenaire Music Story qui va matcher le catalogue de lyrics avec notre catalogue de musiques afin qu’on puisse les relier ensemble et avoir une expérience lyrics pour l’utilisateur. Et à côté de ça, on a d’autres contenus : des live streams, des live radios — donc vous pouvez écouter RTL sur Deezer aussi.

[00:39:11.880] — Vincent : Avec du fingerprinting pour les stations musicales.

[00:39:14.690] — Loïc B. : Exactement, on a un deuxième type de fingerprinting qui va écouter ces live radios et retrouver la track à laquelle ça correspond dans notre catalogue.

[00:39:21.750] — Loïc D. : Ce qui nous permet de liker directement dans Deezer.

[00:39:24.390] — Lucie : Tout à fait. Ce qui est la même technologie que ce qu’il y a derrière SongCatcher.

[00:39:28.890] — Loïc D. : Et en termes de contenus, on a aussi des audiobooks ?

[00:39:31.920] — Loïc B. : On a aussi des audiobooks. Les audiobooks, c’est un peu plus particulier dans le sens où on n’a pas de chaîne de distribution d’audiobooks. En fait, ils sont livrés comme des albums. Et il y a des métadonnées supplémentaires qui nous permettent de les identifier en tant qu’audiobooks et donc de les filtrer pour ne pas les mettre dans la recommandation musicale, etc. Mais il y a beaucoup de travail à faire sur les audiobooks au niveau de l’industrie. Il existe des formats dédiés qu’on n’exploite pas encore et que peu de distributeurs exploitent pour l’instant. Peut-être un jour !

[00:40:02.260] — Loïc D. : Cool. Du coup, tout à l’heure, tu disais que beaucoup de gens ne comprennent pas comment fonctionne l’industrie musicale et qu’on reproche souvent aux DSP comme nous beaucoup de choses. Quels seraient vos takeaways pour un auditeur ?

[00:40:14.480] — Loïc B. : Je dirais que ce qu’il faut savoir surtout, c’est que la plupart des données que vous voyez à l’écran viennent directement des distributeurs. Ce n’est pas Deezer qui produit les données. Donc s’il y a une erreur, en général ça vient du distributeur, et nous, on fera notre maximum pour essayer de la corriger. Je ne sais pas, Lucie, si tu as d’autres…

[00:40:30.980] — Lucie : Je dirais que — et ce qui est un peu difficile à comprendre, particulièrement quand on a connu que le streaming ou principalement le streaming, c’est qu’en fait, l’industrie de la musique n’a évidemment pas attendu qu’il y ait des plateformes comme Deezer pour se développer. Et donc on est passé de quelque chose qui était extrêmement physique à quelque chose qui est maintenant très numérique, mais qui reprend en fait les codes des industries physiques. On parle vraiment de “supply chain”. Et le mot “supply chain”, il est aujourd’hui quasiment réservé à la grande distribution. Au fond, on a transposé dans un monde dématérialisé quelque chose qui, avant, s’apparentait à presser le son sur un support et l’apporter aux radios pour qu’elles puissent le diffuser. C’est une autre manière de faire, mais il y a encore énormément d’humain derrière. C’est aussi ce qui fait, je pense, un peu la beauté de l’industrie : c’est que c’est de l’art et l’art, c’est, jusqu’à présent, encore fait par des humains. Du coup, il y a plein d’erreurs possibles.

[00:41:22.120] — Paul : Moi, j’aurais un takeaway. Beaucoup de gens sur les réseaux disent “pourquoi Deezer a supprimé tel album ?” En fait, on est tributaire des droits qui nous sont concédés. Si un label n’a plus les droits, il nous envoie un takedown et on est obligé d’enlever l’album immédiatement. D’un point de vue légal, on n’a plus la licence. Ce n’est pas nous qui supprimons un album — sauf dans les cas où l’Ethics Committee a décidé que tel artiste ou tel album devait quitter le catalogue. Pourquoi pas, mais c’est assez rare. Quand les gens ne voient plus un album, ce sont les ayants droits qui nous ont retiré la licence. 99% du temps, c’est ça.

[00:41:56.650] — Loïc B. : On peut avoir des cas qui expliquent ça. Par exemple, un conflit entre deux labels, ça existe. Il peut parfois y avoir un conflit qui met des années à être résolu entre deux labels qui se bataillent pour les droits d’un album, et on se retrouve avec cet album hors catalogue pendant toute cette période.

[00:42:12.570] — Loïc D. : Et peut-être Romain, dernier takeaway ?

[00:42:12.990] — Romain : Moi, ce serait concernant les grosses maisons de disques qui peuvent parfois être un peu frileuses sur les dernières sorties de leurs plus gros artistes et qui vont livrer au dernier moment, voire en retard. Juste de voir que finalement ça se passe bien sur Deezer, nous faire confiance et livrer en temps et en heure. Ça réglerait, je pense, les problèmes de sorties qui arrivent en retard.

[00:42:36.810] — Lucie : C’est très vrai. On n’a pas du tout abordé la problématique du “leak”, de la peur de la fuite avant la sortie. Peut-être pour un prochain épisode ! Mais Romain a totalement raison. Mais on adore quand même les labels, ce sont quand même nos copains !

[00:42:48.420] — Loïc D. : Si vous travaillez dans un label, on vous aime, déjà, premièrement. Et vous savez quoi remonter ! On va passer à la deuxième partie — enfin, la dernière partie de ce podcast. Donnez-nous vos coups de cœur musicaux du moment.

[00:43:10.680] — Paul : Je vais commencer. J’en ai plusieurs, je ne peux pas choisir un coup de cœur. Il y a un album que j’écoute souvent depuis longtemps, c’est le premier album de Maxïmo Park, “A Certain Trigger”. Très bon album de post-punk, si on peut dire. Deuxième album, ce serait celui de Late Of The Pier. Le seul et unique album de Late Of The Pier, un groupe de jeunes qui n’avaient même pas 18 ans — je crois — quand ils l’ont fait. Ils ont fait un album extraordinaire, ils n’ont plus rien fait après — enfin, certains ont eu une carrière solo après. Et découverte beaucoup plus récente : Lewis McLaughlin, un Écossais d’Édimbourg.

[00:43:48.020] — Vincent : Super. Loïc ?

[00:43:48.650] — Loïc B. : Oui, effectivement, c’est dur de n’en sortir qu’un. Du coup, je vais en sortir deux. On parlait juste avant d’albums qui se retrouvent takedown pendant plusieurs années. Mon album préféré est dans ce cas-là ! C’est “Zero Life Night Vision” de Kap Bambino, un groupe d’Electro Trash très sympa. Vous ne le trouverez malheureusement pas sur Deezer mais il est sur YouTube — c’est gratuit, on parle de YouTube tout court ! Et sinon, en coup de cœur musique du moment, ce sera un petit morceau de lo-fi qui s’appelle “Willpower” par L’outlander.

[00:44:19.890] — Loïc D. : Romain ?

[00:44:21.170] — Romain : Alors moi, ça ne va pas être un album en particulier, mais plutôt un genre ou un groupe de genres. En ce moment, c’est Pagan Folk ou Nordic Folk. Imaginez la musique qu’on va retrouver sur les séries de vikings, un peu ce style-là. C’est vraiment toute cette ambiance musicale avec des cornes de brume, ce genre de choses, voire parfois des sons de combat en fond, ou parfois du bol de cristal. C’est très plaisant pour travailler.

[00:44:49.640] — Loïc B. : Il faut savoir que Romain est un viking dans l’âme !

[00:44:53.870] — Romain : Certainement !

[00:44:56.120] — Loïc D.

Et du coup, Lucie, maintenant que tu as eu à peu près une heure et demie pour y penser ?

[00:44:58.820] — Lucie : Oui, je vais rendre ma copie ! Alors, par souci de transparence, je suis obligée de dévoiler mon guilty pleasure du moment, qui est la chanson “Une autre histoire” de Gérard Blanc, que j’écoute après avoir vu le film “L’innocent”, qui est sorti en salle. Je l’écoute — je pense — cinq fois le matin avant de changer de chanson. Voilà, comme ça, vous savez tout ! Et sinon, récemment, j’ai beaucoup écouté un artiste qui s’appelle Tamino, qui a sorti un deuxième album il y a deux ou trois semaines, que j’aime beaucoup et que je vous conseille — surtout à toutes celles et ceux qui sont ou ont été fans de Jeff Buckley. Pour moi, c’est un peu le Jeff Buckley vivant et à qui je souhaite une vie légèrement plus longue que celle de son prédécesseur ! Il sera en concert fin novembre à la Cigale, je crois, ou au Trianon — je ne sais plus. Voilà !

[00:45:45.480] — Loïc D. : Bon, comme vous écoutez ce podcast en 2028, bon courage pour les dates ! Merci beaucoup à vous tous.

[00:45:52.610] — Vincent : Merci à tous !

[00:45:53.570] — Lucie : Merci à vous.

[00:45:53.780] — Loïc B. : Merci.

[00:45:59.060] — Loïc D. : On peut faire le clap de fin, et maintenant… Ça ne sert à rien, il n’y a pas de vidéo.

[00:46:04.160] — Lucie : J’adore les claps de fin !

Références

À propos du podcast

Deez is la tech propose d’aborder des sujets relatifs aux mondes du streaming musical et de la “tech” au sens large (incluant développement, produit, design, qualité, data, recherche, etc.), et d’explorer les coulisses de certaines des fonctionnalités phares de Deezer. Le tout à l’occasion de discussions entre collègues et pairs, en toute décontraction, mêlant partage d’expériences, bonnes pratiques et réflexions sur les évolutions possibles du secteur.

Un nouvel épisode est publié chaque premier mercredi du mois sur de nombreuses plateformes d’écoute et un transcript est mis à disposition en parallèle sur notre blog deezer.io.