Je veux des données, beaucoup!

Xavdel · Juillet 10, 2018, 12:31

En résumé j’aimerais bien faire des applications d’algos sur les données si l’envie m’en prend. Pour faire par exemple un onglet tendance comme on a vu l’efficacité sur YouTube. Et pour celà il faut des données sur les vues… et même anonymes ça serait intéressant.
Ma question : comment serai géré les données pour faire du traitement ?

rigelk · Juillet 10, 2018, 1:19

Salut @Xavdel!

Ce serait pas mal de pouvoir laisser à l’utilisateur le choix entre plusieurs algorithmes pour gérer sa page d’accueil tant que j’y pense

Pour autant, on ne parle pas de Big Data. Il ne s’agit pas de récolter un maximum d’information pour savoir quoi en faire uniquement après, à la manière des GAFAMs (un raccourci, mais ça reste pertinent selon moi, voir §4).

Ta question porte sur la gestion des données. Selon moi le contrôle des données devrait au maximum être donné à l’utilisateur, et éloigné du serveur. Ça n’empêche pas de masquer la complexité du traitement, mais c’est une autre histoire car il s’agit bien de gestion dont on parle.

J’imagine que parler de gestion de données est trop abstrait pour réaliser ton projet. Tu te demandes sûrement comment accéder à ces données, où les récolter. Pour pouvoir répondre à cette question il faudrait déterminer sur quelles données tu souhaite faire opérer tes algorithmes.

Ah et sinon les données anonymisées c’est un premier pas, mais c’est aussi possible de dés-anonymiser des données

Xavdel · Juillet 10, 2018, 7:54

Le machine learning c’est souvent de la bidouille c’est à dire que pour faire un meilleur score on prend toute les données possible qu’on tord dans tous les sens pour avoir des scores correctes.
Si il est vrai que dés-anonymiser est possible pour faire de l’apprentissage automatique il faut énormément de données pour converger à des résultats.
Ça veut pas dire que pour faire un onglet tendance c’est la seul solution car il est toujours possible de faire des algorithmes intelligent mais l’apprentissage automatique à pour lui sa simplicité en échange d’un manque de maîtrise.
La situation c’est que plus on en demande à l’utilisateur plus une partie se perd/abandonnent.
Peut-être permettre à l’utilisateur de partager des données anonymement par une option sur le serveur(option à cocher). Mais comme je participe pas au projet je sais pas les protections des données mises en place.
C’était une idée comme ça, pour la théorie.

Xavdel · Juillet 10, 2018, 7:56

Après bien sûr permettre à plus d’algorithmes d’êtres utilisé c’est intéressant mais si ça marche ok 95% vont pas chercher plus loin.

Bumba · Juillet 25, 2018, 9:46

Salut @Xavdel,
je rejoins @rigelk sur le point du choix. La liberté est dans le choix. Pour autant faut-il que ce panel de choix ne s’arrête pas à choisir entre se faire manger à telle ou telle sauce.

Certaines instances pourraient reposer sur des algos avec du
/rant on
grosdatatrèsanalytica neurotargeté, avec bulle de filtres intégrée favorisant biais de confirmations et orientations consensuelle dans le but de maximiser le temps disponible à avaler du contenu de façon passive, tout en étant garni d’une section de commentaire consensuelle, cela va de soit lorsqu’on trouve la démocratie trop chaotique et qu’il nous faut de la data pour nous guider.
/rant off
D’autres auront juste de l’hébergement neutre sans proposition et n’affichant que des résultats avec les tags cherchés.
D’autres auront uniquement un contenu officiel privé proposée par une instance.
Et ainsi de suite.
De mon point de vue, le maximum de contrôle mis côté utilisateur et le minimum d’intelligence côté serveur maximise la protection des droits individuels.
Dans le débat “facilité d’utilisation VS protection des droits”, l’utilisateur gardera le choix entre être produit et donc avoir un usage facilité, ou bien aller vers un gradient plus neutre, moins dirigé, plus épanouissant peut-être.

Xavdel · Juillet 25, 2018, 10:52

Oui mais dans ce cas là il faudra faire des algorithmes bien réfléchi basé sur notre savoir si on a peu de données. (Et ça prend du temps et est difficile) Et si il faut de la variété, pour moi le plus simple c’est qu’il y ait une option sur le partage de données, par défaut désactivé, et que les instances y ait accès. Et alors que chaque instances puissent faire leurs algorithmes et laisser des instances algorithmes only à des gens seulement intéressé à faire des algorithmes…

Bumba · Juillet 26, 2018, 12:17

dans ce cas là il faudra faire des algorithmes bien réfléchi basé sur notre savoir si on a peu de données

Donc tu pars du principe qu’il faut des suggestions de vidéo. Mon point de vue est qu’une instance peut choisir de ne pas proposer autre que ce que l’utilisateur a demandé.

Et si il faut de la variété, pour moi le plus simple c’est qu’il y ait une option sur le partage de données

De mon point de vue le plus simple est l’utilisation des tags pour proposer de la variété, avec des graphes qui vont lier les tags inter-connectés les plus proches et proposer du contenu en conséquence.

par défaut désactivé

Celà va de soit

Et alors que chaque instances puissent faire leurs algorithmes et laisser des instances algorithmes only à des gens seulement intéressé à faire des algorithmes et laisser des instances algorithmes only à des gens seulement intéressé à faire des algorithmes

Oui on est d’accord déjà au dessus dans le fil de discussion.

Xavdel · Juillet 26, 2018, 12:31

Je pense que ta solution marcherait dans un monde où chacun aurait les circonstances permettant de bien mettre les tags et d’être honnête. Mais pour le début oui ça marcherait bien.

Bumba · Juillet 26, 2018, 12:51

De la modération par la communauté peut aider à éviter ce genre de dérives. Regarde Wikipédia.

Xavdel · Juillet 26, 2018, 1:07

Oui bien sûr mais c’est plus de complexité pour la modération et aussi il faudra indiquer que se tromper dans les tags est passible de modération. Or avec le monde qui devrait arrivé beaucoup débuteront en touristes et faire que les tags sont surveillés peut-être dissuadent mais la c’est en dehors de mes compétences/intérêts.

Bumba · Juillet 27, 2018, 10:20

et aussi il faudra indiquer que se tromper dans les tags est passible de modération

C’est comme si tu avais sur chaque page de wikipedia « Attention, vous n’êtes pas seul à pouvoir éditer » ^^

Je comprends les craintes mais Wikipédia a validé le modèle de modération communautaire. Pas de roi dans sa montagne avec ses larbins qui viennent râcler les fonds.
Regarde les tags Steam, idem.
Et par défaut la population Peertube restera une niche intelligente. Pas une meute qui regarde des youtubeurs demander 10000 likes, de mettre la cloche et de supplier de s’abonner. Si ça devient le cas, le monde sera redevenu une idiocracie malgré nos efforts pour l’en sortir vers le haut