------------------------------------------
Copyright, gato y ratón.
27 jul 2024
------------------------------------------
Leo en Slahdot[1] que algunos escritores y empresas se están
planteando el uso de las llamadas "trampas de copyright".
No es nueva la pretensión de los autores, plasmada en
el Copyright de defender el derecho exclusivo de uso y
distribución de sus obras. Lo que sí es nuevo es el uso de
los modelos de lenguaje de gran tamaño (LLM por sus siglas
en inglés) que aprenden a partir de grandes cantidades de
texto. Estos textos como libros, artículos, opiniones en
redes sociales...a menudo están protegidos por derechos de
autor.
Las empresas que desarrollan LLM argumentan que puede
considerarse un "uso justo" ("fair use" en inglés) lo que
constituye una excepción en la ley de copyright.
Es difícil decidir si un texto ha sido utilizado o no en
el entrenamiento de uno de estos modelos. Al parecer un
equipo del Colegio Imperial de Londres ha desarrollado estas
"trampas de copyright" fragmentos de texto ocultos que
permitirían detectar su uso indebido.
La idea no es nueva[2], en obras de referencia como
diccionarios, mapas e incluso tablas matemáticas se han
usado datos lugares o personajes falsos para detectar el
plagio. Toda la entrada de Wikipedia citada es divertida de
leer.
Las trampas no son a toda prueba y pueden ser suprimidas
pero el director del estudio dice que incrementar su
número podría hacer muy costoso y difícil quitar
todas. Posiblemente sea un juego del gato y el ratón
finalmente.
Para una opinión contraria con la que estoy de acuerdo en
buena parte puedes leer una entrada[3] en el blog de Enrique
Dans porque también del copyright se puede abusar y de hecho
se abusa.
Referencias
=============
[1]:
https://tech.slashdot.org/story/24/07/27/0020221/copyright-traps-could-tell-writers-if-an-ai-has-scraped-their-work
[2]:
https://en.wikipedia.org/wiki/Fictitious_entry
[3]:
https://www.enriquedans.com/2024/07/copyright-traps-para-llms-todos-sabemos-como-acaba-esto.html