¿Deberían Google y Facebook liberar sus algoritmos como Open Source?

29-06-2016 - Fuente: Xataka.com

Los algoritmos nos envuelven, pero lo hacen sin que sepamos qué hacen en realidad. Google nos presenta sus resultados de búsqueda en cierto orden y Facebook ordena noticias y actualizaciones en nuestro timeline de acuerdo a ciertos criterios, pero esas recetas son secretas y están celosamente guardadas por quienes las utilizan.

¿Deberían las empresas explicarnos con detalle qué hacen esos algoritmos?

Algunos defienden esta opción y hacen la analogía con el software libre, una filosofía en la que el código se publica, se comparte, se edita y se redistribuye libremente. El debate sobre la transparencia de los algoritmos está más de moda que nunca.

Facebook en el punto de mira

La característica Trending de Facebook es un buen ejemplo de este tipo de algoritmos. Aunque se supone que quien realmente potencia ese algoritmo son los usuarios y su forma de utilizar la red social, el funcionamiento de ese programa es totalmente desconocido.

El algoritmo de Facebook tiene una limitación: que está creado, gestionado y alimentado por los seres humanos. Somos nosotros -o más bien, los empleados de Facebook- los que deciden qué datos son válidos, qué se hace con ellos, y qué respuesta se obtiene a partir de ellos. Que un algoritmo se comporte de mejor o peor forma no es solo culpa de Facebook, sino nuestra, de los usuarios, que alimentamos ese algoritmo con nuestra actividad y nuestros comentarios.

En Slate trataban de explicar cómo funciona ese algoritmo en las oficinas de Facebook en Menlo Park, California. Su función principal es ordenar las noticias y tratar de destacar aquellas que son más relevantes para cada usuario. Y ahí es donde entra en juego la relevancia de cada artículo que se publica en el mundo: probablemente tendrá más valor si ha sido compartido por uno de nuestros contactos en Facebook, y si es de una temática que normalmente nos interesa, por ejemplo. Pero nadie sabe exactamente -a excepción de los ingenieros de Facebook- qué hace que un contenido sea más o menos recomendable para cierto usuario.

Esas son en realidad dos variables que el algoritmo toma en cuenta, pero en Facebook confiesan que su algoritmo toma en cuenta cientos de variables. Analiza cómo te comportaste en el pasado, predice si te gustará, o harás clic en el enlace, o comentarás en él, o lo marcarás como spam: todos esos elementos -y otros muchos- formarán parte de esa puntuación de relevancia que estará asignada a ti como usuario y a ese contenido en particular.

En todo ese proceso es necesario volver a destacar que el papel del ser humano es fundamental: el algoritmo solo resuelve parte de las necesidades, y de hecho un reciente artículo de Gizmodo revelaba cómo esas noticias sugeridas tenían poco de algoritmo y mucho de filtrado por seres humanos: un grupo de periodistas ex-empleados (subcontratados, eso sí) de Facebook hablaban de su periodo como editores en jefe de una sección que puede llegar a condicionar nuestra forma de ver el mundo.

Eso sí: ese grupo de aproximadamente 20 editores ha ido reduciéndose, y algunos creen que el futuro de esta tarea de filtrado estará dominado por un algoritmo o sistema de inteligencia artificial que simplemente ha ido aprendiendo la forma de trabajar de estos expertos. El proceso de filtrado está ya documentado -Facebook ha tratado de clarificar parte de su forma de trabajar en este área- y de hecho cualquiera puede consultar ese informe, titulado Trending Review Guidelines (aquí el PDF).

Algoritmos oscuros

El problema con las recetas secretas es que fiarse de ellas puede dar resultados inesperados. El caso de COMPAS, un algoritmo que sirve como polémico "ayudante" para los jueces del sistema judicial en Estados Unidos: este sistema aconseja a los magistrados sobre las penas que se deben imponer a aquellos declarados culpables de algún delito.

El problema de COMPAS es que los jueces lo han tomado demasiado en serio, y eso ha hecho que algunas decisiones hayan sido muy criticadas y hayan detonado el debate sobre la validez de este algoritmo. Imposible saber a ciencia cierta si es válido o no sin poder auditarlo, y de ahí la creciente presión por esa transparencia de los algoritmos que dominan nuestras vidas.

Tenemos otro buen ejemplo en la Social Security Administration estadounidense, el organismo que se encarga de pensiones por diversas causas y que asigna esas pensiones de acuerdo a ciertos informes en los que se trata de predecir aspectos demográficos como las tasas de mortalidad o económicos como la tasa de desempleo.

Un estudio de la Universidad de Harvard ha revelado que esas predicciones no estaban siendo precisamente objetivas y no tenían en cuenta aspectos relevantes de la situación socioeconómica, pero dado que -una vez más- el algoritmo es secreto, sus conclusiones son discutibles, sobre todo en una sociedad de derecho en la que la transparencia en todo tipo de gestiones públicas debería ser ejemplar.

Google también inquieta

Pero como en todos esos algoritmos secretos, hay un santo grial. La receta de la Coca-Cola tiene su análogo en el mundo de internet: ¿cuál es el algoritmo que domina las búsquedas de Google?

El buscador de Google es desde hace años el claro referente en este ámbito, y a nivel global 9 de cada 10 búsquedas que se realizan en la red de redes se ejecutan a través de Google.com o alguna de sus versiones nacionales. La empresa lleva guardando celosamente el secreto de su algoritmo todos estos años, y aunque lo revisa con frecuencia, apenas ofrece información sobre qué parámetros influyen en que un resultado aparezca por encima de otro en ese buscador. Como mucho indica grandes tendencias, como las últimas que benefician a sitios web que en general son "amigables en dispositivos móviles".

Como en el caso de Facebook, el buscador de Google perfila nuestra comprensión del mundo. La filtra y la dirige, así que entender cómo funciona sería especialmente interesante. Ha habido intentos por presionar a Google para que revelara la fórmula secreta: el año pasado el Senado francés trató de aprobar una enmienda que haría que Google revelara sus criterios de posicionamiento y que permitiera a reguladoras en el terreno de las telecomunicaciones inspeccionar el código.

Lo comentaban entonces en Politico.eu y allí recogían las declaraciones de Thomas Vinje, portavoz de la firma FairSearch -que hace poco firmó la paz con Google. Este experto no veía claro que revelar su salsa secreta fuera buena idea: "no hay necesidad para una nueva regulación en materia de algoritmos si las leyes de competencia existentes se aplican de la forma apropiada", afirmaba.

Otros, no obstante, se mostraban críticos con esa postura. Julia Powles, una investigadora en leyes en el ámbito de la tecnología, explicaba que "estamos cerca de llegar al punto de inflexión en el cual lo de 'confía en nosotros' ya no nos vale al hablar de almacenamiento, uso y manipulación de datos, tanto si es en el sector público como en el privado".

Esa presión a Google ha originado la creación de un nuevo concepto: la "neutralidad de la búsqueda", que paralelamente a la "neutralidad de red" trata de evitar que no se apliquen políticas y criterios editoriales a la organización de los resultados. La idea es evitar que cualquier empresa, gobierno o entidad pueda alterar el orden en que se muestran los resultados orgánicos. Que no haya manipulación en ese ámbito, algo que no solo sucede con Google, sino con empresas como Amazon. En realidad las dudas sobre el orden de los resultados de una búsqueda se extienen a cualquier sitio de comercio electrónico... y a cualquier ámbito en el que haya intereses económicos, por ejemplo.

¿Qué y cómo se están tratando nuestros datos?

Los datos nos salvarán. Ese es uno de los mensajes que nos han transmitido los defensores del Big Data. Personalidades como Bono o Bill Gates son promotores del llamado factivism, el activismo de los hechos y los datos que alimenta esa recolección masiva destinada -teóricamente- a mejorar nuestra sociedad gracias al análisis de todos esos datos.

Las promesas y expectativas del Big Data eran enormes, y no hace mucho hablábamos de cómo algunos algoritmos parecen conocernos mejor que nosotros mismos. La realidad parece ser bien distinta, y aunque evidentemente hay áreas en las que esta disciplina ha demostrado su validez, las dudas sobre el fenómeno Big Data son desde hace tiempo importantes.

Lo demostraba por ejemplo el famoso Ciclo del Hype de Gartner, que en 2013 situaba al Big Data en el "Abrevadero de la desilusión", la zona en la que industria y sobre todo usuarios comienzan a preguntarse quién está usando esa tecnología, cómo, y en beneficio de quién.

La preocupación comenzó a ser patente sobre todo tras la publicación de "How companies learn your secrets" un artículo de The New York Times en el que se revelaba cómo la cadena de tiendas Target logró deducir que una mujer estaba embarazada antes incluso de que su marido lo supiera. Eso, como dicen en TechRepublic, hizo que de repente muchos se diesen cuenta de hasta dónde podía llegar esta tendencia.

Aunque desde luego hay ejemplos positivos del uso de esas ingentes cantidades de datos, muchas de las empresas que los aprovechan lo hacen sin explicar clara y detalladamente cómo funcionan los algoritmos con los que trabajan. Es aquí donde leyes como la Freedom of Information Act (FOIA) de los Estados Unidos precisamente trata de defender los derechos de los ciudadanos de ese país en los accesos a información y datos que se almacenan en el gobierno federal.

Nuestro país también puso en marcha una legislación similar con la Ley 19/2013 del 9 de diciembre (PDF) en la que se trataba de garantizar la "transparencia, el acceso a la información pública y buen gobierno" y que se reforzó con el llamado Portal de la Transparencia del Gobierno de España en el que se publican datos e información diversa aunque no haya logrado acallar las críticas que existían en este sentido. En ese artículo de ElDiario.es se hablaba claramente de los problemas de dicha ley:

Sigue planteando los mismos problemas desde el comienzo: no reconoce el derecho de acceso a la información como un derecho fundamental, excluye muchos tipos de información (notas, borradores, opiniones, resúmenes, comunicaciones e informes internos o entre órganos o entidades administrativas), establece un doble silencio administrativo negativo (la administración puede no contestar y la solicitud se entenderá desestimada y el organismo de revisión puede hacer lo mismo) y el Consejo de la Transparencia no es independiente (además, con las últimas enmiendas este organismo de revisión estará completamente politizado).

En este ámbito ni los Estados Unidos ni España pueden presumir de unas leyes de transparencia especialmente destacables. El primero ocupa la posición 45 de 103 y tiene una puntuación de 89 sobre 150 puntos en el índice Global Right to Information Rating que conceden analistas independientes a este tipo de medidas en países de todo el mundo. España, en la posición 71, tan solo cuenta con 73 puntos de los 150 posibles. Resulta preocupante que China, por ejemplo, esté en el puesto 76 con 70 puntos.

¿Algoritmos Open Source?

En ese debate sobre la transparencia normalmente los gobiernos hablan de datos e información, pero nunca de algoritmos. Es bueno tener acceso público -al menos, cierto acceso público- a esos datos, pero es preocupante que no ocurra lo mismo con los algoritmos que los manejan. ¿O no?

Eso es lo que se preguntaban en la International Association of Privacy Professionals (IAPP), una comunidad de expertos que al hablar sobre la potencial transparencia en algoritmos la calificaba como "delicada".

Incluso si una empresa publicara un algoritmo propietario, la tarea de comprenderlo y reaccionar sería extremadamente compleja. Es poco probable que los consumidores y los gobernantes puedan entender lo que dice o significa un algoritmo, que probablemente sufría cambios continuos en el tiempo al reaccionar ante nuevas entradas de datos, y sería difícil decidir cómo medir posibles injusticias -donde mirar las entradas, las salidas, los árboles de decisión o los efectos eventuales. Estos retos podrían incluso hacer que las empresas que tienen mucho cuidado en evitar la discriminación no supieran cuáles son las mejores prácticas en este sentido.

Algunos van más allá. Los responsables de Akashic Labs, una consultoría de ciencia de datos, explicaban en una presentación sobre la transparencia de los algoritmos cómo acceder al código de esos algoritmos no era suficiente: no tendría que haber secretos en ningún ámbito. Las entradas de datos deberían poder ser escrutadas y debería ofrecerse una justificación para las salidas de esos algoritmos a partir de las entradas.

El debate está abierto y es importante. Es un buen primer paso.