CÓMO NOS EDUCA UN ALGORITMO
“Nous sommes des androïdes”
(Alfred Chapuis/Edmond Droz, Les Automates de Jaquet-Droz, Neuenburg, Suisse, 1773)
En algunos sectores de la clase media argenta existe el código de no facilitarles a lxs niñxs un smartphone antes del inicio de la escuela secundaria. Ya en esa etapa de escolarización, con cierto gesto resignado, padres y madres exclaman: “¡Y bueno… que sea lo que dios quiera!”, significando con ello que ni la escuela ni la familia, lxs primerxs educadorxs por cierto, podrán ya más interceder sobre los contenidos a los que eventualmente tengan acceso sus hijxs. Atendamos por un momento a la situación de Cándido y su tutor, Don Pangloss. Y supongamos ahora que dios está ocupado con otros asuntos de gran escala, de manera que las vicisitudes de la vida de Cándido no le resulten de momento prioritarias al supremo y que una tarde de septiembre, con sus compañeros de aventuras Cacombo y Martín, nuestro amigo Cándido acceda a contenidos triple X, a foros antisemitas, o peor: que consiga un ticket para ver a La Beriso. Con independencia de la cantidad, calidad y perfil ideológico de los contenidos, lxs ahora no tan niñxs empiezan a gozar de cierta autonomía, bajando y compartiendo cuanto contenido multimedia les venga en gana. ¿Qué otra cosa podría ser el paraíso sino aquel espacio cibernético a sólo un clic de distancia, vasto de videos, series, canciones, juegos y tutoriales? La biblioteca de Alejandría, la Muralla China, los viajes por la ruta de la seda de Marco Polo, la Enciclopedia de Diderot, el museo de Londres, el puerto de Shanghái y el Delirium Café de Bruselas… todo ello, por inmenso que parezca, tiene un comienzo y tiene un fin; por el contrario, cuando navegamos por el ciberespacio el horizonte resulta un espejismo, Aquiles tratando de alcanzar a la tortuga. ¿Cómo exploramos entonces aquel inagotable universo cibernético? ¿Por dónde empieza mi periplo, se pregunta nuestro amigo Cándido? El abanico de posibles decisiones se agolpa: deberíamos sentir angustia frente a tanta libertad, pero sin embargo… sin embargo el auxilio de algoritmos cada día más amables nos conducen sin tropiezos. En este marco parece razonable plantear la siguiente pregunta: ¿por qué tener que padecer horas y más horas en el cole si la web aloja todo aquello que figura en la currícula e incluso mucho más? Un interrogante tal encapsula algunas inquietudes de orden epistemológico y cognitivo.
El proceso de aprendizaje no es un proceso lineal. Cada dato, cada teoría, cada hipótesis, deviene objeto de conocimiento en tanto se presenta en conexión con algunos saberes previos. Se tiene que establecer un vínculo determinado entre ese dato o esa hipótesis y el estado actual del conocimiento de Cándido. También sucede que otros conocimientos que ya hemos integrado tempranamente impiden u obstaculizan el aprendizaje de nuevos saberes[i]. No resulta por esto mismo nada sencillo incorporar un objeto nuevo; éste por lo general nos interpela, nos incomoda. El conocimiento es un fenómeno complejo, multidimensional, que se construye; no es un mero almacén de datos. Como veremos, ese almacén infinito de datos que prontamente comenzará a explorar Cándido no se extiende mucho más allá de los límites del propio Cándido; sus búsquedas, como un espejo, reflejan sus deseos. Llegando la primavera festeja sus 12 años; enciende el celular, busca y se entretiene; Don Pangloss lo sabe, también él tiene sus asuntos en las redes; cada like es un imán; paso a paso, ese vasto universo se organiza, adquiere rigidez, y otros caminos se repiten, y muchos más se cierran, ya somos uno con el celu. Todo calza como un guante. Quién diría que la puerta a tan abigarrada red de nuevos contenidos no genere en absoluto desconcierto, desarraigo. Pero aquí ¿quién es el usuario? ¿Cándido o acaso el algoritmo? ¿Quién es sujeto y quién objeto en esa relación? ¿Y si en adelante el educador de Cándido se llama Google?
En el año 2007, unos años antes de que Google inicie su colosal ampliación en el mercado con una batería de software entre comillas gratuito, Barbara Cassin publica un análisis exhaustivo y crítico de lo que por entonces era solamente un poderoso motor de búsqueda.[ii] Su estudio, entre muchas otras cosas, revela que la indexación de los contenidos que figuran en pantalla tras ‘googlear’ esto o aquello es altamente sesgada. Comenzábamos el nuevo milenio dejando nuestras primeras huellas, de a poco Google se iba transformando en un confesionario cool, en la mano invisible de la conciencia global. Con el celular inteligente abriendo la nueva década, la ciber-vigilancia cala más profundo. Ahora Google se hace cargo de casi todo. Encendemos por primera vez el celu y el bueno de Android nos da la bienvenida. Asociamos, no tenemos otra opción, una cuenta de Gmail a nuestro dispositivo. Cándido descarga sus primeras apps: TikTok, Whatsapp y el Insta. A partir de ahí toda búsqueda, todo envío, todo corazón, engrosa el poder algorítmico descomunal de los gigantes tecnológicos (Google, Amazon, Facebook y Microsoft). ¿Qué implicancia tiene un acervo tan densamente concentrado de nuestros datos? El acopio y triangulación de esos datos que entregamos con tanta candidez permiten algorítmicamente definir un perfil de usuario con un grado tan alto de detalle y precisión que por mucho excede al trazado aun por los propios familiares y maestros de Cándido. Y en tanto que todavía contamos con algunos buenos argumentos para exigirles a Don Pangloss y a la escuela que no reduzcan al joven Cándido a un frío conjunto numérico, o a un objeto de mercado, ¿con qué argumentos o con qué herramientas legales contamos para exigirle una cosa tal a Facebook o Amazon? Como se afirma en una publicación reciente:
“Las palabras se transforman en signos de búsqueda y se articulan algorítmicamente en un panóptico electrónico para el mercado, porque la información que damos a los buscadores sobre nuestros comportamientos, deseos y opiniones, nos convierte en insumos mercantilizados”.[iii]
Volvamos ahora a lo planteado por Barbara Cassin. Dijimos que los contenidos que figuran en pantalla como resultado de nuestras búsquedas contienen sesgo. Diversas investigaciones en el dominio del Machine Learning muestran de qué manera el conjunto de datos tomados de la web (web corpora) con los que se entrenan a determinados algoritmos[iv] poseen sesgo significativo de género y de raza. En una entrevista en el año 2018,[v] la Dra. Laura Alonzo Alemany, quien actualmente dirige el grupo de investigación sobre procesamiento de lenguaje natural en FAMAF (UNC), refiere al siguiente caso. En el sistema judicial de los Estados Unidos jueces y juezas utilizan un software que estima cuál es el riesgo de que un excondenado reincida, y en base a la información provista por ese programa computacional, determinan la condena que le corresponde al imputado. El algoritmo realiza la estimación en base a ciertos datos tomados de la realidad, por ejemplo, que en las cárceles de los Estados Unidos hay un alto porcentaje de presxs negrxs. ¿Pero por qué razón las cárceles de ese país están mayormente pobladas de negrxs o latinxs? Esto sin duda es un problema, alcanza con leer el último artículo de Bruno Serra en Pogo[vi] para entender que la lógica carcelaria responde a diversas motivaciones políticas que poco tienen que ver con un concepto transparente de justicia. Por otra parte, también se ha demostrado que el sesgo inicial contenido en los dataset se amplifica considerablemente una vez concluido el entrenamiento de un algoritmo. Por ejemplo, investigadores de la Universidad de Virginia y de Washington[vii] mostraron que determinados modelos de lenguaje predictivo contienen sesgo de género significativo. En relación con la actividad ‘cocinar’ la probabilidad de que involucre a mujeres antes de que a hombres es un 33% mayor. Este porcentaje se incrementa en un 68% en un modelo algorítmico entrenado. En pocas palabras, el cuadro es el siguiente: los cuantiosos datos que aportamos permiten delinear con notable exactitud nuestro perfil de usuarix. Los algoritmos que operan sobre nuestro perfil, indexando nuestras búsquedas, preseleccionando videos y canciones, sugiriendo nuevos contenidos, parten de conjuntos de datos con sesgo, sesgo que en el opaco procedimiento de entrenamiento de un algoritmo se amplifica considerablemente. ¿Será por eso que luego de navegar algunas horas por la red, lejos de interpelarnos y adoptar la incómoda tarea de repensar lo que dijeron nuestras madres y nuestros abuelos, tan sólo reafirmamos todo aquello que creemos conocer? ¿Será también por eso que el libro, el cuento y el artículo periodístico ha sido reemplazado por el meme?
Cándido tendrá por tanto que ser más desconfiado y aprender que el ciberespacio no es ni por asomo el mejor de los mundos posibles. Deberá tomar las riendas como usuario y evaluar qué acepta y qué no; decidir cuáles datos entrega y cuáles no. Por su parte, Don Pangloss y la escuela, responsables de la educación de Cándido, con más razón tendrán que hacer lo propio. A los actuales gobiernos de la región les cabe, por un lado, advertir la dimensión política que posee el uso de las actuales tecnologías de la información; por el otro, discutir un marco legal que pueda disputar la soberanía de nuestros datos ya colonizados por los gigantes corporativos del siglo XXI, un camino que no hace tanto ha empezando a transitar el viejo continente[viii].
[i] Gaston Bachelard (1947). La formation de l’esprit scientifique. Cap. 1, “La notion d’obstacle épistémologique”. Vrin (ed), Paris.
[ii] Barbara Cassin (2007). Google-moi: La deuxième mission de l’Amérique. Albin Michel (ed.).
[iii] Nestor García Canclini (2019). Ciudadanos reemplazados por algoritmos. Calas, Centro Maria Sibylla Merian de Estudios Latinoamericanos Avanzados en Humanidades y Ciencias Sociales.
[iv] El entrenamiento de un algoritmo es el proceso en el cual una red neuronal (Artificial Neural Network) ‘aprende por sí misma’ (mediante un método llamado back propagation) resolviendo tareas a partir de la consideración de ejemplos (conjuntos de datos). Una red neuronal es un modelo computacional que guarda cierta analogía con una red neuronal biológica. Durante el entrenamiento se determina cuál es la diferencia entre el ouput que arroja inicialmente el modelo (la red neuronal) y el output que se desea alcanzar. La red neuronal utiliza dicha diferencia para modificar los pesos de las conexiones entre las neuronas a fin de aproximarse gradualmente al resultado deseado.
[v] https://www.youtube.com/watch?v=QEiLn-2CQKo
[vi] https://pogo.com.ar/la-parabola-de-ubiratan/
[vii] Jieyu Zhao et Al. (2017). “Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints”, arXiv:1707.09457 [cs.AI].
[viii] https://www.ieccs.es/2020/04/21/big-data-como-espacio-de-soberania/?