Algoritmos de aprendizaje automático: aprendizaje semisupervisado y aprendizaje por refuerzo
22/12/2023 2024-03-06 11:26Algoritmos de aprendizaje automático: aprendizaje semisupervisado y aprendizaje por refuerzo
Algoritmos de aprendizaje automático: aprendizaje semisupervisado y aprendizaje por refuerzo
Editado por Pier Giuseppe Giribone
Los dos artículos anteriores de esta columna trataron sobre los paradigmas computacionales asociados con el aprendizaje supervisado y no supervisado de un sistema de aprendizaje automático.
Este artículo continúa el excursus, ilustrando los dos últimos criterios de clasificación, basados en los tipos de aprendizaje, en particular nos centraremos en el aprendizaje semisupervisado o “débil” (aprendizaje semisupervisado) y el “aprendizaje por refuerzo” (aprendizaje por refuerzo).
Dado que organizar una gran cantidad de datos es un proceso complejo y costoso, tanto en términos de tiempo como de dinero, un diseñador de sistemas inteligentes a menudo se encuentra teniendo que gestionar una gran cantidad de instancias no clasificadas (o más bien sin etiquetar) y una cantidad limitada de instancias etiquetadas.
Hasta ahora, se trataba de algoritmos de aprendizaje automático, capaces de procesar datos etiquetados mediante algoritmos de aprendizaje supervisado o datos sin etiquetar mediante algoritmos de aprendizaje no supervisado. Por lo tanto, un conjunto de datos mixto, como el descrito anteriormente, no podía procesarse en su totalidad.
Los algoritmos de aprendizaje automático que pueden procesar datos que solo están parcialmente etiquetados se denominan aprendizaje semisupervisado.
Deben entenderse como una combinación de algoritmos no supervisados y supervisados: por esta característica, en la literatura se les denomina "híbridos".
Para comprender cómo funciona un algoritmo semisupervisado, a continuación se proporciona un ejemplo intuitivo, cuyo objetivo es comprender su aplicabilidad en un contexto bancario.
Los servicios de alojamiento de fotos en la nube, como Google Fotos, son un buen ejemplo. Cuando se suben fotos de una excursión familiar a este servicio, el algoritmo identifica automáticamente que la misma persona (A) aparece en las fotos 1, 4 y 7, mientras que otra persona (B) aparece en las fotos 2, 4 y 8. Este primer paso lo realiza un algoritmo de aprendizaje no supervisado (agrupamiento). Para una organización eficiente, el sistema solo necesita saber quiénes son la persona A y la persona B. El usuario etiqueta a la persona A con su nombre, y esta etiqueta se transfiere automáticamente a todas las fotos que la contienen. Este procedimiento se repite para todas las personas identificadas durante la fase de agrupamiento. Este etiquetado facilita, por ejemplo, la búsqueda de una persona por su nombre entre las fotos subidas al servicio.
Si no se hubiera utilizado un enfoque híbrido, todas las personas que aparecían en cada fotografía individual subida al sistema de archivo en línea habrían tenido que ser etiquetadas manualmente.
Por lo tanto, el uso de un algoritmo semisupervisado permitió alcanzar el objetivo de etiquetar los datos de manera eficaz y eficiente.
En el sector bancario, gracias a la digitalización cada vez más avanzada de las transacciones financieras, se han creado repositorios que contienen enormes cantidades de datos, lo que hace que organizar los registros individuales mediante etiquetas específicas o claves indexadas sea una tarea demasiado exigente, lenta y costosa.
Como resultado, el diseñador del algoritmo de aprendizaje automático se encuentra trabajando con una pequeña cantidad de datos organizados por etiquetas, mezclados con una gran cantidad de datos desorganizados (sin etiquetas).
La aplicación de un algoritmo semisupervisado, debido a su naturaleza híbrida, podría representar una buena solución de compromiso para poder realizar el etiquetado automático de los datos disponibles, por un lado, y poder aplicar inferencias estadísticas en presencia de datos mixtos (es decir, con y sin etiquetas), por otro.
El aprendizaje por refuerzo (RL) es un enfoque de aprendizaje conceptualmente diferente a los anteriores. El sistema de aprendizaje, denominado agente en este contexto, es capaz de observar e interactuar con el entorno, elegir realizar acciones y, al completarlas, recibir retroalimentación positiva (recompensa positiva) o negativa (recompensa negativa o penalización).
La política define la mejor acción que el agente debe tomar en un contexto determinado.
La retroalimentación recibida permite al agente aprender de forma autónoma, partiendo de las decisiones tomadas y seleccionando la mejor estrategia (denominada política) que le permita maximizar las recompensas positivas a lo largo del tiempo.
El principio de funcionamiento del aprendizaje por refuerzo puede extenderse a diversas aplicaciones:
– Robótica: El agente puede ser el programa que controla un robot. En este caso, el entorno circundante es el mundo real; el agente observa el entorno mediante un conjunto de sensores y sus acciones consisten en enviar señales para activar los motores. Puede programarse para recibir retroalimentación positiva si el robot alcanza su destino y retroalimentación negativa si pierde tiempo o se desvía.
– Videojuego: El agente podría ser el programa que controla a Ms. Pac-Man en el juego arcade del mismo nombre. En este caso, el entorno es una simulación del juego de Atari, las acciones son las posibles posiciones que puede adoptar el joystick, las observaciones son las capturas de pantalla y las recompensas son los puntos del juego.
– Juego de mesa: al igual que en el caso anterior, el agente puede ser el programa que juega al antiguo juego de mesa abstracto "Go". El programa AlphaGo de DeepMind es un ejemplo muy conocido, ya que venció al campeón mundial Ke Jie en mayo de 2017. Aprendió la estrategia ganadora (política) analizando millones de partidas y luego jugando contra sí mismo numerosas veces. Obviamente, la prueba final se realizó desactivando la fase de aprendizaje durante la partida: el agente jugó de forma justa, aplicando solo lo aprendido en su entrenamiento previo.
– Automatización del hogar: el agente no necesita necesariamente tener control físico o virtual sobre el movimiento de un objeto. Por ejemplo, podría ser un termostato inteligente que recibe recompensas positivas cuando se acerca a la temperatura objetivo y ahorra energía, y genera recompensas negativas cuando el usuario necesita ajustar la temperatura, de modo que el agente pueda anticipar esta necesidad.
– Algotrading: el agente puede observar los precios del mercado de valores y decidir cuánto comprar o vender en cada momento. Las recompensas en este caso son, obviamente, las ganancias o pérdidas obtenidas.
Este artículo concluye la descripción de la clasificación de los algoritmos de aprendizaje automático en función de la cantidad y el tipo de supervisión a la que están sometidos durante el entrenamiento (la formación).
El próximo artículo tratará sobre otros criterios de asignación, centrándose en diferentes modalidades de aprendizaje: aprendizaje "por lotes" frente a aprendizaje "en línea" y aprendizaje "basado en instancias" frente a aprendizaje "basado en modelos".
Artículos Relacionados
𝗔𝗻𝘁𝗶𝗿𝗶𝗰𝗶𝗰𝗹𝗮𝗴𝗴𝗶𝗼𝗼 𝗻𝗲𝗹 𝘁𝗲𝗿𝗿𝗶𝘁𝗼𝗿𝗶𝗼𝗼 𝗱𝗲𝗹𝗹𝗮𝗠𝗮𝗴𝗻𝗮𝗚𝗿𝗲𝗰𝗶𝗮𝗻: 𝗰𝗼𝗺𝗽𝗿𝗲𝗻𝗱𝗲𝗿𝗲 𝗶𝗹 𝗿𝗶𝘀𝗰𝗵𝗶𝗼𝗼 𝗽𝗲𝗿 𝗽𝗿𝗼𝘁𝗲𝗴𝗴𝗲𝗿𝗲 𝗹𝗲𝗰𝗼𝗻𝗼𝗺𝗶𝗮𝗹𝗲
𝗠𝗮𝘀𝘁𝗲𝗿 𝗔𝗠𝗟/𝗖𝗙𝗧 100% 𝗳𝗶𝗻𝗮𝗻𝘇𝗶𝗮𝘁𝗼
𝗖𝗔𝗥𝗕𝗢𝗡𝗜𝗢 – 𝗤𝘂𝗮𝗻𝗱𝗼 𝗹𝗲 𝗶𝗻𝗱𝗮𝗴𝗶𝗻𝗶𝗻𝗶 𝘀𝘂𝗹 𝗰𝘆𝗯𝗲𝗿𝗰𝗿𝗶𝗺𝗲 𝗱𝗶𝘃𝗲𝗻𝘁𝗮𝗻𝗼𝗻𝗼
Operación "Reembolso": Cuando el fraude fiscal se convierte en infraestructura financiera
Buscar
Categorías
- Admisiones y cupones (76)
- Inteligencia artificial en la gestión bancaria (6)
- Lucha contra el blanqueo de capitales y cumplimiento normativo (216)
- Banco de Italia – UIF – MEF (36)
- Ciberseguridad (11)
- Economía (13)
- ESB (170)
- GAFI – UE (33)
- Sector del juego (22)
- Noticias (405)
- Escenario internacional (33)
- Testimonios (85)