Saltar al contenido

M09- Data Science Aplicada a Interfaces Cerebro Computadora

Tutor: Juan Manuel López
lopezjuanma96@gmail.com

Descripción

La electroencefalografía (EEG) es una técnica de registro de la actividad eléctrica que tiene lugar en diferentes regiones del tejido cerebral. Por medio de esta técnica es posible identificar con una serie temporal, la actividad neuronal asociada a algunos procesos cognitivos. Durante la exposición de un observador a un estímulo luminoso parpadeante a una determinada frecuencia, el registro de la actividad eléctrica en la región occipital de su cerebro manifiesta una sincronización de su frecuencia con la frecuencia del estímulo visual. Este fenómeno se conoce bajo el nombre de Potenciales Evocados Visualmente de Estado Estacionario (SSVEP por sus siglas en inglés).
La posibilidad de inducir en forma controlada e inocua determinadas frecuencias de activación en el cerebro, junto con la factibilidad de su registro y posterior identificación, constituye a las SSVEP en una gran opción para generar interfaces cerebro-computadora. Al presentarle a una persona un estímulo visual al cual puede dirigir su mirada, registrando su actividad cerebral y aplicando procesamiento de señales a los registros conseguidos, el cambio de frecuencia de las señales de EEG puede utilizarse como una señal de control binaria.
A lo largo de la mentoría se pretende que los alumnos pongan en práctica las herramientas que vayan aprendiendo, logrando en cada entrega comprender más la naturaleza de los datos y el potencial de la información contenida en ellos. Se busca que al concluir la mentoría los alumnos hayan explorado distintas técnicas de aprendizaje automático y se puedan seleccionar fundadamente aquellas más adecuadas para la detección automática de la fuente lumínica que está observando una persona a partir de analizar su registro electroencefalográfico. Esta asociación permitiría la construcción futura de un sistema de control que permita seleccionar uno entre varios elementos, donde cada uno de ellos se encuentre asociado a una fuente lumínica con una frecuencia característica.

Este tema es interesante porque...

En la actualidad existe un gran porcentaje de personas que sufren limitaciones en sus capacidades y habilidades de interactuar con el mundo que los rodea: controlar dispositivos electrónicos del hogar, moverse de un punto a otro de la ciudad o incluso comunicarse con otros pares pueden resultar tareas que rozan lo imposible. El síndrome de enclaustramiento es una condición que surge como efecto de una gran variedad de enfermedades neuronales en la que la persona conserva su habilidad cognitiva pero su motricidad se ve fuertemente limitada, quedando reducida a algunos movimientos oculares, y en algunos casos, algún dedo de la mano. Estas personas, a pesar de conservar perfecto conocimiento y conciencia de la realidad que los rodea, no tienen manera de comunicarse con su entorno. Un sistema que permitiese expresar la decisión entre al menos dos elementos con sólo fijar la mirada en uno de dos puntos parpadeantes cambiaría radicalmente la vida de estas personas. OTTAA Project es una empresa cordobesa que ha desarrollado una app para que las personas que carecen de posibilidad comunicativa oral o escrita puedan comunicarse a través de la selección de frases en formato de pictogramas montados en un dispositivo tablet o smartphone. El dataset propuesto surge de la intención de OTTAA Project de incorporar una Interfaz Cerebro Computadora (BCI, por sus siglas en inglés) a su producto para poder asistir a un espectro más amplio de personas, como por ejemplo aquellas que padecen el síndrome de enclaustramiento.

Trataremos de responder algunas de las siguientes preguntas

– ¿Qué información podemos extraer de los registros en cada intervalo de estimulación y no estimulación?
– ¿Es posible desarrollar un algoritmo de clasificación que identifique a qué frecuencia de estimulación pertenece cada intervalo?
– ¿Cómo sabemos cuán confiable es la predicción de tal algoritmo?
– ¿Es suficientemente confiable como para ser aplicada en un sistema de control como el que se comentó previamente?

Datos

Si querés inspeccionar el conjunto de datos, lo encontrarás en: https://github.com/lopezjuanma96/MentoriaBCI.
El dataset consiste en un conjunto de 7 registros, realizados en 5 individuos en 7 sesiones de adquisición utilizando para la toma de las señales la placa Ganglion Board. La elección de este hardware permite no solo la observación en tiempo real de las señales provenientes de 4 canales por medio del software de OpenBCI.
El dataset consiste en un conjunto de series temporales que reflejan variaciones de voltaje a lo largo del tiempo tomadas a una tasa de muestreo de 200 muestras por segundo, en un contexto experimental en donde los sujetos experimentales fueron estimulados por luces en dos frecuencias específicas: 12,5 Hz y 16.5 Hz. Cada registro constituye un archivo txt.
Etiquetado de la estimulación: El experimento consistió en indicar al sujeto que observase una u otra luz subsecuentemente, con intervalos de descanso intermedios. Al indicar cada luz se registraba en el software del equipo la etiqueta de dicha luz, lo cual colocaba en la columna de labels mencionada anteriormente un 1 para la luz parpadeante a 12,5 Hz o un 2 para la de 16,5 Hz, ambas durante 10 segundos de estimulación (aproximadamente 20000 muestras). En los intervalos de no estimulación la columna de etiquetas era ocupada por el número 99.

Hitos de la Mentoría

Entrega 20/05 – Práctico de análisis y visualización, consistirá en familiarizarse con la estructura de la información disponible en los datos, con la naturaleza de los mismos y su relación con su origen. Para ello se realizará:

– Exploración de la información disponible en cada archivo. Diseño de funciones de lectura de los datos.
– Exploración de diferentes maneras de visualización de los datos. Entenderemos cuáles son las ventajas y desventajas de tener en cuenta el espectro de frecuencias además del análisis en tiempo. Se determinará la relación entre la información de cada canal y la posición de cada electrodo, buscando generar visualizaciones que la pongan de manifiesto.
– Análisis de las variables presentes en el registro electroencefalográfico. Estudio de los valores de voltaje, cuál es su distribución, valores mínimos máximos, valores esperados, identificación de outliers.
– Estudio de correlación entre las etiquetas de los datos y los valores de voltaje, para un mismo sujeto experimental y a nivel grupal.

Entrega 17/06 – Práctico de análisis exploratorio y curación de datos, consistirá en la curación de datos, entendiendo cuáles son datos esperables y cuáles datos erróneos.

– Estudiaremos qué tipos de artefactos podemos encontrar en un registro electroencefalográfico de este tipo.
– Determinaremos cuál es la mejor práctica para el tratamiento de los datos corruptos, estudiando las posibilidades de limpieza, sustitución o eliminación de toda la porción del registro dañada.
– Estudiaremos la información adicional que el ruido en los datos nos aporta, analizando la posibilidad de identificación de la fuente del ruido, o si inclusive otras señales eléctricas biológicas pueden estar afectando nuestros datos.
– Exploraremos diferentes formas de sistematización de los datos y su procesamiento, determinando si el formato original producido por el equipo de adquisición es la mejor manera de almacenarlos para la labor del científico de datos.

Entrega 24/06 – Video de presentación del proyecto y dataset.
Entrega 29/07 – Práctico aprendizaje supervisado,

– Retomaremos en análisis de diferencias que puedan encontrarse entre los distintos intervalos de estimulación y no estimulación en búsqueda de alguna característica que los vuelva separables.
– Recorreremos las técnicas de aprendizaje automático aprendidas evaluando cuál/cuáles mejor se adaptan al dataset, con qué funciones de costo y con qué métricas convendría medir su desempeño.
– A partir de los atributos seleccionados entrenaremos los algoritmos estudiados, haciendo hincapié en las buenas prácticas de partición del dataset en conjuntos de entrenamiento, validación y testeo, como también en el estudio de hiperparámetros.
– Utilizaremos los datos para entrenar distintos algoritmos de aprendizaje supervisado, analizando cuáles logran una mejor clasificación de los distintos intervalos de estimulación.
– Exploraremos el tradeoff entre desempeño y capacidad de generalización, al entrenar los algoritmos por sujeto o en el grupo completo de sujetos experimentales.
– Estudiaremos de manera superficial el uso de los registros para predicción de valores futuros, determinando cuáles son los algoritmos más adecuados para esta tarea y cómo cambia la concepción del dataset respecto de lo que se venía trabajando.

Entrega 26/08 – Práctico aprendizaje no supervisado,

– Evaluaremos la posibilidad de aplicar técnicas de reducción de dimensionalidad que permitan reducir la cantidad de información necesaria para el entrenamiento o destacar un detalle de importancia frente al resto del ruido presente.
– Ya que los registros pertenecen a distintas personas, exploraremos algoritmos de clasificación no supervisada, interpretando los resultados según se entrenen con el conjunto total de registros, o los registros pertenecientes a cada paciente.

Entrega 23/09 – Video de presentación de mentoría.
Jornadas 11/11 y 12/11 – Presentación de mentorías.

Integrantes del grupo 1
Gastón Briozzo - Pablo Ventura.