Utilización de algoritmos de aprendizaje automático para la obtención de información detallada sobre la composición de subpoblaciones celulares

Objetivo

Se presenta un panel de 20 marcadores adecuado para su adquisición en el citómetro de flujo CytoFLEX LX. Se explorará la visualización de los datos utilizando viSNE, FlowSOM y SPADE en la plataforma Cytobank. Se mostrará una estrategia de gating manual mediante el análisis en Kaluza y se comparará con los subconjuntos identificados por agrupación no supervisada realizada con FlowSOM en la plataforma Cytobank.1,2 La naturaleza no supervisada de muchos de estos algoritmos reduce el sesgo que puede introducirse mediante el gating manual de subpoblaciones conocidas y permite al investigador identificar fenotipos inesperados. La reducción en el tiempo de trabajo personal necesario para obtener un análisis exhaustivo de conjuntos de datos de alta dimensión utilizando algoritmos de aprendizaje automático en comparación con el gating manual representa una ventaja adicional.

Para generar los datos utilizados en esta Nota Técnica las muestras de sangre se marcaron con el cóctel de anticuerpos de 20 colores descrito a continuación (Tabla 1) antes de la lisis de hematíes con Versalyse de acuerdo con el procedimiento estándar (Referencia IM3648). Las muestras marcadas se adquirieron en un citómetro de flujo  CytoFLEX LX flow cytometer. La configuración de filtros que se describe a continuación se ha aplicado para garantizar una detección óptima de cada marcador.

 

Tabla 1. Composición del panel de 20 marcadores para inmunofenotipado utilizando el citómetro de flujo CytoFLEX LX.

Panel composition for 20 marker immunophenotyping using CytoFLEX LX flow cytometer

La compensación y la transformación de datos mediante la escala biexponencial (“logicle”) se realizaron con el Kaluza Analysis software y los datos transformados y compensados se exportaron a la Cytobank platform utilizando el complemento “Kaluza Cytobank”. El análisis de Kaluza también se utilizó para el gating sobre gràficos biparamétricos y la identificación manual de la población.

Para preparar los datos para el análisis asisitido por aprendizaje automático, se eliminan el debris, los dobletes y, a menudo, también las células muertas y otros eventos no deseados. Estos eventos no aportan información al análisis posterior, y podrían afectar negativamente la visualización de datos y confundir los resultados estadísticos si no se identifican y excluyen adecuadamente. Dependiendo de la visualización de datos deseada y el objetivo de la investigación, puede ser útil realizar un gating inicial de la población de interés para su posterior análisis (Figura 1).

Use Kaluza to prepare data for ML-assisted analysis

Figura 1. Limpieza de datos en el análisis de Kaluza. . Los dobletes se excluyeron en función del área de la señal de dispersión frontal frente a la altura, seguido del gating de los glóbulos blancos en función de las características de dispersión frontal y lateral. Las células negativas para ViaKrome 808 (referencia C36628) se identificaron como viables y se clasificaron adicionalmente como leucocitos en función de la expresión de CD45. Datos analizados con el software de análisis Kaluza. Los histogramas son solo para fines ilustrativos.


Para la identificación manual de subpoblaciones celulares en muestras de sangre periférica humana, se estableció una estrategia de gating basada en publicaciones previas de los patrones de expresión de los marcadores, utilizando el software de análisis Kaluza..3

 

Example of knowledge driven population identificationFigura 2. Identificación basada en el conocimiento de las subpoblaciones principales de leucocitos. Datos analizados con el software de análisis Kaluza. Los histogramas son solo para fines ilustrativos.



Usando herramientas de aprendizaje automático, es posible identificar subconjuntos celulares sin sesgos e independientes del conocimiento previo. Los algoritmos de reducción dimensional como viSNE pueden visualizar la información contenida en un conjunto de datos multidimensionales en un solo gráfico 2D. Pot 1. Los algoritmos de agrupamiento como FlowSOM pueden identificar y agrupar automáticamente células similares en función de las similitudes en la expresión de los marcadores.2

Para un análisis más detallado de los conjuntos de datos, viSNE se usó para la reducción dimensional en todos los marcadores de activación también utilizados en los pasos de gating manual descritos en la Figura 2. Esto permite la visualización de la información contenida en estos 11 marcadores (CD45, CRTH2, CD123, CD15 , CD14, CD16, CD56, CD3, CD4, CD8, CD19) en una sola gráfica 2D. viSNE es un método para reducir datos multidimensionales a dos dimensiones, permitiendo un rápido análisis exploratorio de datos y visualización de resultados complejos. Para los datos de citometría, esto puede ayudar a la categorización de eventos / células en poblaciones biológicas. Las células que son fenotípicamente similares estarán cerca unas de otras y formarán una isla. Un diagrama de contorno del mapa viSNE resultante se muestra en la Figura 3A.

Después de la reducción dimensional, se realizó un análisis FlowSOM para agrupar automáticamente las células en 12 llamados metaclusters. Ejecutar FlowSOM en los marcadores que definen las poblaciones y mostrar los datos de los clusters resultantes superpuestos en el mapa viSNE puede facilitar la evaluación de la calidad. Si se requieren más ajustes iterativos en la configuración de ejecución del algoritmo para optimizar los resultados, esta visualización puede ayudar a comparar diferentes ejecuciones y proporciona un punto de partida para el análisis de la agrupación de datos.

En el conjunto de datos analizado aquí se puede observar una buena correlación entre las islas viSNE y los metaclusters FlowSOM (Figura 3 B). Para identificar rápidamente el fenotipo de cada metacluster, puede ser útil construir una vista de heat map de los metaclusters FlowSOM (Figura 3C).

Subset identification using viSNE, FlowSOM and a heatmap displayFigura 3. Identificación de subconjuntos utilizando viSNE, FlowSOM y una vista de heatmap A) Gráfico de contorno del mapa viSNE B) Mapa viSNE con los metaclusters FlowSOM superpuestos C) Visualización de heatmap de la expresión del marcador por metacluster FlowSOM. Los datos se compensaron y transformaron a formato biexponencial utilizando el software de análisis Kaluza, y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. viSNE se ejecutó sobre 11 marcadores identificadores de poblaciones de 3 muestras con 3000 iteraciones, 30 de perplejidad y 0,5 theta. La configuración de FlowSOM son 12 metaclusters y 121 clusters con clusterización de consenso jerárquico. Los histogramas son solo para fines ilustrativos.

Los dot plots coloreados según la funcionalidad del canal, que colorean cada evento en el mapa viSNE de acuerdo con su intensidad en un canal dentro del conjunto de datos, se pueden usar para mostrar por qué puntos en el mapa están cerca unos de otros o qué patrón de expresión de marcador es similar entre eventos dentro de una isla viSNE. La Figura 4 ilustra la expresión de los marcadores CD19, CD4 y CD8 en el mapa viSNE y en comparación con el metaclustering de FlowSOM.

Expression levels of sub-population markers on viSNE map
Figura 4. Niveles de expresión de marcadores de subpoblaciones en el mapa viSNE. A) expresión de CD19 B) expresión de CD4 C) expresión de CD8 D) mapa viSNE con metaclusters FlowSOM superpuestos. Los datos se compensaron y transformaron a formato biexponencial utilizando el software de análisis Kaluza, y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. viSNE se ejecutó sobre 11 marcadores identificadores de poblaciones de 3 muestras con 3000 iteraciones, 30 de perplejidad y 0,5 theta. La configuración de FlowSOM son 12 metaclusters y 121 clusters con clusterización de consenso jerárquico. Los histogramas son solo para fines ilustrativos.

Comparison of 3 samples using ML-assisted analysis

Figura 5. Comparación de 3 muestras. . A) Agrupación de FlowSOM superpuesta en el mapa viSNE, las flechas indican metacluster 1, el asterisco indica metacluster 12 B) Expresión CD16 C) Expresión CD56. Los datos se compensaron y transformaron a formato biexponencial utilizando el software de análisis Kaluza, y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. viSNE se ejecutó en el Cytobank en 11 marcadores identificadores de poblaciones. viSNE se ejecutó en todos los leucocitos CD45 + de 3 muestras con 3000 iteraciones, 30 de perplejidad y 0,5 theta. Las configuraciones de FlowSOM son 12 metaclusters y 121 clusters con clusterización de consenso jerárquico. Los datos se compensaron y transformaron con la escala biexponencial utilizando el software de análisis Kaluza, y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. Se realizó un análisis de datos adicional en la plataforma Cytobank. Los histogramas son solo para fines ilustrativos

La combinación de viSNE y FlowSOM permite comparaciones cualitativas entre muestras que pueden mejorarse visualizando la expresión de marcadores específicos en el mapa viSNE (Figura 5). La comparación muestra que la población CD16 + identificada como metacluster 1 (Figura 5 A, azul, flecha) es prominente en la muestra G pero prácticamente ausente en las muestras B y F. También muestra una abundancia de células brillantes CD56 en el metacluster 12 para la muestra F (Figura 5 A, rojo; asterisco).

Otro algoritmo no supervisado que puede usarse para la identificación de grupos de células similares es SPADE. SPADE significa "Análisis de progresión de árbol de expansión de eventos normalizados por densidades" 4. SPADE agrupa células fenotípicamente similares en una jerarquía que permite el análisis multidimensional de alto rendimiento de muestras heterogéneas (Figura 6).

 

SPADE trees colored by CD16 expression

Figura 6. Comparación de 2 muestras, árboles SPADE coloreados según expresión CD16.Los datos se compensaron y transformaron con la escala biexponencial utilizando el software de análisis Kaluza y se cargó en la plataforma Cytobank a través del complemento Kaluza Cytobank. SPADE se ejecutó en 11 poblaciones definidas con reducción del tamaño de muestra al 10% y 50 nodos. Los histogramas son solo para fines ilustrativos.

Se puede obtener un perfil inmunológico más profundo de las respectivas poblaciones de leucocitos extendiendo la estrategia de análisis manual. De nuevo, esto se basa generalmente en el conocimiento previo de los patrones de expresión. En la Figura 7 se proporciona un ejemplo para el subconjunto de células T CD4+.

Knowledge-driven identification of regulatory T-cells and their subsets

Figura 7. Identificación basada en el conocimiento de las células T reguladoras y sus subpoblaciones.(A) Subconjuntos de memoria de células T CD4 activados en células T CD4 + excluyendo Tregs (B) y subpoblaciones de memoria de células T CD8+. Datos analizados con el software de análisis Kaluza. Los histogramas son solo para fines ilustrativos.

Las comparaciones entre muestras se pueden hacer comparando gráficas o resultados estadísticos y utilizando plots de overlay o la Gráfica de comparación de Kaluza (Figura 8). Este enfoque también suele guiarse por suposiciones sobre posibles diferencias.

Comparison of Treg subsets across samples
Figura 8. Comparación de los subconjuntos de Treg en muestras. A) Dot plots individuales por muestra. B) Hoja de información con resultados estadísticos por muestra y subpoblaciones. C) Superposición de dot plots de dos muestras. D) Gráfico de comparación que visualiza el porcentaje de Gated por subpoblación y muestra. Los datos se analizaron con el software de análisis Kaluza. Los histogramas son solo para fines ilustrativos.



Figura 8. Comparación de los subconjuntos de Treg en muestras. A) Dot plots individuales por muestra. B) Hoja de información con resultados estadísticos por muestra y subpoblaciones. C) Superposición de dot plots de dos muestras. D) Gráfico de comparación que visualiza el porcentaje de Gated por subpoblación y muestra. Los datos se analizaron con el software de análisis Kaluza. Los histogramas son solo para fines ilustrativos.

Para la identificación no supervisada de subpoblaciones de células T, se realizó un análisis viSNE utilizando células T CD3+ como población inicial. La Figura 9 A muestra la expresión de CD4 y CD8 en el mapa viSNE. Siguiendo el mismo enfoque de análisis manual que antes (ver Figura 7), se identificaron diferentes patrones de expresión de CD45RA y CD62L utilizando una gate de cuadrante en las células panT y se visualizaron en el mapa viSNE (Figura 9 B). Por último, la agrupación de consenso jerárquico se realizó utilizando FlowSOM para identificar 10 metaclusters (Figura 9 C). Tanto la agrupación manual como la no supervisada dan como resultado la identificación de poblaciones similares.

 

Unsupervised analysis of T cell subsets
Figura 9. Análisis no supervisado de subconjuntos de células T. (A) viSNE se realizó en la plataforma Cytobank con 2000 iteraciones y una perplejidad de 50 y la expresión de CD4 (izquierda) y CD8 (derecha) se visualiza en el diagrama viSNE resultante (B) Los patrones de expresión de CD62L y CD45RA (izquierda), así como las células T reguladoras (en el medio) se identificaron utilizando el análisis manual y las poblaciones superpuestas en el mapa viSNE. (C) La agrupación de FlowSOM se realizó mediante la agrupación jerárquica en datos normalizados para detectar 100 grupos y 10 metaclusters. Los metaclusters se muestran en el mapa viSNE. Los datos se compensaron y transformaron con la escala biexponencial utilizando el software de análisis Kaluza y se cargó en la plataforma Cytobank a través del complemento Kaluza Cytobank. Se realizó un análisis de datos adicional en la plataforma Cytobank. Las parcelas son solo para fines ilustrativos.

La Figura 10 muestra la comparación de la identificación de la subpoblación CD8+ de memoria utilizando el análisis manual y la agrupación no supervisada con FlowSoM.

Comparison of CD8+ T cell memory subsets by manual gating versus FlowSOM

Figura 10. Comparación de las subpoblaciones de células T CD8+ de memoria identificados por análisis manual (A) y FlowSOM (B). Los datos se compensaron y transformaron con la escala biexponencial utilizando el software de análisis Kaluza y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. Se realizó un análisis de datos adicional en la plataforma Cytobank. Los gráficos son solo para fines ilustrativos.

Resúmen

Los datos de tres donantes obtenidos usando un panel de 20 marcadores adquirido en un CytoFLEX LX, se usaron para mostrar una estrategia de análisis manual para identificar subconjuntos de leucocitos, así como un análisis más detallado de los subconjuntos de células T. Se mostró el uso de viSNE para visualizar datos multidimensionales en un mapa viSNE 2D y se discutió el uso de viSNE y SPADE para comparar muestras. Finalmente, se comparó la identificación automática de clusters con FlowSOM con los resultados del análisis manual. Las herramientas de aprendizaje automático como viSNE, FlowSOM y SPADE pueden ser útiles para visualizar datos de múltiples parámetros y para la identificación imparcial de subconjuntos celulares.

 

Consejos para el éxito

Para obtener instrucciones detalladas sobre el uso del software de análisis Kaluza, consulte Kaluza IFU C10986. Puede acceder a las instrucciones detalladas sobre el uso de la plataforma Cytobank en support.cytobank.org. Este documento no reemplaza las Instrucciones de uso.

Una discusión más profunda de los análisis realizados aquí se proporciona en el “Use Machine Learning Algorithms to Explore the Potential of Your High Dimensional Flow Cytometry Data Example of a 20-color Panel on CytoFLEX LX” y “Leveraging the Combined Power of Kaluza and the Cytobank Platform” Technical Notes.

References

  1. Amir ED, Davis KL, Tadmor MD, et al. viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia. Nature Biotechnology. 2013;31(6):545-552. doi:10.1038/nbt.2594.

  2. Van Gassen S, Callebaut B, Van Helden MJ, et al. FlowSOM: Using self-organizing maps for visualization and interpretation of cytometry data: FlowSOM. Cytometry. 2015;87(7):636-645. doi:10.1002/cyto.a.22625.

  3. Ortolani C. Antigens. In: Flow Cytometry of Hematological Malignancies. John Wiley & Sons, Ltd; 2011:1-157. doi:10.1002/9781444398069.ch1.

  4. Qiu P, Simonds EF, Bendall SC, et al. Extracting a cellular hierarchy from high-dimensional cytometry data with SPADE. Nature Biotechnology. 2011;29(10):886-891. doi:10.1038/nbt.1991.

 

For Research Use Only. Not for use in diagnostic procedures.