En este repositorio podrán encontrar todo el material que utilizaremos en el curso. Se irá actualizando constanemente y podrán descargarlo si así lo desean o clonarlo por medio de GitHub.
La idea de este curso virtual es la de mostrar algunas herramientas de análisis de texto. Desde su extracción hasta su presentación, pasando, naturalmente, por su análisis. Haciendo uso de las herramientas que provee el tidyverse
y los paquetes tidytext
, tm
y quanteda
. Asimismo, también tiene como objetivo visualizar y comunicar de manera efectiva los hallazgos de estas herramientas.
Sólo se necesitan tres cosas:
-
Tener RStudio y R instalados en sus últimas veriones.
-
Tener concimento básico de la sintaxis del
tidyverse
.
-
Stack Overflow: No hay de otra, es crucial preguntar.
-
Prabhakaran - Top 50 ggplot2 Visualizations - The Master List (With Full R Code)
-
Sebastián Garrido - Recursos para R: "Segasi" ha recolectado un montón de recursos introductorios (y no tanto) en su página personal.
En este curso se pretende que podamos presentar resultados en reportes profesionales y muy elegantes que puean ser leídos (y usados) por cualquiera. Así, usaremos Markdown "con sabor" a R
para generar código y resultados.
-
Xie, Allaire & Grolemund - R Markdown: The Definitive Guide: La Guía definitiva para usar Markdown "con sabor" a R.
-
A simple guide to LaTeX - Step by Step: Si bien no usaremos LaTeX directamente, sí es importante tenerlo instalado y conocer su existencia y su sintaxis básica para usarla en RMarkdown.
Este curso está construido con base en siguientes materiales:
Algunas bases de datos de texto que pueden usar.
-
Sesión 1: Introducción a la tokenización y manipulación de cadenas de texto
-
Temas:
- Breve repaso al uso de
tidyverse
yal IDE RStudio - ¿Qué es la minería de texto y por qué se dice que se trata de datos "no estructurados"?
- En busca de la imperfección: ¿por qué la minería de texto es indefectiblemente imperfecta?
- ¿Qué tipo de patrones buscamos en el llamado lenguaje natural?
- ¿Qué es un corpus y por qué usarlo?
- Breve introducción a las expresiones regulares
- Búsquedas y filtros simples con
Base R
y constringr
- Manipulaciones simples con
Base R
y constringr
- Breve repaso al uso de
-
Sesión 2: Introducción al análisis de texto
- Temas:
- N-gramas: la relación entre palabras
- Frecuencias de palabras: ¿cómo obtenerlas y qué tan útiles son?
- La ley de Zipf o de cómo limpiar palabras "vacías"
- La "importancia" de las palabras: ¿cómo obtener y para qué sirve el tf-idf de un texto?
- Uso de visualización de datos bajo en enfoque de la "gramática de gráficas" (gg).
- Temas:
-
Sesión 3: Análisis de sentimientos
- Temas:
- Diccionarios de sentimientos
- Las limitaciones del análisis de sentimientos
- Las limitaciones del análisis de sentimientos en español
- Gráficas de dispersión léxica
- Visualización de nubes con sentimientos y otras geometrías.
- Temas:
-
Sesión 4: Modelaje de tópicos
- Temas:
- Gentil introducción a la Distribución Latente de Dirichlet (LDA)
- Clasificación de entidades por su categoría gramatical
- Clasificación supervisada de palabras
- Análisis de correspondencia
- Temas:
Mi nombre es Manuel Toral, actualmente trabajo con datos judiciales para el análisis de la política pública del Poder Judicial, fui investigador especializado en datos en Mexicanos Contra la Corrupción y la Impunidad. Estudié Política Pública en la Escuela Harris de la Universidad de Chicago y Ciencia Política y Relaciones Internacionales en el Centro de Investigación y Docencia Económicas. Como instuctor en R
, soy parte del directorio de instructores de RStudio, aquí puedes ver mi perfil.
Llevo 5 años usando R
de manera profesional en una diversidad de proyectos de corte inmobiliario, análisis de grandes cantidades de datos, seguridad, justicia y, actualmente, en corrupción, transparencia y combate a la impunidad en México. Puedes ver algo de mis últimos trabajos de investigación con datos en el blog Desarmando la Corrupción de MCCI en alianza con la revista Nexos.
Como docente en R
, he sido el experto residente de la Escuela Harris de la Universidad de Chicago, en la que dirgí la "STATA and R Bar", que asesoraba en el uso de estas herramientas a alumnos de maestría y doctorado. En 2017, fui contratado por la Unidad de Investigación Aplicada de MCCI para capacitar a sus integrantes en el uso de R, equipo al que finalmente me integré como investigador y del que fui parte hasta 2018. Actualmente, hago investigación con datos judiciales para instituciones públicas.