Curso Virtual de Text Mining

Sobre este repositorio

En este repositorio podrán encontrar todo el material que utilizaremos en el curso. Se irá actualizando constanemente y podrán descargarlo si así lo desean o clonarlo por medio de GitHub.

Objetivo del curso

La idea de este curso virtual es la de mostrar algunas herramientas de análisis de texto. Desde su extracción hasta su presentación, pasando, naturalmente, por su análisis. Haciendo uso de las herramientas que provee el tidyverse y los paquetes tidytext, tm y quanteda. Asimismo, también tiene como objetivo visualizar y comunicar de manera efectiva los hallazgos de estas herramientas.

Requisitos

Sólo se necesitan tres cosas:

Tener RStudio y R instalados en sus últimas veriones.
Tener concimento básico de la sintaxis del tidyverse.

Para resolver (y buscar dudas)

Stack Overflow: No hay de otra, es crucial preguntar.
Statistical tools for high-throughput data analysis
UC Business Analytics R Programming Guide
Prabhakaran - Top 50 ggplot2 Visualizations - The Master List (With Full R Code)
Sebastián Garrido - Recursos para R: "Segasi" ha recolectado un montón de recursos introductorios (y no tanto) en su página personal.

RMarkdown y otras herramientas

En este curso se pretende que podamos presentar resultados en reportes profesionales y muy elegantes que puean ser leídos (y usados) por cualquiera. Así, usaremos Markdown "con sabor" a R para generar código y resultados.

Xie, Allaire & Grolemund - R Markdown: The Definitive Guide: La Guía definitiva para usar Markdown "con sabor" a R.
A simple guide to LaTeX - Step by Step: Si bien no usaremos LaTeX directamente, sí es importante tenerlo instalado y conocer su existencia y su sintaxis básica para usarla en RMarkdown.

Para minería de texto en R

Este curso está construido con base en siguientes materiales:

Repositorios de bases de datos

Algunas bases de datos de texto que pueden usar.

Awesome Public Datasets

Calendario de sesiones

Sesión 1: Introducción a la tokenización y manipulación de cadenas de texto
Temas:
- Breve repaso al uso de tidyverse yal IDE RStudio
- ¿Qué es la minería de texto y por qué se dice que se trata de datos "no estructurados"?
- En busca de la imperfección: ¿por qué la minería de texto es indefectiblemente imperfecta?
- ¿Qué tipo de patrones buscamos en el llamado lenguaje natural?
- ¿Qué es un corpus y por qué usarlo?
- Breve introducción a las expresiones regulares
- Búsquedas y filtros simples con Base R y con stringr
- Manipulaciones simples con Base R y con stringr
Sesión 2: Introducción al análisis de texto
- Temas:
  - N-gramas: la relación entre palabras
  - Frecuencias de palabras: ¿cómo obtenerlas y qué tan útiles son?
  - La ley de Zipf o de cómo limpiar palabras "vacías"
  - La "importancia" de las palabras: ¿cómo obtener y para qué sirve el tf-idf de un texto?
  - Uso de visualización de datos bajo en enfoque de la "gramática de gráficas" (gg).
Sesión 3: Análisis de sentimientos
- Temas:
  - Diccionarios de sentimientos
  - Las limitaciones del análisis de sentimientos
  - Las limitaciones del análisis de sentimientos en español
  - Gráficas de dispersión léxica
  - Visualización de nubes con sentimientos y otras geometrías.
Sesión 4: Modelaje de tópicos
- Temas:
  - Gentil introducción a la Distribución Latente de Dirichlet (LDA)
  - Clasificación de entidades por su categoría gramatical
  - Clasificación supervisada de palabras
  - Análisis de correspondencia

Sobre el instructor

Mi nombre es Manuel Toral, actualmente trabajo con datos judiciales para el análisis de la política pública del Poder Judicial, fui investigador especializado en datos en Mexicanos Contra la Corrupción y la Impunidad. Estudié Política Pública en la Escuela Harris de la Universidad de Chicago y Ciencia Política y Relaciones Internacionales en el Centro de Investigación y Docencia Económicas. Como instuctor en R, soy parte del directorio de instructores de RStudio, aquí puedes ver mi perfil.

Llevo 5 años usando R de manera profesional en una diversidad de proyectos de corte inmobiliario, análisis de grandes cantidades de datos, seguridad, justicia y, actualmente, en corrupción, transparencia y combate a la impunidad en México. Puedes ver algo de mis últimos trabajos de investigación con datos en el blog Desarmando la Corrupción de MCCI en alianza con la revista Nexos.

Como docente en R, he sido el experto residente de la Escuela Harris de la Universidad de Chicago, en la que dirgí la "STATA and R Bar", que asesoraba en el uso de estas herramientas a alumnos de maestría y doctorado. En 2017, fui contratado por la Unidad de Investigación Aplicada de MCCI para capacitar a sus integrantes en el uso de R, equipo al que finalmente me integré como investigador y del que fui parte hasta 2018. Actualmente, hago investigación con datos judiciales para instituciones públicas.

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
EjerciciosClases		EjerciciosClases
Sesion_1		Sesion_1
Sesion_2		Sesion_2
Sesion_3		Sesion_3
Sesion_4		Sesion_4
.gitignore		.gitignore
Curso_Virtual_Text_Mining.Rproj		Curso_Virtual_Text_Mining.Rproj
README.md		README.md
_config.yml		_config.yml
comparacion.png		comparacion.png
lexico_afinn.en.es.csv		lexico_afinn.en.es.csv
scrip_s4.R		scrip_s4.R

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Curso Virtual de Text Mining

Sobre este repositorio

Objetivo del curso

Requisitos

Para resolver (y buscar dudas)

RMarkdown y otras herramientas

Para minería de texto en R

Repositorios de bases de datos

Calendario de sesiones

Sobre el instructor

About

Releases

Packages

Languages

nerudista/Curso_Virtual_Text_Mining

Folders and files

Latest commit

History

Repository files navigation

Curso Virtual de Text Mining

Sobre este repositorio

Objetivo del curso

Requisitos

Para resolver (y buscar dudas)

RMarkdown y otras herramientas

Para minería de texto en R

Repositorios de bases de datos

Calendario de sesiones

Sobre el instructor

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages