Skip to content

nerudista/Curso_Virtual_Text_Mining

 
 

Repository files navigation

Curso Virtual de Text Mining

Sobre este repositorio

En este repositorio podrán encontrar todo el material que utilizaremos en el curso. Se irá actualizando constanemente y podrán descargarlo si así lo desean o clonarlo por medio de GitHub.

Objetivo del curso

La idea de este curso virtual es la de mostrar algunas herramientas de análisis de texto. Desde su extracción hasta su presentación, pasando, naturalmente, por su análisis. Haciendo uso de las herramientas que provee el tidyverse y los paquetes tidytext, tm y quanteda. Asimismo, también tiene como objetivo visualizar y comunicar de manera efectiva los hallazgos de estas herramientas.

Requisitos

Sólo se necesitan tres cosas:

  1. Tener RStudio y R instalados en sus últimas veriones.

  2. Tener concimento básico de la sintaxis del tidyverse.

Para resolver (y buscar dudas)

RMarkdown y otras herramientas

En este curso se pretende que podamos presentar resultados en reportes profesionales y muy elegantes que puean ser leídos (y usados) por cualquiera. Así, usaremos Markdown "con sabor" a R para generar código y resultados.

Para minería de texto en R

Este curso está construido con base en siguientes materiales:

Repositorios de bases de datos

Algunas bases de datos de texto que pueden usar.

Calendario de sesiones

  • Sesión 1: Introducción a la tokenización y manipulación de cadenas de texto

  • Temas:

    • Breve repaso al uso de tidyverse yal IDE RStudio
    • ¿Qué es la minería de texto y por qué se dice que se trata de datos "no estructurados"?
    • En busca de la imperfección: ¿por qué la minería de texto es indefectiblemente imperfecta?
    • ¿Qué tipo de patrones buscamos en el llamado lenguaje natural?
    • ¿Qué es un corpus y por qué usarlo?
    • Breve introducción a las expresiones regulares
    • Búsquedas y filtros simples con Base R y con stringr
    • Manipulaciones simples con Base R y con stringr
  • Sesión 2: Introducción al análisis de texto

    • Temas:
      • N-gramas: la relación entre palabras
      • Frecuencias de palabras: ¿cómo obtenerlas y qué tan útiles son?
      • La ley de Zipf o de cómo limpiar palabras "vacías"
      • La "importancia" de las palabras: ¿cómo obtener y para qué sirve el tf-idf de un texto?
      • Uso de visualización de datos bajo en enfoque de la "gramática de gráficas" (gg).
  • Sesión 3: Análisis de sentimientos

    • Temas:
      • Diccionarios de sentimientos
      • Las limitaciones del análisis de sentimientos
      • Las limitaciones del análisis de sentimientos en español
      • Gráficas de dispersión léxica
      • Visualización de nubes con sentimientos y otras geometrías.
  • Sesión 4: Modelaje de tópicos

    • Temas:
      • Gentil introducción a la Distribución Latente de Dirichlet (LDA)
      • Clasificación de entidades por su categoría gramatical
      • Clasificación supervisada de palabras
      • Análisis de correspondencia

Sobre el instructor

Mi nombre es Manuel Toral, actualmente trabajo con datos judiciales para el análisis de la política pública del Poder Judicial, fui investigador especializado en datos en Mexicanos Contra la Corrupción y la Impunidad. Estudié Política Pública en la Escuela Harris de la Universidad de Chicago y Ciencia Política y Relaciones Internacionales en el Centro de Investigación y Docencia Económicas. Como instuctor en R, soy parte del directorio de instructores de RStudio, aquí puedes ver mi perfil.

Llevo 5 años usando R de manera profesional en una diversidad de proyectos de corte inmobiliario, análisis de grandes cantidades de datos, seguridad, justicia y, actualmente, en corrupción, transparencia y combate a la impunidad en México. Puedes ver algo de mis últimos trabajos de investigación con datos en el blog Desarmando la Corrupción de MCCI en alianza con la revista Nexos.

Como docente en R, he sido el experto residente de la Escuela Harris de la Universidad de Chicago, en la que dirgí la "STATA and R Bar", que asesoraba en el uso de estas herramientas a alumnos de maestría y doctorado. En 2017, fui contratado por la Unidad de Investigación Aplicada de MCCI para capacitar a sus integrantes en el uso de R, equipo al que finalmente me integré como investigador y del que fui parte hasta 2018. Actualmente, hago investigación con datos judiciales para instituciones públicas.

About

Apuntes del curso de Text Mining

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • R 100.0%