'Codificación y etiquetado en los corpus de aprendices y su aplicación didáctica: la propuesta del Corpus de INterlegua Española de Aprendices Sinohablantes (CINEAS)'

Loading...
Thumbnail Image
Date
2020
Authors
Calero Fernández, Ma. ÁngelesCalero Fernández, Ma. Ángeles - ORCID ID
Serrano Zapata, MaribelSerrano Zapata, Maribel - ORCID ID
Gómez Devís, M. Begoña
Other authors
Impact
Export
Share
Journal Title
Journal ISSN
Volume Title
Abstract
Partimos de la hipótesis de que los criterios con los que se diseña, se cataloga y se etiqueta un corpus lingüístico determinan las aplicaciones que dicho corpus podrá tener (Leech, 1993). En el caso de los corpus de aprendices, la codificación y el etiquetado marcará las investigaciones que podrán realizarse y la eventual explotación didáctica de los mismos. En esta comunicación se revisará la codificación y el etiquetado de distintos corpus escritos de aprendices de español como lengua extranjera (ELE), incluyendo el corpus para el análisis de errores de estudiantes sinohablantes que se está elaborando en la Universidad de Lleida en colaboración con la Universidad de Valencia, la Universidad de Salamanca y varias universidades chinas. El objetivo es evaluar la utilidad que tienen los sistemas de codificación y etiquetado empleados en los diferentes corpus analizados 1) para identificar los rasgos que caracterizan los distintos estadios de la interlengua de los aprendices de ELE y comprobar qué factores lingüísticos y extralingüísticos intervienen en su formación, estructura y progreso; y 2) para intervenir en el proceso de enseñanza-aprendizaje de una lengua extranjera. Rojo (2010: 13) señala la necesidad de que los investigadores conozcan las características y las posibilidades de explotación de los diferentes corpus 'para decidir cuál(es) se ajusta(n) mejor a lo que necesitan o qué estrategias deben utilizar para obtener los datos que precisan', y considera lógico que se elaboren trabajos comparativos que sirvan de ayuda complementaria para los lingüistas que pretendan utilizarlos. La información que permite entender qué contiene el corpus y qué se puede conseguir con él es qué tipo de textos incluye, cuál es la anotación no lingüística (codificación) que emplea, cuál la anotación lingüística (etiquetado) y cómo se recuperan los datos. Esta comunicación intenta cubrir una parte de esta información, en concreto la forma de codificar y etiquetar, que, sin embargo, depende del tipo de textos incluidos y condiciona qué datos se podrán finalmente recuperar. Todo ello se hace pensando no solo en destinatarios lingüistas, sino también en docentes de ELE y en aprendices de ELE. Referencias citadas: Leech, Geoffrey (1993). 'Corpus Annotation Schemes'. Literary and Linguistic Computing 8 (4): 275-281. Rojo, Guillermo (2010). Sobre codificación y explotación de corpus textuales: otra comparación del Corpus del Español con el CORDE y el CREA, Lingüística 24, 11-50.
Citation
DOI
Journal or Serie
E-Aesla. Revista digital de lingüística aplicada, 2020, núm. 6, p. 206-222