El corpus incluye las muestras junto con su correspondiente transcripción y la fecha de aparición en las redes sociales o plataformas digitales. En los casos en que la ortografía original se aparta de la norma vigente, se ofrece además una transcripción normalizada, elaborada de acuerdo con las normas generales actuales de escritura del español.
Cada muestra del corpus cuenta con un código identificador único, que permite su clasificación atendiendo a distintos criterios:
- el formato original de la muestra (1 = imagen; 2 = vídeo; 3 = GIF; 4 = texto; 5 = multiformato; o = otros);
- la red social o plataforma de procedencia (1 = X/Twitter; 2 = Facebook; 3 = Instagram; 4 = YouTube; 5 = TikTok; 6 = Reddit; 7 = WhatsApp; 8 = Bluesky; 9 = Tumblr; 0 = otros);
- origen (ES = España; MX = México; AR = Argentina, etc.) de la cuenta / página de donde se obtiene la muestra;
- y el número de identificación dentro del corpus. Por ejemplo, el código 00027_ES_MEME_1_2 corresponde a la muestra número 27 de Humnet, clasificada como un meme, en formato imagen (1), publicado en Facebook (2) y procedente de España.