Tresna berri bat jarri du Euskaltzaindiak herritarron eskura: Euskararen Erreferentzia Corpusa. “Corpus orekatua, irekia eta kolektiboa da”, Andres Urrutia euskaltzainburuak corpusa aurkezteko Bilbon egindako agerraldian azaldu zuenez, eta erabiltzaileen eskura dago jada.
Zer da corpus bat?
Funtsean, corpus bat, testu bilduma handi bat da. Hizkuntza deskribatzeko eta ikertzeko baliazen da, hizkuntza-datuak eskaintzen baititu, lexikoari, morfoxintasiari eta semantikari dagokienez.
Hainbat corpus mota daude, eta erreferentzia corpusa da horietako bat. Zehazki, hizkuntzaren erabilerari erreparatzen dio, “hizkuntza baten garai zehatz baten erakusgarri ahalik eta xeheena eta, aldi berean, zabalena” izateko sortua, Miriam Urkia euskaltzain osoaren hitzetan.
Urteak daramatza euskaltzaindiak corpus ezberdinak sortzen eta lantzen. 1980ko hamarkadan aurkeztu zituzten Orotariko Euskal Hiztegiaren corpusa eta XX. Mendeko Euskararen Corpus Estatistikoa. Lexikoaren Behatokia tresna ere jarri zuten abian geroago, eta horiei esker garatu ditzake Euskaltzaindiak, besteak beste, hiztegigintzako goi-mailako lanak.
Euskararen Erreferentzia Corpusa: erabileraren isla
Euskararen Erreferentzia Corpusak, baina, euskararen egunean eguneko erabilerari begiratzen dio, eta horregatik, beti bilduko ditu azken 25. urteetako datuak. Corpus “handiagoa eta orekatugoa” da, eta hizkuntza-teknologiek ekarri dituzten erronka berriei erantzuten die.
Argitaratu berri duten lehenengo bertsio hau, 23.124 dokumentu, 154,21 milioi testu-hitz eta 129.817 lema desberdin biltzen ditu, lema, forma eta kategoria gramatikalen, zein gaia, euskalki edo erabilera-erregistroaren araberako bilaketak egiteko moduan sailkatuak.
Euskaltzaindiak adierazi duenez, corpusa sortzea “testu horien jabeak diren argitaletxe, erakunde eta komunikabideen eskuzabaltasuna gabe ezinezkoa litzateke.” Aiaraldea Komunikabideak, beste medio batzuekin batera, corpusa elikatzeko eduki digitalak eskaini dizkio Euskaltzaindiari.