Archive for hlt

ITZULPENGINTZA AUTOMATIKOA (Q.3)

Gaur egun gizarte guztiz eleanitzean bizi garenez, gero eta garrantzitsuagoa da hizkuntza desberdinak ezagutu eta menperatzea beste herrialdeetako jendearekin harremanetan jartzeko. Hainbat aditu bat dator baieztatzean Europako hizkuntza ez dela ingelesa, ezta frantsesa edo alemana, itzulpengintza baizik. Horregatik,  azken galdeketari amaiera emateko, hona hemen aspaldian hain garrantzitsua bihurtu den itzulpengintza automatikoaren gaineko artikulua:

Itzulpengintza automatikoa linguistika konputazionalaren eremuetako bat da eta software-aren erabilerak ditu aztergai lengoaia naturalen arteko itzulpenak egin ahal izateko. Bere xede nagusia itzulpen arin eta merkeak lortzea da. Itzulpengintza antzinateko kontua dugu; betidanik existitu izan da hizkuntza desberdinak itzultzeko nahia. Era berean, itzulpengintzaren automatizazioa amets bat izan da linguista eta informazio-teknologo askorentzat. Horren inguruko ikerketak 50eko hamarkadan hasi ziren, 1947an Warren Weaver matematikari amerikarrararen itzulpengintza automatikorako ideia garatuz.

Ahaleginak ahalegin, itzulpengintza automatikoa ez da zientzia zehatza eta, askotan, itzulpenak ez dira oso onak izaten. Hainbat arazo dago oraindik konpontzeko, esate baterako, anbiguotasun lexikala, sintaktikoa, semantikoa eta pragmatikoa. Adibide gisa, gaur egun ditugun sistema batzuk erabili ditut bi abesti hauen letra zati bat itzultzeko:

*Total Eclipse of the Heart, Bonnie Tyler (1983), PROMT Translator (ingelesa-gaztelania) erabiliz:

“And I need you now tonight
And I need you more than ever
And if you’ll only hold me tight
We’ll be holding on forever
And we’ll only be making it right
‘Cause we’ll never be wrong together”

“Y le necesito ahora esta noche
Y le necesito más que alguna vez
Y si usted sólo me sostendrá apretado
Nos agarraremos para siempre
Y sólo lo haremos derecho
Causa nunca estaremos equivocados juntos”

*Corazón de tango, Doctor Deseo (1992), OpenTrad (gaztelania-euskara) erabiliz:

“Vamos a engañarnos y dime, mi cielo,
que esto va durar siempre
perderme en tus brazos, dulce locura,
tú mi droga más dura”

“Engainatzera goaz eta dimir-tzen du, nire zerua,
Hau irautea doala beti
Zure besoetan erotasun gozoa, galdu,
Nire droga gogor gehiago.Zu”

Iturriak:

Leave a Comment

GALDERA-ERANTZUN SISTEMAK (Q.3)

Ingelesez Question Answering (QA) izenaz ezagutzen diren sistema hauek informazioa aurkitzeko eta berreskuratzeko baliagarriak dira. Dokumentu kantitate zehatza emanda (World Wide Web-a, adibidez) sistema hauek gai dira lengoaia naturalean proposatutako galdera zehatz batzuei erantzuna emateko. Galdera-erantzun sistemek bestelako sistemak baino teknologia konplexuagoak eskatzen dituzte Lengoaia Naturalen Prozesamenduei dagokienez. Sistema hauek prozedura bi jarraitzen dute: lehena galdera ulertzea da eta bigarrena, erantzun egokia bilatzea. Mota askotako galdekizunak biltzen dituzte, horien artean, zerrendak, definizioak, Zelan, Noiz, Non, Zergatik, e.a.

60ko hamarkadan hasi ziren galdera-sistemak garatzen eta bi hauek dira garai hartako ezagunenak: BASEBALL-a, Estatu Batuetako baseball jokalariei buruzko itaunak erantzuten zituena, eta LUNAR-a, Apollok ilargira egindako bidaiatik ekarri zituen arroken azterketa geologikoaren inguruko galderak erantzuteko prestatua.

Gaur egun erabiltzen diren galdera-erantzun sistemetako bat dugu STAR Natural Language Question Answering System-a, 1993tik aurrera etengabe martxan aritu dena. Sistema honen xede nagusia informazio zehatza ematea da, zerrenda soila proportzionatu beharrean. Egun, ingelesez egindako milaka galdera erantzun ditzake STAR sistemak, leku (hiriak, herriak, lakuak, koordenatuak, etab.), filme (izenburuak, antzezleak, zuzendariak, etab.), hiztegietako definizioak, eta abar luze batekin lotutakoak. TREC Question Answering Collection-a da mota honetako beste sistema bat, 1999an sortua. Helburu nagusia testu desberdinetako hainbat zati biltzeko sistema bat definitzea zen, alor zabal bati edota galdera itxi batzuei buruzko erantzuna izango zutena.

Iturriak:

Leave a Comment

OPENPHONE (Q.2)

Openphone delakoaren helburua edozein ordenagailuk telefono baten moduan funtzionatzea lortzea da. Ordenagailu bat gai bada Web-ean sartzeko eta Interneteko irratietatik musika entzuteko, telefono deiak egin eta jasotzeko gai izan beharko luke era berean.

Afrikako Meraka Institute da OpenPhone-aren inguruko ikerketetan aritu izan den zentro bat eta beren beharretara moldatu egin dituzte sistema honen erabilerak. Hau da proiektu honi buruz diotena: “2008an arrakasta handiz bukatua, OpenPhone Proiektuak frogatu egin zuen telefonian oinarritutako informazio zerbitzuen erabilgarritasuna nekazal inguruetan osasun informazioa eskaintzeko. Botswana-ko Baylor Children’s Clinical Centre of Excellence eta Botswana-ko Unibertsitatearen laguntzarekin, sistema bat garatu egin zen Gabarone inguruan bizi diren eta VIH birusa duten umeak zaintzen dituztenei osasun informazioa helduarazteko. OpenPhone proiektuak Text-to-Speech (TTS) eta Automatic Speech Recognition (ASR) sistemak biltzen ditu. Gaur egungo sistemak posible egiten du gaixotutako ume horien zaintzaileei laguntza eskainiko dien linea telefoniko bat existitzea; horrela, momentuan momentuko galderak eta zalantzak argitu ahal izango dituzte (esaterako, zer gertatuko litzateke medikazioa orduan hartuko ez balitz). Gaiak ohiko egoeretara mugatzen dira”.

Iturriak:

Leave a Comment

PARSING ETA TAGGING (Q.2)

Bigarren galdeketarekin jarraitzeko, HLT-aren inguruko beste ikerketa gai bi labur azalduko dizkizuet: parsing-a eta tagging-a.

Batik bat, informatika arloan eta hizkuntzalaritzan erabiltzen den terminoa dugu parsing-a, sintaxiaren azterketa izenaz ere ezagutua. Prozesu honen bidez token sekuentzia bat, hau da, programazio lengoaia batzuetan esanahi koherentea duen karaktere katea (hitz gakoak, zenbakiak, zeinuak, etab.) edo karakterizatutako testu blokea, analizatu egiten da bere egitura gramatikala aurretik emandako gramatika formal batean zehazteko. Paser-a da ekintza hori burutzen duen konputazio programa eta bi motatakoa izan daiteke: top-down eta bottom-up.

Heriot Watt Unibertsitatean irakasle den Alison Cawsey-ren arabera parsing-a garrantzia handikoa da programa informatikoen prozesamendurako. Izan ere, programa informatiko orok azterketa bat behar du sintaktikoki zuzena den baieztatzeko. Era berean, parsing-a beharrezkoa da lengoaia naturalen interpretaziorako.

Tag edo etiketa XML-an oinarritutako markaketa lengoaietan sail berezi bat finkatzen duena da, eta finkapen prozesu horri tagging deritzogu. World Wide Web-aren sorrerarekin batera etiketak etengabe erabiltzen hasi ziren. Hauek dira HTML-an agertzen diren etiketetako batzuk:

  1. <title>: dokumentu baten izenburua ematen du.
  2. <!DOCTYPE>: dokumentu mota zehazten du.
  3. <big>: tamaina handiko testua.
  4. <dl>: lista bat definitzen du.
  5. <img>: irudi bat txertatzen du.
  6. <p>: paragrafo bat definitzen du.
  7. <table>: taula bat txertatzen du.

Iturriak:

 

Leave a Comment

ADIMEN ARTIFIZIALA (Q.2)

Eragile arrazional ez bizidunen garapenean jarduten duen informatikaren arloari deritzogu adimen artifiziala, edo beste era batera esanda, ordenagailuak izaki bizidunen prozesu arrazional eta deduktiboak burutu ditzaten saiatzen den arloa da. Bere sorreratik bost hamarkada igaro badira ere, alor honetan egindako garapenak motelak eta urriak izan dira Jack Copeland-en ustetan. Adimen artifizialaren ikerketak adimenaren ezaugarri hauetan oinarritu izan dira batez ere: ikasketa, arrazoiketa, arazo-konponbideak, pertzepzioa eta lengoaiaren ulermena.

Orohar, adimen artifiziala bi pentsamendu-eskolatan banatzen da: adimen artifizial konbentzionala, arazo desberdinen aurrean giza jarreraren azterketa formal eta estatistikoan oinarritzen dena, eta adimen konputazionala, garapen edo ikaskuntza interaktiboarekin zerikusia duena.

Gizakia betidanik ahalegindu izan da izaki bizidunen ezaugarriren bat (adimena, bereziki) berdinduko duen tresna bat asmatzen. Grekoak izan ziren, batez ere Alexandriar garaian, era guztietako mekanismo automatikoak asmatu zituztenak. Horien bitartez, giza mugimendu naturalak imita zitezkeen, adibidez. Gerora, aurrerapen gehiago eman dira, esate baterako, 1950ean Carnegie Mellon Unibertsitateko laborategian Allen Newell-ek eta Herbert Simon-ek adimen artifiziala lortzeko egindako lehen saiakerak edota 1959an John McCarthy-k eta Marvin Minsky-k Adimen Artifiziala Laborategian burututako hainbat lan.

Azkenik, honako hau da Rodney Brooks-ek dioena: “adimen artifizialak porrot egin duela uste dute askok, baina egunean egunean adimen artifizialaren zantzu bat aurki dezakegu gure inguruan. Gure autoetan AA sistemak daude, baita hegazkinetan ere. Microsoft software-aren zati bat erabiltzen dugun guztietan AA sistema bat gure ekintzak kalkulatzen saiatzen da, eta bideo-joko batekin jolasten dugunean, AA sistema baten aurka jokatzen ari gara”.

 Iturriak:

Leave a Comment

GAIEN ZERRENDA (Q.2)

Hauek dira giza lengoaiaren teknologiei buruzko zentroek ikertzen dituzten hainbat gai:

  1. Itzulpengintza automatikoa.
  2. Adimen artifiziala.
  3. Plataforma eleanitza.
  4. Informazio kognitiboaren prozesamendua.
  5. Web semantikoa.
  6. Linguistika konputazionala eta lengoaiaren teknologiarako aplikazioak.
  7. Lengoaia naturalaren prozesamendua.
  8. Openphone.
  9. Hizlariaren eta lengoaiaren identifikazioa.
  10. Parsing-a eta tagging-a.

Iturriak:

Leave a Comment

IKERKETA ZENTROAK (Q.1)

Lehenengo galdeketarekin bukatzeko, hona hemen giza lengoaiaren teknologiei buruzko ikerketak egiten dituzten zenbait zentro:

Euskadin, IXA Taldea aurkitzen dugu. Talde hau 1987an sortu zen eta bere helburu nagusia lengoaia naturalaren prozesamenduaren gainean ikerketak egitea da. Horrez gain, sistema erdi automatikoak egin edo egiten laguntzen dute, euskararentzat beharrezkoak eta onuragarriak direnak.

Alemanian, Language Technology Lab. DFKI LT (German Research Center for Artificial Intelligence) dago. Hauek lengoaiaren teknologiaren garapenean dabiltza lanean, testu, mintzaira eta jakituria teknika konputazional berrien bidez prozesatzeko.

Eskozian, Language Technology Group aurkitzen da. 1990. urtean eratutako talde honek lengoaia naturalaren prozesamenduari lotutako ikerketak burutu ditu gehienbat. Testuen prozesamenduan gauza daitezkeen benetako arazoei konponbidea ematen saiatzen dira. Talde hau Edinburgoko Unibertsitateko Institute for Communicating and Collaborative Systems-en zati da, lengoaia naturalaren prozesamendurako Europako komunitaterik handienetarikoa.

 Stanforden, The Stanford Natural Language Processing Group dago. Talde honetan unibertsitateko irakasleek zein ikasleek elkarrekin lan egiten dute. Beraien lanaren bitartez ordenagailuak giza lengoaia prozesatu eta ulertzeko gai izatea nahi dute.

 Iturriak:

Leave a Comment

MARTIN KAY ETA YORICK WILKS (Q.1)

Aurreko artikuluan zenbait adituk giza lengoaiaren teknologiei buruz duten ikuspegiaz aritu nintzen, eta oraingoan  alor horretan jardun duten beste bi gizon aurkeztuko dizkizuet:

Alde batetik, Martin Kay dugu. Hizkuntzalaritza konputazionalean egindako lanagatik ezaguna da zientzialari hau (Wikipediaren arabera, hizkuntzalaritza konputazionala giza lengoaia ikertzeko informatika erabiltzen duen arloa da; horretarako, ikuspegi konputazional batetik abiatzen da lengoaia naturala modelatzeko ahalegina eginez. Hizkuntzalaritza konputazionalak itzulpengintza automatikoa, ordenagailu bidezko corpus linguistikoa eta etiketatzaile berezi batzuen diseinua ditu aztergai besteak beste). Britainia Handian jaio eta hazitako gizon honek hizkuntzalaritza konputazionalean aitzindaria den Cambridge Language Research Unit-ean lan egin du, baita Kaliforniako Rand Corporation-ean ere, bertako itzulpengintza automatikoari buruzko ikerketen buru bihurtuz. Geroago, Kalifornia, Stanford eta Saarland-eko Unibertsitateetan aritu da. Bere ekarpenak garrantzia handikoak izan dira, batez ere linguistikaren bateratze funtzionalaren nozioa eta hizkuntzalaritza konputazionalean txertatutako chart parsing-a.

 Beste aldetik, Yorick Wilks aurkitzen dugu, 1939an jaioa. Bere lana lengoaia naturalen prozesamenduari lotuta egon da batik bat (Wikipediak dioenez, LNP adimen artifizialaren barnean kokatzen da eta lengoaia naturalen bidezko pertsona eta makinen arteko komunikaziorako mekanismo konputazionalen ikerketaz arduratzen da). Wilks-ek Sheffield eta Oxford-eko Unibertsitateetan lan egiten du. Bere ekarpenen artean garrantzitsuenetarikoa 70eko hamarkadan eginiko “Preference Semantics” izenekoa da. Metodo algoritmiko honek esaldi bati interpretazio koherenteena emateko aukera ematen du.

Iturriak:

Leave a Comment

GIZA LENGOAIAREN TEKNOLOGIAK (Q.1)

Artikulu honen bitartez lehenengo galdeketan proposatutakoari erantzuna ematen ahaleginduko naiz: zer dira giza lengoaiaren teknologiak? Iturri desberdinetara jo eta hainbat adituren idatziekin topo egin ondoren, honako hau da aurkitu dudana: 

Bartzelonako Unibertsitateko Joaquim Llisterriren arabera, lengoaiaren teknologiak edo teknologia linguistikoak izenekin ere ezagutuak, giza lengoaiaren teknologiak aplikazio informatikoetan integratuta aurkitzen ditugun guztiak dira. Hauek posible egiten dute testu idatzien tratamendua (itzulpengintza automatikoa edo zuzenketa ortografikoaren kasuan, esaterako) eta hizketaren prozesamendua (diktaketa automatikorako beharrezkoa, adibidez).

Hans Uszkoreit-ek dioenaren arabera, lengoaiaren teknologiak metodo konputazionalak hartzen ditu bere baitan, azterketarako eginda dauden ordenagailu programak eta tresna elektronikoak, hain zuzen ere. Horien bidez posible da testuak eta diskurtsoak sortu edo aldatzea.

Bukatzeko, Meraka Institutoak (African Advanced Institute for Information & Communication Technology) dio giza lengoaiaren teknologiei esker errezagoa egiten zaigula gizakioi makinekin elkarrekintzatzea. Hauen ustetan, onuragarria izan daiteke hori guztia jende askorentzat, mugikorraren bidez medikuntzari buruzko informazioa jaso nahi duen baserritarretik hasita, ordenagailuen arazo-konponbideetan aritu nahi duen zientzialarira arte.

Iturriak:

Leave a Comment