MARKAKETA LENGOAIAK

Markaketa lengoaiak lengoaia informatikoak dira, testuen egitura, itxura eta formatua adierazteko markak edo etiketak erabiltzen dituztenak. Testuaren jatorrizko edukiari funtzio edo esanahi jakin bat duten testu etiketak gehitzen dizkiote eta, era honetan, programa informatikoak modu egokian interpretatu eta agertzen dira. Hauek dira markaketa lengoaien aurrekariak:

  1. Scribe: markaketa deskriptiboa bideratu zuen lengoaia da, Brian Reid informatikariak garatua. Sortu zenean itzelezko iraultza suposatu zuen, lehenengo aldiz argi banatu baitziren edukia eta formatua. Scribe-k ondoren etorri diren sistemetan eragina izan du.
  2. TeX: Donald Knuth informatikariak garatutako tipografia sistema bat da. Eremu akademikoan asko erabiltzen da, matematikari, fisikari eta informatikarien artean bereziki. Software aske, partekatu eta kalitate handikoaren sinonimotzat hartu izan dute askok.
  3. LaTex: Leslie Lamport informatikariak garatu zuen testuen konposaketa sistema bat da. Artikulu akademiko, tesi eta liburu teknikoen osaketarako asko erabiltzen da. Aginduak bidaltzen ditu letra motak sinplifikatzeko eta  erabiltzailea testuaren egituran (eta ez formatuan) kontzentratu dadin.
  4. BibTeX: erreferentzia zerrenda bati formatua emateko erabiltzen den erreminta da. Informazio bibliografikoa honen aurkezpenetik bereizi egiten du; horrela, erraztu egiten da erreferentzi bibliografikoen eraketa. Oren Patashnik-ek eta Leslie Lamport-ek garatu zuten.
  5. GML (Generalized Markup Language): etiketen oinarriari aplikatzen zaien azalpen multzoa da. Kapituluak, atal garrantzitsuak, paragrafoak, zerrendak, taulak, e.a. deskribatzeko balio du.
  6. SGML (Standard Generalized Markup Language): dokumentuen antolaketa eta etiketatzerako sistema da.

Egun, HTML-a (Hyper Text Marcup Language) da markaketa lengoaiarik ezagunenetarikoa, web orrialdeak egiteko sortua. Honen helburuetako bat informazioa egituratzea da. Markaketa lengoaia honez gain, XML-a (eXtensible Marcup Language) ere badugu, HTML-ak zituen gabeziak gainditzeko asmoz sortua. Lengoaia hedagarri honek erabiltzaileei euren elementuak sortzeko aukera ematen die, eta egituratutako datuak informazio sistema desberdinetan partekatzea du helburu.  HTML-ak datuak erakusteko balio duen bitartean, XML-ak datuak deskribatzen ditu. Aipatutako markaketa lengoaia bi horien batuketaren ondoria da XHTML deritzoguna (eXtensible Hyper Text Marcup Language). Web orrialdetarako estandar gisa HTML-a ordezkatzeko sortu zen, garatuagoa baitago eta egitura zorrotzagoa baitu. Gainera, XML-aren erreminta ugari erabiltzen du.

Iturriak:

Leave a Comment

HEDATUZ LIBURUTEGI DIGITALA

Hedatuz dugu euskal zientzia eta kulturaren liburutegi digitala. Bertan 1918tik aurrera argitaratu diren monografiak eta artikuluak aurki ditzakegu, baita 1907tik RIEV aldizkariaren zenbaki guztiak ere.

Euskomedia (Eusko Ikaskuntzaren fundazioa, 2002ko otsailaren 18an sortua) da proiektu honen bultzatzailea. Beraien web orrialdean ondo azaltzen dute zein den Euskomediaren xede nagusia: “Eusko Ikaskuntzak eta kanpoko lagunek sortu eduki zientifiko eta kulturalak baliabide telematikoen bitartez zabaltzea da, euskal kultura eta gizarteaz interesa duten pertsonentzat baliagarriak izango direlakoan”.

Hedatuzen aurki ditzakegun artikuluak 5.000 baino gehiago dira, eta gai nagusi hauek jorratzen dira batik bat: historia, antropologia, artea, politika zientziak, soziologia eta hizkuntzalaritza. Kontsultak urtearen arabera egin daitezke (1907tik 2007ra) edota gaiaren arabera (20 gai eta 83 azpigai).

Webgune hau EPrints 3 izeneko software librean oinarritzen da. Software hau Ingalaterrako Southampton Unibertsitateko Elektronika eta Konputazio Zientzietako Eskolak sortu zuen. Hedatuzeko erabiltzaileak ATOM eta RSS erabiltzen ditu harpidetza egiteko. Gainera, egindako bilaketak ondorengo formatu hauetara esporta ditzake: ASCII Citation, BibTeX, Dublin Core, EP3 XML, EndNote, METS, MODS, OpenURL ContextObject, Refer eta Reference Manager.

Azkenik, eskuragarri dauden artikuluetatik hauek iruditu zaizkit interesgarrienak: lehen aipatutako RIEV aldizkariko artikulu guztiak eta Euskomediak eskaintzen duen Leizarragaren Testamentu Berriaren inguruko lana.

Iturriak:

Leave a Comment

PAPEREZKO LIBURUAK ETA LIBURU ELEKTRONIKOAK: DESBERDINTASUNAK

Azken urteetan eman den iraultza teknologikoak errotik aldatu du gure gizartea. Pixkanaka-pixkanaka ohitzen goaz teknologiaz inguratuta bizitzera, gure bizimoduaren alor guztietara hedatu baita. Aldaezinak ziruditen liburuak ere modernizatu egin dira dagoeneko: edizio mundua astindu duten liburu elektronikoak (edo ebook-ak) ditugu eskuragarri gaur egun. Zertan desberdintzen dira liburu mota berri hauek paperezkoetatik?

Liburu elektronikoa paperezko liburu baten bertsio digitala da. Askotan idazleek arazoak izaten dituzte paperezko liburuak argitaratzeko eta modu errazagoa da era elektronikoan egitea. Ebook-ak hainbat abantaila ditu, hala nola praktikotasuna, ekonomikoa izatea, baita dinamikoa eta bizkorra ere (itzulpenak, aukeraketak, e.a. egiteko gai da). Liburu elektronikoa liburu baten bertsio digitalaz gain berau irakurtzeko euskarria ere bada eta aparatu honek ere baditu bere alde onak, esate baterako, kontsultarako eta ikerketarako baliogarria izan daiteke eta informazio iturri ere bada.

Paperezko liburuak dituen abantailak ere ugariak dira: erabilterraza da, irakurketarako, aisirako eta ikasketetarako baliagarria, instrumentu hutsa baino gehiago balio patrimoniala duen objektua da, etab. Liburu elektronikoekin alderatuz gero, paperezkoak estatikoak eta pasiboak dira.

Bukatzeko, inprimatze kontuei erreparatuz, esan daiteke liburu elektronikoek paperezkoek baino erraztasun gehiago eskaintzen dituztela. Eskaeraren arabera argitaratzen duten editoreek eskaintza interneten jartzen dute lehendabizi eta horrela ez dute zailtasunik izaten argitaratu beharreko kopuruekin. Inprimatze digitalarekin bi arazo saihesten dira: itzulerek eragindako galera ekonomikoak eta deskatalogazioa (liburuek interneten jarraitzen baitute ikusgai).

Iturriak:

Leave a Comment

AUTOREAREN IRUDIA

Gaur egun ezagutzen dugun autorearen irudia aldatuz joan da inprentaren sorreratik gaur egunera arte. Artikulu honen bidez aldaketa horien berri ematen eta sortutako zenbait arazo azaltzen saiatuko naiz.

María Jesús Lamarcak dionez, kultura klasikoan (kapitalismoaren sorrera baino lehen) autorearen irudia ez zegoen hain finkatuta. Oso arrunta zen garai hartako gizartean besteen testuen erabilpena eta ekoizpena. Horrela sortu ziren, esate baterako, hainbat erlijiotako liburu sakratuak, Homeroren lanak; hor ditugu baita ere Shakespeare-ren obren plagioak, James Joyce-ren liburuetan aurkitzen diren beste autoreen testuak e.a. Denborarekin, autorearen irudia indartuz joan zen, honen subiranotasuna onartuz. Autorearen irudiak bi kontzeptu zeramatzan itsatsirik: testuaren finkapena eta jabetza materiala.

Hipertestuaren sorrerak hankaz gora jarri ditu orain arteko autorearen irudia eta autoretza kontzeptua. Mila gauza egin dezakegu Web-ean aurkitzen dugunarekin: ikusi, zerbait gehitu, kopiatu, bererabili eta beste testu batzuekin nahastu, etab. Informazioa Web-ean jartzen denean gizarteratu eta bere kontrola galdu egiten dugu. Idatzi duguna jadanik ez da gurea soilik.

Hainbat idazle jabetza intelektualaren aldekoak dira, baina badago kontra agertu denik ere. Rafael Sánchez Ferlosio horietako bat da. Honen arabera, idazleen idatziak eremu publikokoak dira eta beraien helburu nagusia izkiriatu dutena ahalik eta jente gehiagori helaraztea izan beharko litzateke, eta ez dirua irabaztea. World Wide Web-aren sortzailea den Tim Berners-Lee-k ere antzeko aldarria egin du. Bere ustez, diru publikoak finantzatutako ikerketa zientifikoen inguruko dokumentuek Interneten bidezko hedapena izan behar dute eta mundu guztiarentzat zabalik egon beharko lukete.

Iturriak:

Leave a Comment

ITZULPENGINTZA AUTOMATIKOA (Q.3)

Gaur egun gizarte guztiz eleanitzean bizi garenez, gero eta garrantzitsuagoa da hizkuntza desberdinak ezagutu eta menperatzea beste herrialdeetako jendearekin harremanetan jartzeko. Hainbat aditu bat dator baieztatzean Europako hizkuntza ez dela ingelesa, ezta frantsesa edo alemana, itzulpengintza baizik. Horregatik,  azken galdeketari amaiera emateko, hona hemen aspaldian hain garrantzitsua bihurtu den itzulpengintza automatikoaren gaineko artikulua:

Itzulpengintza automatikoa linguistika konputazionalaren eremuetako bat da eta software-aren erabilerak ditu aztergai lengoaia naturalen arteko itzulpenak egin ahal izateko. Bere xede nagusia itzulpen arin eta merkeak lortzea da. Itzulpengintza antzinateko kontua dugu; betidanik existitu izan da hizkuntza desberdinak itzultzeko nahia. Era berean, itzulpengintzaren automatizazioa amets bat izan da linguista eta informazio-teknologo askorentzat. Horren inguruko ikerketak 50eko hamarkadan hasi ziren, 1947an Warren Weaver matematikari amerikarrararen itzulpengintza automatikorako ideia garatuz.

Ahaleginak ahalegin, itzulpengintza automatikoa ez da zientzia zehatza eta, askotan, itzulpenak ez dira oso onak izaten. Hainbat arazo dago oraindik konpontzeko, esate baterako, anbiguotasun lexikala, sintaktikoa, semantikoa eta pragmatikoa. Adibide gisa, gaur egun ditugun sistema batzuk erabili ditut bi abesti hauen letra zati bat itzultzeko:

*Total Eclipse of the Heart, Bonnie Tyler (1983), PROMT Translator (ingelesa-gaztelania) erabiliz:

“And I need you now tonight
And I need you more than ever
And if you’ll only hold me tight
We’ll be holding on forever
And we’ll only be making it right
‘Cause we’ll never be wrong together”

“Y le necesito ahora esta noche
Y le necesito más que alguna vez
Y si usted sólo me sostendrá apretado
Nos agarraremos para siempre
Y sólo lo haremos derecho
Causa nunca estaremos equivocados juntos”

*Corazón de tango, Doctor Deseo (1992), OpenTrad (gaztelania-euskara) erabiliz:

“Vamos a engañarnos y dime, mi cielo,
que esto va durar siempre
perderme en tus brazos, dulce locura,
tú mi droga más dura”

“Engainatzera goaz eta dimir-tzen du, nire zerua,
Hau irautea doala beti
Zure besoetan erotasun gozoa, galdu,
Nire droga gogor gehiago.Zu”

Iturriak:

Leave a Comment

GALDERA-ERANTZUN SISTEMAK (Q.3)

Ingelesez Question Answering (QA) izenaz ezagutzen diren sistema hauek informazioa aurkitzeko eta berreskuratzeko baliagarriak dira. Dokumentu kantitate zehatza emanda (World Wide Web-a, adibidez) sistema hauek gai dira lengoaia naturalean proposatutako galdera zehatz batzuei erantzuna emateko. Galdera-erantzun sistemek bestelako sistemak baino teknologia konplexuagoak eskatzen dituzte Lengoaia Naturalen Prozesamenduei dagokienez. Sistema hauek prozedura bi jarraitzen dute: lehena galdera ulertzea da eta bigarrena, erantzun egokia bilatzea. Mota askotako galdekizunak biltzen dituzte, horien artean, zerrendak, definizioak, Zelan, Noiz, Non, Zergatik, e.a.

60ko hamarkadan hasi ziren galdera-sistemak garatzen eta bi hauek dira garai hartako ezagunenak: BASEBALL-a, Estatu Batuetako baseball jokalariei buruzko itaunak erantzuten zituena, eta LUNAR-a, Apollok ilargira egindako bidaiatik ekarri zituen arroken azterketa geologikoaren inguruko galderak erantzuteko prestatua.

Gaur egun erabiltzen diren galdera-erantzun sistemetako bat dugu STAR Natural Language Question Answering System-a, 1993tik aurrera etengabe martxan aritu dena. Sistema honen xede nagusia informazio zehatza ematea da, zerrenda soila proportzionatu beharrean. Egun, ingelesez egindako milaka galdera erantzun ditzake STAR sistemak, leku (hiriak, herriak, lakuak, koordenatuak, etab.), filme (izenburuak, antzezleak, zuzendariak, etab.), hiztegietako definizioak, eta abar luze batekin lotutakoak. TREC Question Answering Collection-a da mota honetako beste sistema bat, 1999an sortua. Helburu nagusia testu desberdinetako hainbat zati biltzeko sistema bat definitzea zen, alor zabal bati edota galdera itxi batzuei buruzko erantzuna izango zutena.

Iturriak:

Leave a Comment

OPENPHONE (Q.2)

Openphone delakoaren helburua edozein ordenagailuk telefono baten moduan funtzionatzea lortzea da. Ordenagailu bat gai bada Web-ean sartzeko eta Interneteko irratietatik musika entzuteko, telefono deiak egin eta jasotzeko gai izan beharko luke era berean.

Afrikako Meraka Institute da OpenPhone-aren inguruko ikerketetan aritu izan den zentro bat eta beren beharretara moldatu egin dituzte sistema honen erabilerak. Hau da proiektu honi buruz diotena: “2008an arrakasta handiz bukatua, OpenPhone Proiektuak frogatu egin zuen telefonian oinarritutako informazio zerbitzuen erabilgarritasuna nekazal inguruetan osasun informazioa eskaintzeko. Botswana-ko Baylor Children’s Clinical Centre of Excellence eta Botswana-ko Unibertsitatearen laguntzarekin, sistema bat garatu egin zen Gabarone inguruan bizi diren eta VIH birusa duten umeak zaintzen dituztenei osasun informazioa helduarazteko. OpenPhone proiektuak Text-to-Speech (TTS) eta Automatic Speech Recognition (ASR) sistemak biltzen ditu. Gaur egungo sistemak posible egiten du gaixotutako ume horien zaintzaileei laguntza eskainiko dien linea telefoniko bat existitzea; horrela, momentuan momentuko galderak eta zalantzak argitu ahal izango dituzte (esaterako, zer gertatuko litzateke medikazioa orduan hartuko ez balitz). Gaiak ohiko egoeretara mugatzen dira”.

Iturriak:

Leave a Comment

PARSING ETA TAGGING (Q.2)

Bigarren galdeketarekin jarraitzeko, HLT-aren inguruko beste ikerketa gai bi labur azalduko dizkizuet: parsing-a eta tagging-a.

Batik bat, informatika arloan eta hizkuntzalaritzan erabiltzen den terminoa dugu parsing-a, sintaxiaren azterketa izenaz ere ezagutua. Prozesu honen bidez token sekuentzia bat, hau da, programazio lengoaia batzuetan esanahi koherentea duen karaktere katea (hitz gakoak, zenbakiak, zeinuak, etab.) edo karakterizatutako testu blokea, analizatu egiten da bere egitura gramatikala aurretik emandako gramatika formal batean zehazteko. Paser-a da ekintza hori burutzen duen konputazio programa eta bi motatakoa izan daiteke: top-down eta bottom-up.

Heriot Watt Unibertsitatean irakasle den Alison Cawsey-ren arabera parsing-a garrantzia handikoa da programa informatikoen prozesamendurako. Izan ere, programa informatiko orok azterketa bat behar du sintaktikoki zuzena den baieztatzeko. Era berean, parsing-a beharrezkoa da lengoaia naturalen interpretaziorako.

Tag edo etiketa XML-an oinarritutako markaketa lengoaietan sail berezi bat finkatzen duena da, eta finkapen prozesu horri tagging deritzogu. World Wide Web-aren sorrerarekin batera etiketak etengabe erabiltzen hasi ziren. Hauek dira HTML-an agertzen diren etiketetako batzuk:

  1. <title>: dokumentu baten izenburua ematen du.
  2. <!DOCTYPE>: dokumentu mota zehazten du.
  3. <big>: tamaina handiko testua.
  4. <dl>: lista bat definitzen du.
  5. <img>: irudi bat txertatzen du.
  6. <p>: paragrafo bat definitzen du.
  7. <table>: taula bat txertatzen du.

Iturriak:

 

Leave a Comment

ADIMEN ARTIFIZIALA (Q.2)

Eragile arrazional ez bizidunen garapenean jarduten duen informatikaren arloari deritzogu adimen artifiziala, edo beste era batera esanda, ordenagailuak izaki bizidunen prozesu arrazional eta deduktiboak burutu ditzaten saiatzen den arloa da. Bere sorreratik bost hamarkada igaro badira ere, alor honetan egindako garapenak motelak eta urriak izan dira Jack Copeland-en ustetan. Adimen artifizialaren ikerketak adimenaren ezaugarri hauetan oinarritu izan dira batez ere: ikasketa, arrazoiketa, arazo-konponbideak, pertzepzioa eta lengoaiaren ulermena.

Orohar, adimen artifiziala bi pentsamendu-eskolatan banatzen da: adimen artifizial konbentzionala, arazo desberdinen aurrean giza jarreraren azterketa formal eta estatistikoan oinarritzen dena, eta adimen konputazionala, garapen edo ikaskuntza interaktiboarekin zerikusia duena.

Gizakia betidanik ahalegindu izan da izaki bizidunen ezaugarriren bat (adimena, bereziki) berdinduko duen tresna bat asmatzen. Grekoak izan ziren, batez ere Alexandriar garaian, era guztietako mekanismo automatikoak asmatu zituztenak. Horien bitartez, giza mugimendu naturalak imita zitezkeen, adibidez. Gerora, aurrerapen gehiago eman dira, esate baterako, 1950ean Carnegie Mellon Unibertsitateko laborategian Allen Newell-ek eta Herbert Simon-ek adimen artifiziala lortzeko egindako lehen saiakerak edota 1959an John McCarthy-k eta Marvin Minsky-k Adimen Artifiziala Laborategian burututako hainbat lan.

Azkenik, honako hau da Rodney Brooks-ek dioena: “adimen artifizialak porrot egin duela uste dute askok, baina egunean egunean adimen artifizialaren zantzu bat aurki dezakegu gure inguruan. Gure autoetan AA sistemak daude, baita hegazkinetan ere. Microsoft software-aren zati bat erabiltzen dugun guztietan AA sistema bat gure ekintzak kalkulatzen saiatzen da, eta bideo-joko batekin jolasten dugunean, AA sistema baten aurka jokatzen ari gara”.

 Iturriak:

Leave a Comment

GAIEN ZERRENDA (Q.2)

Hauek dira giza lengoaiaren teknologiei buruzko zentroek ikertzen dituzten hainbat gai:

  1. Itzulpengintza automatikoa.
  2. Adimen artifiziala.
  3. Plataforma eleanitza.
  4. Informazio kognitiboaren prozesamendua.
  5. Web semantikoa.
  6. Linguistika konputazionala eta lengoaiaren teknologiarako aplikazioak.
  7. Lengoaia naturalaren prozesamendua.
  8. Openphone.
  9. Hizlariaren eta lengoaiaren identifikazioa.
  10. Parsing-a eta tagging-a.

Iturriak:

Leave a Comment

Older Posts »