User Tools

Site Tools


informatica:linux:diccionarios:catala

This is an old revision of the document!


Comandes:

Busca si una PARAULA existeix:

curl -s "https://dlc.iec.cat/Results?DecEntradaText=$PARAULA"|grep "1 registres"

Buscar per ID:

https://dlc.iec.cat/Results/PrintAccepcio?id=$ID

Descarreguem totes les paraules de https://dlc.iec.cat

Primer fem consulta de totes les paraules que comencen per unes lletres.

Aqui falten paraules, sobretot els femenins, com alesiada

Hem tronar alesiat que té l'id 0043250

Si busquem aquest id amb la comanda:

https://dlc.iec.cat/Results/PrintAccepcio?id=0043250

Ens dona:

<div id="Definition" class="resultDefinition"><h2 xmlns:fo="http://www.w3.org/1999/XSL/Format"><span class="title">alesiat </span><span class="title">-ada </span><br></h2><br xmlns:fo="http://www.w3.org/1999/XSL/Format"><span class="tagline" xmlns:fo="http://www.w3.org/1999/XSL/Format">adj.</span><span class="body" xmlns:fo="http://www.w3.org/1999/XSL/Format"> <span class="tip" onmouseover="doTooltip(event, ' [LC] ' )" onmouseout="hideTip()"> [LC] </span><span class="tip" onmouseover="doTooltip(event, ' [MD] ' )" onmouseout="hideTip()"> [MD] </span> </span><span class="body" xmlns:fo="http://www.w3.org/1999/XSL/Format">Espatllat, inutilitzat, en alguna part del cos. </span><span class="body" xmlns:fo="http://www.w3.org/1999/XSL/Format"><span class="italic">Estar nafrat o alesiat d’algun dels seus membres.</span></span></div>

Ens fixem en aquesta part:

<span class="title">alesiat </span><span class="title">-ada </span>

Al web surt així

amb aquesta consulta ens dona la segona part de la línia, la de “-ada”

grep 'id="Definition"' 0043250|sed -e 's/^.*title">\([^ ]*\).*$/\1/'
-ada

Amb això treiem la primera i la segona definició:

grep 'id="Definition"' 0043250|awk -F'class="title">|<' {'print $5'}
alesiat
grep 'id="Definition"' 0043250|awk -F'class="title">|<' {'print $8'}
alesiada

Busquem amb awk que el paràmetre $8 comenci per - i escribim la paraula, que es el paràmetre 5 i el sufix que es el 8

grep 'id="Definition"' *|awk -F'class="title">|<' '{if ( $8 ~ /^-/ ) printf $5$8"\n"}'

Ens dona una llista com aquesta:

romandalusí -ina 
reconegut -uda 
-nervi -nèrvia 
boreoalpí -ina 
galileà -ana 
glotalitzat -ada 
este -a 
morenc -a 

A partir d'aqui busquem patrons, per exemple:

este -a 
morenc -a 

Seria este/esta i morenc/morena en un trec una lletra i en un altre no. Poter es si la paraunla acava amb vocal

Treiem tots els sufixos:

grep 'id="Definition"' *|awk -F'class="title">|<' '{if ( $8 ~ /^-/ ) printf $8"\n"}'|sort | uniq

Treiem sufixos de sufixos, es a dir:

-adelf -adelfa 
-agog -agoga 
-àlgic -àlgica 
-àmbul -àmbula 
-andre -andra 

Simplement amb grep -v ^- (pendent buscar a un awk com fer en el condicional el grp -v)

grep 'id="Definition"' *|awk -F'class="title">|<' '{if ( $8 ~ /^-/ ) printf $5 $8"\n"}'|grep -v ^-| awk {'print $NF'}|sort|uniq

Busquem sufix -a i que la paraula acabi amb e:

grep 'id="Definition"' *|awk -F'class="title">|<' '{if ( $8 ~ /^-a / && $5 ~ /e $/ ) printf $5$8"\n"}'

O els que acaben amb vocal:

grep 'id="Definition"' *|awk -F'class="title">|<' '{if ( $8 ~ /^-a / && $5 ~ /[aeiou] $/ ) printf $5$8"\n"}'
informatica/linux/diccionarios/catala.1646049451.txt.gz · Last modified: 2022/02/28 11:57 by jose