This is an old revision of the document!
Descarreguem totes les paraules de https://dlc.iec.cat
Primer fem consulta de totes les paraules que comencen per unes lletres.
Aqui falten paraules, sobretot els femenins, com alesiada
Hem tronar alesiat que té l'id 0043250
Si busquem aquest id amb la comanda:
https://dlc.iec.cat/Results/PrintAccepcio?id=0043250
Ens dona:
<div id="Definition" class="resultDefinition"><h2 xmlns:fo="http://www.w3.org/1999/XSL/Format"><span class="title">alesiat </span><span class="title">-ada </span><br></h2><br xmlns:fo="http://www.w3.org/1999/XSL/Format"><span class="tagline" xmlns:fo="http://www.w3.org/1999/XSL/Format">adj.</span><span class="body" xmlns:fo="http://www.w3.org/1999/XSL/Format"> <span class="tip" onmouseover="doTooltip(event, ' [LC] ' )" onmouseout="hideTip()"> [LC] </span><span class="tip" onmouseover="doTooltip(event, ' [MD] ' )" onmouseout="hideTip()"> [MD] </span> </span><span class="body" xmlns:fo="http://www.w3.org/1999/XSL/Format">Espatllat, inutilitzat, en alguna part del cos. </span><span class="body" xmlns:fo="http://www.w3.org/1999/XSL/Format"><span class="italic">Estar nafrat o alesiat d’algun dels seus membres.</span></span></div>
Ens fixem en aquesta part:
<span class="title">alesiat </span><span class="title">-ada </span>
amb aquesta consulta ens dona la segona part de la línia, la de “-ada”
grep 'id="Definition"' 0043250|sed -e 's/^.*title">\([^ ]*\).*$/\1/'
-ada
Amb això treiem la primera i la segona definició:
grep 'id="Definition"' 0043250|awk -F'class="title">|<' {'print $5'} alesiat grep 'id="Definition"' 0043250|awk -F'class="title">|<' {'print $8'} alesiada
Busquem amb awk que el paràmetre $8 comenci per - i escribim la paraula, que es el paràmetre 5 i el sufix que es el 8
grep 'id="Definition"' *|awk -F'class="title">|<' '{if ( $8 ~ /^-/ ) printf $5$8"\n"}'
Ens dona una llista com aquesta:
romandalusí -ina reconegut -uda -nervi -nèrvia boreoalpí -ina galileà -ana glotalitzat -ada este -a morenc -a
A partir d'aqui busquem patrons, per exemple:
este -a morenc -a
Seria este/esta i morenc/morena en un trec una lletra i en un altre no. Poter es si la paraunla acava amb vocal
Treiem tots els sufixos:
grep 'id="Definition"' *|awk -F'class="title">|<' '{if ( $8 ~ /^-/ ) printf $8"\n"}'|sort | uniq