#!/bin/bash FILE=estudiantes.html curl -o $FILE https://baloncestoenvivo.feb.es/estadisticasacumuladas/951466 rm estudiantes.csv #Cojo del fichero solo la tabla de estadisticas sed -n -i '/<table cellpadding="0" cellspacing="0">/,/<\/table>/p' $FILE #Quito la primera línea y la última que marcan la etiqueta de la tabla sed -i '1d;$d' $FILE #Quito el primer bloque de tr que es una fila que solo pone rebotes, tapones y faltas sed -i -e '0,/<tr>/d' -e '0,/<\/tr>/d' $FILE #quito lineas vacias que me ponian ^M en las variables sed -i '/^[[:space:]]*$/d' $FILE parser=0 let valor=0 while read linea do #echo "LINEA: "$linea if [ $parser -eq 0 ] && [[ "$linea" == *"<tr>"* ]]; then parser=1 # echo "###### INICIO BLOQUE TR ######" fi if [ $parser -eq 1 ] && [[ "$linea" != *"</tr>"* ]]; then #recojo los valores if [ $valor != 1 ] then array[$valor]="`echo $linea | sed -E 's/<[^>]+>//g'`" else tmp="`echo $linea | sed -E 's/<[^>]+>//g'`" if [ "$tmp" != "" ] then array[$valor]="`echo $linea | sed -E 's/<[^>]+>//g'`" fi fi let valor=$valor+1 else if [ ${array[2]} != "GR" ] then for ((i=1; i<${#array[@]}; i++)); do # echo "array[$i] = ${array[$i]}" echo -n "${array[$i]};" >> estudiantes.csv done echo "" >> estudiantes.csv fi parser=0 valor=0 # echo "***************** FIN BLOQUE TR *****************" fi done < <(cat $FILE | tr -d '\r')