#!/bin/bash
FILE=estudiantes.html
curl -o $FILE https://baloncestoenvivo.feb.es/estadisticasacumuladas/951466
rm estudiantes.csv

#Cojo del fichero solo la tabla de estadisticas
sed -n -i '/<table cellpadding="0" cellspacing="0">/,/<\/table>/p' $FILE

#Quito la primera línea y la última que marcan la etiqueta de la tabla
sed -i '1d;$d' $FILE

#Quito el primer bloque de tr que es una fila que solo pone rebotes, tapones y faltas
sed -i -e '0,/<tr>/d' -e '0,/<\/tr>/d' $FILE

#quito lineas vacias que me ponian ^M en las variables
sed -i '/^[[:space:]]*$/d' $FILE

parser=0
let valor=0

while read linea
do
#echo "LINEA: "$linea
  if [ $parser -eq 0 ] && [[ "$linea" == *"<tr>"* ]];
  then
    parser=1
#    echo "###### INICIO BLOQUE TR ######"
  fi

  if [ $parser -eq 1 ] && [[ "$linea" != *"</tr>"* ]];
  then
    #recojo los valores
    if [ $valor != 1 ]
    then
      array[$valor]="`echo $linea | sed -E 's/<[^>]+>//g'`"
    else
      tmp="`echo $linea | sed -E 's/<[^>]+>//g'`"
      if [ "$tmp" != "" ]
      then
        array[$valor]="`echo $linea | sed -E 's/<[^>]+>//g'`"
      fi
    fi
    let valor=$valor+1
  else
  if [ ${array[2]} != "GR" ]
  then
    for ((i=1; i<${#array[@]}; i++)); do
#      echo "array[$i] = ${array[$i]}"
      echo -n "${array[$i]};" >> estudiantes.csv
    done
    echo "" >> estudiantes.csv
  fi
    parser=0
    valor=0
#    echo "***************** FIN BLOQUE TR *****************"
  fi

done < <(cat $FILE | tr -d '\r')