Fuente: https://colab.research.google.com/github/mrm8488/shared_colab_notebooks/blob/master/Using_Spanish_BERT_fine_tuned_for_Q%26A_pipelines.ipynb#scrollTo=2CdQh0Psl3U8
Repositorio: https://github.com/dccuchile/beto
Instalación
apt-get install python3 python3-pip ipython3
pip3 install transformers torch torchvision
ipython3
from transformers import *
nlp = pipeline(
'question-answering',
model='mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es',
tokenizer=(
'mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es',
{"use_fast": False}
)
)
Creamos el contexto:
context = 'Manuel Romero está colaborando activamente con huggingface/transformers para traer el poder de las últimas técnicas de procesamiento de lenguaje natural al idioma español'
Y le hacemos las preguntas:
nlp(
{
'question': '¿Quién está trabajando activamente con huggingface/transformer? ',
'context': context
}
)
Nos responde:
{'score': 0.9647331237792969, 'start': 0, 'end': 13, 'answer': 'Manuel Romero'}
He probado metiéndole un texto entero y responde a las preguntas con trozos de texto que pueden ser la respuesta.
====== CASED Y UNCASED ======
import torch
from transformers import BertForMaskedLM, BertTokenizer
tokenizer = BertTokenizer.from_pretrained("pytorch/", do_lower_case=False)
model = BertForMaskedLM.from_pretrained("pytorch/")
e = model.eval()