Error ValueError: Input is not valid. Should be a string, a list/tuple of strings or a list/tuple of integers.
발생 포인트 huggingface load_dataset 을 한 이후에 모델을 학습시키는 과정에서 발생한 에러다. 내 경우에는 학습 데이터셋을 tokenize 하는 파트에서 발생되었다.
문제가 발생했던 코드 from datasets import Dataset import pandas as pd testset = datasets.load_dataset('csv', data_files=os.path.join(path, i)) model = "distilbert-base-uncased" tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased') def tokz(x): return tokenizer(x['Phrase'],...
#
dataloader
#
huggingface
#
load_dataset
#
허깅페이스