[NLP] 레스토랑 리뷰 감성 분류하기 (1) (feat.파이토치로 배우는 자연어 처리)

AI study/자연어 처리 (NLP)

[NLP] 레스토랑 리뷰 감성 분류하기 (1) (feat.파이토치로 배우는 자연어 처리)

감자 🥔 2021. 7. 20. 18:50

-- 본 포스팅은 파이토치로 배우는 자연어 처리 (한빛미디어) 책을 참고해서 작성된 글입니다.
-- 소스코드 ) https://github.com/rickiepark/nlp-with-pytorch

rickiepark/nlp-with-pytorch

<파이토치로 배우는 자연어 처리>(한빛미디어, 2021)의 소스 코드를 위한 저장소입니다. - rickiepark/nlp-with-pytorch

github.com

▶ 레스토랑 리뷰 감성 분류하기

이전 포스팅에서 배운 퍼셉트론과 지도 학습 훈련 방법을 사용하여 옐프(Yelp)의 레스토랑 리뷰가 긍정적인지부정적인지 분류하는 작업을 진행해 보자. 해당 프로젝트는 리뷰와 감성레이블(긍정or부정)이 쌍을 이루는 옐프 데이터셋을 사용한다. 데이터를 정제하고, 훈련, 검증, 테스트세트로 나누는 전처리 단계및 몇 가지를 추가로 설명하면서 프로젝트를 진행해보자.

앞으로 매번 사용할 3개의 보조 클래스에 대해서 간단하게 설명해보면,
Vocabularay = 샘플과 타깃의 인코딩에서 설명한 정수와 토큰 매핑을 수행.
Vectorizer = 어휘 사전을 캡슐화하고 리뷰 텍스트 같은 문자열 데이터를 훈련과정에서 사용할 수치 벡터로 전환.
DataLoader = 개별 벡터 데이터 포인트를 미니 배치로 모으는 역할.

1. 데이터셋 (간단한 데이터 전처리 과정)

앞서 언급했듯이, 옐프 데이터셋을 활용한다. 옐프 데이터셋은 훈련 샘플 560000개와 테스트샘플 38000개로 나누어져 있지만, 해당 프로젝트에서는 데이터셋의 훈련 샘플의 10%만 사용할 것이다. (해당 책에서는 이 데이터셋을 '라이트'버전 이라고 표현했다.) 이렇게 작은 데이터셋을 사용하면 훈련과 테스트가 빨라서 이용하는 것도 있지만, 전체 데이터셋을 사용할때보다 낮은 정확도를 가진다는 점을 꼭 기억하자.

데이터셋을 훈련, 검증, 테스트용으로 나눌 것이다.
훈련세트로 모델을 훈련하고, 검증 세트로 모델이 얼마나 잘 작동하는지 평가한다. 검증 세트를 기반으로 모델을 선택하게 되면 부가피하게 모델이 검증세트에 더 잘 수행되도록 편향되기 때문에 모델이 점차 개선되는지 재평가해보기위해 세번째 세트인 평가세트를 활용해서 이 문제를 해결해보도록 한다.

우선, 이 책의 깃허브에서 제공하는 원본코드에는 '전처리된 데이터를 다운받는 코드'가 내장되어 있어 따로 전처리 과정 없이 코드 실행이 가능하지만, 어떻게 데이터가 전처리 되었는지 살펴보도록 하자.

1.1 import

import collections
import numpy as np
import pandas as pd
import re

from argparse import Namespace

1.2 훈련, 검증, 테스트 세트로 데이터 분할

args = Namespace(
    raw_train_dataset_csv="data/yelp/raw_train.csv",
    raw_test_dataset_csv="data/yelp/raw_test.csv",
    proportion_subset_of_train=0.1,
    train_proportion=0.7,
    val_proportion=0.15,
    test_proportion=0.15,
    output_munged_csv="data/yelp/reviews_with_splits_lite.csv",
    seed=1337
)

인자와 부속명령을 위한 명령행 옵션인, argparse 를 활용하여 파이썬 내부에서 파일을 다운받고, 데이터를 나누어줄 수 있다.
train 70% / validation 15% / test 15% 로 데이터를 분할할 예정이다.

# 원본 데이터를 읽습니다
train_reviews = pd.read_csv(args.raw_train_dataset_csv, header=None, names=['rating', 'review'])

다운받은 원본데이터를 파이썬에서 활용하기 위해 train_reviews 변수에 데이터를 읽어주고, 컬럼명을 rating과 review로 지정해주었다.

# 리뷰 클래스 비율이 동일하도록 만듭니다
by_rating = collections.defaultdict(list)
for _, row in train_reviews.iterrows():
    by_rating[row.rating].append(row.to_dict())
    
review_subset = []

for _, item_list in sorted(by_rating.items()):

    n_total = len(item_list)
    n_subset = int(args.proportion_subset_of_train * n_total)
    review_subset.extend(item_list[:n_subset])

review_subset = pd.DataFrame(review_subset)

앞서 언급했듯이 해당 책에서 사용될 라이트버전의 데이터셋은 전체 데이터셋의 10%가 사용된다.
따라서 review_subset에 존재하는 데이터에서 10%에 해당하는 데이터만 따로 저장해준다.
그리고 defaultdic메서드를 활용해서 클래스별로 비율이 동일하도록 만들어줄 것이다.

review_subset.head()

그렇게 출력된 데이터는 이런 형태를 가지고 있다.

train_reviews.rating.value_counts()

앞에서 클래스별로 비율이 도잉ㄹ하도록 만들어 준 결과값이다. (클래스별로 각각 280000개)

# 고유 클래스
set(review_subset.rating)

클래스는 1과 2로 나누어지는 것을 볼 수 있다.
(추후 나올 것이지만) 1은 negative, 2는 positive 클래스이다.

# 훈련, 검증, 테스트를 만들기 위해 별점을 기준으로 나눕니다
by_rating = collections.defaultdict(list)
for _, row in review_subset.iterrows():
    by_rating[row.rating].append(row.to_dict())

# 분할 데이터를 만듭니다.
final_list = []
np.random.seed(args.seed)

for _, item_list in sorted(by_rating.items()):

    np.random.shuffle(item_list)
    
    n_total = len(item_list)
    n_train = int(args.train_proportion * n_total)
    n_val = int(args.val_proportion * n_total)
    n_test = int(args.test_proportion * n_total)
    
    # 데이터 포인터에 분할 속성을 추가합니다
    for item in item_list[:n_train]:
        item['split'] = 'train'
    
    for item in item_list[n_train:n_train+n_val]:
        item['split'] = 'val'
        
    for item in item_list[n_train+n_val:n_train+n_val+n_test]:
        item['split'] = 'test'

    # 최종 리스트에 추가합니다
    final_list.extend(item_list)

앞서 나왔던 args에서 지정한 7:1.5:1.5 비율로 각각 데이터를 train / val / test 로 지정했고, 최종 리스트에 추가해주었다.

# 분할 데이터를 데이터 프레임으로 만듭니다
final_reviews = pd.DataFrame(final_list)

리스트형태의 데이터를 분석에 용이한 pandas 데이터 프레임으로 만들어준다.

final_reviews.split.value_counts()

데이터의 수를 확인함으로써 7: 1.5 : 1.5로 잘 나뉘었는지 확인해본다.

1.3 데이터 정제

# 리뷰를 전처리합니다
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r"([.,!?])", r" \1 ", text)
    text = re.sub(r"[^a-zA-Z.,!?]+", r" ", text)
    return text
    
final_reviews.review = final_reviews.review.apply(preprocess_text)

최소한의 데이터 정제작업을 거친다.
정규식을 활용하여 기호 앞뒤에 공백을 넣고, 구두점이 아닌 기호를 제거하는 정제작업을 진행해주었다.

final_reviews['rating'] = final_reviews.rating.apply({1: 'negative', 2: 'positive'}.get)
final_reviews.head()

해당 프로젝트에서는 이렇게 정제된 데이터를 활용할 것이다.

final_reviews.to_csv(args.output_munged_csv, index=False)

<NEXT> 데이터 처리를 위한 클래스 살펴보기

https://didu-story.tistory.com/86

[NLP] 레스토랑 리뷰 감성 분류하기 (2) (feat.파이토치로 배우는 자연어 처리) - 데이터 처리를 위한

-- 본 포스팅은 파이토치로 배우는 자연어 처리 (한빛미디어) 책을 참고해서 작성된 글입니다. -- 소스코드 ) https://github.com/rickiepark/nlp-with-pytorch (한빛미디어, 2021)의 소스 코드를 위한 저장소입..

didu-story.tistory.com

'AI study > 자연어 처리 (NLP)' 카테고리의 다른 글

[NLP] 레스토랑 리뷰 감성 분류하기 (3) (feat.파이토치로 배우는 자연어 처리) - 훈련 및 평가, 추론, 분석 (2)	2021.07.22
[NLP] 레스토랑 리뷰 감성 분류하기 (2) (feat.파이토치로 배우는 자연어 처리) - 데이터 처리를 위한 클래스 살펴보기 (0)	2021.07.22
[NLP] 품사태깅 (pos-tagging) / 부분구문분석(chunking) / 개체명 인식(NER) (1)	2021.07.19
[NLP] 표제어추출(lemmatization)과 어간추출(stemming) (0)	2021.07.19
[NLP] 텍스트 데이터의 기초 / 말뭉치, 토큰화, n-gram (0)	2021.07.19

현재글[NLP] 레스토랑 리뷰 감성 분류하기 (1) (feat.파이토치로 배우는 자연어 처리)

난 뭘해도 될거야 꼭 🍀 지나간 일은 후회말자!! :) 취업 / IT / IOS / 전자기기 / 리뷰 / 대학생활 / 인턴 github.com/deslog

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

potato's devlog