Análise de Sentimentos — Máquinas de Vetores de Suporte

01 de Agosto de 2017

Na próxima série de tópicos, vamos mergulhar em diferentes abordagens para resolver o problema do Olá Mundo da NLP, a análise de sentimentos.

O código esta disponível aqui.

O classificador SVM

Este classificador trabalha tentando criar uma linha que divida o conjunto de dados deixando a maior margem possível entre pontos chamados vetores de suporte . Conforme a figura abaixo, a linha A tem uma margem maior que a linha B , então os pontos divididos pela linha A têm que percorrer muito mais para cruzar a divisão, do que se os dados fossem divididos por B , então neste caso escolheríamos a linha A.

O código

Para esta tarefa usaremos scikit-learn , uma biblioteca de aprendizado de máquina de código aberto.

Nosso conjunto de dados é composto por resenhas de filmes e rótulos que informam se a crítica é negativa ou positiva. Vamos carregar o conjunto de dados:

O arquivo de reviews é um pouco grande, então está em formato zip. Vamos Extraí-lo:

import zipfile
with zipfile.ZipFile("reviews.zip", 'r') as zip_ref:
    zip_ref.extractall(".")

Agora que temos os arquivos reviews.txt e labels.txt , vamos carregá-los na memória:

with open("reviews.txt") as f:
    reviews = f.read().split("\n")
with open("labels.txt") as f:
    labels = f.read().split("\n")
    
reviews_tokens = [review.split() for review in reviews]

Em seguida, carregamos o módulo para transformar nossas entradas de revisão em vetores binários com a ajuda da classe MultiLabelBinarizer:

from sklearn.preprocessing import MultiLabelBinarizer
onehot_enc = MultiLabelBinarizer()
onehot_enc.fit(reviews_tokens)

Depois disso, dividimos os dados em conjunto de treinamento e teste com a função:train_test_split

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(reviews_tokens, labels, test_size=0.25, random_state=None)

Em seguida, criamos nosso classificador SVM com a classe LinearSVCe o treinamos:

from sklearn.svm import LinearSVC
lsvm = LinearSVC()
lsvm.fit(onehot_enc.transform(X_train), y_train)

O treinamento do modelo levou cerca de 2 segundos.

Após o treinamento, utilizamos a scorefunção para verificar o desempenho do classificador:

score = lsvm.score(onehot_enc.transform(X_test), y_test)

Calcular a pontuação levou apenas cerca de 1 segundo!

Executando o classificador algumas vezes obtemos cerca de 85% de precisão, basicamente o mesmo resultado do classificador naive bayes.

← → Top