top of page
  • Facebook
  • Twitter
  • Instagram

工作內容

本研究旨在分析外籍旅客對臺灣旅遊的觀感與評價,並透過自然語言處理與機器學習技術進行結構化分析。整體工作流程可分為以下幾個階段:

資料蒐集

使用X API以及Reddit API 擷取與臺灣相關的子版(如 r/taiwan、r/worldnews)中的貼文與留言資料。蒐集欄位包含標題、內容、留言者名稱、留言內容、按讚數與回覆數等。

情感分析處理

採用 Hugging Face 上的 cardiffnlp/twitter-roberta-base-sentiment-latest 模型,進行情感極性分類(正向、中立、負向),以評估外籍旅客對臺灣旅遊體驗的整體情緒傾向。

資料前處理與標註

針對原始文字進行去除特殊符號、過濾空白與非英文留言等處理,並由人工進行部分資料標註,以建立分類訓練所需之標準資料集。

面向情感分析

(Aspect-Based Sentiment Analysis, ABSA)

透過 PyABSA 套件,使用 multilingual 預訓練模型,針對每則留言抽取評論面向及對應情感與信心分數,進一步掌握旅客關注的具體議題與情緒判斷。

文本分類模型建置與比較

實作多種機器學習模型(SVM、Logistic Regression、Decision Tree、Random Forest、SGD)及深度學習模型(BERT、BERT+FC、BERT+LSTM)進行分類任務,篩選出與臺灣旅遊高度相關的留言。最終採用效能最佳的隨機森林模型作為主分類器。

命名實體辨識(NER)

應用 Hugging Face 上的 Davlan/xlm-roberta-large-ner-hrl 模型,自留言中辨識地點、機構等命名實體,有助於分析特定景點或機構在旅客留言中的出現頻率與評價趨勢。

結果統整與視覺化

將各階段分析結果整理並視覺化呈現,包括情感分佈圖、主題詞雲、評論面向統計圖與地點實體熱度圖等,協助進一步解釋外籍旅客的觀感特徵與潛在關注焦點。

© 2035 by Site Name. Powered and secured by Wix

bottom of page