

摘要
隨著疫情緩和,旅遊成為帶動觀光的重要動能,臺灣旅遊市場也快速復甦。社群媒體的使用者生成內容(UGC)逐漸成為旅客形塑目的地印象的重要來源。然而,國內旅遊常被批評價格偏高、景點同質化與服務品質不一,負評聲量在社群與新聞討論中頻繁出現。值得注意的是,現行研究多聚焦臺灣民眾的觀點,對外國旅客在臺旅遊的觀感仍明顯不足,導致政策與行銷策略難以完整掌握旅客需求。
為補足此缺口,本研究以「外來者視角」為核心,運用文字探勘方法分析外國旅客對臺灣的旅遊印象。資料來源涵蓋 Reddit 與 X 平台,並以相同語意分析與情感分類流程進行比較。研究整合文本分類、面向式情感分析、語意嵌入、聚類與命名實體識別等技術,歸納出飲食、景點、交通、服務等九大旅遊面向。
本研究可協助政府與業者更全面掌握外國旅客觀感,提供具參考性 的輿情依據,作為優化旅遊服務與行銷策略、提升臺灣國際競爭力的基礎。
緒論
近年來隨著疫情緩和,全球旅遊快速復甦。UNWTO 指出 2023 年國際旅客已恢復至疫情前水準的 89%,2024 年預估達 99%;臺灣同樣呈現成長,2024 年來台外籍旅客達 785 萬人。同時,社群與新聞平台上的旅遊討論熱度持續增加。然而,多數討論與研究皆聚焦於臺灣本地旅客的觀點,對外籍旅客在台旅遊經驗的理解仍相當有限。鑑於旅遊目的地印象(TDI)深受使用者生成內容(UGC)影響,外國旅客在社群媒體上的評論已成為其行前認知與評價的重要依據,亦對目的地行銷與政策規劃具有高度參考價值。
為補足外籍觀點的研究缺口,本研究蒐集並分析英語社群平台—Reddit 與 X—中與「臺灣旅遊」相關的討論,兩平台使用者主要來自美國、加拿大與英國,具有代表性。本研究以一致的方法處理兩組資料,透過人工標註建立訓練集,並以多種機器學習與深度學習模型(如 SVM、Logistic Regression、Random Forest、BERT-FC、BERT-LSTM)進行文本分類,並以 accuracy、precision 與 recall 等指標評估模型效能。
在語意層面,本研究執行句級情感分析以辨識整體情緒傾向,並進行基於面向的情感分析(ABSA)以擷取各旅遊面向的情緒極性。為提升面向分類品質,我們使用 Sentence-Transformers(all-MiniLM-L6-v2)進行語意嵌入與分群,並最終歸納出九大旅遊類別:飲食、景點、交通、住宿、服務體驗、消費、行政手續、環境天氣與治安安全。此外,藉由命名實體識別(NER)擷取地名與機構,使分析能延伸至具體空間與組織層次。
透過上述流程,本研究能全面呈現外國旅客對臺灣旅遊的觀感分布與情緒表現,提供政府與業者在行銷、服務改善及政策制定上的參考,進而提升臺灣在國際觀光市場的競爭力。
研究方法

一、網頁爬蟲
透過 Reddit API 及X API擷取與臺灣相關之討論版中的文章資料,包括所屬討論版、發佈日期、文章標題、文章內容、按讚數以及留言數。此外,亦同步擷取文章之留言資料,包含留言作者、留言日期、留言內容、按讚數與回覆數資訊。
二、文本分類
本研究透過人工標註與多種機器學習/深度學習模型進行文本分類,篩選與臺灣旅遊高度相關的評論。所用模型如下:
機器學習
-
支持向量機(Support Vector Machine):基於最大邊界的監督式分類器,適合處理高維稀疏特徵如詞向量或TF-IDF,但參數敏感。
-
邏輯回歸(Logistic Regression):線性模型,利用Sigmoid函數產出分類機率,訓練快速且易解釋。
-
決策樹(Decision Tree):以遞迴分裂方式建立分類規則,結構直觀,但易過擬合,需搭配剪枝等機制。
-
隨機森林(Random Forest):多棵決策樹組成的集成方法,透過隨機性降低過擬合,提升穩定性與準確率。
-
隨機梯度下降分類器(Stochastic Gradient Descent):以隨機梯度下降訓練線性模型,適合大型稀疏文本資料,具良好擴展性。
深度學習
-
BERT+FC:BERT輸出接全連接層進行分類。
-
BERT+LSTM:在BERT輸出後加入LSTM以捕捉深層序列語意,有助長文本分類。
三、語意分析技術
1
情感分析
本研究使用 CardiffNLP 提供的 twitter-roberta-base-sentiment-latest 模型,基於 RoBERTa 架構,在約1.24億條Twitter推文上進行預訓練,並以TweetEval資料集對情感分類進行微調。由於此模型能處理非正式用語、表情符號與俚語,適用於 Reddit 貼文,能快速標記情感為正面、中立或負面。
2
基於面向的情感分析(ABSA)
ABSA 能識別評論中提及的屬性(如價格、景點)並判斷其情感。研究中使用 PyABSA 多語言模型,自動擷取句中屬性詞與對應情感,支援多語言,幫助挖掘 Reddit 中潛在情緒焦點與主題差異。
3
命名實體識別(NER)
命名實體辨識(Named Entity Recognition, NER)是自然語言處理的一項重要技術,負責識別文本中的實體名稱(如人名、地點、組織等)並加以分類。本研究採用Hugging Face上的Davlan/xlm-roberta-large-ner-hrl模型進行NER任務。此模型基於XLM-RoBERTa大型預訓練模型,在包括中文在內的十種高資源語言上進行了微調,能夠識別地點(LOC)、組織(ORG)和人名(PER)三類實體。由於其跨語言能力,此模型特別適用於處理多語文化環境下的Reddit討論。
研究結果
一、情感分析結果
透過文本分類篩選出之 1,924篇Reddit文章與20,521則留言以及2,843篇X平台文章與1,149則留言進行情感分析,分類結果分為三類:正向、中立與負向,並使用Hugging Face 所提供之預訓練模型cardiffnlp/twitter-roberta-base-sentiment-latest進行判斷。
多數外國旅客對台灣旅遊的討論以客觀描述或事實敘述為主,正向情緒多表達對台灣美食、景點等正面感受,反映外國旅客對台灣旅遊整體觀感偏向中性至正向

Reddit近一年情感趨勢百分比圖

X近一年情感趨勢百分比圖
二、基於面向的情感分析結果
應用基於面向的情感分析(Aspect-Based Sentiment Analysis, ABSA)技術,識別出留言中提及的具體面向及其對應之情感(正向/中立/負向)。總共分成174個群,經UMAP + HDBSCAN聚類後,歸納為 9 大類別:
最常被提及的面向為「景點」與「飲食」,且「景點」與「飲食」正向留言佔明顯多數,反映出台灣的景觀與美食文化深受國外旅客喜愛

Reddit的面向情感總量圖

X的面向情感總量圖
接下來我們以百分比來看9大類別的正向/中立/負向面相的比例構成

Reddit的面向情感分布比例圖

X的面向情感分布比例圖
三、外國旅客關注焦點
1、熱議縣市排名

2、冷門景點排名

3、熱門景點排名

四、視覺化頁面呈現
1、台灣旅遊熱點地圖

2、質化分析視覺呈現圖



