从自然语言处理(NLP)技术了解消费者搜索行为

搜索行为是经济学的一个基本课题。消费者需要通过搜索了解市场中流通商品的信息,个人也需要搜索潜在的职位空缺来找工作。

传统经济学中,经济学家没有直接渠道获知消费者的搜索过程或者他们在购买时考虑的产品集合(“考虑集合”),只能根据均衡价格和产品数量分布进行推断,而对消费者搜索过程仅提出假设(Hong and Shum 2006)。针对这一局限性,最近的一些研究探索了在没有搜索摩擦的情况下,利用消费者需求的更高曲率来理解消费者需求的可能性,进而抵消搜索的影响(Abalack and Compiani 2020)。然而计量经济学者家在了解产品特性以及消费者搜索行为上仍面临种种约束。

随着规模性数字化的快速推广,消费者搜索出现革命性发展,大量数字化搜索和文本数据可得性上升,同时自然语言处理(NLP)技术在搜索算法中得到开发应用。

本专题将通过一系列文章来概述经济学家如何利用数字文本数据,并尝试描述NLP技术影响的最新进展。

首先,尝试将数字化文本作为数据的主要优势是什么?第一,文本的任何表现都是高维的。假设这篇文章有来自N个不同语言系统的n个单词,如果不了解每个单词的上下文,可能会产生N^n篇不同意义的文章。“例如,一个30字的Twitter消息样本,仅使用了英语中的1000个最常见的单词,其维度大致与宇宙中的原子一样多。”(Gentzkow, Kelly and Taddy 2019)

因此,(1)降低文本数据的维数和(2)处理高维数据的方法至关重要。迄今为止,经济研究的重点是利用上述两个步骤产生的预测进行因果分析。例如,Scott和Varian(2015)利用贝叶斯时间序列模型将谷歌搜索数据压缩,以“实时预测”失业率等重要经济变量;许多金融研究也基于互联网文本数据,如推特订阅(Tetlock 2007),来更好地利用股票价格短期变动预测;Baker 和Fradkin(2017)在研究失业保险额度对求职影响时,使用了谷歌搜索数据作为求职强度指标。

在下一篇文章中,我们将深入分析多个研究是如何分别展开(1)、(2)两个步骤的,从而更好地理解文本数据的作用。

 

参考文献:

Abaluck, Jason, and Giovanni Compiani. 2020. “A Method to Estimate Discrete Choice Models That Is Robust to Consumer Search.” Working Paper Series. National Bureau of Economic Research. https://doi.org/10.3386/w26849.

Baker, Scott R., and Andrey Fradkin. 2017. “The Impact of Unemployment Insurance on Job Search: Evidence from Google Search Data.” The Review of Economics and Statistics 99 (5): 756–68.

Gentzkow, Matthew, Bryan Kelly, and Matt Taddy. 2019. “Text as Data.” Journal of Economic Literature 57 (3): 535–74.

Hong, Han, and Matthew Shum. 2006. “Using Price Distributions to Estimate Search Costs.” The Rand Journal of Economics 37 (2): 257–75.

Scott, Steven L., and Hal R. Varian. n.d. “Chapter 4 - Bayesian Variable Selection for Nowcasting Economic Time Series / Steven L. Scott and Hal R. Varian.” Economic Analysis of the Digital Economy. https://doi.org/10.7208/chicago/9780226206981.003.0004.

Tetlock, Paul C. 2007. “Giving Content to Investor Sentiment: The Role of Media in the Stock Market.” The Journal of Finance 62 (3): 1139–68.

    相关学术前沿

    00:00:0000:00:00