数学之美 系列十九 - 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)
¬Article by admin with 0 comments 0 comments
3 六 2009发表者:Google 研究员,吴军
我们在前面的系列中多次提到
马尔可夫链 (Markov
Chain)
,它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题来讲是一种很粗略的简化。在现实生活中,很多事物相互的关系并不能用一条链来串起来。它们之间的关系可能是交叉的、错综复杂的。比如在下图中可以看到,心血管疾病和它的成因之间的关系是错综复杂的。显然无法用一个链来表示。
http://gger.org.ru/attachments/0904/7dddd104d0d3aff75e9df2b08d5025da.gif
我们可以把上述的
有向图
看成一个网络,它就是贝叶斯网络。其中每个圆圈表示一个状态。状态之间的连线表示它们的因果关系。比如从心血管疾病出发到吸烟的弧线表示心血管疾病可能和吸烟有关。当然,这些关系可以有一个量化的可信度 (belief),用一个概率描述。我们可以通过这样一张网络估计出一个人的心血管疾病的可能性。在网络中每个节点概率的计算,可以用贝叶斯公式来进行,贝叶斯网络因此而得名。由于网络的每个弧有一个可信度,贝叶斯网络也被称作信念网络 (belief networks)。
和马尔可夫链类似,贝叶斯网络中的每个状态值取决于前面有限个状态。不同的是,贝叶斯网络比马尔可夫链灵活,它不受马尔可夫链的链状结构的约束,因此可以更准确地描述事件之间的相关性。可以讲,马尔可夫链是贝叶斯网络的特例,而贝叶斯网络是马尔可夫链的推广。
使用贝叶斯网络必须知道各个状态之间相关的概率。得到这些参数的过程叫做训练。和训练马尔可夫模型一样,训练贝叶斯网络要用一些已知的数据。比如在训练上面的网络,需要知道一些心血管疾病和吸烟、家族病史等有关的情况。相比马尔可夫链,贝叶斯网络的训练比较复杂,从理论上讲,它是一个 NP-complete 问题,也就是说,对于现在的计算机是不可计算的。但是,对于某些应用,这个训练过程可以简化,并在计算上实现。
值得一提的是 IBM Watson 研究所的茨威格博士 (Geoffrey Zweig) 和西雅图华盛顿大学的比尔默 (Jeff Bilmes) 教授完成了一个通用的贝叶斯网络的工具包,提供给对贝叶斯网络有兴趣的研究者。
贝叶斯网络在图像处理、文字处理、支持决策等方面有很多应用。在文字处理方面,语义相近的词之间的关系可以用一个贝叶斯网络来描述。我们利用贝叶斯网络,可以找出近义词和相关的词,在 Google 搜索和 Google 广告中都有直接的应用。
标签:Ad Planner, AdSense, adwords, Analytics, Andriod, Android, App Engine, Apps, BBC, BerryDailer, Chrome, comScore, d, d API, designer repli, Desktop, Docs, Eclipse, F1, Friend Connect, G, GAE, Gmail, Gmail Labs, Google, Google Adsense, Google App Engine, Google Apps, Google Base, Google desktop, google earth, Google Flu Trends, Google Health, Google lab, Google Maps, Google Maps API, Google Talk, google update, Google Voice, Google工具条, Google总部, Google搜索, Google新闻, Google日历, google黑板报, GWT, HN, iGoogle, IM, iphone, iplayer, IT产业, IT企业, IT厂商, Java, laiba, Mips, music, MV, MySpace, NOKIA, openxml, oracle, Picasa, Reader, SEO, site, sitemap, sns, Spyware Doctor, Squared, Task, twitter, Wave, Web搜索, Yahoo, Youtube, [标签:tag], 上网本, 专利法, 业绩, 个人中心, 个人档案, 中国, 中文资讯, 了解, 云计算, 互联网, 人机验证, 人肉搜索, 企业, 企业软件, 优化策略, 体验, 侵权, 俄勒冈州, 信誉度, 关键字, 关键词, 内容, 凤巢, 分析师, 刘允, 创始人, 功能, 可口可乐, 员工管理, 商业周刊, 图书扫描, 图片搜索, 地图, 墨西哥, 壁纸, 多媒体, 天涯, 天空地图, 学术搜索, 定律, 实验室, 小工具, 小技巧, 工具, 帐户, 广告, 广告发布者, 微软, 愚人节, 手机, 技巧, 投资, 报纸, 排名, 推广, 搜索, 搜索引擎, 搜索引擎优化, 搜索引擎排名, 摄影比赛, 操作系统, 政府, 数据中心, 新功能, 新闻聚合, 施密特, 旧闻, 智能电网, 服务, 本地化, 查看, 正版歌, 武器, 注册后, 流感疫情, 流量, 海盗湾, 灾区, 牛人, 环保, 甲骨文, 电子商务, 电邮, 百度, 碳排放量, 社交, 社会化, 科学家, 移动搜索, 移动网络, 穿透写盘, 管控数据, 纽约时报, 经济, 经济危机, 网站管理员, 网站管理员工具, 网络故障, 网页设计, 翻译, 股价, 营收, 街景, 裁员, 语音搜索, 谷歌, 谷歌地图, 谷歌地球, 谷歌字典, 谷歌拼音输入法, 谷歌流感趋势, 谷歌资讯, 谷歌金山词霸, 谷歌音乐, 谷歌黑板报, 财报, 财经, 软件, 通讯录, 阅读器, 阿里巴巴, 音乐搜索, 风投, 高级搜索, 黑客