当短视频还在以“黄金3秒”的开头攫取注意力,2025年B站的视频播客的用户数与第一季度相比增长了67.5%,已悄悄突破6700万,日均内容消费时长超3500万分钟,全网热搜累计超500个,诞生了一批如《鲁豫慢谈》、《于谦:多新鲜呐》、《罗永浩的十字路口》等头部栏目。视频播客的生命力在今年迎来了更彻底的爆发:5月13日最新消息,B站视频播客单日VT(播放时长)首次突破1亿分钟大关,刷新了平台历史最高纪录。
美国权威民调机构Edison Research在2025年首次将“看播客(watching podcasts)”作为独立内容消费选项纳入统计,超过51%的12岁以上美国受访者已观看过视频播客。
今年 1 月,金球奖第一次设立 “最佳播客” 奖项,颁给了一档视频播客《Good Hang With Amy Poehler》。

《Good Hang With Amy Poehler》荣获首届金球奖播客奖
随之而来的是一个反直觉的问题:在注意力被切到不能再细的当下,为什么人们反而开始愿意花两个小时看别人聊天?而且越是没剪辑、越是磕磕绊绊、越是 “不像节目”,反而越受欢迎?
当视频把播客送上热榜:短切片争取流量,长内容瞄定质量
视频播客在近几年正式走入大众视野,但需要澄清的是,视频播客并不是这两年产生的新的媒介形态。
早在 2000 年代初,韩国娱乐广播就开始把电台节目同步视频化;2005年,BBC已经在使用 “vodcast” 这个词;2009年起,Joe Rogan 在YouTube同步自己播客节目的直播片段,事实上奠定了今天视频播客的模板。视频播客作为“播客 + 电视访谈”的杂糅形态,技术门槛并不高,但长期因为没有适合的传播环境而未主流。

宋茜参加韩国MBC节目《黄金渔场之Radio Star》,节目以“看得见的radio”为形式
真正的拐点发生在2023年。
Spotify视频播客数量从3月的7万个增长至6月的10万个,增幅超40%;同年4月YouTube在全球上线“Podcasts”播客专属标签页,首次在产品层面将播客与普通视频区分对待。
推动这一拐点的,不是技术,而是环境。随着生成式AI逐步把图文、音频、视频的边际生产成本压到接近于零,内容供给端瞬间被填满——业内开始用“AI Slop(AI废料)”来形容这股高效却低质的信息洪流。
与此同时,短视频的增长逐渐步入平稳期,主流用户开始产生算法审美疲劳,表现出对高质量信息的需求;而平台在商业化压力下,也急于通过视频播客这种具备更高生命周期价值的内容形式,筛选出高净值消费人群。
这几股力量在“AI军备竞赛”的2023同时发生,把这一种十多年前就已经存在的形态推上了风口。
换句话说,视频播客的兴盛不是技术决定的,而是环境变化推出来的。它不需要AI就能存在,但它需要一个被AI搅得太满的内容市场。在这种效率变得廉价的环境下,看似慢节奏的视频播客显得稀缺,从而有机会占据用户珍贵注意力。
值得一提的是,视频播客并未完全拒绝算法,而是借助其内容切片的再分发,让“低效”长内容也能被算法看见。
传统播客的RSS分发封闭,难以进入公域流量。视频播客则借助YouTube、B站等平台,把两小时的长录制拆成数十条高光切片流入算法池,再把好奇的观众导回完整节目。
经纪人杨天真的播客《天真不天真》也是这种分发逻辑的样本:一次同期录制,原始素材被分别剪成视频播客、纯音频、短切片,分发到 B 站、小红书、小宇宙等不同调性的平台。

杨天真播客《天真不天真》封面图
美国播客行业研究机构Sounds Profitable与加拿大音频市场研究咨询机构Signal Hill Insights联合发布的《The Creators 2025》报告显示,71%的活跃播客创作者目前制作视频内容,其中36%同时录制音频和视频双轨版本。
视频播客“短引流、长留存”的再分发结构,在一定程度上打破了音频播客难以于社媒上广泛传播的困境,让优质长内容在公域算法的助推下同时实现低门槛引流与高黏性获客。
读者侧:我们为什么愿意坐两个小时
2026 年的中文互联网上,已经几乎没有人能一眼分清哪一张图、哪一段配音、哪一条短视频出自人手还是机器。从ChatGPT到Sora,从Suno到ChatGPT Image 2.0,文本、声音、影像都能在短时间内被大量生产 。
在这个效率至上的时代,愿意交付两小时的注意力,几乎是一种奢侈的社交礼仪。视频播客之所以能吸引读者自愿交付这段时间,原因并不神秘——当所有内容都能被一键批量生成、都在争相以最快的速度与最高的信息密度抢占受众注意力时,受众们对不被算法催促的内容的渴望,使看起来“低效”具备了投入注意力的珍贵价值。
Nature 《Humanities and Social Sciences Communications》在2023年的一项研究也佐证了这一点:在线视频中,呈现方式的多样化、标签数量以及权威媒体对观众的注意力具有显著的正向影响,而话题数量则具有显著的负向影响。换句话说,高密度不等于高吸引力,信息塞得越满,受众反而越难专注。
而视频播客的形态,恰好与这一逻辑相符。它不追求在短时间内覆盖多个议题,而是让一个话题在镜头前被慢慢展开——磕绊、思考、停顿、绕回来再说一遍。在AI能以三秒输出巨量信息的时代,视频播客用克制的话题密度,换来了受众真正愿意停下来的注意力。
这种“低效”,就藏在视频播客的形态中。
视觉在场,补完了音频留下的交流空白。音频播客的魅力在于留白,但留白也是门槛——你需要自己脑补嘉宾的语气、表情、停顿。视频播客不再要求这种脑补,眼神、微表情、肢体动作直接补完了交流通道。原本生涩的长对话因此变得不那么满,却也变得不那么累,让人们能慢下来专注地理解复杂的话题。
沉浸陪伴,把“伴随”升级为“在场”。传统音频播客主打通勤、家务、睡前等伴随场景,听众更像背景音里的旁观者。视频播客把摄像机摆进书房、工作室、咖啡馆,用精心布置的场景给观众一种“我也在场”的错觉。辩手席瑞形容这种感觉是“Deeptalk替代品”。在屏幕另一边的人聊得久了,观众甚至会觉得屏幕里那个侃侃而谈的人,是现实中一位博学且真诚的老友。
在AI废料泛滥、效率挤压人性的环境里,视频播客动辄一两小时的时长、保留磕巴喝水的尴尬场面、没有具体化脚本与流水线生产流程——这些在传统视听产业里作为缺点的“低效”,反而成为了一种主动选择的差异化策略。
当所有内容都在竞争“更快、更短、更精准”,视频播客的慢,并不是缺陷;或许,慢,本身就是一种用户愿意投入注意力的内容质量。
在注意力市场,这种愿意,比效率更值钱。
个人IP崛起,机构媒体何以自处
关于视频播客的一切溢美之词,都需要在一个事实面前重新衡量:视频播客的崛起在一定程度上突破了机构媒体的约束,个人IP逐步获得话语权。
全球排名前三的市场研究巨头益普索在2025年的报告显示,48.75%的播客用户会因为节目内容产生购买行动,58.59%的人愿意向他人推荐节目里提到的品牌。
《Fortune》杂志2025年1月的报道《The battle over AG1—the influencer-famous, $100-a-month green supplement—is coming to a vending machine or grocery store near you》就体现了这一点:
AG1(Athletic Greens一款每月售价79至99美元的绿色粉末营养补充剂)几乎未投放传统广告,而是依靠Joe Rogan、NFL球星Kelce兄弟等高知名度的个人IP在视频播客中以日常推荐的方式影响受众消费决策。受众对视频播客主持人个人IP的信任直接转化为购买行为,AG1年收入从2021年的1.5亿美元飙升至2024年预计的6亿美元。

Athletic Greens,一款每月售价79至99美元的绿色粉末营养补充剂
这种“准好友式信任”作为视频播客的商业护城河,在中国新闻业也同样值得尝试。
眼下活跃在视频播客赛道的,多是罗永浩、陈鲁豫、杨天真等个人IP。虽有央视新闻与B站的共创探索、《晚点LatePost》的访谈视频化,但仍属零星探索。

《陈鲁豫·慢谈》陈鲁豫首次对谈易立竞
但机构媒体恰好拥有个人IP最缺少的东西:编辑部纪律、事实核查能力、长期信用积累等。而这些,正是视频播客在形式创新之外所重视的议题——它在重新定义“谁在说”与“为什么可信”之间的关系。
问题在于,入场的时机还剩多少。
对于此,有两条比较具体的路径已存在尝试。
一是时政评论 “视频播客化”
由BBC政治编辑Chris Mason、Laura Kuenssberg等人主持《Newscast》作为代表媒体机构的视频播客,其内容同步在YouTube及BBC One电视台播出。它用机构信用为内容兜底:主持人的判断受编辑部纪律约束,观众信任的不只是这张脸,而是这张脸背后的机构——2024年英国大选期间,《Newscast》收听人数同比增长64%。
这类尝试以新闻机构编辑部的专业信用对冲个人IP 的偏向性,给观众一个受过编辑部纪律训练的“ Joe Rogan ”升级品——有立场,但有边界;有个性,但有核查。

《Newscast》YouTube主页
二是记者手记“视频播客化”
针对用户在海量内容里渴求“低效率”对话的痛点,纽约本地的《FAQ NYC》提供了一个参考模式:将原本枯燥的深度报道,转化成“音频播客+社媒视频”这一复合形式的记者手记。而《纽约时报》基于其深度调查推出的纪录片式剧集《The Weekly》,则将这种模式推向了极致。
这类模式的核心在于:播客在慢节奏中抓取用户的注意力,镜头则进一步将采访现场、关键物证、调研路径视觉化,实现从“发生了什么”到“为什么发生”“意味着什么”的跨越。
而对记者本身而言,这也意味着一种角色的转向:从匿名的信息中介,走向具象的对话者。这是机会,也意味着新的责任。
当效率不再稀缺,人本身变得昂贵
一切内容形态的演变,最终都在回答同一个问题:人们愿意把注意力交给谁?
短视频给出的答案是算法,AI信息流给出的答案是效率,视频播客给出的答案却出乎意料的古老——不是更精致的剪辑,不是更高清的画质,而是一个具体的人。
不是最快的人,不是最高效的人,而是一个愿意在镜头前坐够两小时的人,以及另一个愿意陪他坐够两小时的观众。
当AI让效率变得廉价,这个答案反而变得更贵。
但这份可贵的“低效”在目前还没有明确的规范机制。谁来说、在哪里说、为什么可信,这些问题正在从新闻业的内部规范,变成视频播客市场的开放竞争。
在AI时代,这或许才是视频播客这一“非AI时代”产物真正抛出的命题:注意力的价值,已经重写;但行业的未来,还任重道远。
参考资料:
[1]Edison Research(March 20, 2025).The Infinite Dial 2025.https://www.edisonresearch.com/the-infinite-dial-2025/
[2]Xinran Dai & Jing Wang(July 17,2023).Effect of online video infotainment on audienceattention.https://www.nature.com/articles/s41599-023-01921-6