想法

Author
greatqian2025-08-27 04:19
3 min read

从我对于comfyui使用了一段时间的体验来看,感觉现在的画图大模型已经能够理解物理空间的概念了,能够理解场景、人物(虽然前一段时间模型对于人应该有几根手指有自己的理解),能够轻松地驾驭各种风格,甚至能够融合插画(illustration)和景深(depth of field)这两种看起来有点冲突的元素。

结合veo3的表现来看(好想玩wan2.2啊,但是破laptap 3060显卡根本无法驾驭),它对于物理空间和现实世界的理解就更是惊异了。大片场景、自拍风格、动漫风格,似乎你能够想象和想象不到的画面它都能够实现。

目前的主要瓶颈就是计算能力了,生成一段几秒钟的视频还需要几分钟。

感觉如果能够实时生成视频流,产生直播一样的画面效果的话,未来真正的“数字人”可能就能够实现了。比如虚拟“waifu”,它的表情、动作都是实时计算生成的视频画面(目前x的ani貌似是通过类似live2d一样的3d虚拟皮套人方案?动作都是预制好的骨骼动画),再接入大模型agent,能够思考和对话,再接入tts,能够实时生成语音(貌似视频模型就能够生成声音),再接入视觉模型(tesla一直坚持视觉方案应该就是为了以后能够直接迁移到通用人工智能上。不知道google在此方面有多少积累。但是转念一想,现实世界的实时视频输入不就是视频模型的一部分训练内容吗,比如自拍视频,直播镜头)。这样的话,我们就能够在屏幕内见到这样一个“活生生”的人,它所在的空间场景、以及它的表情、动作、装扮都是实时计算生成的,它能够看到你,实时和你对话,它的想法、思考、记忆、性格和与之的反馈都是实时计算出来的,但是你甚至都感觉不出来,看起来和朋友打的视频聊天一样没有任何区别。

又或者,你可以随意摆弄这个活生生的“人”,甚至决定它的生死?显然这会对于目前的社会伦理造成极大地冲击,甚至让我们开始重新思考人的定义究竟是什么。

甚至元宇宙的概念之所以目前有点熄火了,就是因为技术还不够成熟。想象一下,你正站在中世纪城市的街道上,路过的人向你问好。你可以自由的探索这个城市的每一个角落,所有的画面都是实时生成的,但是你察觉不出一丝异样,视觉和听觉的感受让你的大脑难以质疑眼前的一切,你只感觉此时此刻你就在哪里,亲眼目击了这一切。这样的体验是目前需要靠人工搭建的乐高积木毛坯房一般的VR场景所不能比拟的(veo3不知道现在能不能生成VR视频)。

这就是视频模型的巨大潜力,或许应该叫现实世界模型。关键是能够理解并生成现实世界。

google看来目前还是当之无愧的goat,而且未来的前景无限广阔。以后就跟着google混了。

2loras_test__00068_.png

更多内容
想法2026-05-12 03:18

"我发现一个我非常感兴趣而且值得使用一辈子来投入研究的东西,就是探寻知识到大脑的最短、阻力最小的路径。需要同时满足系统1(本能)和系统2(意识)的需求。抖音的设计理念以及类似小约翰可汗,小Lin说,无穷小亮等娱乐知识博主某种程度上已经参悟了这一点。"

想法2026-05-12 03:13

"greatqian失去了连续性,现在是greatpi。"

想法2026-04-30 02:14

"韩国,日本,越南,曾经都是中文的影响力范围。 但是后面纷纷都改成了自己的文字,向字母化、音素化靠拢。 一个重要的原因是,象形文字的优势是侧重记录,古代就是用于仪式祭祀、记史,和平民日常沟通的语言非常割裂。字形和发音之间并没有很强的规律性。识字是贵族的特权。 声型文字的优势是,所听即所得,并不需要花很大的成本学习文字。能够用语言沟通就能识字。 中文这么难学的原因,就是不仅要视觉上认识字,还要知道字的发音,才能够正常沟通交流。有二维的认知负荷。 而英语只要会发音,就大概知道怎么拼写。能够认识单词,就大概知道怎么读。认知负荷一维。 这种特性也带来了一个现象:中文的影响力范围内,文字比较统一,但是发音各异,出现了无数种方言,“十里八乡不同音”。 有的方言差异到了很难沟通交流的程度。 而英语区,英美澳加,“方言”差异就小的多。 相同文字产生向心力,不同方言带来沟通困难和信息隔阂,产生离心力。 现代日语是五十音+混杂汉字(汉字的发音也和中文不一样)。越南语则是全面音素化。 未来的语言演化将会何去何从?并不太清楚。 维根斯坦说,语言的边界就是认知的边界,世界的边界。 毕竟无论是人(自然语言),还是AI(TOKEN),都需要通过符号从更高维度来描述和构建这个世界。 语言符号,TOKEN符号,都是信息的载体。 也许人类的自然语言都只是临时方案。在未来的意识体看来,就像单细胞生物通过化学递质传递信息一样原始?"

想法2026-04-29 13:57

"世界上最伟大的生意,可能就是兜售“希望”。 毕竟对于人而言,希望是最为珍贵的东西。 如果回到前额叶还不发达的早期智人时代,遵循本能行动就足够了,和其他动物没什么两样。 但是对于拥有自我意识(或许本质上是一个世界建模与预测模型)的晚期智人而言,一个“目标函数”就非常重要,因为它决定了除本能的正反馈之外,基于价值观、信念的高级正反馈的来源。 宗教,各种ideology就是干这个的,提供“希望”,塑造价值观,告诉人们为何而活。"

想法2026-04-29 13:28

"技术进步对于人类社会而言,一方面是促进了生产力的进步,一方面是加快了信息的流通效率,从这两个方面共同推动人类社会发展。 而人们往往只看到1,而经常忽视了2的影响。 感觉实际上可能2甚至更加重要。 从本质上来说,技术进步、科技专利实际上属于高价值信息。 信息交换、流通的过程中也会产生新的高价值信息。 (就像生物的进化,源于基因突变过程中产生了新的遗传信息。种群中进行繁衍过程中遗传信息交换组合也可能产生新的遗传信息。这也是有性繁衍由于无性繁衍的地方,我们现在看到的无性繁衍的都是比较原始的生物(可能几亿年形态都没什么变化),而有性繁衍让地球成了勃勃生机万物竞发的世界) 对于个人而言,确保自己的信息流通效率以及接触高质量的信息就非常重要。"