字节跳动CVPR 2024线下活动回顾:上百位研究者齐聚,畅谈生成式AI浪潮
2024-6-24 18:11:23 Author: mp.weixin.qq.com(查看原文) 阅读量:8 收藏

6 月 19 日傍晚,字节跳动在 CVPR 2024 主会场附近举办晚宴活动,上百位计算机视觉领域的从业者、学者与学生应邀参加。
他们中,既有远赴西雅图参会的高校学生及学者,也有产业界相关负责人。在开放、轻松的氛围下,大家齐聚一堂,畅谈生成式 AI 浪潮下,计算机视觉技术发展。
在活动现场,字节跳动智能创作团队负责人、豆包大模型视觉多模态负责人杨建朝进行了发言。
杨建朝不仅介绍了字节跳动公司概况、主要产品及全球化布局,也谈及公司在近些年保持的较好增长趋势。身处其中,他感到,“加入字节六年,跟随公司和产品一起成长,这是一段非常精彩的旅程”。
随后,杨建朝介绍了团队情况。他表示,智能创作团队为抖音等业务线提供了内容创作技术支持。豆包大模型视觉多模态团队则专注于视觉大模型、图像生成、视频生成,以及相关基础研究。
在发言最后,杨建朝分享了一段视频,让参会者直观感受到了字节跳动目前在生成式 AI 方面的能力。
大模型浪潮助推下,本次 CVPR 2024 热度颇高。活动现场能看到,越来越多中选论文是校企合作的产物。这当中,学研圈提供了更年轻、高潜的人才与思考,而产业界则贡献了真实的场景、需求以及数据计算资源。有同学在参会后感慨,过去学术和产业之间的界限清晰得多,生成式 AI 正让两个圈子进一步融合。

字节跳动一直高度重视技术研究探索和应用,今年 CVPR ,公司共有超过 30 篇论文中选,部分成果在业内已获得一定关注。
其中包括 MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model ,该成果是一个基于扩散技术的人体图像动画框架,旨在增强时间一致性,忠实地保持参考图像中人物状态,并且提升了动画保真度。

在深度估计方面成果有 Depth Anything: Unleashing the Power of LargeScale Unlabeled Data ,该论文提出一种稳健单目深度估计解决方案,追求简单但强大的功能,旨在处理任何图像,还能被应用于视频领域。
视频生成领域,成果代表之一是 Make Pixels Dance: High-Dynamic Video Generation 。PixelDance 是一款 AI 视频生成产品,它能生成动作更丰富、更符合文本输入、稳定性更强、自由度更高的视频,还支持稳定的连续片段生成。

此次 CVPR 期间,豆包大模型团队的同学们也来到西雅图,同圈内研究者们进行大量技术交流。在主会场的展区,团队安排了讲解环节,现场介绍并展示了部分成果。
今年中选成果中,部分成果出自豆包大模型团队同学之手,有的论文一作还是实习生。
一直以来,字节跳动豆包大模型团队都非常重视年轻高潜人才,鼓励他们敢想敢做,相信并支持他们取得成果。为此,团队在不久前启动了面向 25 届博士毕业生的 Top Seed 人才计划。
这是一个面向校园优秀人才推出的专项。我们希望在全球范围内持续吸引和招募目标远大、有志于“用科技改变世界”的顶尖人才。项目启动至今,我们已收到数百份投递简历。
目前,字节跳动还在持续加大对顶尖人才和前沿技术的投入力度,长按下方二维码或点击阅读原文,即可投递简历。

加入我们,一起探索并解决计算机视觉及大模型技术前沿课题。

 点击「阅读原文」,一键投递岗位!

文章来源: https://mp.weixin.qq.com/s?__biz=MzI1MzYzMjE0MQ==&mid=2247507857&idx=2&sn=0984bfda2ea79c13173a4da1fd10a295&chksm=e9d31473dea49d65ca81f73a07c7297dc3f08a5d5a47fe2497fd229d5e660b9da4b3bff62173&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh