查看原文
其他

基于LLM的因果关系实验

DataFunTalk
2024-09-10


最新的AB实验方法论?

最前沿的RAG应用实践?
基于大模型的因果推断?

金融、汽车、物流、电商、游戏领域的领先落地经验?

尽在5月25日,由DataFun出品的数据科学峰会,我们将邀请8位专家和出品人共同策划,邀请来自国内外一线的专家学者分享数据科学的最新实践探索,感兴趣的小伙伴欢迎扫码报名,收看直播:

识别二维码,免费报名

1. 会议议程


2. 论坛明细表


出品人:井冬萍 快手损益中台 负责人

个人介绍:快手损益中台 负责人,曾任职于北美LinkedIn,毕业于芝加哥大学。负责过的工作内容包括用户增长数据分析、用户长期价值预测、实验平台异质性因果、国际化实验平台搭建等。

李奕霖 腾讯 数据科学家

个人介绍:北京大学数学学院统计学博士在读,致力于因果推断的研究,特别是存在干涉的因果推断和观察性数据分析。现任职于微信实验平台,主要研究方向为网络实验设计与分析,研究内容在Biometrics、ACM/IMS Journal of data science、ICML等期刊和会议发表。

演讲题目:基于成对数据的A/B实验

演讲提纲:成对数据是一种独特的数据类型,用于刻画两个个体间的交互行为和关系。研究人员可以利用成对数据更为深入研究个体之间的复杂关系和动态。例如,在国际关系研究中,成对数据可以包含国家间的贸易额等;而在社交网络分析中,成对数据则可以刻画个体间的交流行为。随着大数据时代的到来,成对数据分析逐渐引起了各个领域应用科学家的兴趣,然而关于成对数据的因果推断方法却鲜有研究。因果推断的核心假设之一是个体稳定处理值假设 (SUTVA),其中对于每个个体的潜在结果不依赖于其他个体的处理。然而,在社交网络场景下,由于存在网络干涉,这一假设往往并不成立,这也导致估计全局平均因果作用可能会出现不可忽略的偏差。我们考虑将成对结果引入随机实验中,其中受试者被随机分配到治疗组或对照组。此类场景在在线随机控制实验(A/B 测试)中广泛存在,例如转发消息或分享链接等数据。基于这类场景,我们引入了一种新颖的成对干涉假定。在存在异质性时,我们证明了基于常规单位水平结果的全局平均治疗效果的无偏估计一般并不存在。为此,我们利用成对数据的特点设计了了全局平均因果作用的无偏估计,并证明了在不同随机化设计(例如伯努利随机化、完全随机化和聚类随机化)下均不存在偏差。我们对所提出的估计量及其相应的理论特性进行了深入而全面的分析,例如收敛速度与网络结构之间的联系,以及利用Stein方法分析的估计量的渐近正态性。我们讨论了伯努利随机化下估计量的置信区间的构造方法,并给出了相应的统计推断方法。我们还通过各种数值实验来说明上述现象,验证了估计量对全局因果作用估计的准确性,同时将这一方法应用于大规模在线随机对照实验中。

听众收益:

1. 网络实验中,估计全局因果作用的方法有哪些?

2. 什么是成对数据分析?

3. 如何利用成对数据进行A/B实验与因果推断?相关的理论是什么?存在哪些问题?

李奕萱 联通数科 数据科学家

个人介绍:联通数字科技有限公司 模型开发专家。负责数字政府、文旅交通等行业的模型应用构建。专注于探索大数据、人工智能等方向的新技术,并在行业应用落地,主要研究成果已在多篇期刊和会议发表。

演讲题目:RAG技术应用实践

演讲提纲:RAG(Retrieval-Augmented Generation)技术,是一种结合检索和生成功能的自然语言处理技术。它通过从大型外部知识库中检索与输入问题相关的信息,来辅助生成式模型回答问题。RAG技术广泛应用于问答、对话系统、文本摘要等多种自然语言处理任务中。它的优势在于能够提高内容的准确性和相关性,有效地缓解幻觉问题,提高知识更新的速度,并增强内容生成的可追溯性。本次演讲将分享RAG技术的优势、我们如何基于联通自有数据进行知识增强应用的构建,以及在应用RAG技术过程中遇到的挑战和解决方案。

听众收益:

1. 什么是RAG技术?

2. RAG技术的优势是什么?

3. RAG技术过程中遇到的挑战和解决方案。

董晓静 Leavey School of Business, Santa Clara University, Tenured Professor of Marketing

个人介绍:来自美国硅谷的Santa Clara University 市场营销和商业分析的终身教授,市场营销学硕士学位总监。她本科毕业于清华大学,硕士毕业于麻省理工学院(MIT),博士毕业于美国西北大学(Northwestern University)。董教授的科研和教学方向是人工智能和大数据的方法及其在市场营销和商业决策中的应用,侧重于对消费者决策过程和变化的分析和研究。主要课题是商业行为如何影响客户的行为和决策,以及客户之间的互相影响,包括产品销量预测,用户决策动态分析,计量经济学,机器学习和贝叶斯统计学。董教授在英文A+ 杂志上发表多篇论文、并获得美国营销学会的论文奖,被多家新闻媒体引用。

董教授多次在中国和美国的高校演讲和做学术分享,并为国内多所高校的博士生开设课程,包括清华大学,上海交通大学、北京邮电大学、复旦大学、北京大学等。

演讲题目:通过实时数据揭示消费者偏好

演讲提纲:对消费者偏好进行推断在个性化、定向推荐领域起着至关重要的作用,常规操作是利用消费者的历史数据的获取其偏好,但这一资源由于不断增加的隐私法规而变得稀缺。在这项研究中,我们引入了一种贝叶斯动态方法,通过利用消费者的搜索过滤选择来解码消费者偏好,例如调整价格范围以优化搜索结果。这种创新方法使我们能够利用实时搜索行为数据了解消费者偏好。这就可以让公司在遵守隐私法规的限制的同时,也能及时获取用户偏好、并实现及时的推荐。我们开发了一个贝叶斯模型,捕捉实时信息以评估流动环境中个体级别的价格质量权衡。通过针对价格质量权衡量身定制的效用模型,我们的模型提供了一个闭环的解决方案,帮助企业看清楚各种不同影响消费者购买决策的因素是如何收敛并最终作用在购买结果上的。我们通过模拟和来自知名旅行社的实际数据验证了模型的有效性,采用了马尔可夫链蒙特卡洛技术。这种新颖方法的模拟和实际应用都突显了其卓越的预测能力,表明企业可以通过分析消费者的实时在线行为敏锐地洞察消费者倾向。

朱科航 哈佛大学 博士研究生

个人介绍:哈佛大学物理系在读PHD,师从MIT斯隆商学院教授John Horton,哈佛AI safety fellow。

演讲题目:Automated Social Science: Language Models as Scientist and Subjects

演讲提纲:We present an approach for automatically generating and testing, in silico, social scientific hypotheses. This automation is made possible by recent advances in large language models (LLM), but the key feature of the approach is the use of structural causal models. Structural causal models provide a language to state hypotheses, a blueprint for constructing LLM-based agents, an experimental design, and a plan for data analysis. The fitted structural causal model becomes an object available for prediction or the planning of follow-on experiments. We demonstrate the approach with several scenarios: a negotiation, a bail hearing, a job interview, and an auction. In each case, causal relationships are both proposed and tested by the system, finding evidence for some and not others. We provide evidence that the insights from these simulations of social interactions are not available to the LLM purely through direct elicitation. When given its proposed structural causal model for each scenario, the LLM is good at predicting the signs of estimated effects, but it cannot reliably predict the magnitudes of those estimates. In the auction experiment, the in silico simulation results closely match the predictions of auction theory, but elicited predictions of the clearing prices from the LLM are inaccurate. However, the LLM's predictions are dramatically improved if the model can condition on the fitted structural causal model. In short, the LLM knows more than it can (immediately) tell.

听众收益:

1. 怎么利用大语言模型做因果关系的实验

2. 怎么自动化整个研究的过程

3. 如何用大语言模型来做为一个人的近似


出品人:朱志华 腾讯 数据科学家

个人介绍:12年硕士毕业,12-15年在eBay中国和美国做数据分析的工作,2015年加入腾讯,主要负责腾讯广告的实验系统建设以及策略分析优化工作。前者主要针对不同的业务场景和目标用户,设计不同的实验类型以及实验机制;后者主要针对广告策略层面发现问题,提出解法并协助工程师团队落地。

熊若轩 Emory University,Quantitative Theory and Methods,Assistant Professor

个人介绍:Ruoxuan Xiong is an assistant professor in the Department of Quantitative Theory and Methods at Emory University, and by courtesy, of the Department of Economics, and the Department of Information Systems & Operations Management. She received a Ph.D. in Management Science and Engineering from Stanford and was a postdoctoral fellow at the Stanford Graduate School of Business before joining Emory. She received her bachelor's degree from Peking University. Her research interests lie at the intersection of operations management, econometrics, and machine learning, focusing on causal inference, experimental design, and panel data, with applications to digital platforms, finance, and healthcare. Her research has been published in a diverse set of venues including Management Science, Journal of Econometrics, and also ICML / KDD / AAAI. She received an Honorable Mention in the George Nicholson Student Paper Competition (2019) and was a Finalist in the MSOM Student Paper Competition (2020).

演讲题目:Optimal experimental design for staggered rollouts

演讲提纲:In this paper, we study the design and analysis of experiments conducted on a set of units over multiple time periods in which the starting time of the treatment may vary by unit. The design problem involves selecting an initial treatment time for each unit in order to most precisely estimate both the instantaneous and cumulative effects of the treatment. We first consider nonadaptive experiments, in which all treatment assignment decisions are made prior to the start of the experiment. For this case, we show that the optimization problem is generally NP-hard, and we propose a near-optimal solution. Under this solution, the fraction entering treatment each period is initially low, then high, and finally low again. Next, we study an adaptive experimental design problem, in which both the decision to continue the experiment and treatment assignment decisions are updated after each period’s data are collected. For the adaptive case, we propose a new algorithm, the precision-guided adaptive experiment algorithm, which addresses the challenges at both the design stage and the stage of estimating treatment effects, ensuring valid post-experiment inference, accounting for the adaptive nature of the design. Using realistic settings, we demonstrate that our proposed solutions can reduce the opportunity cost of the experiments by more than 50%, compared with static design benchmarks.

听众收益:

1. What is a staggered rollout experiment?

2. How to sequentially and dynamically allocate treatment to units?

3. How to dynamically decide when to stop the experiment?

李池洋 腾讯 数据科学家

个人介绍:2015年于北京大学数学科学学院本科毕业,2017年于伊利诺伊大学香槟分校硕士毕业。2018年加入腾讯后主要负责腾讯广告实验科学及营销科学相关内容。实验科学方面,负责了双边市场下的评估指标和实验设计、方差削减的理论研究及应用、长期holdout实验机制设计等多个项目,为不同业务的评估衡量提供科学保证。营销科学方面,负责了uplift实验衡量品牌增益、5R及R0人群科学定义等项目,为品牌广告主的效果影响提供理论支持。

演讲题目:基于两步随机化的实验流量管理与分配

演讲提纲:实验平台使用层域模型进行流量管理,传统的层域模型设计中,大多通过一次随机化计算,同时完成流量划分与随机分组的操作。但在广告的复杂业务场景下,由于需要使用多种实验设计、模块间联动实验需求高、系统环境变更频繁等原因,传统的一步随机化模型会面临种种问题。已处理,我们设计了基于两步随机化的实验分流方案,在不同随机化步骤中对划分单元与随机化单元进行区分与处理,来优化实验流量管理与分配逻辑,以支持更多业务场景的实验,并提高效果评估准确性。本次演讲将介绍AB实验平台常见的流量管理与分配模型、划分单元与随机化单元的概念、两步随机化下的采样逻辑及层域模型设计、两步随机化对系统的价值。

听众收益:

1. A/B实验的层域模型设计和选型

2. 两步随机化下的采样逻辑

3. 两步随机化下的流量管理与分配模型

司念 香港科技大学 助理教授

个人介绍:斯坦福运筹学毕业。现在在芝加哥大学布斯商学院做博士后。将在今年7月入职香港科技大学助理教授。研究兴趣为平台中的实验设计。

演讲题目:在反馈回路影响下的实验设计 A/B Tests under interference induced by feedback loop

演讲提纲:现代平台经常包含复杂的系统,其中包括反馈循环。这些循环通常由调速算法或数据训练过程产生,使得早期会话的结果影响到后续会话,从而在A/B测试中引起干扰。在本次演讲中,我将介绍分析不同类型反馈循环的数学框架。我将说明反馈循环如何导致对处理效果得出错误结论,并提出新的实验设计和估计方法以降低偏差和方差。本次演讲基于两篇论文:

https://arxiv.org/abs/2310.17496

https://arxiv.org/abs/2401.15811

听众收益:

1. 识别平台中的反馈回路

2. 在有反馈回路的平台中如何进行实验设计


联合出品人:张洁 腾讯游戏 资深数据科学家

个人介绍:现任职于腾讯游戏团队,主要负责数据驱动游戏用户增长。曾任职于百度内容产品团队、腾讯内容安全团队、金融安全团队,对因果推断在广告投放、产品优化、用户增长、安全风控等方向的应用有广泛的研究和探索,拥有多项专利,并多次受邀在公开技术论坛和峰会分享相关技术实践经验。

联合出品人:周默 京东零售 技术总监

个人介绍:周默,京东零售技术总监,用户增长领域技术专家,具有10年以上大数据及算法架构研发经验,目前专注于通过数据科学驱动业务增长的课题探索和实践。

韩云飞 火山引擎 A/B 测试研发负责人

个人介绍:负责字节跳动通用实验平台团队,致力于打造业界最先进好用的实验平台,把A/B测试变成驱动业务增长的新基建。从0到1参与搭建了字节跳动内实验中台Libra,服务于内部多条业务线;对外发布火山引擎DataTester等产品。

演讲题目:用户增长的真相

演讲介绍:在当今竞争激烈的市场环境下,企业都在竭尽全力地追求用户增长。然而,要实现可持续的增长,我们必须深入理解用户,找到有效的方法为他们带来价值。在这个过程中,数据发挥着至关重要的作用。本次分享将围绕着“用户增长的真相就是不断对抗熵增”这一理念,探讨如何利用数据分析、实验评估和探索分析等手段,实现用户增长的目标。具体内容包括:

1. 用户增长的真相

2. 理解用户需求

3. 寻找有效策略

4. 为用户创造价值

5. 利用数据获得洞察

6. 结论

听众收益:

1. 揭示用户增长的核心本质:深入探讨用户增长的真相,帮助听众理解如何对抗熵增,实现可持续增长。

2. 数据驱动的策略制定:分享如何利用数据分析找到有效的增长策略,通过实验评估确保策略的有效性。

3. 提升用户价值:强调为用户创造价值的重要性,介绍如何利用数据进行产品迭代,提升用户体验。

李博 阿里巴巴 1688数据科学&用户增长技术总监

个人介绍:当下负责1688事业部数据科学和用户增长部门,通过技术驱动帮助1688用户增速翻倍增长。

演讲题目:LTV模型驱动的全链路增长

林宏达 数据科学家

个人介绍:拥有10年数据科学从业经验,曾担任头部保险公司核保风控算法团队负责人,专注于大数据用户画像、智能营销、因果推断、增益模型和用户增长等领域。

演讲题目:因果推断在互联网电商用户增长中的应用

演讲提纲:

1. 因果推断及作用

2. 增益模型在用户增长的应用

3. 总结和展望

听众收益:

1. 了解因果推断和应用场景

2. 掌握因果推断在用户增长的应用


出品人:王尔立 NEC中国研究院 研究员

个人介绍:王尔立,数学博士,就职于NEC中国研究院,任研究员。2019年博士毕业于昆士兰大学数学物理系。从事可解释性的智能决策的模型建立、算法设计和软件原型开发。参与开发“NEC因果分析系统”,协助客户进行数字化转型和解决方案创新。系统受邀2023中关村论坛展览。已发表论文10余篇(如AAAI/ICAPS等论文),申请国内外专利10余项。获得2021年NEC集团事业贡献二等奖,所在团队2023年获“中关村科学城科技创新团队”称号。

程伟 NEC Labs America 高级研究员

个人介绍:Wei Cheng 是 NEC 美国实验室的高级研究员。他于2015年在美国北卡罗来纳大学教堂山分校计算机科学系获得博士学位,导师为王伟教授。他的研究兴趣包括数据科学、机器学习和生物信息学。他已申请专利100多项,在NeurIPS、ICML、SIGKDD、ICLR、WWW、EMNLP、ISMB等顶级会议和Nature、Science、TPAMI、TNNLS、TKDE、Bioinformatics等期刊上发表研究论文100多篇。他的研究成果曾获得 2016 年 SIGKDD 最佳研究论文亚军奖,并获得 2018 年 ICDM、2017 年 ICDM、2015 年 ICDM 和 2012 年 SDM 最佳论文奖提名。他还担任过多个顶级会议的领域主席,包括 ACL、SIGKDD、EMNLP、NAACL、IJCAI、SDM、AAAI、WSDM 等。

演讲题目:检测 LLM 创建的内容

演讲提纲:在这个数字化快速发展的时代,LLM如ChatGPT和Claude等已成为我们获取、生成和理解信息的重要工具。它们不仅能够创建高质量的文本内容,还能在各个领域中提供支持和优化解决方案。在接下来的时间里,我们将探讨LLM内容创造的现状、为什么需要对这些内容进行检测、以及可以采用的不同方法和技术。我们还将分享成功案例研究,探讨当前面临的挑战,并展望未来技术的发展方向。我们希望通过今天的讨论,提高大家对于大型语言模型在内容创造中作用与挑战的认识,并共同探索有效的内容检测策略,以确保信息的真实性和安全性。主要内容包括:

I. 引言

A. 介绍大型语言模型(LLM)及其在内容创作中的作用

B. 强调检测LLM创建内容的重要性

C. 演讲目的概览

II. LLM内容创作的现状

A. LLM在各行业的应用实例

B. 创作内容的质量与可信度

C. 存在的挑战与风险

III. LLM内容检测的必要性

A. 确保内容的真实性与准确性

B. 避免误导性信息的传播

C. 维护内容创造道德和标准

IV. 检测方法与技术

A. 基于文本分析的方法

B. 机器学习与人工智能技术

C. 高级检测技术的发展趋势

V. 未来展望

A. 检测技术的发展方向

B. LLM内容创造与检测的融合前景

C. 参与者的责任与角色

Ⅵ. 问答环节

A. 解答观众问题

B. 探讨演讲话题的深入内容

听众收益:

1. 了解可检测LLM生成内容的重要性

2. 当前可以采用的不同方法和技术

3. 展望未来技术的发展方向

孙悦雯 MBZUAI 博士后

个人介绍:孙悦雯博士目前是穆罕默德·本·扎耶德人工智能大学机器学习系的博士后研究员。2023年获得东南大学博士学位,2017年获得山东大学学士学位。主要研究方向包括强化学习、因果发现和表征学习。

演讲题目:因果表征学习的理论创新与应用实践

演讲提纲:在实际生活中,观测变量通常可以视作隐变量的数学函数表达。面对不断变化且复杂的实际场景,我们往往关注这些具有因果语义的底层数据生成过程。因果表征学习力求从底层观测数据中识别出具有语义信息且具有可识别性的高级因果变量。良好的表征可以帮助智能体对其周围环境进行简洁的建模,进而支持复杂环境下的有效决策。本次演讲将简要介绍因果的基本概念及其在现实问题中的重要性,随后介绍因果表征学习这一新兴领域的研究现状,并分享我们团队在该领域的进展。

听众收益:

1. 什么是因果表征学习?

2. 因果表征学习可以为我们带来什么?

3. 如何将因果表征学习应用于决策过程?

陈思蕤 同济大学 博士研究生

个人介绍:同济大学软件学院博士研究生,研究方向为因果推理,大语言模型。

演讲题目:大语言模型因果推理评测体系的构建

演讲介绍:因果推理是人类认知能力最重要的特征之一,提升因果推理能力被视为由机器智能迈向人类智能水平的关键步骤。为对大模型进行科学有效的因果推理能力评估,我们研究团队发布了首个大模型因果推理开放评测体系及开放平台CaLM(Causal Evaluation of Language Models,以下简称“CaLM”)。CaLM中提出了包含因果评估目标(Causal Target)、评估方式(Adaptation)、评估标准(Metric)及错误分析(Error)的评估框架,同时构建了超过12万道题目的中英文数据集。基于CaLM,我们团队首次对28个当前主流大模型进行了因果推理能力评测,共产生了50项实证性发现,相关论文共315页。

演讲提纲:

1. 背景介绍

2. CaLM框架介绍

3. 实验结果

4. 存在的局限性

5. 总结

6. 主页展示

听众收益:

1. 如何确定大语言模型是否具有因果推理的能力?

2. 如何衡量大语言模型的因果推理熟练程度?

3. 如何提高大语言模型的因果推理能力?

陈美琪 北京大学 博士研究生

个人介绍:陈美琪,北京大学博士研究生,导师为张岩教授。主要的研究方向为大模型、因果推理、知识图谱。在ACL、COLING、ICASSP等国际会议上发表了多篇论文,受邀担任ACL、EMNLP、NAACL等AI/NLP领域顶会审稿人。

演讲题目:从因果视角量化和评估多模态大模型中的单模态偏见

演讲提纲:近期关于大语言模型(LLMs)的研究进展促进了多模态大模型(MLLMs)的发展。尽管它们具有令人印象深刻的能力,我们发现多模态大模型往往过度依赖单模态偏见(例如,语言偏见和视觉偏见),导致在复杂的多模态任务中出现错误答案。为了研究这一问题,我们提出了一个因果框架来解释视觉问答(VQA)问题中的偏见。在这个框架内,我们进行了深入的因果分析,以评估这些偏见对多模态大模型预测的因果效应。基于此分析,我们引入了一个名为 MORE 的新数据集,包含 12,000 个需要多跳推理并克服单模态偏见的具有挑战性的 VQA 实例。我们的实验显示,多模态大模型在 MORE 数据集上的表现不佳,表明存在强烈的单模态偏见和有限的语义理解。我们提出了两种解决方案,以减轻这些偏见并提高多模态大模型的推理能力。

听众收益:

1. 多模态大模型中的单模态偏见问题

2. 如何应用因果推理分析单模态偏见

3. 如何缓解单模态偏见问题


出品人:陶万杰马上消费金融公司 算法副总监

个人介绍:现任职于马上消费金融人工智能研究院,主要负责电销智能决策业务和企业数字化办公智能化等相关的 AI 大模型技术的研发落地。曾任职于阿里巴巴,在智能营销决策算法,运筹学及商业化算法方面带领团队在技术领域深挖探索,沉淀了较多领先技术,近年来研究的相关创新算法技术在 AAAI、CIKM、SIGIR、WWW、KDD、ICDE、VLDB 等 CCF-A 顶会录用 10 余篇,申请多项专利,并多次受邀在公开技术论坛和峰会分享相关技术实践经验。

敖翔 中国科学院计算技术研究所 副研究员

个人介绍:敖翔博士,中国科学院计算技术研究所副研究员,博士生导师。研究方向为智能金融、数据挖掘与自然语言处理。先后主持国家自然科学基金项目3项,CCF-腾讯犀牛鸟科研基金(获优秀奖)、腾讯广告犀牛鸟专项基金、阿里巴巴AIR计划(获优秀学术合作项目)、蚂蚁金服金融安全专项基金等10余项科研项目,在 IEEE TKDE、 KDD、 WWW、 ICDE、 SIGIR、 ACL、 AAAI、 IJCAI 等国际权威期刊和会议上发表论文 80 余篇,其中 CCF A 类40余篇。入选北京市科技新星、中国科学院青促会、微软亚洲研究院“铸星计划”。担任 SIGKDD、 WWW、 ACL、 AAAI、 IJCAI 等学术会议的(高级)程序委员。

演讲题目:大模型与图机器学习协同的用户行为风控

演讲提纲:以GPT为代表的大模型涌现的机器智能为大小模型协同学习提供了契机。大模型的巨量参数存储了从海量数据中学习到的知识,同时其惊人的意图理解能力和分析推理能力为指导小模型性能提升提供了可能性。本报告将从意见咨询方面的角度将大模型融合到小模型训练过程中,用预测不确定性挑选难样本向大模型发起咨询,利用大模型的反馈意见增强小模型在图机器学习任务上的表现,该范式有助于提升图学习模型在用户行为风控任务中的表现。

听众收益:一种大模型作为咨询师的用户行为建模新范式。

张雅淋 蚂蚁集团 算法专家

个人介绍:张雅淋,硕士毕业于南京大学,现蚂蚁集团平台技术事业群算法专家。研究方向聚焦于弱监督机器学习、因果机器学习以及自动机器学习等领域,在ICML、NeurIPS、ICDE、CIKM等国际会议发表论文20余篇;熟悉信贷风控与营销的业务场景,并借助相关技术解决业务中的痛点问题。

演讲题目:弱监督建模技术在蚂蚁风控场景中的探索与应用

演讲提纲:金融风控场景中往往存在诸多形态的弱监督问题,面临诸如建模数据不足、标签信息匮乏、标签信息存噪等潜在痛点,而这部分建模的探索及经验分享相对匮乏。如何更好地利用可以获取的数据以及标签信息,探索更高效和鲁棒的建模方法,是我们需要解决的问题。自金融风控场景的风险建模以及响应建模等场景出发,我们分别介绍我们对跨域因果和标签存噪建模问题的一些技术探索和应用实践。

听众收益:

1. 风控响应场景中因果建模问题的域适应与跨域建模方案介绍;

2. 风控场景下的噪声标签问题以及建模方案介绍;

3. 相关技术在蚂蚁业务场景的应用以及业务影响等;

王耀宣 奇富科技 算法总监

个人介绍:互联网广告和互联网金融领域十余年算法研发和应用经验,先后在秒针系统、百度、阿里等公司从事广告、获客、经营等方向的模型算法和智能决策系统能力建设。现负责奇富科技投放获客、用户经营等相关业务算法和图像、语音等多模态相关基础算法方向,致力于模型算法对业务的高效赋能。

演讲题目:信贷场景广告投放优化实践

演讲提纲:信息流媒体作为当前互联网最重要的流量入口,是信贷业务极其重要的获客来源,如何在媒体能力下去构建适用于自身业务场景的投放策略,如何利用好一方和三方数据构建有效的数据驱动能力,如何持续进行有效的迭代优化策略效果,大模型如何在投放场景中进行应用。分享会基于过去一段时间在广告投放方向做过一些探索和落地,包括用户策略、计划策略、智能创意、端内承接等方向。

听众收益:

1. 信贷场景投放的困境和破局方法。

2. 基于媒体平台能力和数据驱动的投放获客能力建设和效果优化思路


出品人:潘鹏举 蔚来汽车 算法专家

个人介绍:负责智能算法团队的规划和技术管理工作,有10+年以上的大数据平台、人工智能和数据分析的互联网从业经验,曾就职于携程、平安,负责人工智能团队的组建和算法体系的搭建。

丁绅一 蔚来汽车 主任工程师

个人介绍:2015-2022 东华大学 硕博连读 主要研究方向为工业场景下的大数据建模

2020-2022 蔚来汽车 图像算法实习生 主要工作内容为基于图像算法的换电站场景下的电池安全风险识别

2022-至今 蔚来汽车 图像算法工程组负责人 主要工作内容为通过智能算法助力换电站的无人值守

演讲题目:换电站视觉技术分享

演讲提纲:首先简要介绍了换电站如何进行机械换电操作;然后介绍换电站的发展方向,引入无人值守概念;接着着重介绍视觉技术如何协助实现无人值守;最后进行简单的总结。主要内容包括:

1. 换电流程

2. 换电站视觉技术

a. 换电站可用性检测

b. 车站交互检测

c. 安全性检测

3. 总结

听众收益:

1. 换电站是如何完成车辆换电的?

2. 算法需要实现哪些功能,才能实现换电站的无人化?

3. 换电站场景下的算法有哪些特殊的要求?

邓泓舒语 京东物流 数据科学负责人

个人介绍:邓泓舒语,博士毕业于清华大学,现任京东物流数据科学负责人。从0到1带领团队搭建了京东物流A/B实验平台,获得中国物流与采购联合会科技进步二、三等奖,邮政行业科学技术奖二等奖。

演讲题目:京东物流A/B实验体系建设与实践

演讲提纲:物流所属的实体行业,由于网络复杂、环节耦合、LBS属性强,技术效果的评估效率和准确率性都难以得到保障,导致技术对业务的价值看不清。对此,京东物流结合多年供应链经验和丰富的数据,建立了“事前-事中-事后”为一体的数据科学体系,融合了数字孪生、A/B实验、持续实验、因果推断等技术,并落地为京东物流A/B实验平台,助力供应链各环节的技术效果评估与决策。

听众收益:

1. 实体行业评估技术效果存在哪些难点?

2. 如何构建“事前-事中-事后”的技术评估体系?

3. 如何保证技术效果评估的可靠性和合理性?

邰康盛 蔚来汽车 高级算法工程师

个人介绍:蔚来汽车高级算法工程师,负责智能能源、智能营销等领域算法研究及落地应用工作,致力于用数据、方案与算法解决业务场景中所面临的实际问题。

演讲题目:视觉检测算法在蔚来汽车能源云的应用探索

演讲提纲:

1. 业务背景和视觉检测算法概述

2. 案例一: 视觉检测算法在换电站场景的应用探索

3. 案例二:视觉检测算法在能源设备工程审核的应用探索

4. 总结展望

听众收益:

1. 了解蔚来能源业务背景和视觉检测算法概述

2. 小样本目标检测在实际业务场景中的应用

3. 倾斜目标检测在实际业务场景中的应用


3. 主办方

DataFun成立于2017年底,是专注于服务数据智能开发者的垂直社区。在“成就百万数据智能开发者,助力万家企业数智化”的使命驱动下,通过6年的持续运营,邀请了超过4000位领域专家分享、以视频和图文的形式沉淀了超过2000个应用案例、并在全网影响了50w精准开发者。

识别二维码,免费报名

修改于
继续滑动看下一个
DataFunTalk
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存