字节【大模型评测平台】产品岗-面试总结与复盘

南方碟道 2024-03-14 21:41:09

此篇文章，旨在为个人24年年后复工第一面的全面总结回顾，包括面试前准备、面试中表现及面试后思考，以期帮助自我成长，也期望将此次宝贵的面试过程分享出来，帮助更多产品er轻松拿捏面试，尤其为那些争取大模型相关岗位、字节跳动公司岗位的产品er们提供一些参考~

注：本次分享，并无任何冒犯面试官、HR、字节等公司的意图，旨在客观回顾、分析整场面试经历，为自己、为他人提供一个借鉴与参考~

一、面试过程回顾

面试岗位：字节跳动-大模型评测平台产品岗（投的不是这个岗，后被转到这个岗面，但HR全程无告知，我自己发现JD不一样，但HR给我的回复是：面试官一样、面试流程一样。//我就不做过多评价了…大家自行体会HR的专业性~）；
面试时间：3.5晚7:00（面试官推迟了2次时间后定的时间）
面试总时长：50min （40min面试官想结束了，被我硬拖了10多分钟…）
本场面试问题及过程回顾（字数过多…可跳过直接看【面试总结】）：以下是面试经过：

（1）面试官没有主动自我介绍，关于迟到推迟时间也没有任何解释——这在我所有面试里，都是比较罕见的（可能我面的还不够多，或者过于理想化）。

建议其它面试者面对这种情况，也不要慌乱，把这种归为“正常”情况处理即可~

（2）面试的第一个问题不是自我介绍，而是问我对面的什么岗位了解不？需要我给你讲讲不？

这里有些小插曲，我以为这句话的意思是，他已经知道我起初投的岗和要面的岗并不是一个这个前提，所以过来问我准备好没有、是否要他讲讲之类的。但我的一些回答，现在想想…直接注定了这场面试的失败。

我说我起初投的AIGC的，JD比较泛，后面转到这个评测岗，我认为我过往经历也挺合适的，我也挺感兴趣的，所以就也准备着了。我说我仔细看了这个JD，而且一直准备的就是这个岗，我大致知道，不用详细介绍了…（实际可以让他介绍一下，我为什么没让他介绍呢？我一直寻思着，这就开始了么，怎么不让我自我介绍呢？）。

这里，通过面试官的表情和行为，马后炮地猜测一下面试官的心理：面试者起初投递的并不是这个岗位，我还要面她这个岗…这不是浪费时间么？我还有很多活没干完…

（3）他让我直接说一个最近的项目。额..自我介绍呢？我没有顺着他，我还是简单地做了个自我介绍（我不知道这样对不对，但我还是想做一个自我介绍）。——这里在他那估计也是扣分项，不听他的问题。

（4）自我介绍完了之后。面试官说，好，那你说一个你做的项目吧。

我说好，我说我做的xxx产品，我跟他说我先讲一下这个产品是什么，然后我说我再展开讲为什么做、我怎么做的、结果如何。他没吭声，我就继续讲~

在我讲完这个产品是什么，以及在用STAR法则展开讲到我具体产品规划完，该到产品设计的时候，他开始打断，认为我讲的过于宏观，不听了。

——1个项目介绍5min时间，应该不算长吧？我自己面试前练习过，整个项目介绍也就5-6min。

——所以，在讲产品规划时，即使是宏观的东西，也要讲的具体，比如调研了多少份报告、走访了多少个客户，远比你说“运用xxx方法论”…更有信服力。

（5）okay，那我停。听他问问题。

他问（Q1）：你这个产品里面有几个模型？都是啥模型？模型怎么工程化到产品里面的？以及产品的指标是准确率还是什么？如何评估的？

我答：我们产品里面的模型主要有文本分类、图像分类模型，文本分类模型我们是多个二分类模型，图像分类是一个多分类模型，像涉稳、涉政、涉恐这些，客户核心关注的一些涉政的标签，我们也会拆到3个层级，模型个数具体也没细数，一共有16个模型吧，一共16个。

然后我们这个产品的评估指标分为两个层次，一个是业务层面的指标，比如线索发现准确率；一个是模型层面的指标，像精确、召回、F1值这些。

关于线上业务准确率效果指标如何评估的，我们是这么做的：

先根据业务需求制定评估指标，然后对模型基于前期准备的测试集进行测试，然后采用人工评估和自动化评估相结合的方式对模型效果进行评估，评估完之后，对一些业务效果不好的case进行分析，然后后续基于此进行优化。

然后关于模型效果指标的评估，我们主要是在模型出厂正式上线前进行精确、召回、f1的离线评估。像我们这个场景，我们线上业务指标主要考虑的是精确率，因为没办法评估召回。

他打断问到（Q2）：你们和客户说准确率指标，模型的这些指标，客户认吗？为何不能评估召回？不是测试集上就能评么？

我答：我说客户认的。像一些违法犯罪的分类准确率，文本分类、图像分类这些，客户已经被“教育”的很好了，被培训的很好了，客户都知道的，而且在我们这个场景里，模型指标基本上就等同于业务指标了。

我解释为何线上场景不能评估召回率的原因：我说海量的信息，因为不能预判到底有多少违法犯罪，所以只能评估精确率。但是在模型效果评估层面，就可以评估精确、召回和f1了，因为测试样本是有限的。

他继续问到（Q3）：你说你们产品是网络内容安全领域，那你们处理的内容是啥内容？以及这个内容治理的整个链路是什么？

我答：我们这个产品里面的内容，主要是网络上采集到的文本数据、图片数据、还有短视频数据，我们使用的模型有文本分类、图像分类模型还有一些关键词策略模型，包括涉稳、涉恐、涉政、涉违法犯罪这些，然后给文本、图片打上相应的标签。

整个内容的治理链路就是：先从网上采数据，然后过模型对数据进行分类，打上相应的类别标签，然后进行信息预警，体现在业务前台上就是信息预警。

他说，好的。他问（Q4）：那你们这个信息预警的线上效果如何观测？

我答：我说，线上效果一方面是我这边会去使用产品，发现问题；另一方面是收集客户反馈给我们的问题，然后分析问题原因，然后去针对性解决。如果是数据层面的比如数据质量差，我们就相应的解决数据问题，比如数据量不够，还是标注的质量不够，就相应的去解决。如果数据没问题，是算法层面的原因，那就优化算法，由算法工程师去优化。

他问（Q5）：你们有没有线上反馈打分的机制？

我答：我们这个xx产品，目前没有这个机制，没做，因为是基于产品当下的一个重心资源情况，决定先不做这块，但未来会考虑做这方面的功能，人机协同嘛。但是我在百度做的几个产品，像xxx、xxx产品，发现了一些问题上报给客户之后，客户那边的问题处置流转系统里面，会有相应的人工反馈、人工打分的机制，反馈给我们，我们基于这些问题去优化。

他答：奥。他继续问（Q6）：那你知道什么是过拟合吗？

我答：知道。过拟合的一个原因，主要是样本分布不均衡导致的，比如一个分类模型，有的样本类别数据特别多，有的类别样本特别少，那这样训出来的模型就会过拟合。过拟合可以在模型训练前，将训练数据样本尽量搞成均衡分布的，就可以解决这个问题了。（我忘记答什么是过拟合了，答非所问了）

他问（Q7）：那如果像一些模型，刻意给他训成过拟合了，你怎么识别？

我答：（此处空白了一会）。额，这个一般都是算法去优化。

他问（Q8）：那到底什么是过拟合？

我答：就是模型在一部分数据集上效果表现的非常好，准确率能有98%、99%，但是在另一部分数据集上测试，效果就很差，比如可能只有50%，甚至50%都不到。

他说：嗯是的。他继续问（Q9）：那你这个都是小模型的一些评估，大模型的评估知道吗？我看你那个xx功能里，写了大模型。有对比过大模型和小模型的效果吗？

我答：知道，我们那个xx里，就用了大模型，我们主要对客户指定网站上的一些文章，然后运用大模型对其进行总结和要点提炼，生成日报月报，报送给我们的订阅客户们。我们在进行技术选型时，是有对比大模型效果和小模型效果的，比如百度的那个NLP抽取模型什么的，但是最终考虑到我们这个场景针对的都是一些长文本，对模型能力要求很高，所以就最终还是选择了大模型。

他接着问（Q10）：小模型和大模型评估，都有准确、召回这些指标，这些都是基本的。那除了这些，大模型评估和小模型评估有哪些差异？知道吗？

我答：嗯，是的。首先不论是大模型还是小模型，其评估过程都是类似的，都需要评估指标，然后设计评估方案，然后进行评估。但是大模型评估和小模型评估还是有非常大的差异的，差异我认为主要有这样几个方面：

第一，大模型因为其本身能力特点，泛化能力特别强，所以其评估任务之一就是要评估他的通用性、泛化能力。

第二，大模型的评估非常耗资源，而且会需要一些专门的评估工具会评估平台来评估。

第三，大模型的安全性和伦理也是需要重点考虑的，我觉得。

也就是总的来说，大模型和小模型评估的差异在于，大模型需要评估泛化能力，以及评估难度更大、评估指标和评估体系复杂，需要考虑很多东西，还有安全性隐私性问题等等。

他答：嗯。继续问（Q11）：那你觉得大模型评估都应该包括哪些方面？

我答：嗯，刚刚说的通用泛化能力、安全性问题、还有就是在一些特定领域任务上的效果。比如我们那个运用大模型生成月报的功能，就需要针对具体的业务场景来评测。像通用泛化能力评估，可以用一些比如说像一些权威的数据集，比如GLUE、superGLUE这些英文的常见的NLP任务评估集，有问答的、情感分析的、分类的等等，在这个上可以去评通用泛化能力。

他答/问：嗯呢是的，GLUE，嗯 superGLUE（点头了）。那像一些榜单，C-Eval，我插话了：我说是的，C-Eval这些榜单。他问：那你怎么保证或怎么识别，他们的一些结果可能是过拟合的？

我答：嗯，首先这个好像也没办法避免，因为超大规模的模型，我们也没办法保证哪些语料他们训模型用过了，哪些训模型时候没用过。

他问（Q12）：你现在离职还是在职？看你在xxx工作了1年半不到。

我说：我离职了，我xx离职的，我是主动辞职的，两家公司，都是我主动辞的，不是被裁的。

他问（Q13）：xx看起来挺大的一个国企还是央企，为什么离职呢？

我答：这里我主要围绕着个人规划和公司提供的平台不符合，但也很感激前公司，这样去回答的。我提到了上中下游。

他问(Q14)：什么是上游、中游、下游？

我说：以这个模型这个链路为例。上游就是模型生产商，中游就是提供模型平台的这样的厂商，链接供需双方的厂商，而上游是像政务、电商、出行这些应用。而我自己一直想锻炼的是自己平台化的能力这块，目标岗位就是这样的。

他说：奥也就是，大模型平台能力呗？

我：（emmmm）（心想，什么跟什么啊？）嗯，对。

他说（Q15）：我们也聊了四十多分钟了，你有什么想要问我的么？

我说：那我想问一个比较具体的问题，就我刚刚回答的不太好的那个问题，怎么去识别过拟合？过拟合有什么特征？

他答：此处省略50字，他说了挺多，在解释过拟合的现象（和我前面说的基本没差，就是一些任务上表现很好，一些任务上表现的效果很差….）最终好像扯到了大模型一些榜单的结果并不可信，然后他们都是根据自己的业务来具体评，那些榜单也会去参考，但自己也会去评估。搞一些黑盒测试、盲评、众包、甚至是一些没有标准的评估方法….

我紧接着又问了一个问题：想知道咱们这个目标岗位做的产品，是对内部的还是对外的。（额…针对上个问题，我貌似没有说谢谢面试官之类的，忘了）。

他答：暂时是for内部的，评大模型的业务效果，针对字节的各种业务，比如说抖音的一些特效，生成的图片的效果。

我问：那模型是字节自研的，还是外部模型也会评估？

他答：都有，会根据实际情况，比如像一些开源的Midjourney，SD这些也会去评。根据具体的业务情况来评。

我又追着问：我说那这个业务指标都是业务PM来主要负责呗，平台化PM会去制定么？

他答：平台化PM也会去跟业务对接什么的嘛，肯定也是要制定的。

我又说：这里我讲了挺多，主要是想突出自己过往的经历既有业务PM经验，也有平台型产品经验，但面试官貌似不是很感冒，明显感到听不进去…

他：一直揉头发，liao额头上的头发。（我感觉到，他好像没太听懂….有点不耐烦了…）ernie？

我：百度的文心大模型啊，ernie。

他：行。那我们回去商量下，后面有结果告诉你。我：好的面试官。他：那今天就先这样。

我：好的面试官。他：辛苦了。我：您也辛苦了，谢谢面试官。他：拜拜。我：拜拜。

二、面试感受与总结

1）整场面试体验差

双方愉悦的面试体验，是求职者与面试官所希望得到的。但现实中，往往也会出现面试不愉悦的情况，面试也是看缘分和气场。所以我们也不要因为一次面试，就怀疑自己的能力。负面的事情，能从中学到对自己有益的事情，也是收获、也是成长~

2）本场面试问题汇总（岗位是大模型评测平台产品岗位）：

介绍项目；
你们产品xxx，有多少个模型？模型指标是如何评价的？
什么这个产品治理的内容是什么，以及内容治理的治理链路是什么？
是过拟合？如何发现过拟合？
大模型评测与小模型评测异同？
对目标岗位的理解
离职原因
你有什么想问我的么？

3）面试不足与改进

不足①：答非所问。比如面试官没让自我介绍，我却做了自我介绍。这可能是个例情况，但要避免答非所问。比如问我对目标岗位是否了解，我不应该扯那么多，什么投的不是这个之类的……完全是给自己不合适找依据……

不足②：问题回答语言不够精炼、且空洞套话易引起反感、且前后存在矛盾。许多问题准备不充分，或平时积累不深入。比如“过拟合问题如何发现？”（虽然我答上了什么是过拟合，但对于怎么发现回答的不好）。再比如项目介绍被打断，根本原因在于说的太宽、太空泛，无数字实例，不够打动人。比如产品指标，我一开始仅回答了一个产品的过程性指标（信息预警准确率），虽说这个模块也单独对外使用，但实际我们的核心指标是线索最终落地的核查率。就好比电商产品的北极星指标是GMV，我只答了中间某个环节的指标，说着说着发现自己说漏了，开始找补……

不足③：心态问题。因为是字节岗，我看的比较重，所以在准备这场面试，而且是第1场面试，我付出了太多时间和精力（两个礼拜，每天10 小时学习），太想好好表现了，以至于看到面试官一上来就愁眉苦脸、眉头紧锁，我瞬间就不想答了。

不足④：有些问题回答深度不足，其实可以答的更好。比如一个简单的问题3：治理的是什么内容？我直接答的是内容是指网络上采集的图片、视频…一个内容模态维度。实际完全可以有：内容来源维度、内容形态维度、数量维度、频次维度（这个回答相较于上面那个回答，哪个好、哪个坏，高下立刻而见）。

治理的内容主要是：网络上实时采集的账号、群组、网站等信源发布的图片、文本、视频模态数据，数量上：每日需要入库治理xx消息数据、xx账号数据、xx群组数据；

关于治理：包括统一的数据入库前的数据去重、脏数据剔除等清洗等常规治理，还包括利用各类算法模型对文本、图片进行打标等实时和离线治理这种复杂的数据治理…

不足⑤：这点我认为是面试官的不足。（如他在讲到他们内部在尝试一些“众包”等没有标准的评测方式。可以理解，但也不能这么说吧，任何评估都是有标准的，没有随心所欲评估的……）

4）面试收获与成长

通过本次面试前期的准备，以及本场面试，虽然结果不理想，但也有许多收获和成长~

① 前期学习准备的许多关于大模型及评测的知识，还有面试常规Q&A，虽然本次面试没有被问到，但也不会浪费；

比如：

机器学习7大经典算法及其优劣势、深度学习3大算法模型原理及其优劣势；
chatGPT的训练过程，GPT的演进历程；
微调、RAG与langchain的概念、优劣势；
SD原理；
大模型评测框架、大模型评测数据集、大模型评测平台；
大模型应用的长文本限制问题如何解决；
基于大模型的自动化评测；
关于平台化产品的理解。

② 心态和经验层面的进步

面试就像一场约会，更重要的是双方匹配、气场合、缘分到位。面试这个过程是企业在挑选你的过程，也是你在挑选企业的过程。

面试未通过，并不意味着你这个人就不行，面试遇到的一些突发情况等都会影响最终结果（比如我恰好面试那天姨妈期身体不适等），一次面试代表不了你整个人的全貌。所以，整理好心态，总结经验教训，再次出发就好~

③ 在准备面试问题层面的经验。

比如我面的是岗位A，在面试前，一定要自己提前准备好除了离职原因、个人规划、自我介绍这些常规问题外，一定要深挖简历上与目标岗位相近或相似的经历：以大模型评测岗为例，你不仅要准备目标岗位（大模型评测）相关的东西（宏观拆分），还要横向“对比”，比如大模型v.s.小模型、大模型评测v.s.小模型评测。

此外，还有一些高频问题，比如：

你产品的核心指标是什么？以及你们是如何制定的？为什么这么制定？你们是如何评估的？评估效果如何？下一步动作是什么？——这个问题，一定要先进行拆解，核心指标（北极星指标）是什么？然后一层层拆解，漏斗的每层指标分别是什么？有逻辑性地将产品指标问题回答清楚、简练基础上完整。
你们产品的竞品有哪些？（你不仅要回答出竞品有1、2、3、4…还要回答出与竞品的优劣势比较，以及相应的应对措施回答才算完整）；
你有没有遇到什么困难，你是如何解决的？
如何收集和管理需求？
与研发等的冲突等问题如何解决？
AI产品的必问问题：你产品哪里用了什么AI技术，解决了什么业务问题？以及为何非得是AI？

以上，共勉~加油~

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！