NLP领域AI产品经理必备的常识及术语

产品经理要了解基本的技术,那AI产品经理自然要了解目前AI领域的基本技术。

当然我们不一定要掌握那些技术但至少要了解基本的常识和专业术语,便于更好的利用AI技术创造或优化产品;同时可以与技术算法人员更轻松的沟通并拥有一定的话语权。

由于目前丸子妹在从事NLP领域相关产品实践,因此总结了目前阶段接触到的AI相关的技术以及日常接触到的专业术语。希望给正在准备入行或者刚刚入行不久的童鞋一点点帮助,如有疑问和建议欢迎各位及时指正和交流。

NLP领域目前主要有几个大的任务类别:语音识别和生成、文本分类、信息提取、实体识别、对话系统、机器翻译、情感分析、知识图谱等。而每一个大类都有比较经典常用的技术和算法模型,了解了这些常识就可以在有新的任务时做好足够的项目预判及评估。

但由于算法的不断优化创新,新的算法层出不穷。因此需要更加及时的关注领域顶会论文动态及新模型的优劣,不必一味追求最新的算法;而是通过对比分析选择更合适在自己的产品业务中落地的算法。

一、常见任务及当下经典算法

  • 文本分类/意图识别CNN / Bert / LSTM+Attention
  • 实体识别:LSTM+CRF
  • 中文分词:N-Gram / CRF / HMM
  • 文本相似度:TF-IDF / BM25+Bert
  • 文本摘要Bert+Textrank
  • 问答系统/机器翻译:Transformer+Bert / Seq2seq+Attention
  • 情感分析:Word2vec+LSTM / CNN

二、常见知识点、术语

  • 人工智能领域两类算法:基于统计的机器学习算法(Machine Learning) / 深度学习算法(Deep Learning)
  • 人工智能三要素:算法、算力、数据
  • 常用的框架:pytorch / sklearn / tensorflow /PaddlePaddle
  • 数据标注:为模型训练提供学习语料的数据处理,一般为人工+系统相结合
  • 预训练模型:用某个较大的数据集训练好的模型(给出了可使用的初始化参数),你可以利用它使用自有数据集进行训练并得到合适的模型参数
  • 词向量:即将文字数字化,利用数学领域的向量表示单词/短语
  • 语料:语言材料,提供给算法模型进行学习的基本知识
  • 批处理大小:即训练的 batch_size
  • 训练数据的训练次数:训练 epoch 数
  • 学习率:即 learning_rate

三、词向量维度:网络中词向量的维度

  • 各层网络卷积核大小:即 kernel_size
  • 窗口大小:skip-gram 算法中的 window_size 参数
  • 过拟合:在模型训练过程中效果较好但在测试样本中准确率较差,表现为模型过分依赖于训练语料,反之可以理解“欠拟合”
  • 模型蒸馏:算法能够用小型的网络从微调过的文本分类模型中学习信息
  • 蒸馏训练次数:蒸馏过程遍历蒸馏数据的次数
  • 评估标准:准确率、召回率、F1、AUC、ROC、损失函数
  • 监督学习:通过已有的训练语料完成模型训练,从而在测试样本验证模型已经学习到的能力
  • 强化学习:将一个已经训练好的模型作为另一个任务的基础模型,降低成本

好了,以上就是丸子妹根据实际工作总结的AI产品经理必备的与技术相关的常识和术语,欢迎评论区补充~

 

本文作者 @丸子笔记 。

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部