如何训练你的龙:机器学习入门 - PromptCloud
已发表: 2017-09-19一段时间以来,人工智能一直在进入我们使用的日常技术。 如果您想知道亚马逊的产品推荐如何与您特别相关,答案就是人工智能。 人工智能系统就像魔术一样工作,但要创建一个好的人工智能系统,你必须拥有相关的庞大数据集供你使用。 机器学习算法应该得到数据,你给它的数据越多,它的工作就越好。 让我们一目了然地看一下机器学习的工作原理。

机器学习系统的组件
每个机器学习系统都包含三个主要组件:
模型:负责识别和预测的组件。
参数:用于形成决策的因素或信号。
学习者:通过从预测和结果的差异中获取线索,对参数进行更改进而导致模型修改的系统。
让我们举一个真实的例子来更好地理解这个概念。 假设您是一名老师,他试图确定学生应该花多少时间学习才能在考试中获得最高分。 让我们看看如何通过机器学习的帮助来解决这个问题。
构建模型
正如我们所讨论的,这一切都始于模型。 最初,构建 ML 系统的人必须先为其提供一个模型。 在我们的例子中,老师可以假设学习五个小时应该给出最好的考试成绩。
该模型将进一步依赖于提供的参数来进行计算和自我调整。 在这里,参数将是收到的测试分数和学习时间。 像这样的东西:
0 小时 = 50% 分数
1 小时 = 60% 分数
2 小时 = 70% 分数
3 小时 = 80% 分数
4 小时 = 90% 分数
5 小时 = 100% 分数
ML 系统将在数学方程式中表达上述内容,以形成预期结果的趋势线。
从冲突中学习
现在我们有了初始模型,是时候输入参数了。 您必须向模型提供数据,这将是不同学生的“考试成绩和学习时间”。 正如预期的那样,输入分数不会与手动编程的模型完全匹配。 实际结果会高于或低于预测的趋势线。
这种冲突情况触发了机器学习系统中的学习活动。
学习过程
输入机器学习系统的数据就是我们所说的“训练数据集”,机器学习系统中的学习器组件使用它来训练和优化模型以使其更好。
在我们的例子中,学习者将比较输入分数并检查它们与初始模型的差距。 然后,学习者使用复杂的数学来修改模型,使其更符合实际数据。 该模型可能会更改为以下内容:
0 小时 = 45% 分数
1 小时 = 55% 分数
2 小时 = 65% 分数
3 小时 = 75% 分数
4 小时 = 85% 分数
5 小时 = 95% 分数
6 小时 = 100% 分数

预测已被更改,它表明需要 6 小时的学习才能在此测试中达到最高分。 通过这种方式,学习者在获得更多数据时不断对模型进行小而相关的更改。 随着该过程重复一定次数,预测达到了相当好的置信度分数,这意味着 ML 系统已经成功。 其预测的准确性在很大程度上受其接收的数据量的影响。 这是一个简单的示例,实际用例可能要复杂得多。 您可以从我们最近关于十大机器学习框架的博客中了解有关机器学习技术方面的更多信息。
ML在主要行业的应用
机器学习可以应用于几乎所有垂直行业,以带来根本性的变化和增长。 让我们看一下主要领域的一些流行应用程序。
创建以客户为中心的搜索:如果电子商务搜索引擎可以像人类一样思考,那不是很好吗? 电子商务搜索的常见问题之一是用户放弃电子商务门户,因为该网站针对特定搜索返回的产品结果不相关。 这个问题可以通过利用自然语言处理对搜索查询的含义进行上下文化和缩小来解决,从而改善电子商务搜索体验。
重新定位潜在客户:重新定位是一种很好的方式,可以让那些放弃购物车而没有结账或多次访问某个产品页面而不采取任何行动的客户回来。 通过智能地识别电子商务购物者的意图,您可以向他们发送他们根本无法拒绝的报价。 这是一种无需太多努力就能提高转化率的好方法。
识别卓越的目标潜在客户:识别您的高潜力潜在客户是产生更多收入的关键。 通过使用机器学习来分析客户的购买模式,您可以轻松发现出色的潜在客户并以更高的精度定位他们,从而提高您的潜在客户生成率。
改进对客户的推荐:推荐引擎用于记录客户的购买模式,以推荐他们接下来可能需要的产品。 一个简单的例子是向刚购买新智能手机的人推荐一个手机壳。 考虑到已经有关于客户购买模式的历史数据金矿,这些建议的相关性将非常高。
处理虚假评论:正面和负面的客户评论都会影响电子商务购物者的购买决定。 众所周知,品牌会通过传播负面评论来打压竞争对手。 许多电子商务零售商已经开始使用人工智能来打击虚假评论,强调经过验证和有用的评论。
吸引人才:近年来,借助人工智能识别和吸引相关人才呈上升趋势。 例如,Linkedin 使用机器学习通过匹配候选人的技能和资格来推荐工作。 Glassdoor、Seek 和Indeed等其他流行的求职网站也使用类似的机器学习算法来根据用户之前的搜索、帖子、点击和连接创建交互图。 您可以在此处了解有关工作匹配及其工作原理的更多信息。
人员流失检测:了解员工以及他们决定离开或留在公司的原因是人力资源分析中的主要问题之一。 识别损耗风险需要高级模式识别和一系列变量,这些变量应该为相关公司定制。 在机器学习的帮助下,看似遥远的点可以在几秒钟内连接起来,从而腾出人力资源代表的时间来专注于最小化风险而不是识别风险。
申请人跟踪和评估:在收到大量申请人的公司中,跟踪和评估是一项繁重的工作,只能通过使用机器学习来最小化。 虽然对最优秀人才的追求正在上升,但许多人力资源代表已经开始使用基于算法的评估来使任务更快、更高效。
动态定价和票价预测:酒店价格和航班票价瞬息万变,而且因服务提供商而异。 无法手动跟踪这些更改。 因此,利用网络抓取服务来监控定价变化,这些数据用于预测未来票价和微调定价策略。 使用历史定价数据,您可以创建能够预测未来价格变化的机器学习算法。 输入参数可能包括季节性趋势、特价、需求增长和活跃的竞争对手。
从 DataStock 下载旅行数据集
智能出行助手:在当今快节奏的世界中,便利为王,人工智能驱动的智能服务在许多行业中越来越受欢迎。 旅行预订就是这样一个领域,由算法驱动的自动化可以提供很大帮助。 可以训练智能机器人来听取您的旅行计划并为您进行预订。 人工智能驱动的虚拟助手甚至被集成到流行的 IM 应用程序中,例如 Facebook Messenger、Telegram、Skype 和 Slack。 有了这个,用户可以做很多事情,比如寻找最便宜的交易、预订酒店和预订航班。 这样的智能助手还可以为用户提供关于热门目的地、餐饮场所、旅游景点等方面的有价值的建议。
机器学习的训练数据
现在您对机器学习的概念更加清晰,是时候将其应用到您的业务中并获得无数好处了。 在人工智能的所有创新应用中,最常见的一件事就是训练数据。 您需要持续提供数据来训练您的机器学习系统,因为它无论如何都是机器学习系统中最重要的组成部分。
训练数据集应该是新鲜的、相关的和高质量的,这样你的机器学习系统才会变得有用。 在寻找训练数据集时,您可以查看DataStock ,它可以让您从电子商务、招聘、旅游、医疗保健和分类等广泛的行业下载全面、干净且随时可用的数据集。
