Wat zijn enkele belangrijke manieren om gegevenswetenschappelijke processen te automatiseren en te optimaliseren? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q:

Schrijver: Roger Morrison
Datum Van Creatie: 28 September 2021
Updatedatum: 1 Juli- 2024
Anonim
Wat zijn enkele belangrijke manieren om gegevenswetenschappelijke processen te automatiseren en te optimaliseren? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q: - Technologie
Wat zijn enkele belangrijke manieren om gegevenswetenschappelijke processen te automatiseren en te optimaliseren? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q: - Technologie

Inhoud

Q:

Wat zijn enkele belangrijke manieren om gegevenswetenschappelijke processen te automatiseren en te optimaliseren?


EEN:

Data science-processen in de context van machine learning en AI kunnen worden onderverdeeld in vier verschillende fasen:

  1. data-acquisitie en exploratie,
  2. Model gebouw,
  3. model inzet en
  4. online evaluatie en verfijning.

Uit mijn ervaring zijn de meest belemmerende fasen de fasen van data-acquisitie en modelimplementatie in elk op machine-learning gebaseerd gegevenswetenschappelijk proces, en hier zijn twee manieren om ze te optimaliseren:

1. Breng een zeer toegankelijke gegevensopslag tot stand.

In de meeste organisaties worden gegevens niet op één centrale locatie opgeslagen. Laten we gewoon informatie over klanten nemen. U hebt klantcontactinformatie, klantenondersteuning, klantfeedback en browsegeschiedenis als uw bedrijf een webapplicatie is. Al deze gegevens zijn van nature verspreid, omdat ze verschillende doelen dienen. Ze kunnen zich in verschillende databases bevinden en sommige zijn volledig gestructureerd en sommige ongestructureerd en kunnen zelfs als gewone bestanden worden opgeslagen.


Helaas is de verspreidheid van deze gegevenssets zeer beperkt tot gegevenswetenschappelijk werk omdat de basis van alle problemen met NLP, machine learning en AI gegevens. Dus het hebben van al deze gegevens op één plek - de gegevensopslag - is van het grootste belang bij het versnellen van de ontwikkeling en implementatie van modellen. Aangezien dit een cruciaal onderdeel is van alle data science-processen, moeten organisaties gekwalificeerde data-ingenieurs inhuren om hen te helpen bij het bouwen van hun datastores. Dit kan eenvoudig beginnen als eenvoudige gegevens op één locatie worden gedumpt en langzaam uitgroeien tot een goed doordachte gegevensrepository, volledig gedocumenteerd en opvraagbaar met hulpprogramma's om subsets van gegevens naar verschillende indelingen te exporteren voor verschillende doeleinden.

2. Stel uw modellen bloot als een service voor naadloze integratie.

Naast toegang tot gegevens is het ook belangrijk om de door datawetenschappers ontwikkelde modellen in het product te kunnen integreren. Het kan extreem moeilijk zijn om modellen die in Python zijn ontwikkeld te integreren met een webapplicatie die op Ruby draait. Bovendien kunnen de modellen veel gegevensafhankelijkheid hebben die uw product mogelijk niet kan bieden.


Een manier om hiermee om te gaan, is door een sterke infrastructuur rond uw model op te zetten en net voldoende functionaliteit beschikbaar te stellen die uw product nodig heeft om het model als een 'webservice' te gebruiken. Als uw toepassing bijvoorbeeld sentimentclassificatie op productrecensies nodig heeft. , het enige dat hij hoeft te doen is een beroep doen op de webservice, die de relevante verstrekt en de service geeft de juiste sentimentclassificatie terug die het product direct kan gebruiken. Op deze manier heeft de integratie eenvoudigweg de vorm van een API-aanroep. Door het model en het product dat het gebruikt te ontkoppelen, is het heel eenvoudig voor nieuwe producten die u bedenkt om deze modellen ook met weinig gedoe te gebruiken.

Het opzetten van de infrastructuur rond uw model is een heel ander verhaal en vereist een zware initiële investering van uw technische teams. Zodra de infrastructuur er is, is het gewoon een kwestie van modellen bouwen op een manier die in de infrastructuur past.