New Techniques from Google and Ray Kurzweil Are Taking Artificial Intelligence to Another Level | MIT Technology Review
Deep Learning
Met enorme hoeveelheden rekenkracht, kunnen machines nu herkennen objecten en spraak te vertalen in real time. Kunstmatige intelligentie is eindelijk slim.
- Door Robert D. Hof op 23 april 2013
Waarom dat van belang
Computers zouden mensen veel effectiever helpen als ze betrouwbaar patronen kunnen herkennen en gevolgtrekkingen over de hele wereld.
Doorbraak
Werkwijze kunstmatige intelligentie die generalizable vele soorten toepassingen kunnen zijn.
Key Players
• Google
• Microsoft
• IBM
• Geoffrey Hinton, Universiteit van Toronto
Toen Ray Kurzweil ontmoeting met Google CEO Larry Page in juli vorig jaar, was hij niet op zoek naar een baan. Een gerespecteerde uitvinder die is uitgegroeid tot een machine-intelligentie futurist, Kurzweil wilde zijn aanstaande boek te bespreken hoe een Mind maken. Hij vertelde pagina, die een vroege ontwerp had gelezen, dat hij wilde om een bedrijf te beginnen om zijn ideeën over hoe je een echt intelligente computer te bouwen te ontwikkelen: een die taal kon begrijpen en vervolgens gevolgtrekkingen en beslissingen op zijn eigen.
Het werd al snel duidelijk dat een dergelijke inspanning niets minder dan Google-schaal data en rekenkracht zou vereisen. "Ik zou kunnen proberen om u een aantal toegang te geven," Pagina vertelde Kurzweil. "Maar het zal heel moeilijk om dat te doen voor een zelfstandig bedrijf te zijn." Dus Pagina gesuggereerd dat Kurzweil, die nog nooit een baan ergens had gehouden, maar zijn eigen bedrijven, join Google plaats. In januari ging hij werken voor Google als directeur van de techniek: Het duurde niet lang Kurzweil om zijn geest te nemen. "Dit is het hoogtepunt van letterlijk 50 jaar van mijn focus op kunstmatige intelligentie," zegt hij.
Kurzweil werd aangetrokken niet alleen door de middelen van Google's computers, maar ook door de opzienbarende vooruitgang het bedrijf heeft gemaakt in een tak van de AI genaamd diep leren. Deep-learning software probeert de activiteit lagen van neuronen in de neocortex nabootsen, de rimpelige 80 procent van de hersenen waar denken plaatsvindt. De software leert, in een zeer reële zin, om patronen in de digitale weergave van geluiden, afbeeldingen en andere gegevens te herkennen.
Het basisidee, dat software kan de neocortex het grote scala van neuronen in een kunstmatige "neuraal netwerk" simuleren -is decennia oud, en het heeft geleid tot zoveel teleurstellingen als doorbraken. Maar als gevolg van verbeteringen in de wiskundige formules en steeds krachtiger computers, kan de computer wetenschappers nu het model veel meer lagen van virtuele neuronen dan ooit tevoren.
Met deze grotere diepte, zijn ze produceren opmerkelijke vooruitgang in de spraak- en beeldherkenning. Afgelopen juni, een Google deep-learning systeem dat was aangetoond 10 miljoen beelden van YouTube-video's bleek bijna twee keer zo goed als de vorige beeldherkenning inspanning op het identificeren van objecten zoals katten. Google ook gebruikt de technologie om het foutenpercentage op spraakherkenning in haar nieuwste Android mobiele software te snijden. In oktober, chief research Microsoft officer Rick Rashid versteld staan aanwezigen op een lezing in China met een demonstratie van spraak software dat zijn gesproken woorden in het Engels tekst getranscribeerd met een foutenmarge van 7 procent, vertaald naar Chineestalige tekst en gesimuleerd zijn eigen stem uiten ze in het Mandarijn. Diezelfde maand, een team van drie studenten en twee docenten won een wedstrijd gehouden door Merck om moleculen die kunnen leiden tot nieuwe geneesmiddelen te identificeren. De groep gebruikt diepe leren nul op de moleculen die de meeste kans om te binden aan hun doelstellingen.
Google in het bijzonder is uitgegroeid tot een magneet voor diep leren en aanverwante AI talent. In maart kocht het bedrijf een startup mede opgericht door Geoffrey Hinton, een universiteit van Toronto computer science professor die deel uitmaken van het team dat de wedstrijd won Merck was. Hinton, die zijn tijd verdeeld tussen de universiteit en Google, zegt dat hij van plan om "ideeën uit te maken van dit gebied en toe te passen op echte problemen" zoals beeldherkenning, zoeken, en natuurlijke taal begrijpen, zegt hij.
Dit alles heeft een normaal voorzichtige AI onderzoekers hoopvol dat intelligente machines eindelijk kan ontsnappen aan de pagina's van science fiction. Inderdaad, machine intelligentie begint om alles te vormen van communicatie en computing geneeskunde, productie en transport. De mogelijkheden zijn duidelijk zichtbaar in IBM's Jeopardy! -winnende Watson computer, die een diepe-learning technieken gebruikt en wordt nu opgeleid om artsen te helpen betere beslissingen te nemen. Microsoft heeft diep leren ingezet in de Windows Phone en Bing voice search.
Uitbreiding van diep leren in toepassingen buiten spraak- en beeldherkenning meer conceptuele en software doorbraken nodig, niet veel meer vooruitgang in rekenkracht te vermelden. En we zullen waarschijnlijk geen machines we het allemaal eens kunnen voor zichzelf denken al jaren te zien, misschien wel tientallen jaren of nooit. Maar voor nu, zegt Peter Lee, hoofd van Microsoft Research USA, "deep learning heeft reignited enkele van de grote uitdagingen in de kunstmatige intelligentie."
Het bouwen van een Brain
Er zijn veel concurrerende benaderingen van deze uitdagingen geweest. Eén is geweest om computers te voeden met informatie en regels van de wereld, die programmeurs nodig moeizaam schrijven software die bekend is met de kenmerken van bijvoorbeeld een rand of een geluid. Dat kostte veel tijd en verliet de systemen niet in staat om te gaan met ambigue gegevens nog steeds; zij waren beperkt tot smalle, gecontroleerde toepassingen zoals telefoon menu systemen die u vragen om vragen te maken door te zeggen dat bepaalde woorden.
Neurale netwerken, ontwikkeld in de jaren 1950 niet lang na het begin van de AI-onderzoek, zag er veelbelovend, omdat ze probeerden het simuleren van de manier waarop de hersenen werken, zij het in sterk vereenvoudigde vorm. Een programma in kaart brengt een reeks van virtuele neuronen en vervolgens wijst willekeurig numerieke waarden of "gewichten" naar verbindingen tussen hen. Deze gewichten bepalen hoe elke gesimuleerde neuron reageert-met een wiskundige vermogen tussen 0 en 1-een gedigitaliseerde functie zoals een rand of een tint blauw in een beeld of een bepaald energieniveau op één frequentie in een foneem, de individuele eenheid van geluid in gesproken lettergrepen.
Sommige van de huidige kunstmatige neurale netwerken kunnen zichzelf trainen om complexe patronen te herkennen.
Programmeurs zou een neuraal netwerk trainen om een object of foneem te detecteren door blitzing het netwerk met gedigitaliseerde versies van beelden die deze objecten of geluidsgolven die deze fonemen. Als het netwerk niet nauwkeurig herkennen bepaald patroon, zou het algoritme gewichten passen. Het uiteindelijke doel van deze training was om het netwerk om de patronen in spraak of sets van beelden die wij mensen kennen als, zeg, het foneem "d" of de afbeelding van een hond altijd herkennen krijgen. Dit is vrijwel dezelfde manier een kind leert wat een hond is door het opmerken van de details van de vorm van het hoofd, het gedrag en dergelijke in harige, blaffen dieren dat andere mensen noemen honden.
Maar vroege neurale netwerken kunnen slechts een beperkt aantal neuronen simuleren tegelijk, zodat ze konden patronen zeer complex herkent. Ze kwijnde door middel van de jaren 1970.
In het midden van de jaren 1980, Hinton en anderen hielp vonk een opleving van de belangstelling in de neurale netwerken met zogenaamde 'deep' modellen die een beter gebruik van de vele lagen van software neuronen gemaakt. Maar de techniek nog steeds nodig zware menselijke tussenkomst: programmeurs moest label gegevens voordat voeden met het netwerk. En complexe spraak- of beeldherkenning vereist meer rekenkracht dan toen beschikbaar was.
Tenslotte echter in het laatste decennium Hinton en andere onderzoekers maakten fundamentele conceptuele doorbraken. In 2006, Hinton ontwikkelde een efficiëntere manier om de individuele lagen van neuronen leren. De eerste laag leert primitieve kenmerken, zoals een rand in een beeld of de kleinste eenheid van meningsuiting geluid. Het doet dit door het vinden van combinaties van gedigitaliseerde pixels of geluidsgolven die vaker dan ze zouden moeten toeval ontstaan. Zodra de laag juist deze kenmerken herkent, worden ze toegevoerd aan de volgende laag, die zich treinen complexere functies herkennen, zoals een hoek of een combinatie van spraakklanken. Het proces wordt herhaald in opeenvolgende lagen tot het systeem betrouwbaar kan herkennen fonemen of voorwerpen.
Zoals katten. Afgelopen juni, Google demonstreerde een van de grootste neurale netwerken nog, met meer dan een miljard aansluitingen. Een team onder leiding van Stanford computer science professor Andrew Ng en Google Fellow Jeff Dean liet het systeem beelden van 10 miljoen willekeurig geselecteerde YouTube-video's. Een gesimuleerd neuron in de software model gefixeerd op beelden van katten. Anderen gericht op menselijke gezichten, gele bloemen, en andere voorwerpen. En dankzij de kracht van diep leren, het systeem geïdentificeerd deze discrete objecten, hoewel er geen mens ooit had gedefinieerd of geëtiketteerd hen.
Wat verbaasde sommige AI deskundigen, echter, was de omvang van de verbetering van beeldherkenning. Het systeem correct gecategoriseerd voorwerpen en thema's in de YouTube-beelden 16 procent van de tijd. Dat klinkt misschien niet indrukwekkend, maar het was 70 procent beter dan de vorige methoden. En, Dean notities, waren er 22.000 categorieën om uit te kiezen; kunnen steken voorwerpen in sommige vereist, bijvoorbeeld onderscheid tussen twee soortgelijke soorten skate vis. Dat zou zelfs een uitdaging voor de meeste mensen. Wanneer het systeem werd gevraagd om de beelden te sorteren in 1000 meer algemene categorieën, de nauwkeurigheid sprong boven de 50 procent.
Big data
Het trainen van de vele lagen van virtuele neuronen in het experiment namen 16.000 computer-processors de aard van de IT-infrastructuur, dat Google heeft ontwikkeld voor haar zoekmachine en andere diensten. Ten minste 80 procent van de recente ontwikkelingen in de AI kan worden toegeschreven aan de beschikbaarheid van meer rekenkracht, rekent Dileep George, medeoprichter van de machine-learning startup Vicarious.
Er is meer aan de hand dan de omvang van Google's datacentra, dat wel. Diep leren heeft ook geprofiteerd van de methode van het splitsen computertaken van de vele machines van het bedrijf, zodat ze veel sneller kunnen worden uitgevoerd. Dat is een technologie Dean hielp eerder in zijn 14-jarige carrière bij Google te ontwikkelen. Het versnelt enorm tot de opleiding van deep-learning neurale netwerken als goed, waardoor Google om grotere netwerken draaien en voer een stuk meer gegevens aan hen.
Al heeft diep leren voice search op smartphones verbeterd. Tot vorig jaar, Google's Android-software gebruikt een methode die veel woorden verkeerd begrepen. Maar in de voorbereiding op een nieuwe versie van Android in juli vorig jaar, Dean en zijn team hielp vervangt een deel van de toespraak systeem met een op basis van diep leren. Omdat de meervoudige lagen van neuronen mogelijk maken nauwkeuriger training op de vele varianten van een geluid, kan het systeem stukjes geluid betrouwbaarder herkennen, vooral in lawaaierige omgevingen zoals metro platforms. Want het is waarschijnlijker om te begrijpen wat er werkelijk werd uitgesproken, is het resultaat keert het is waarschijnlijker nauwkeurig te zijn ook. Bijna 's nachts, het aantal fouten daalde met maar liefst 25 procent-resultaten zo goed dat veel reviewers nu achten Android voice search slimmer dan meer bekende Siri stem assistent van Apple.
Voor alle vooruitgang, niet iedereen denkt diep leren kan kunstmatige intelligentie verhuizen naar iets rivaliserende menselijke intelligentie. Sommige critici zeggen diep leren en AI in het algemeen negeren teveel van de biologie van de hersenen in het voordeel van brute-force computing.
Eén zo'n criticus is Jeff Hawkins, oprichter van Palm Computing, waarvan de laatste onderneming, Numenta, is het ontwikkelen van een machine-learning systeem dat biologisch is geïnspireerd maar niet diep leren gebruiken. Numenta systeem kan helpen voorspellen energieverbruikpatronen en de waarschijnlijkheid dat een apparaat zoals een windmolen bijna defect. Hawkins, auteur van On Intelligence, een boek over hoe de hersenen werken en hoe het een gids aan de opbouw van intelligente machines zou kunnen bieden 2004, zegt diep leren niet in slaagt om rekening te houden met het begrip tijd. Hersenen verwerken stromen van zintuiglijke gegevens, zegt hij, en menselijk leren hangt af van ons vermogen om sequenties van patronen te herinneren: als u een video van een kat kijken iets grappigs te doen, het is de beweging die zaken, niet een reeks van stilstaande beelden zoals die van Google gebruikt in de experimenten. "Google's houding is: tal van gegevens maakt voor alles," zegt Hawkins.
Maar als het niet goed te maken voor alles, de IT-middelen een bedrijf als Google gooit deze problemen kunnen niet worden ontslagen. Ze zijn cruciaal, zegt diep-learning advocaten, omdat de hersenen zelf is nog steeds zo veel complexer dan een van de huidige neurale netwerken. "Je moet veel computationele middelen om de ideeën te werken helemaal niet," zegt Hinton.
Wat is het volgende
Hoewel Google is minder dan aanstaande over de toekomstige toepassingen, de vooruitzichten zijn intrigerend. Het is duidelijk, zou beter imago te helpen zoeken YouTube, bijvoorbeeld. En Dean zegt diep-learning modellen kunnen foneem gegevens te gebruiken uit het Engels om sneller te trainen systemen om de gesproken klanken in andere talen te herkennen. Het is ook waarschijnlijk dat meer geavanceerde beeldherkenning Google's zelfrijdende auto's veel beter kon maken. Dan is er search en de advertenties die zij onderschrijven. Beide kunnen enorme verbeteringen van elke technologie die beter en sneller in het herkennen van te zien wat mensen echt op zoek bent, misschien zelfs voordat ze beseffen.
Sergey Brin heeft gezegd dat hij wil een goedaardige versie van HAL te bouwen in "2001:. A Space Odyssey"
Dit is wat intrigeert Kurzweil, 65, die lang heeft had een visioen van intelligente machines. Op de middelbare school, schreef hij software die een computer nodig om originele muziek in diverse klassieke stijlen, die hij toonde in 1965 een verschijning op de tv-show te creëren Ik heb een geheim. Sindsdien hebben zijn uitvindingen opgenomen meerdere primeurs-print-to-speech lezen machine, software die kan scannen en digitaliseren van gedrukte tekst in een lettertype, muziek synthesizers dat kan opnieuw maken het geluid van orkestrale instrumenten, en een spraakherkenningssysteem met een grote woordenschat.
Vandaag, droomt hij van een "cybernetische vriend" die luistert in op uw telefoon gesprekken, leest uw e-mail, en volgt je elke beweging-als je het laat, natuurlijk-dus het kan je dingen die je wilt weten, zelfs voordat u vertellen vragen. Dit is niet zijn onmiddellijke doel bij Google, maar het past bij die van Google mede-oprichter Sergey Brin, die in het bedrijf de eerste dagen zei dat hij wilde het equivalent van de bewuste computer HAL gebouwd in 2001: A Space Odyssey -behalve degene die wouldn 't vermoorden mensen.
Voor nu, Kurzweil is bedoeld om te helpen computers te begrijpen en in natuurlijke taal nog spreken. "Mijn opdracht is om computers te geven voldoende begrip van natuurlijke taal te doen nuttige dingen doen een betere baan van het zoeken, doe een betere baan van het beantwoorden van vragen," zegt hij. In wezen, hoopt hij een meer flexibele versie van IBM's Watson, die hij bewondert om zijn vermogen om te begrijpen creëren Jeopardy! Queries zo eigenzinnig als (correcte antwoord Watson's "een lange, vermoeiende toespraak van een schuimige taart topping geleverd.": "Wat is een meringue tirade? ")
Kurzweil is niet alleen gericht op diepe leren, hoewel hij zegt dat zijn benadering van de spraakherkenning is gebaseerd op dezelfde theorieën over hoe de hersenen werken. Hij wil de werkelijke betekenis van woorden, zinnen en zinnen, met inbegrip van onduidelijkheden die meestal struikelen computers te modelleren. "Ik heb een idee in het achterhoofd van een grafische manier om de semantische betekenis van taal vertegenwoordigen," zegt hij.
Dat zal op zijn beurt een meer omvattende manier om de syntax van de zinnen grafiek vereisen. Google is al gebruik van dit soort analyse om de grammatica in vertalingen te verbeteren. Natuurlijke taal inzicht zal ook computers nodig hebben om te begrijpen wat wij mensen denken als common-sense betekenis. Daarvoor zal Kurzweil boren in de Knowledge Graph, Google's catalogus van ongeveer 700 miljoen onderwerpen, locaties, mensen, en nog veel meer, plus miljarden relaties tussen hen. Het werd vorig jaar geïntroduceerd als een manier om zoekers met antwoorden op hun vragen te bieden, niet alleen verbindt.
Tenslotte Kurzweil plan om diep-learning algoritmen van toepassing op computers te helpen omgaan met de "zachte grenzen en onduidelijkheden in de taal." Als al die ontmoedigend klinkt, het is. "Natuurlijke taal begrijpen is geen doel, dat is afgewerkt op een gegeven moment niet meer dan zoeken", zegt hij. "Dat is niet een project dat ik denk dat ik ooit zal eindigen."
Hoewel Kurzweil's visie is nog jaren van de werkelijkheid, diep leren is waarschijnlijk andere toepassingen buiten spraak- en beeldherkenning aansporen in de dichterbij termijn. Voor één, is er drug discovery. De verrassende overwinning op groep Hinton in de Merck wedstrijd bleek duidelijk het nut van diep leren in een veld waar weinig het had verwacht om een impact te maken.
Dat is niet alles. Microsoft's Peter Lee zegt dat er veelbelovende vroege onderzoek naar potentiële toepassingen van diep leren in machine vision-technologieën die beeldvorming voor toepassingen zoals industriële inspectie en robot begeleiding gebruiken. Hij stelt zich ook persoonlijke sensoren die diep neurale netwerken kunnen gebruiken om medische problemen te voorspellen. En sensoren in heel de stad zou diep leersystemen die kan bijvoorbeeld voorspellen waar files kunnen voordoen voeden.
In een veld dat iets zo sterk als het modelleren van het menselijk brein probeert, is het onvermijdelijk dat een techniek niet zal oplossen alle uitdagingen. Maar voor nu, deze loopt voorop in kunstmatige intelligentie. "Diep leren", zegt Dean, "is echt een krachtige metafoor voor het leren over de wereld."
Source: www.technologyreview.com