Under gårdagen blev den läsvärda delen av bloggosfären översvämmad av kommentarer om John Searles berömda kinesiska rum; Olle Häggström förklarade kortfattat varför Searle har fel, och Ulf Danielsson förklarade nästan lika kortfattat varför Searle har rätt. Eftersom jag tror att båda två har fel — jag anser nämligen att Searle har både rätt och fel — så tänkte jag kasta mig in i debatten för att om möjligt komplicera saken ytterligare[].
Låt mig börja med att länka till några trevliga källor som finns tillgängliga på nätet: dels John Searles föreläsningar (»Reith lectures») 1984 på temat Minds, Brains and Science (de finns också transkriberade; se till exempel denna sida för en utskrift av det andra programmet, där han för första gången, såvitt jag förstår, berättar om det kinesiska rummet), och dels ett program ur den makalösa brittiska radioserien »In Our Time» om AI från 1999 där Searle ånyo diskuterar sin syn på AI[]. Det var dock inte genom dessa jag först kom i kontakt med Searles argument; det var i antologin The Mind’s I med Douglas Hofstadter och Daniel Dennett som redaktörer och kommentatorer[].
Som den försiktige general jag är måste jag slänga in en brasklapp, eller två, redan från början. Det argument jag står i begrepp att beskriva är, i mina ögon, så självklart att jag har svårt att tänka mig att ingen framfört det tidigare. Varken i Häggströms, Danielssons eller Searles skriverier (och praterier) som jag länkar till ovan har jag sett minsta antydan till att »min» invändning publicerats; min erfarenhet säger mig att det förmodligen beror på att jag missat något fundamentalt någonstans…

Låt mig börja med att citera ett stycke av Searle från uppsatsen i The Mind’s I:
I see no reason in principle why we couldn’t give a machine the capacity to understand English or Chinese, since in an important sense our bodies with our brains are precisely such machines. But I do see very strong arguments for saying that we could not give such a thing to a machine where the operation of the machine is defined solely in terms of computational processes over formally defined elements; that is, where the operation of the machine is defined as an instantiation of a computer program. It is not because I am the instantiation of a computer program that I am able to understand English and have other forms of intentionality (I am, I suppose, the instantiation of any number of computer programs), but as far as we know it is because I am a certain sort of organism with a certain biological (i.e., chemical and physical) structure, and this structure, under certain conditions, is causally capable of producing perception, action, understanding, learning, and other intentional phenomena. And part of the point of the present argument is that only something that had those causal powers could have that intentionality.
Notera skillnaden mellan de två första meningarna; Searle skiljer här mellan två olika former av maskiner, och min magkänsla[] säger mig att hans argument här är korrekt, men ointressant — ingen maskin kan med ren symbolmanipulation, utan semantisk kunskap om symbolernas betydelse, »förstå» ett budskap.
För att se var han trampar fel citerar jag några rader ur hans Reith-föreläsning:
The whole point of the parable of the Chinese room is to remind us of a fact that we knew all along. Understanding a language, or, indeed, having mental states at all, involves more than having just formal symbols. It involves having an interpretation, or a meaning attached to those symbols. And a digital computer, as defined, cannot have more than just formal symbols because the operation of the computer, as I said earlier, can only be defined in terms of its ability to implement programs. And these programs are purely formally specifiable—that is, they have no semantic content.
Här, menar jag, avslöjar Searle var han tänker fel. Men för att förklara vad jag menar måste jag först införa ett par begrepp som jag definierade i en blogga om intelligens som eventuellt kommer att bli publicerad vilket sekel som helst nu. Med »externiserad kunskap» menar jag sådant som man lika gärna kan läsa sig till i en bok, eller få berättat för sig; och med »interniserad kunskap» sådan kunskap som är förvärvad för att utföra en viss uppgift bättre. Ett annat sätt att uttrycka det är att »externiserad kunskap» är fakta, data, medan »interniserad kunskap» är kunskap om fakta/data — metafakta, metadata. För att ta som exempel en schackspelare så är påståenden av typen »på 1.e4 spelar jag 1…c6[]» externiserad kunskap, medan påståenden i stil med »den här typen av drag brukar vara bra i den här typen av ställningar[]» avgjort hör till den interniserade kunskapen. Jag vill inte påstå att det är lätt att göra åtskillnad mellan dessa begrepp, i synnerhet inte när man kommer till datorprogram och AI, men tror ändå att de kan göra nytta.
Om jag förstått Searle rätt menar han, om jag skriver om hans påstående ovan, att datorer bara kan hantera externiserad kunskap, inte interniserad. Det tror jag är ett misstag, och det enklaste sättet att visa det är att ta ett par exempel där det kinesiska rummet bryter ihop.
Första exemplet är om den fråga som matas in till kinesrumsoperatören[] är »squoggle squiggle»[], vilket vi antar betyder »Vad är klockan?». För att lämna ett korrekt svar leds operatören av sin externiserade kunskap att konsultera verkligheten i form av en klocka. Om vi antar att hen har normala förståndsgåvor har hen nu lärt sig ett stycke kinesiska[]; enligt min terminologi har operatören ökat sin interniserade kunskap.
Nästa exempel på en fråga med liknande problem är »Är pizzorna på pizzerian på andra sidan gatan goda?». Även här tvingas operatören ha kontakt med verkligheten för att kunna lämna ett korrekt svar, och i det här fallet måste hen ta ställning till flera delproblem; ett minimum torde vara »Vilken pizzeria handlar det om?», »Vad gillar frågaren för typ av pizza?» och »Kommer frågaren att gilla de pizzor som sagda pizzeria levererar?».
Ett sista exempel: frågan »Är kinesen på andra sidan gatan bra?» visar inte bara på verklighetens betydelse utan även på kontextens — om samtalet, till exempel, handlat om pizzerior så är det rimligt att tolka »kinesen» som »kinesrestaurangen» och »bra» som »serverar god mat»; å andra sidan, om samtalet handlat om fru Jönsson i våningen ovanför som just åkt till sjukhuset, så kan det vara rimligt att anta »kinesen» handlar om en person som just kommit tillbaka från detta ställe, och »bra» om huruvida denne tillfrisknat.[].
En slutsats jag tycker man kan dra av ovanstående exempel är att Searle har rätt i att ren symbolhantering inte kan resultera i »förståelse»; problemet är bara att det är en ganska liten del av de frågor som ett kinesiskt rum kan förväntas hantera i ett någorlunda realistiskt exempel. Tid, rum, värderingar och samtalets kontext; det gemensamma för dessa typer av frågor är att de inte kan hanteras med rent symbolmanipulerande metoder, utan kräver bearbetning av och/eller referens till verkligheten. Eller i termer av interniserad kunskap — varje växelverkan med verkligheten kräver tillgång till interniserad kunskap, kunskap om processen att förvandla kinesiska skrivtecken till andra kinesiska skrivtecken, och varje sådan växelverkan resulterar i en ändring i den interniserade kunskapen. För att ta en nollställd operatör och mitt första exempel — innan frågan består dennes interniserade kunskap av hur man söker i en stor manual, när frågan processats har den ökats med insikten att »squoggle squiggle» förmodligen har något med tiden att göra; förändringen av den interniserade kunskapen är, menar jag, en förändring i förståelse.
Däremot tror jag att han misstar sig på att en dator inte kan hantera mer än formella symboler. Låt oss försöka skapa ett liknande scenario genom att anta att vi har ett datorprogram, P(t1), som simulerar det kinesiska rummet[], och att det har en bit kod som i något slags pseudokod ser ut så här:
if (input != KnownWords) then
return LookItUpInBigInstuctionManual()
endif
Nu låter vi någon mata in frågan »squoggle squiggle», programmet utför LookItUpInBigInstuctionManual(), inser att koden kan förbättras, och modifierar det citerade stället till
if ((input == "squoggle squiggle") and LanguageSeemsRegular) then
return SystemClock()
else
return LookItUpInBigInstuctionManual()
endif
Vi har nu ett nytt program, P(t2), som har interniserat en liten bit som tidigare var externiserad. Det kanske inte verkar vara ett särskilt stort framsteg, men det beror på det tämligen artificiella exemplet; i verkligheten finns det naturligtvis ingen bamsig manual för hur man ska agera i alla lägen[]. Vad jag velat visa är hur kontakten med verkligheten gjort att programmet modifierats så att det inte refererar till en formell symbolmanipulation utan direkt till den modell av verkligheten som programmet använder; man kan fortsätta tankeexperimentet genom att byta ut fler och fler uppslagningar mot direkta referenser till modellen, och när flertalet uppslagningar, i extremfallet alla, ersatts av direktreferenser torde det vara rimligt att säga att datorn »förstår» kinesiska, precis som kinesrumsoperatören förstår kinesiska då hen skapat sig en bild av hur olika varianter av »squiggle» och »squoggle» relaterar till verkligheten. När allt kommer kring är det ju ungefär så vi lär oss språk; vi klarar hjälpligt de vanligaste orden, men måste ibland slå upp egendomliga ord som någon behagar använda, som till exempel kökkenmödding[].

Min argumentation kan sammanfattas i tre punkter:
- Searle har rätt då han hävdar att ett tillståndslöst och icke-självmodifierande datorprogram inte »förstår» de symboler de hanterar.
- Searle har fel då han hävdar att ett datorprogram som kan modifiera sitt inre tillstånd eller modifiera sin egen kod inte kan »förstå» symbolerna.
- Den semantiska förståelse som Searle hävdar datorer inte kan ha kommer från de situationer då frågor refererar till »verkligheten»; om sådana frågor utesluts från kinesiska rummet blir tankeexperimentet ointressant från en AI-synvinkel.
Till slut några kommentarer som jag inte lyckats passa in någon annanstans:
Lägg märke till asymmetrin mellan de två första punkterna i min sammanfattning ovan! Jag tror mig inte ha visat att en dator »förstår» de tecken den manipulerar[], utan »bara» att Searles försök att visa att de inte kan förstå bryter ihop vid kontakten mellan symboler och verklighet. Här menar jag att det kinesiska rummet tvärtom visar hur den påtvingade kontakten med verkligheten skapar interniserad kunskap; huruvida det går att direkt överföra exemplet rakt av till ett datorprogram är mer osäkert. I själva verket misstänker jag att det krävs ytterligare ett flertal genombrott både inom neurovetenskapen och inom informationstekniken innan en maskin kan »förstå», i en någorlunda mänsklig mening av ordet[].
Mitt argument har, såvitt jag förstår, inte på något avgörande sätt påverkat Searles tankar om »intensionalitet». I det citerade stycket ovan skriver han visserligen att »something that had those causal powers could have that intentionality», och jag har möjligen underminerat den del av hans argument som hävdar att ett datorprogram inte kan ha vissa av dessa »causal powers». Men hela hans resonemang bygger, såvitt jag förstår, på ett i grunden sunt antagande att »intelligens» inte betyder någonting överhuvudtaget utan möjligheter att ha viss kontroll över sin existens, och kunna påverka sin omgivning. Antagandet att en AI måste vara en del av en självunderhållande organism som interagerar med verkligheten är, som man kanske kan utläsa ur mitt argument ovan, i själva verket en grundpelare i mina tankar om AI[].
Är det någon skillnad mellan ett datorprogram som kan anta olika tillstånd och ett som kan modifiera sin egen kod med avseende på deras respektive möjlighet att förändra sitt beteende? Jag tror inte det. Spontant kanske det tycks som att ett självmodifierande program har en högre grad av frihet än en tillståndsmaskin; men om man ger det senare tillgång till Turings bibliotek, så kan jag inte se någon fundamental skillnad[]. Som en metafor för hur förståelse uppkommer tycker jag dock att ett självmodifierande program är klart bättre.
Fotnoter: