您的位置:首頁 > 業(yè)內(nèi)資訊 > 計算機“看”我們的世界長啥樣?
這意味著:
1、解析文本的時候,每一個令牌(字詞的NLP術(shù)語)更多的是影響文本的整體分析。
2、生成文本的時候,每一個被選出來的令牌才能影響結(jié)果。
換句話說,在文本當(dāng)中,字符和令牌才是占據(jù)主要成分的元素,和像素不同。
好了,那我們是如何處理文本的呢?
在一個嚴格的解析系統(tǒng)中,我們需要用數(shù)值格式來表示文本,提示為向量形式,F(xiàn)在我們還是要繼續(xù)理解很簡單的向量表示,而未來則可以處理更為復(fù)雜的表達了。
我們來以幾個詞組為例:
1. Turn on the lights(開燈)
2. Power on the lights(打開燈的電源)
3. What time is it?(現(xiàn)在幾點?)
4. What is the current time?(當(dāng)前時間是幾點?)
我們需要做的是創(chuàng)建一個叫詞典的東西。換句話說,我們想要將現(xiàn)有的詞組用特有的令牌技術(shù)來創(chuàng)建一個詞匯表。然后,我們需要對信息做一些隱式預(yù)處理,去掉標點符號等。最后,我們給每一個唯一碼賦予其各自的索引,從而生成自己的詞匯向量:
0 turn
1 on
2 the
3 lights
4 power
5 what
6 time
7 is
8 it
9 current
由于每一個字代表一個索引,因此我們可以使用反向散列數(shù)據(jù)結(jié)構(gòu)來得到每個單詞的索引,然后無論是否每一個字都是給定文本,我們都可以將這些字表示為一系列的布爾值(布爾值:是“真”True或“假”False中的一個)。比如,上述例句就可以表示為:
1. { 1, 1, 1, 1, 0, 0, 0, 0, 0, 0 }
2. { 0, 1, 1, 1, 1, 0, 0, 0, 0, 0 }
3. { 0, 0, 0, 0, 0, 1, 1, 1, 1, 0 }
4. { 0, 0, 1, 0, 0, 1, 1, 1, 0, 1}
有了這些向量,我們可以使用向量點積得到一個粗略的相似度計算。所謂點積,就是接受在實數(shù)R上的兩個向量并返回一個實數(shù)值標量的二元運算。
小編推薦閱讀男孩第4季促銷宣布“ Supe Lives Matter”和“使美國再次超級”
閱讀Prime視頻現(xiàn)在可能有廣告,但是亞馬遜不會關(guān)閉FreeVee
閱讀一個安靜的地方:第一天預(yù)告片揭示了外星人來到地球的那一天
閱讀在有限的時間內(nèi),Amazon的狂歡漫畫豪華版在亞馬遜享受50%的折扣
閱讀13代i9+滿血RTX4060,機械師曙光16Pro開啟預(yù)售!
閱讀艾克索拉:一家創(chuàng)辦17年的全球化公司,正在凸顯“沉淀”對游戲支付的價值
閱讀燃的不止卡塔爾!2022英特爾大師挑戰(zhàn)賽網(wǎng)咖及電競酒店聯(lián)賽燃情謝幕
閱讀本站所有軟件,都由網(wǎng)友上傳,如有侵犯你的版權(quán),請發(fā)郵件[email protected]
湘ICP備2022002427號-10 湘公網(wǎng)安備:43070202000427號© 2013~2025 haote.com 好特網(wǎng)