Автор Тема: Забавный глюк гуглопереводчика  (Прочитано 9728 раз)

1 Пользователь и 0 Гостей просматривают эту тему.

Оффлайн Alessandro

  • Сообщений: 2814
  • Пол: Мужской
    • ICQ клиент - 225457105
    • Просмотр профиля
    • Alem-i Medeniye
    • Личное сообщение (Оффлайн)
Столкнулся сейчас с любопытным глюком гуглопереводчика: при переводе с африкаанс на русский он везде переводит "afrikaans" как "английский язык". С чего бы это...

Оффлайн Toivo

  • Сообщений: 7865
  • не лингвист
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
С чего бы это...
Интересно. Уже несколько недель как заметил, что при переводе с валлийского на английский Cymru переводится как English.

Оффлайн BormoGlott

  • Сообщений: 9674
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Столкнулся сейчас с любопытным глюком гуглопереводчика: при переводе с африкаанс на русский он везде переводит "afrikaans" как "английский язык". С чего бы это...

Гуглотолмач  тока аглицкую мову знат
http://translate.google.ru/?q=Mi lernas Esperanto&sugexp=chrome,mod=5&um=1&ie=UTF-8&hl=ru&sa=N&tab=wT#eo/ru/Mi%20lernas%20Esperanto

Оффлайн Karakurt

  • Сообщений: 20733
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Не удивительно. Машинный перевод по зубам только искуственному интеллекту.

Оффлайн Alessandro

  • Сообщений: 2814
  • Пол: Мужской
    • ICQ клиент - 225457105
    • Просмотр профиля
    • Alem-i Medeniye
    • Личное сообщение (Оффлайн)
Хм... Интересно. А вот при переводе с турецкого "Türkçe" как "English" не переводит.

Оффлайн Rachtyrgin

  • Сообщений: 1081
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Столкнулся с не менее забавным глюком, копаясь с парой «лгать» - «лежать». Тыкался-тыкался — и натыкал:

рус. лежать — лгать
нем. liegen — lügen
англ. lie
голл. liggen
дат. ligge
исл. ljúga
идишליגן
афр. lê
франц. mentir
болг. лъжа
алб. gënjeshtër
арм. պառկել
баск. gezurra
араб. كذب
валл. gorwedd
венг. hazugság
вьет. nói dối
гр. ψέμα
груз. მოტყუება
ивр. לשקר
индонез. berbohong
ирл. bréag
кит. 說謊
азерб. yalan
кор. 거짓말
лат. gulēt
лит. melas
перс. دروغ
суах. uongo
тагал. magsinungaling
тайск. นอน
урд. جھوٹ
яп. うそをつく

Добрые люди объяснили, что гуглопереводчик усё переводит через англ. lie. Хотя вообще-то это не забавно. Это — грубая, я бы сказал, стратегически грубая ошибка в проектировании бизнес-логики приложения. Английский здесь выступает языком-посредником для любых двух произвольно взятых пар языков. А здравый смысл подсказывает, что для таких пар должны существовать индивидуальные правила перевода...

Оффлайн Bienna

  • Сообщений: 614
  • Пол: Мужской
  • Software developer, linguist, teacher
    • Просмотр профиля
    • Rólam
    • E-mail
    • Личное сообщение (Оффлайн)
африкаанс на русский он везде переводит "afrikaans" как "английский язык"
при переводе с валлийского на английский Cymru переводится как English
Я с этим уже почти год мучаюсь :(
http://goo.gl/OJLsN

Оффлайн Вадимий

  • Сообщений: 14988
  • Пол: Мужской
    • ICQ клиент - 575445609
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Добрые люди объяснили, что гуглопереводчик усё переводит через англ. lie. Хотя вообще-то это не забавно. Это — грубая, я бы сказал, стратегически грубая ошибка в проектировании бизнес-логики приложения. Английский здесь выступает языком-посредником для любых двух произвольно взятых пар языков. А здравый смысл подсказывает, что для таких пар должны существовать индивидуальные правила перевода...
Правила формируются не специальной работой для каждой пары (это требует времени, большого количества сотрудников и работы кай тиель плu) — пар-то всего 66*65=4590 (представляете, сколько времени бы ушло? :)), а на основе статистического анализа. А материалов для статистического анализа пары баскский — валлийский немного. В самом деле, кто станет писать параллельные тексты на обоих языках, да ещё с таким фанатизмом, чтобы этого хватило для работы целого хорошего (сравнительно других) переводчика? А вот пар валлийский — английский и английский — баскский завались (предположительно), что существенно упрощает задачу.ж

Надо ещё отметить, что перевод между северогерманскими и восточнославянскими осуществляется без посредничества других моў!

Оффлайн Rachtyrgin

  • Сообщений: 1081
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Правила работы с омонимами для конкретных пар языков разработать не так сложно - количество омонимов все-таки ограничено.

Оффлайн Вадимий

  • Сообщений: 14988
  • Пол: Мужской
    • ICQ клиент - 575445609
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Правила работы с омонимами для конкретных пар языков разработать не так сложно - количество омонимов все-таки ограничено.
Напишите письмо в гугл.

Я не уверен, что можно это сделать.
Насколько я понимаю, залезть руками в механизмы обработки переводов не получается ни у кого.

Оффлайн Солохин

  • Сообщений: 16682
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Надо ещё отметить, что перевод между северогерманскими и восточнославянскими осуществляется без посредничества других моў!
А между славянскими - через английский.

http://translate.google.ru/#ru/bg/%D0%BC%D1%83%D1%85%D0%B0


http://translate.google.ru/#ru/sr/%D0%BC%D1%83%D1%85%D0%B0

Оффлайн Bienna

  • Сообщений: 614
  • Пол: Мужской
  • Software developer, linguist, teacher
    • Просмотр профиля
    • Rólam
    • E-mail
    • Личное сообщение (Оффлайн)
А между славянскими - через английский.
Между теми, которые из разных групп, — да. Между внутри- же -групповыми языками вроде бы такого нет.

Онлайн SIVERION

  • Сообщений: 10383
  • Пол: Мужской
  • :)
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Онлайн)
ну его нафиг энтот гюгль, пытался перевести текст с украинского на польский так несколько слов не перевелись а точнее в тексте выплыли английские слова вместо польских

Оффлайн Bienna

  • Сообщений: 614
  • Пол: Мужской
  • Software developer, linguist, teacher
    • Просмотр профиля
    • Rólam
    • E-mail
    • Личное сообщение (Оффлайн)
пытался перевести текст с украинского на польский
из разных групп

Онлайн SIVERION

  • Сообщений: 10383
  • Пол: Мужской
  • :)
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Онлайн)
ну из разных групп ну и что? когда вводишь красивая девушка и тебе выдает типа gіrl вместо dzіеwczynа это нормально?

Онлайн Python

  • Сообщений: 42146
  • Пол: Мужской
  • Aluarium agent
    • Просмотр профиля
    • Личное сообщение (Онлайн)
Внутри восточнославянских перевод идет через русский. Что для пары украинский/белорусский скорее вредно, чем полезно: украинский и белорусский лексически ближе друг к другу, чем украинский к русскому. Перевод с других языков на украинский тоже идет через русский — в результате, к английским омонимам добавляются еще и русские. По-хорошему, пару украинский/польский следовало бы переводить напрямую, а не через два посредника, один из которых, к тому же, неславянский.

Онлайн SIVERION

  • Сообщений: 10383
  • Пол: Мужской
  • :)
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Онлайн)
или появляется wаrshіp вместо нужного польского слова или housе

Оффлайн Вадимий

  • Сообщений: 14988
  • Пол: Мужской
    • ICQ клиент - 575445609
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Между теми, которые из разных групп, — да. Между внутри- же -групповыми языками вроде бы такого нет.
Вы имели в виду подгрупп. :)
И то, кажется, не везде работает.

Оффлайн Rómendil

  • Сообщений: 778
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Китайский, японский и корейский между собой переводятся, похоже, через китайский, а вот с другими языками - через английский, причём даже с английским крайне отвратно.
англ. - яп.
star - スター (suta:)
англ. - кор.
star - 스타 (seuta)
С китайским всё нормально.
А вот если взять такое сочетание:
яп. - кор.
То получится:
星 - 별 (hoshi - byeol)
И наоборот.  А мысль о том, что всё идёт через китайский, появилась от того, что при попытке "перевести" иероглиф, например, с сербского (то есть, оставить иероглифический текст, но изменить исходный язык на тот, в котором используется другая пиьсменность) транскрипция пишется для китайского языка. Кажется, было ещё что-то, но уже не помню, а почти нулевое знание корейского и китайского не дают провести нормальную проверку.

Оффлайн Bienna

  • Сообщений: 614
  • Пол: Мужской
  • Software developer, linguist, teacher
    • Просмотр профиля
    • Rólam
    • E-mail
    • Личное сообщение (Оффлайн)
Китайский, японский и корейский между собой переводятся, похоже, через китайский
Через онглийский :yes:

Оффлайн Тайльнемер

  • Сообщений: 12736
  • Σοι υν βυρρο. Ix bin æn ézl
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Между теми, которые из разных групп, — да. Между внутри- же -групповыми языками вроде бы такого нет.
Вы имели в виду подгрупп. :)
И то, кажется, не везде работает.
Я не знаю, но мне кажется, что дело не в языковых группах. Гугл, возможно, пытается переводить через все пути, но на конечном результате больше сказывается тот путь, по которому у Гугла больше информации. В направлениях русский↔украинский и русский↔белорусский в базе Гугла очнь много переводов, а то что они при этом относятся к одной языковой подгруппе — совпадение.

Оффлайн Вадимий

  • Сообщений: 14988
  • Пол: Мужской
    • ICQ клиент - 575445609
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
кто-нибудь, дайте Тайльнемеру плюсик к репе. :)

Оффлайн Lugat

  • Сообщений: 13973
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
ну его нафиг энтот гюгль, пытался перевести текст с украинского на польский так несколько слов не перевелись а точнее в тексте выплыли английские слова вместо польских
Чтоб не лететь в соседнее село через Лондон, лучше взять отечественную машину.
Żeby nie lecieć do sąsiedniej wsi przez Londyn, lepiej wziąć ojczystą maszynę.

Оффлайн mnashe

  • Administrator
  • *
  • Сообщений: 45078
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Столкнулся с не менее забавным глюком, копаясь с парой «лгать» - «лежать».
Поработали бы над базой люди, могли бы просмотреть все известные омонимы в языках, используемых как посредники, и снабдить их пометками. Здесь lie‹лгать›, а здесь lie‹лежать›, здесь lead‹вести›, а здесь lead‹свинец›. Тогда на второй стадии перевода всегда можно было ставить правильный вариант.

Гугл, возможно, пытается переводить через все пути, но на конечном результате больше сказывается тот путь, по которому у Гугла больше информации.
Что-то не то.
Если они над данной парой специально не работали, то этой пары не будет, и придётся переводить через посредника.
Даже если доступных переводов полно.

Оффлайн Вадимий

  • Сообщений: 14988
  • Пол: Мужской
    • ICQ клиент - 575445609
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Что-то не то.
Если они над данной парой специально не работали, то этой пары не будет, и придётся переводить через посредника.
Даже если доступных текстов полно.
Это так? Я думал, что обработка текстов при разработке толмача — процесс практически автоматический, не требующий особенного вмешательства людей. Я удивлялся, но, в конце концов, и переводы очень несовершенны. Кажется, в ЛЛШ это описывали так! там ещё говорили, что этим объясняются некоторые странные ляпы гугла: внутрь залезть никто не может.

Оффлайн Rachtyrgin

  • Сообщений: 1081
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Выше Вадимий писал, что гугль работает через статистику, то бишь экстенсивным путем. Следовательно, в основе его механизма лежат коллокации + стемминг. Вычленить коллокации омонимов и работать с ними индивидуально действительно несложно.

Оффлайн mnashe

  • Administrator
  • *
  • Сообщений: 45078
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Я думал, что обработка текстов при разработке толмача — процесс практически автоматический, не требующий особенного вмешательства людей.
Думаю, так и есть.
Но над какими парами работать — указывают люди.
Соответственно, конечный переводчик может пользоваться лишь уже подготовленными парами.

Оффлайн Bhudh

  • Сообщений: 57396
  • Пол: Мужской
  • aka 蝎
    • Просмотр профиля
    • Сайты по языкознанию
    • Личное сообщение (Оффлайн)
изменить исходный язык на тот, в котором используется другая пиьсменность) транскрипция пишется для китайского языка
А если это иероглиф, отсутствующий в китайском?

Онлайн Python

  • Сообщений: 42146
  • Пол: Мужской
  • Aluarium agent
    • Просмотр профиля
    • Личное сообщение (Онлайн)
Между теми, которые из разных групп, — да. Между внутри- же -групповыми языками вроде бы такого нет.
Вы имели в виду подгрупп. :)
И то, кажется, не везде работает.
Я не знаю, но мне кажется, что дело не в языковых группах. Гугл, возможно, пытается переводить через все пути, но на конечном результате больше сказывается тот путь, по которому у Гугла больше информации. В направлениях русский↔украинский и русский↔белорусский в базе Гугла очнь много переводов, а то что они при этом относятся к одной языковой подгруппе — совпадение.
Не думаю. При переводе англ. => укр. результат получается полностью идентичным англ. => рус. => укр., при непосредственном переводе был бы хоть минимум различий. Что интересно, укр.=>англ. переводится без участия русского (т.е., укр. => рус. => англ. дает немного другой результат). Во всяком случае, так было год назад — не думаю, что за это время что-то радикально улучшилось.

Цитировать
В направлениях русский↔украинский и русский↔белорусский в базе Гугла очнь много переводов
Сомневаюсь. Перевод рус. => укр. маловосстребован из-за поголовного владения украинцев русским хотя бы на пассивном уровне, перевод укр. => рус. маловосстребован из-за непопулярности украинских авторов в России. Если наполнять базу текстами книг, англ. <=> укр. наполнить куда легче.

Оффлайн Вадимий

  • Сообщений: 14988
  • Пол: Мужской
    • ICQ клиент - 575445609
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Так всяческое худло — не единственный источник параллельных.

Оффлайн huaxia

  • Сообщений: 1363
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Гугл вообще иногда выдаёт парадоксы.
Вот попробуйте набить туда фразу на японском "誰も僕を好き" (Никто меня не любит), и получите совершенно обратное "Я люблю всех".

Оффлайн Hellerick

  • Сообщений: 28778
  • Пол: Мужской
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Вот попробуйте набить туда фразу на японском "誰も僕を好き" (Никто меня не любит), и получите совершенно обратное "Я люблю всех".

А где отрицание?
Я думаю, должно было быть что-то вроде 誰も僕を好きではない.

Оффлайн huaxia

  • Сообщений: 1363
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
упс, я думал отрицание там не нужно. не подумал. вот что значит 自分で勉強する。。。
すみません、グーグルさん!

Оффлайн Alessandro

  • Сообщений: 2814
  • Пол: Мужской
    • ICQ клиент - 225457105
    • Просмотр профиля
    • Alem-i Medeniye
    • Личное сообщение (Оффлайн)
Цитировать
В направлениях русский↔украинский и русский↔белорусский в базе Гугла очнь много переводов
Сомневаюсь. Перевод рус. => укр. маловосстребован из-за поголовного владения украинцев русским хотя бы на пассивном уровне, перевод укр. => рус. маловосстребован из-за непопулярности украинских авторов в России. Если наполнять базу текстами книг, англ. <=> укр. наполнить куда легче.
Думаю, что вы ошибаетесь. Очень часто сталкиваюсь в сети как с русскими текстами, содержащими явные следы машинного перевода с украинского (на новостных сайтах), так и с украинскими, содержащими явные следы машинного перевода с русского (не далее как пару часов назад наткнулся на официальном сайте горсовета Симферополя на шедевр: Наш рідний будинок – Сімферополь має давню історію і особливий неповторний вигляд).

Оффлайн Rómendil

  • Сообщений: 778
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
изменить исходный язык на тот, в котором используется другая пиьсменность) транскрипция пишется для китайского языка
А если это иероглиф, отсутствующий в китайском?
Не поверите, но он находит чтения даже для таких иероглифов. Вот сейчас попытался "перевести" 畑 и 働 с русского на английский, так гугл подписал их как tián и dòng. Хотя при этом выдал предупреждение, что язык оригинала - японский.
Я не понимаю, он что, фонетики распознаёт? 田 и 動 в китайском так читаются.

Самое забавное - вбить 働く, гугл преспокойно выдаёт dòngku и даже не давится  :(

Демедемедеме

  • Гость
Не поверите, но он находит чтения даже для таких иероглифов. Вот сейчас попытался "перевести" 畑 и 働 с русского на английский, так гугл подписал их как tián и dòng. Хотя при этом выдал предупреждение, что язык оригинала - японский.
Я не понимаю, он что, фонетики распознаёт?
Нет, конечно. Он просто ориентируется на китайские словари. http://www.zdic.net/zd/zi/ZdicE5Zdic83Zdic8D.htm http://www.zdic.net/zd/zi/ZdicE7Zdic95Zdic91.htm

Да чего уж там, в некоторых китайских словарях можно найти «иероглифы» N и Q. С чтением и толкованием, разумеется.

Оффлайн Bhudh

  • Сообщений: 57396
  • Пол: Мужской
  • aka 蝎
    • Просмотр профиля
    • Сайты по языкознанию
    • Личное сообщение (Оффлайн)
Самое забавное - вбить 働く, гугл преспокойно выдаёт dòngku и даже не давится
Вот гуглу бы "Определитель языков мира по письменностям" точно не помешал.
А то видит букву, не существующую в языке N и спокойнёхонько определяет язык как N

Демедемедеме

  • Гость
Вот гуглу бы "Определитель языков мира по письменностям" точно не помешал.
А то видит букву, не существующую в языке N и спокойнёхонько определяет язык как N
«Я не знаю, что по-украински значит мрія» — это украинский язык? А Ваш определитель сказал бы, что украинский.

Гугль всё правильно делает.

Оффлайн Bhudh

  • Сообщений: 57396
  • Пол: Мужской
  • aka 蝎
    • Просмотр профиля
    • Сайты по языкознанию
    • Личное сообщение (Оффлайн)
Ты предсказуем. А статистически попытаться определить хотя бы по буквам, какой язык, что мешает?
Если уж он заточен под слова…

Демедемедеме

  • Гость
А статистически попытаться определить хотя бы по буквам, какой язык, что мешает?
А что он по твоему делает?  :donno: Как раз статистически определяет по буквам.

Оффлайн Bhudh

  • Сообщений: 57396
  • Пол: Мужской
  • aka 蝎
    • Просмотр профиля
    • Сайты по языкознанию
    • Личное сообщение (Оффлайн)
По всему тексту он определяет.
И очень часто неверно.

Оффлайн watchmaker

  • Сообщений: 2109
  • Пол: Мужской
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Вспоминаю историю с гуглопереводчиком, которая произошла года три назад. Возможно, я когда-то кидал ее сюда, но не в этой теме. Вбиваю в него чешское vlaštovka и перевожу на русский. ГЛОТАТЬ... И никаких других вариантов. Долго не мог понять, пока не вспомнил про английский. SWALLOW! И это у них, видите ли, переводится только как ГЛОТАТЬ.

Зы, если ввести vlaštovky - пишет ЛАСТОЧКИ...

Пикец... ввожу русское "ласточка" - выдает: polykat, spolknout, polknout, polykání...

Добавлю. Глюк из первого поста повторился также для эстонского.

Оффлайн mnashe

  • Administrator
  • *
  • Сообщений: 45078
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
И это у них, видите ли, переводится только как ГЛОТАТЬ.
Не совсем так:
ОригиналПеревод
The swallow flies
The swallow flies and swallows flies
The swallow flies and swallows flies.
Swallows fly
Swallows fly and swallow flies
Ласточка летит
Ласточка мух и мух глотает
Ласточка мух и глотает мух.
Ласточки летают
Ласточки летают и глотать мух


Оффлайн watchmaker

  • Сообщений: 2109
  • Пол: Мужской
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Ага, он таки видит показатель существительного... :-)

Оффлайн Lugat

  • Сообщений: 13973
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Да, надо бы гуглянам делать междусобойчики по группам языков, иначе это не дело. Между чешским и словацким — вполне сносно переводится. За украино-руссо-беларуссо уже говорили. Почему б не подключить к украино-руссо-беларуссо… Прям хоть коллективную заявку писать, что ли… :donno: Пусть бы объединили славянские, романские, ну и прочие группы языков.

Тута

  • Гость
Цитировать
Это — грубая, я бы сказал, стратегически грубая ошибка в проектировании бизнес-логики приложения. Английский здесь выступает языком-посредником для любых двух произвольно взятых пар языков. А здравый смысл подсказывает, что для таких пар должны существовать индивидуальные правила перевода...
Ты бы в матчасти сперва разобрался, стратег. Стратегически у них все верно: сначала главное, остальное потом. Главное - это английский, поэтому и первичные пары в первую очередь сделали с ним. Пары других языков сделают потихоньку лет за 20, торопиться некуда.